模型概述
GPT-4o Transcribe 是一个由 GPT-4o 驱动的语音转文本模型。使用音频 API 中的转录端点将音频转换为文本。
主要特点
- 更高性能(4/4 点评分)
- 中等速度(3/5 闪电评分)
- 由 GPT-4o 驱动的语音转文本模型
- 接受音频和文本输入并产生文本输出
- 16,000 上下文窗口
- 2,000 最大输出令牌
- 2024 年 6 月 1 日知识截止
技术规格
- 定价: 文本令牌:每 1M 输入令牌 $2.50,每 1M 输出令牌 $10.00;音频令牌:每 1M 输入令牌 $6.00
- 支持: 输入:音频、文本;输出:仅文本
- 功能: 通过 v1/audio/transcriptions 端点支持转录
快照
定位和使用案例
GPT-4o Transcribe 是一个使用 GPT-4o 转录音频的语音转文本模型。与原始 Whisper 模型相比,它提供了更低的词错误率和更好的语言识别与准确性。用它来获取更精确的转录文本。
速率限制
- 免费层级:不支持
- 第 1 层:500 RPM,10,000 TPM
- 第 2 层:2,000 RPM,100,000 TPM
- 第 3 层:5,000 RPM,400,000 TPM
- 第 4 层:10,000 RPM,2,000,000 TPM
- 第 5 层:10,000 RPM,6,000,000 TPM
文档
官方文档