Whisper
模型概述
型号功能概括
Whisper是一款通用途用途的语音识别模型。您还可以将其用作为多任务模型来执行多语言语音识认以及语言间互译和语言识别。
关键特性
- 平均性能 (2/4 点标级)
- 中等速度 (3/5 闪电标级)
- 通用语音识别模型
- 接受音频输入并产生文本输出
- 支持转录和翻译
- 多语言能力
技术规格
- 定价: $0.006 每1M令牌(转录)
- 支持: 输入: 仅音频; 输出: 仅文本
- 功能: 通过v1/audio/transcriptions端点转录, 通过v1/audio/translations端点翻译
快照
定位和使用场景
Whisper是一个通用的语音识别模型,在多样化音频的大型数据集上训练而成。它可用于多语言语音识别、语音翻译和语言识别。
速率限制
- 免费层: 3 RPM, 200 RPD
- 第1层: 500 RPM
- 第2层: 2,500 RPM
- 第3层: 5,000 RPM
- 第4层: 7,500 RPM
- 第5层: 10,000 RPM
文档
官方文档