模型概述
GPT-4o Realtime是一个能够进行实时文本和音频输入输出的模型。
主要特点
- 128,000上下文窗口
- 4,096最大输出令牌
- 知识截止日期为2023年10月1日
- 高智能且速度快
技术规格
- 文本输入价格: 每百万令牌5.00美元
- 文本缓存输入价格: 每百万令牌2.50美元
- 文本输出价格: 每百万令牌20.00美元
- 音频输入价格: 每百万令牌40.00美元
- 音频缓存输入价格: 每百万令牌2.50美元
- 音频输出价格: 每百万令牌80.00美元
- 支持: 输入:文本和音频,输出:文本和音频
- 功能: 实时API,支持函数调用
快照
- gpt-4o-realtime-preview
- gpt-4o-realtime-preview-2024-12-17
- gpt-4o-realtime-preview-2024-10-01
定位与使用场景
这是GPT-4o Realtime模型的预览版本,能够通过WebRTC或WebSocket接口实时响应音频和文本输入。
官方文档