模型概览
Gemini 2.5 Flash 原生音频提供互动和非结构化的对话体验,具有高质量、自然的会话音频输出,可选择是否具备思考能力。
主要特点
- 高智能(3/4点评分)
- 快速速度(4/5闪电评分)
- 128,000上下文窗口
- 8,000最大输出令牌
- 2025年1月知识截止
- 支持音频、视频和文本输入
- 支持音频和文本输出(交错)
技术规格
- 模型代码: gemini-2.5-flash-preview-native-audio-dialog 和 gemini-2.5-flash-exp-native-audio-thinking-dialog
- 支持: 输入:音频、视频、文本;输出:音频和文本
- 功能: 音频生成、函数调用、搜索接地、思考、风格和控制提示
- 定价:
- 输入:$0.50每1M令牌(文本),$3.00每1M令牌(音频/视频)
- 输出:$2.00每1M令牌(文本),$12.00每1M令牌(音频)
- 免费层级: 不可用
快照
- gemini-2.5-flash-preview-native-audio-dialog(预览版)
- gemini-2.5-flash-exp-native-audio-thinking-dialog(实验版)
定位和使用场景
通过Live API提供低延迟双向语音交互。适用于会话式AI应用、语音助手和具有自然语音生成的交互式音频体验。
速率限制
文档
官方文档