Gemini 2.5 Flash Native Audio

模型概览

Gemini 2.5 Flash 原生音频提供互动和非结构化的对话体验，具有高质量、自然的会话音频输出，可选择是否具备思考能力。

模型代码： gemini-2.5-flash-preview-native-audio-dialog 和 gemini-2.5-flash-exp-native-audio-thinking-dialog
支持： 输入：音频、视频、文本；输出：音频和文本
功能： 音频生成、函数调用、搜索接地、思考、风格和控制提示
定价：
- 输入：$0.50每1M令牌（文本），$3.00每1M令牌（音频/视频）
- 输出：$2.00每1M令牌（文本），$12.00每1M令牌（音频）
免费层级： 不可用

通过Live API提供低延迟双向语音交互。适用于会话式AI应用、语音助手和具有自然语音生成的交互式音频体验。

由强大技术专长支持的下一代AI模型

参数量

Output tokens 8,000 tokens

Gemini 2.5 Flash 原生音频提供互动和非结构化的对话体验，具有高质量、自然的会话音频输出，可选择是否具备思考能力。

官方价格：$0.50 • $2.00 我们的价格：$0.40 • $1.60 节省 20%

返回列表立即尝试

常见问题

运行时间保证是什么？

我们通过企业级基础设施和冗余系统保证99.9%的运行时间。

如何计算价格？

定价基于处理的令牌数量。最终成本中既包括输入令牌也包括输出令牌。

GPT-4和GPT-4 Turbo之间有什么区别？

GPT-4 Turbo是具有改进性能、更长上下文窗口和更近知识截止日期的最新版本。