English
中文
Deutsch
Português
Español
Français
Русский
한국어
日本語
English
中文
Deutsch
Português
Español
Français
Русский
한국어
日本語
注册

Gemini 2.5 Flash Native Audio

模型概览

Gemini 2.5 Flash 原生音频提供互动和非结构化的对话体验,具有高质量、自然的会话音频输出,可选择是否具备思考能力。

主要特点

  • 高智能(3/4点评分)
  • 快速速度(4/5闪电评分)
  • 128,000上下文窗口
  • 8,000最大输出令牌
  • 2025年1月知识截止
  • 支持音频、视频和文本输入
  • 支持音频和文本输出(交错)

技术规格

  • 模型代码: gemini-2.5-flash-preview-native-audio-dialog 和 gemini-2.5-flash-exp-native-audio-thinking-dialog
  • 支持: 输入:音频、视频、文本;输出:音频和文本
  • 功能: 音频生成、函数调用、搜索接地、思考、风格和控制提示
  • 定价:
    • 输入:$0.50每1M令牌(文本),$3.00每1M令牌(音频/视频)
    • 输出:$2.00每1M令牌(文本),$12.00每1M令牌(音频)
  • 免费层级: 不可用

快照

  • gemini-2.5-flash-preview-native-audio-dialog(预览版)
  • gemini-2.5-flash-exp-native-audio-thinking-dialog(实验版)

定位和使用场景

通过Live API提供低延迟双向语音交互。适用于会话式AI应用、语音助手和具有自然语音生成的交互式音频体验。

速率限制

  • 由于是实验性/预览版模型,因此有更严格的速率限制

文档

官方文档

Google

由强大技术专长支持的下一代AI模型

Gemini 2.5 Flash Native Audio

参数量
Output tokens 8,000 tokens

Gemini 2.5 Flash 原生音频提供互动和非结构化的对话体验,具有高质量、自然的会话音频输出,可选择是否具备思考能力。

官方价格:$0.50 • $2.00 我们的价格:$0.40 • $1.60 节省 20%

常见问题

运行时间保证是什么?
我们通过企业级基础设施和冗余系统保证99.9%的运行时间。
如何计算价格?
定价基于处理的令牌数量。最终成本中既包括输入令牌也包括输出令牌。
GPT-4和GPT-4 Turbo之间有什么区别?
GPT-4 Turbo是具有改进性能、更长上下文窗口和更近知识截止日期的最新版本。