模型概述
Gemini 2.0 Flash Live 通过Live API实现与Gemini的低延迟双向语音和视频交互。
主要特点
- 高智能(3/4点评分)
- 非常快的速度(5/5闪电评分)
- 1,048,576上下文窗口
- 8,192最大输出令牌
- 2024年8月知识截止
- 支持音频、视频和文本输入
- 支持文本和音频输出
技术规格
- 模型代码: gemini-2.0-flash-live-001
- 支持: 输入:音频、视频、文本;输出:文本和音频
- 功能: 结构化输出、函数调用、代码执行、搜索、音频生成
- 价格:
- 输入:$0.10每百万令牌(文本/图像/视频),$0.70每百万令牌(音频)
- 输出:$0.40每百万令牌
- 上下文缓存:$0.025/百万令牌(文本/图像/视频),$0.175/百万令牌(音频),$1.00/百万令牌每小时存储
- 图像生成:$0.039每张图片
- Live API:输入$0.35(文本),$2.10(音频/图像/视频);输出$1.50(文本),$8.50(音频)
- 免费层级: 可用
快照
- gemini-2.0-flash-live-001
定位和使用场景
专为实时语音和视频交互而设计。非常适合实时对话AI、虚拟助手、实时客户支持以及需要即时音频/视频处理的交互式应用。
速率限制
文档
官方文档