模型概述
Grok-2-Vision是xAI的多模态模型,能够理解文本和图像,专为全面的视觉分析和推理任务而设计。
主要特点
- 高智能(3/4点评级)
- 中等速度(3/5闪电评级)
- 8,192上下文窗口
- 中等最大输出令牌(估计4,096)
- 2024年知识截止(估计)
- 支持文本和图像输入
- 支持文本输出
技术规格
- 定价:每百万令牌$2.00(文本输入),每百万令牌$2.00(图像输入),每百万令牌$10.00(输出)
- 支持:输入:文本和图像(JPG/JPEG、PNG,每图像最大10MiB);输出:仅文本
- 功能:视觉理解、多模态推理、图像分析
版本快照
- grok-2-vision-1212
- grok-2-vision(grok-2-vision-latest的别名)
- grok-2-vision-latest
定位和使用场景
Grok-2-Vision在视觉理解任务方面表现出色,包括图像描述、视觉问答、文档分析、图表解释和多模态推理。它可以处理无限数量的图像并同时处理文本提示,使其非常适合需要综合视觉分析、内容审核、教育材料审查和复杂视觉推理任务的应用。
限流规则
其他技术说明
- 图像输入规格:每图像最大10MiB,图像数量不限,支持JPG/JPEG和PNG格式
- 灵活的输入顺序:文本和图像输入可以在对话中以任何顺序混合
- 模型版本控制:日期特定版本(如-1212)提供一致性,而别名会自动更新到最新版本
- 上下文限制:Grok-2-Vision的上下文窗口较小(8K),相比其他模型(131K)
- 定价结构:图像生成使用按图像定价,而文本模型使用基于令牌的定价
文档
官方文档