English
中文
Deutsch
Português
Español
Français
Русский
한국어
日本語
English
中文
Deutsch
Português
Español
Français
Русский
한국어
日本語
注册

Grok-2-Vision

模型概述

Grok-2-Vision是xAI的多模态模型,能够理解文本和图像,专为全面的视觉分析和推理任务而设计。

主要特点

  • 高智能(3/4点评级)
  • 中等速度(3/5闪电评级)
  • 8,192上下文窗口
  • 中等最大输出令牌(估计4,096)
  • 2024年知识截止(估计)
  • 支持文本和图像输入
  • 支持文本输出

技术规格

  • 定价:每百万令牌$2.00(文本输入),每百万令牌$2.00(图像输入),每百万令牌$10.00(输出)
  • 支持:输入:文本和图像(JPG/JPEG、PNG,每图像最大10MiB);输出:仅文本
  • 功能:视觉理解、多模态推理、图像分析

版本快照

  • grok-2-vision-1212
  • grok-2-vision(grok-2-vision-latest的别名)
  • grok-2-vision-latest

定位和使用场景

Grok-2-Vision在视觉理解任务方面表现出色,包括图像描述、视觉问答、文档分析、图表解释和多模态推理。它可以处理无限数量的图像并同时处理文本提示,使其非常适合需要综合视觉分析、内容审核、教育材料审查和复杂视觉推理任务的应用。

限流规则

  • 公开信息不可用

其他技术说明

  • 图像输入规格:每图像最大10MiB,图像数量不限,支持JPG/JPEG和PNG格式
  • 灵活的输入顺序:文本和图像输入可以在对话中以任何顺序混合
  • 模型版本控制:日期特定版本(如-1212)提供一致性,而别名会自动更新到最新版本
  • 上下文限制:Grok-2-Vision的上下文窗口较小(8K),相比其他模型(131K)
  • 定价结构:图像生成使用按图像定价,而文本模型使用基于令牌的定价

文档

官方文档

xAI

由埃隆·马斯克创立,专注于AGI开发

Grok-2-Vision

参数量 Unknow
Output tokens estimated 4,096

Grok-2-Vision是xAI的多模态模型,能够理解文本和图像,专为全面的视觉分析和推理任务而设计。

官方价格:$2.00 • $2.00 • $10.00 我们的价格:$1.60 • $1.60 • $8.00 节省 20%

常见问题

运行时间保证是什么?
我们通过企业级基础设施和冗余系统保证99.9%的运行时间。
如何计算价格?
定价基于处理的令牌数量。最终成本中既包括输入令牌也包括输出令牌。
GPT-4和GPT-4 Turbo之间有什么区别?
GPT-4 Turbo是具有改进性能、更长上下文窗口和更近知识截止日期的最新版本。