今天,我们推出 Gemini 3.1 Flash-Lite,这是我们迄今为止最快、最具成本效益的 Gemini 3 系列模型。专为大规模、高流量的开发者工作负载而打造,3.1 Flash-Lite 以其价格和模型层级提供高品质输出。
从今天开始,3.1 Flash-Lite 将通过 Google AI Studio 中的 Gemini API 向开发者开放预览,企业用户则可通过 Vertex AI 获取。
毫不妥协的成本效益
定价仅为每百万输入 token 0.25 美元、每百万输出 token 1.50 美元,3.1 Flash-Lite 以大模型零头的成本提供了增强的性能。根据 Artificial Analysis 基准测试,它的性能超越 2.5 Flash,首个答案 token 生成速度快 2.5 倍,输出速度提升 45%,同时保持相当或更优的质量。这种低延迟对于高频工作流至关重要,使其成为开发者构建响应式、实时体验的理想模型。
Gemini 3.1 Flash-Lite 在速度和质量上均超越 2.5 Flash。
3.1 Flash-Lite 在 Arena.ai 排行榜上取得了 1432 的 Elo 高分,并在推理和多模态理解基准测试中超越同类其他模型——包括 GPQA Diamond 上的 86.9% 和 MMMU Pro 上的 76.8%——甚至超越了前代更大的 Gemini 模型,如 2.5 Flash。
为开发者提供规模化的自适应智能
除了原始性能之外,Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中标配思考层级功能,让开发者能够灵活控制模型为任务进行"思考"的程度,这对于管理高频工作负载至关重要。3.1 Flash-Lite 可以规模化处理任务,例如高吞吐量翻译和内容审核,在这些场景中成本是优先考虑的因素。它也能处理需要更深入推理的更复杂工作负载,例如生成用户界面和仪表板、创建模拟或遵循指令。
3.1 Flash-Lite 可以即时为电商线框图填充数百种不同类别的产品。
3.1 Flash-Lite 可以利用实时预报和历史数据生成动态天气仪表板。
3.1 Flash-Lite 创建一个 SaaS 智能体,能够为企业执行多步骤的通用任务。
3.1 Flash-Lite 可以快速分析和整理大量内容(如图像)。
AI Studio 和 Vertex AI 的早期访问开发者,以及 Latitude、Cartwheel 和 Whering 等公司,已经在使用 3.1 Flash-Lite 规模化解决复杂问题。早期测试者强调了 3.1 Flash-Lite 的效率和推理能力,称它能以更大层级模型的精度处理复杂输入,同时遵循指令并保持一致性。
我们期待看到你用 3.1 Flash-Lite 和 Gemini 3 系列其他模型构建出更多精彩。