Google 及 Alphabet CEO Sundar Pichai 的寄语:
三个月前,我们推出了 Gemini 3——我们最智能的模型,帮助你学习、构建和规划任何事情。今天,我们推出 Gemini 3.1 Pro,它在短短几个月内实现了推理性能翻倍。
Gemini 3.1 Pro 建立在 Gemini 3 的所有突破之上,在 LMArena 排行榜上以 1598 Elo 的成绩进一步领先,巩固了其作为世界顶级模型之一的地位。它在数学、科学和编码等关键推理基准测试中创下新纪录,并且是我们在现实世界任务中表现最好的智能体模型。
3.1 Pro 还将长上下文和长输出扩展到 200 万 tokens——是上一代的两倍——使你能够处理整本书、完整的代码仓库和冗长的研究论文。而且,凭借原生多模态和工具使用能力,它可以为从研究到工程等各个领域的复杂工作流提供动力。
除了 3.1 Pro,我们还推出 Gemini 3.1 Flash 预览版,为低延迟、高吞吐量的应用带来显著提升的性价比,使其成为大规模智能体工作流和创意生成的理想选择。
这些是 Google DeepMind 的 Demis 和 Koray 以及 Gemini 团队将为你介绍更多信息。
推出 Gemini 3.1 Pro:推理能力翻倍
Demis Hassabis,Google DeepMind CEO;Koray Kavukcuoglu,Google DeepMind CTO 兼 Google 首席 AI 架构师,代表 Gemini 团队
在通往 AGI 的道路上,我们正在以加速的步伐前进。三个月前,我们推出了 Gemini 3——我们最智能的模型。今天,我们推出 Gemini 3.1 Pro,它在 Gemini 3 的基础上实现了性能的阶跃式提升,在短短几个月内将推理能力提高了一倍。
Gemini 3.1 Pro 是我们用于复杂推理、编码和智能体任务的最先进模型。它在 LMArena 排行榜上以 1598 Elo 的成绩位居榜首,进一步扩大了领先优势。它在数学、科学和编码等关键基准测试中创下新纪录,并且是我们在现实世界任务中表现最好的智能体模型。
Gemini 3.1 Pro 现已在 Gemini 应用、Google AI Studio 和 Vertex AI 中推出,因此你今天就可以开始使用它。
在三个月内将推理能力翻倍
自 Gemini 3 发布以来,我们一直在不知疲倦地改进我们的模型,并在短短三个月内将关键推理基准测试的性能提高了一倍。Gemini 3.1 Pro 以 1598 Elo 的成绩在 LMArena 排行榜上名列前茅,这是衡量人类对前沿模型偏好的领先基准。
它还在一系列具有挑战性的推理基准测试中创下新纪录,包括"人类最后考试"(Humanity's Last Exam,不使用工具 53.0%)、GPQA Diamond(95.4%)和 AIME 2024(76.7%)。在编码方面,它在 SWE-bench Verified 上取得了 84.2% 的最高分,并且是我们在现实世界智能体任务中表现最好的模型。
Gemini 3.1 Pro 在关键基准测试中显著优于 Gemini 3 Pro。详见我们的评估方法。
深度思考模式
Gemini 3.1 Pro 深度思考模式在已经令人印象深刻的性能基础上进一步提升,提供了增强的推理能力,可以解决极其复杂的问题。在测试中,深度思考模式在"人类最后考试"(不使用工具 65.5%)和 AIME 2024(86.7%)上超越了 3.1 Pro 的表现。它在 ARC-AGI-2 上也取得了 60.8% 的分数(使用代码执行,ARC Prize 验证),展示了其解决新挑战的能力。
扩展长上下文和长输出
Gemini 3.1 Pro 将长上下文和长输出扩展到 200 万 tokens——是上一代的两倍。这意味着你可以在单个提示中处理整本书、完整的代码仓库、冗长的研究论文或数百万字的文档。凭借其先进的推理和多模态能力,3.1 Pro 可以从大量信息中综合洞察,帮助你理解复杂的主题、分析大型数据集并构建端到端的项目。
例如,你可以给它一本关于粒子物理学的教科书,它可以生成交互式学习指南和可视化效果。或者你可以上传整个代码仓库,它可以帮助你重构代码、修复错误并添加新功能——所有这些都在单个上下文中完成。
更好的智能体和工具使用
Gemini 3.1 Pro 是我们在现实世界智能体任务中表现最好的模型。它在 Vending-Bench 2 上位居榜首,展示了其长时间规划的能力,并且在 Terminal-Bench 2.0 上取得了 72.6% 的分数,展示了其通过终端操作计算机的能力。它还改进了多步骤工具使用,使其能够更好地处理复杂的多步骤工作流。
凭借其增强的推理、长上下文和改进的工具使用,3.1 Pro 可以充当真正的智能体,帮助你完成从研究到工程再到日常任务的一切工作。
推出 Gemini 3.1 Flash 预览版
除了 3.1 Pro,我们还推出 Gemini 3.1 Flash 预览版,为低延迟、高吞吐量的应用带来显著提升的性价比。3.1 Flash 是大规模智能体工作流、创意生成和需要快速响应的应用的理想选择。它在保持 Flash 级别模型的速度和效率的同时,提供了比上一代更好的性能。
立即开始使用 Gemini 3.1
Gemini 3.1 Pro 现已在以下平台推出:
- Gemini 应用——面向 Google AI Ultra 订阅用户
- Google AI Studio——面向开发者
- Vertex AI——面向企业
Gemini 3.1 Flash 预览版也将在未来几周内登陆这些平台。
我们很高兴推出 Gemini 3.1,并期待看到你能用它构建出什么。随着我们继续推进 AI 前沿,更多精彩还在后面。