Gemini 3.1 Pro：推理能力翻倍 - Gemini

Google 及 Alphabet CEO Sundar Pichai 的寄语：

三个月前，我们推出了 Gemini 3——我们最智能的模型，帮助你学习、构建和规划任何事情。今天，我们推出 Gemini 3.1 Pro，它在短短几个月内实现了推理性能翻倍。

Gemini 3.1 Pro 建立在 Gemini 3 的所有突破之上，在 LMArena 排行榜上以 1598 Elo 的成绩进一步领先，巩固了其作为世界顶级模型之一的地位。它在数学、科学和编码等关键推理基准测试中创下新纪录，并且是我们在现实世界任务中表现最好的智能体模型。

3.1 Pro 还将长上下文和长输出扩展到 200 万 tokens——是上一代的两倍——使你能够处理整本书、完整的代码仓库和冗长的研究论文。而且，凭借原生多模态和工具使用能力，它可以为从研究到工程等各个领域的复杂工作流提供动力。

除了 3.1 Pro，我们还推出 Gemini 3.1 Flash 预览版，为低延迟、高吞吐量的应用带来显著提升的性价比，使其成为大规模智能体工作流和创意生成的理想选择。

这些是 Google DeepMind 的 Demis 和 Koray 以及 Gemini 团队将为你介绍更多信息。

推出 Gemini 3.1 Pro：推理能力翻倍

Demis Hassabis，Google DeepMind CEO；Koray Kavukcuoglu，Google DeepMind CTO 兼 Google 首席 AI 架构师，代表 Gemini 团队

在通往 AGI 的道路上，我们正在以加速的步伐前进。三个月前，我们推出了 Gemini 3——我们最智能的模型。今天，我们推出 Gemini 3.1 Pro，它在 Gemini 3 的基础上实现了性能的阶跃式提升，在短短几个月内将推理能力提高了一倍。

Gemini 3.1 Pro 是我们用于复杂推理、编码和智能体任务的最先进模型。它在 LMArena 排行榜上以 1598 Elo 的成绩位居榜首，进一步扩大了领先优势。它在数学、科学和编码等关键基准测试中创下新纪录，并且是我们在现实世界任务中表现最好的智能体模型。

Gemini 3.1 Pro 现已在 Gemini 应用、Google AI Studio 和 Vertex AI 中推出，因此你今天就可以开始使用它。

在三个月内将推理能力翻倍

自 Gemini 3 发布以来，我们一直在不知疲倦地改进我们的模型，并在短短三个月内将关键推理基准测试的性能提高了一倍。Gemini 3.1 Pro 以 1598 Elo 的成绩在 LMArena 排行榜上名列前茅，这是衡量人类对前沿模型偏好的领先基准。

它还在一系列具有挑战性的推理基准测试中创下新纪录，包括"人类最后考试"（Humanity's Last Exam，不使用工具 53.0%）、GPQA Diamond（95.4%）和 AIME 2024（76.7%）。在编码方面，它在 SWE-bench Verified 上取得了 84.2% 的最高分，并且是我们在现实世界智能体任务中表现最好的模型。

Gemini 3.1 Pro 在关键基准测试中显著优于 Gemini 3 Pro。详见我们的评估方法。

深度思考模式

Gemini 3.1 Pro 深度思考模式在已经令人印象深刻的性能基础上进一步提升，提供了增强的推理能力，可以解决极其复杂的问题。在测试中，深度思考模式在"人类最后考试"（不使用工具 65.5%）和 AIME 2024（86.7%）上超越了 3.1 Pro 的表现。它在 ARC-AGI-2 上也取得了 60.8% 的分数（使用代码执行，ARC Prize 验证），展示了其解决新挑战的能力。

扩展长上下文和长输出

Gemini 3.1 Pro 将长上下文和长输出扩展到 200 万 tokens——是上一代的两倍。这意味着你可以在单个提示中处理整本书、完整的代码仓库、冗长的研究论文或数百万字的文档。凭借其先进的推理和多模态能力，3.1 Pro 可以从大量信息中综合洞察，帮助你理解复杂的主题、分析大型数据集并构建端到端的项目。

例如，你可以给它一本关于粒子物理学的教科书，它可以生成交互式学习指南和可视化效果。或者你可以上传整个代码仓库，它可以帮助你重构代码、修复错误并添加新功能——所有这些都在单个上下文中完成。

更好的智能体和工具使用

Gemini 3.1 Pro 是我们在现实世界智能体任务中表现最好的模型。它在 Vending-Bench 2 上位居榜首，展示了其长时间规划的能力，并且在 Terminal-Bench 2.0 上取得了 72.6% 的分数，展示了其通过终端操作计算机的能力。它还改进了多步骤工具使用，使其能够更好地处理复杂的多步骤工作流。

凭借其增强的推理、长上下文和改进的工具使用，3.1 Pro 可以充当真正的智能体，帮助你完成从研究到工程再到日常任务的一切工作。

推出 Gemini 3.1 Flash 预览版

除了 3.1 Pro，我们还推出 Gemini 3.1 Flash 预览版，为低延迟、高吞吐量的应用带来显著提升的性价比。3.1 Flash 是大规模智能体工作流、创意生成和需要快速响应的应用的理想选择。它在保持 Flash 级别模型的速度和效率的同时，提供了比上一代更好的性能。

立即开始使用 Gemini 3.1

Gemini 3.1 Pro 现已在以下平台推出：

Gemini 应用——面向 Google AI Ultra 订阅用户
Google AI Studio——面向开发者
Vertex AI——面向企业

Gemini 3.1 Flash 预览版也将在未来几周内登陆这些平台。

我们很高兴推出 Gemini 3.1，并期待看到你能用它构建出什么。随着我们继续推进 AI 前沿，更多精彩还在后面。