Gemini 2.5：我们最智能的 AI 模型 - Gemini

最后更新：3 月 26 日

今天，我们推出 Gemini 2.5——我们最智能的 AI 模型。我们的第一个 2.5 版本是 2.5 Pro 实验版，它在广泛的基准测试中达到了最先进的水平，并以显著优势首次登上 LMArena 排行榜第一名。

Gemini 2.5 模型是思考型模型，能够在回应前通过思考进行推理，从而带来更高的性能和更高的准确性。

在 AI 领域，一个系统的"推理"能力指的不仅仅是分类和预测。它指的是分析信息、得出逻辑结论、结合上下文和细微差别、以及做出明智决策的能力。

长期以来，我们一直在探索通过强化学习和思维链提示等技术让 AI 更智能、更具推理能力的方法。在此基础上，我们最近推出了第一个思考型模型——Gemini 2.0 Flash Thinking。

现在，有了 Gemini 2.5，我们通过将显著增强的基础模型与改进的后训练相结合，实现了性能的新飞跃。展望未来，我们正在将这些思考能力直接构建到我们所有的模型中，以便它们能够处理更复杂的问题，并支持更强大、更具上下文感知能力的智能体。

推出 Gemini 2.5 Pro

Gemini 2.5 Pro 实验版是我们用于复杂任务的最先进模型。它在 LMArena 排行榜上名列前茅——该排行榜衡量人类偏好——优势显著，表明这是一个配备高质量风格的高能力模型。2.5 Pro 还展示了强大的推理和编码能力，在常见的编码、数学和科学基准测试中领先。

Gemini 2.5 Pro 现已在 Google AI Studio 和 Gemini 应用中面向 Gemini Advanced 用户提供，并将很快登陆 Vertex AI。我们还将在未来几周内推出定价方案，使人们能够以更高的速率限制使用 2.5 Pro，以实现规模化生产使用。

3 月 26 日更新：新增 MRCR（多轮共指消解）评估

增强的推理能力

Gemini 2.5 Pro 在一系列需要高级推理的基准测试中达到了最先进水平。在不使用多数投票等会增加成本的测试时技术的情况下，2.5 Pro 在 GPQA 和 AIME 2025 等数学和科学基准测试中领先。

它在"人类最后考试"（Humanity's Last Exam）上也取得了 18.8% 的最先进分数（不使用工具的模型中），该数据集由数百位主题专家设计，旨在捕捉人类知识和推理的前沿。

高级编码能力

我们一直专注于编码性能，借助 Gemini 2.5，我们在 2.0 的基础上实现了巨大飞跃——未来还会有更多改进。2.5 Pro 擅长创建视觉效果出色的 Web 应用和智能体代码应用，以及代码转换和编辑。在 SWE-Bench Verified（智能体代码评估的行业标准）上，Gemini 2.5 Pro 通过自定义智能体设置取得了 63.8% 的分数。

以下是 2.5 Pro 如何利用其推理能力，通过单行提示生成可执行代码来创建视频游戏的示例。

构建在 Gemini 的最佳特性之上

Gemini 2.5 建立在 Gemini 模型的优秀特性之上——原生多模态和长上下文窗口。2.5 Pro 今天发布时配备了 100 万 token 的上下文窗口（200 万即将推出），其性能较前几代有所提升。它可以理解海量数据集，并处理来自不同信息源（包括文本、音频、图像、视频甚至整个代码仓库）的复杂问题。

开发者和企业现在可以在 Google AI Studio 中开始试用 Gemini 2.5 Pro，而 Gemini Advanced 用户可以在桌面端和移动端的模型下拉菜单中选择它。它将在未来几周内登陆 Vertex AI。

一如既往，我们欢迎反馈，以便我们能够继续快速改进 Gemini 令人印象深刻的新能力，所有这一切都以让我们的 AI 更有帮助为目标。