最后更新:3 月 26 日
今天,我们推出 Gemini 2.5——我们最智能的 AI 模型。我们的第一个 2.5 版本是 2.5 Pro 实验版,它在广泛的基准测试中达到了最先进的水平,并以显著优势首次登上 LMArena 排行榜第一名。
Gemini 2.5 模型是思考型模型,能够在回应前通过思考进行推理,从而带来更高的性能和更高的准确性。
在 AI 领域,一个系统的"推理"能力指的不仅仅是分类和预测。它指的是分析信息、得出逻辑结论、结合上下文和细微差别、以及做出明智决策的能力。
长期以来,我们一直在探索通过强化学习和思维链提示等技术让 AI 更智能、更具推理能力的方法。在此基础上,我们最近推出了第一个思考型模型——Gemini 2.0 Flash Thinking。
现在,有了 Gemini 2.5,我们通过将显著增强的基础模型与改进的后训练相结合,实现了性能的新飞跃。展望未来,我们正在将这些思考能力直接构建到我们所有的模型中,以便它们能够处理更复杂的问题,并支持更强大、更具上下文感知能力的智能体。
推出 Gemini 2.5 Pro
Gemini 2.5 Pro 实验版是我们用于复杂任务的最先进模型。它在 LMArena 排行榜上名列前茅——该排行榜衡量人类偏好——优势显著,表明这是一个配备高质量风格的高能力模型。2.5 Pro 还展示了强大的推理和编码能力,在常见的编码、数学和科学基准测试中领先。
Gemini 2.5 Pro 现已在 Google AI Studio 和 Gemini 应用 中面向 Gemini Advanced 用户提供,并将很快登陆 Vertex AI。我们还将在未来几周内推出定价方案,使人们能够以更高的速率限制使用 2.5 Pro,以实现规模化生产使用。
3 月 26 日更新:新增 MRCR(多轮共指消解)评估
增强的推理能力
Gemini 2.5 Pro 在一系列需要高级推理的基准测试中达到了最先进水平。在不使用多数投票等会增加成本的测试时技术的情况下,2.5 Pro 在 GPQA 和 AIME 2025 等数学和科学基准测试中领先。
它在"人类最后考试"(Humanity's Last Exam)上也取得了 18.8% 的最先进分数(不使用工具的模型中),该数据集由数百位主题专家设计,旨在捕捉人类知识和推理的前沿。
高级编码能力
我们一直专注于编码性能,借助 Gemini 2.5,我们在 2.0 的基础上实现了巨大飞跃——未来还会有更多改进。2.5 Pro 擅长创建视觉效果出色的 Web 应用和智能体代码应用,以及代码转换和编辑。在 SWE-Bench Verified(智能体代码评估的行业标准)上,Gemini 2.5 Pro 通过自定义智能体设置取得了 63.8% 的分数。
以下是 2.5 Pro 如何利用其推理能力,通过单行提示生成可执行代码来创建视频游戏的示例。
构建在 Gemini 的最佳特性之上
Gemini 2.5 建立在 Gemini 模型的优秀特性之上——原生多模态和长上下文窗口。2.5 Pro 今天发布时配备了 100 万 token 的上下文窗口(200 万即将推出),其性能较前几代有所提升。它可以理解海量数据集,并处理来自不同信息源(包括文本、音频、图像、视频甚至整个代码仓库)的复杂问题。
开发者和企业现在可以在 Google AI Studio 中开始试用 Gemini 2.5 Pro,而 Gemini Advanced 用户可以在桌面端和移动端的模型下拉菜单中选择它。它将在未来几周内登陆 Vertex AI。
一如既往,我们欢迎反馈,以便我们能够继续快速改进 Gemini 令人印象深刻的新能力,所有这一切都以让我们的 AI 更有帮助为目标。