推出 Gemini：我们最大、能力最强的 AI 模型 - Gemini

Google 及 Alphabet CEO Sundar Pichai 的寄语：

每一次技术变革，都是推动科学发现、加速人类进步、改善生活的契机。我相信，我们当下见证的 AI 转型，将是我们有生之年影响最深远的一次，其重要性远超此前的移动互联网或网页革命。AI 有潜力为世界各地的人们创造从日常到非凡的各种机遇，它将带来新一波创新与经济增长，以我们前所未见的规模推动知识、学习、创造力和生产力的发展。

这正是让我兴奋的地方——有机会让 AI 为世界上每一个人提供帮助。

作为一家 AI 优先的公司，我们走过了近八年的历程，而进步的步伐还在不断加快：如今，数百万人正在我们的产品中使用生成式 AI，做着一年前还无法想象的事情——从寻找复杂问题的答案，到使用新工具进行协作与创造。与此同时，开发者们正在使用我们的模型和基础设施构建新的生成式 AI 应用，全球的创业公司和企业也在借助我们的 AI 工具不断成长。

这股势头令人难以置信，但我们才刚刚触及可能性的皮毛。

我们正以大胆而负责任的态度推进这项工作。这意味着，我们既要雄心勃勃地开展研究，追求能为人类和社会带来巨大福祉的能力，也要构建安全保障机制，并与政府和专家合作，共同应对 AI 日益强大所带来的风险。在 AI 原则的指引下，我们将持续投资于最优秀的工具、基础模型和基础设施，并将它们融入我们的产品以及更广泛的生态中。

如今，我们正在这一旅程上迈出下一步——推出 Gemini，这是迄今为止我们能力最强、通用性最高的模型，在众多主流基准测试中都取得了最先进的性能表现。我们的第一个版本 Gemini 1.0 针对不同规模进行了优化：Ultra、Pro 和 Nano。这些是 Gemini 时代的首批模型，也是我们今年早些时候成立 Google DeepMind 时所设想愿景的首次实现。这个新的模型时代，是我们作为一家公司所进行的最重大的科学与工程努力之一。我对未来充满期待，对 Gemini 将为每个人解锁的机遇感到由衷兴奋。

—— Sundar

推出 Gemini

作者：Demis Hassabis，Google DeepMind CEO 及联合创始人，代表 Gemini 团队

AI 是我毕生工作的核心，也是我许多研究同事的共同追求。从十几岁时为电脑游戏编写 AI 程序开始，到后来作为神经科学研究者探索大脑运作机制的那些年里，我始终坚信：如果我们能构建出更智能的机器，就能以不可思议的方式利用它们造福人类。

"一个由 AI 负责任地赋能的世界"这一承诺，始终驱动着我们在 Google DeepMind 的工作。长久以来，我们一直希望构建新一代 AI 模型——以人类理解和交互世界的方式为灵感。这种 AI 不像一个聪明的软件，而更像某种有用且直观的存在——一位专业的帮手或助手。

今天，我们向着这一愿景又迈进了一步——我们推出了 Gemini，这是我们迄今为止构建的能力最强、通用性最高的模型。

Gemini 是 Google 各团队（包括 Google Research 的同事们）大规模协作的成果。它从一开始就被构建为多模态模型，这意味着它能够泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

Gemini 也是我们迄今为止最灵活的模型——能够高效地运行在从数据中心到移动设备的各种环境中。它最先进的能力将显著提升开发者和企业客户使用 AI 进行构建和扩展的方式。

我们针对三种不同规模优化了 Gemini 1.0，也就是我们的第一个版本：

Gemini Ultra — 我们最大、能力最强的模型，适用于高度复杂的任务。
Gemini Pro — 我们最优秀的模型，适用于广泛任务的规模化处理。
Gemini Nano — 我们最高效的模型，适用于端侧设备任务。

最先进的性能表现

我们一直在对 Gemini 模型进行严格的测试，并在各种任务上评估它们的性能。从自然图像、音频和视频理解，到数学推理，Gemini Ultra 的表现在大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准测试里，有 30 项超越了当前最先进的结果。

凭借 90.0% 的 MMLU（大规模多任务语言理解）得分，Gemini Ultra 成为第一个在该测试中超越人类专家水平的模型，该测试结合了数学、物理、历史、法律、医学和伦理学等 57 个学科，既考验世界知识，也考验推理能力。

我们对 MMLU 的新基准测试方法使 Gemini 能够利用其推理能力，在回答难题之前更仔细地思考，从而比仅凭第一印象带来显著改进。

Gemini 在包括文本和编码在内的一系列基准测试中超越了最先进的性能。

Gemini Ultra 还在新的 MMMU 基准测试中取得了 59.4% 的最先进分数，该基准由跨不同领域的多模态任务组成，需要经过深思熟虑的推理。

在我们测试的图像基准测试中，Gemini Ultra 在没有光学字符识别（OCR）系统辅助的情况下超越了先前最先进的模型——OCR 系统用于从图像中提取文本以进行进一步处理。这些基准测试凸显了 Gemini 的原生多模态能力，并预示了 Gemini 更复杂推理能力的早期迹象。

更多细节请参阅我们的 Gemini 技术报告。

Gemini 在一系列多模态基准测试中超越了最先进的性能。

下一代能力

在此之前，创建多模态模型的标准方法是为不同模态训练单独的组件，然后将它们拼接在一起，大致模拟其中一些功能。这些模型有时可以很好地执行某些任务，比如描述图像，但在更概念性和复杂的推理方面却很吃力。

我们将 Gemini 设计为原生多模态，从一开始就用不同的模态进行预训练。然后，我们用额外的多模态数据对其进行微调，以进一步提升其有效性。这有助于 Gemini 从根本上无缝理解和推理各种输入，远远优于现有的多模态模型——而且它的能力在几乎每个领域都是最先进的。

了解更多关于 Gemini 的能力及其工作原理。

复杂的推理

Gemini 1.0 复杂的多模态推理能力可以帮助理解复杂的书面和视觉信息。这使它具备独特的技能，能够发现在海量数据中难以辨别的知识。

它通过阅读、筛选和理解信息，从数十万份文档中提取见解的非凡能力，将有助于在从科学到金融的许多领域以数字速度实现新的突破。

Gemini 解锁新的科学见解

理解文本、图像、音频等

Gemini 1.0 被训练为同时识别和理解文本、图像、音频等，因此它能更好地理解细微信息，并能回答与复杂主题相关的问题。这使它特别擅长解释数学和物理等复杂学科中的推理。

Gemini 解释数学和物理中的推理

高级编码

我们的第一个版本的 Gemini 可以理解、解释并生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。它跨语言工作并对复杂信息进行推理的能力，使其成为世界上领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色，包括 HumanEval——评估编码任务性能的重要行业标准，以及 Natural2Code——我们的内部保留数据集，它使用作者生成的来源而非基于网络的信息。

Gemini 也可以用作更高级编码系统的引擎。两年前，我们推出了 AlphaCode——第一个在编程竞赛中达到有竞争力性能水平的 AI 代码生成系统。

使用 Gemini 的专用版本，我们创建了一个更先进的代码生成系统 AlphaCode 2，它擅长解决超越编码范畴的竞争性编程问题，涉及复杂的数学和理论计算机科学。

Gemini 擅长编码和竞争性编程

在与原始 AlphaCode 相同的平台上进行评估时，AlphaCode 2 显示出巨大的进步，解决了几乎两倍的问题，我们估计它的表现优于 85% 的竞赛参与者——而 AlphaCode 接近 50%。当程序员通过定义代码样本要遵循的某些属性来与 AlphaCode 2 协作时，它的表现甚至更好。

我们很高兴程序员越来越多地使用高能力 AI 模型作为协作工具，帮助他们推理问题、提出代码设计并协助实现——这样他们就能更快地发布应用程序和设计更好的服务。

更多细节请参阅我们的 AlphaCode 2 技术报告。

更可靠、可扩展且高效

我们使用 Google 内部设计的张量处理单元（TPU）v4 和 v5e，在我们的 AI 优化基础设施上大规模训练了 Gemini 1.0。我们将其设计为我们训练起来最可靠、最可扩展的模型，也是服务起来最高效的模型。

在 TPU 上，Gemini 的运行速度明显快于更早、更小、能力更弱的模型。这些定制设计的 AI 加速器一直是 Google AI 驱动产品的核心，这些产品为数十亿用户提供服务，如搜索、YouTube、Gmail、Google 地图、Google Play 和 Android。它们还使世界各地的公司能够经济高效地训练大规模 AI 模型。

今天，我们宣布了迄今为止最强大、最高效、最具可扩展性的 TPU 系统——Cloud TPU v5p，专为训练前沿 AI 模型而设计。下一代 TPU 将加速 Gemini 的开发，并帮助开发者和企业客户更快地训练大规模生成式 AI 模型，让新产品和功能更快地触达客户。

Google 数据中心中一排 Cloud TPU v5p AI 加速器超级计算机。

以责任和安全为核心构建

在 Google，我们致力于在我们所做的一切中推进大胆而负责任的 AI。在 Google 的 AI 原则和我们产品中强大的安全政策基础上，我们正在添加新的保护措施以应对 Gemini 的多模态能力。在开发的每个阶段，我们都在考虑潜在风险，并致力于测试和减轻这些风险。

Gemini 拥有迄今为止所有 Google AI 模型中最全面的安全评估，包括偏见和毒性评估。我们对网络攻击、说服和自主性等潜在风险领域进行了新颖的研究，并应用了 Google Research 一流的对抗性测试技术，以帮助在 Gemini 部署前识别关键安全问题。

为了识别我们内部评估方法中的盲点，我们正在与多元化的外部专家和合作伙伴合作，对我们的模型进行一系列问题的压力测试。

为了在 Gemini 的训练阶段诊断内容安全问题并确保其输出符合我们的政策，我们使用了诸如 Real Toxicity Prompts 之类的基准测试——这是由 Allen AI 研究所的专家开发的一组 100,000 个从网络中提取的具有不同程度毒性的提示。关于这项工作的更多细节即将推出。

为了限制伤害，我们构建了专用的安全分类器来识别、标记和整理涉及暴力或负面刻板印象的内容。结合强大的过滤器，这种分层方法旨在使 Gemini 对每个人都更安全、更具包容性。此外，我们正在继续解决模型的已知挑战，如事实性、基础、归因和确证。

责任和安全将始终是我们模型开发和部署的核心。这是一项长期承诺，需要协作建设，因此我们正在与行业和更广泛的生态系统合作，通过 MLCommons、前沿模型论坛及其 AI 安全基金，以及我们的安全 AI 框架（SAIF）等组织，定义最佳实践并设定安全和安保基准。

可用性

从今天开始：

Bard 将使用 Gemini Pro 的精细调优版本，以提供更高级的推理、规划和理解能力。这是 Bard 有史以来最大的一次升级。
Pixel 8 Pro 将是首款搭载 Gemini Nano 的智能手机——它已经为 Recorder 中的摘要功能和 Gboard 的智能回复（首先支持 WhatsApp）等功能提供支持，未来还将推出更多功能。
对于开发者和企业客户，Gemini Pro 将通过 Gemini API 提供，该 API 在 Google AI Studio 和 Google Cloud Vertex AI 中均可用。
Android 开发者也可以使用 Gemini Nano（通过 AICore）在最新的 Pixel 设备上构建端侧 AI 功能。
Gemini Ultra 目前正在向一小部分客户、开发者、合作伙伴以及安全和责任专家提供，以进行早期测试和反馈，并将在明年初更广泛地推出。
明年初，我们还将推出 Bard Advanced，它将让你能够使用我们最好、推理能力最强的模型 Gemini Ultra，以处理高度复杂的任务。

这些只是 Gemini 将为 Google 生态系统带来的部分功能——我们将在未来几个月内分享更多关于它在搜索、广告、Chrome 和 Duet AI 等产品中的集成信息。

这是 Gemini 的开端。我们正在积极推进更多能力，包括新的模式和功能，以及在各个领域更深层次的集成。

今天标志着一个新时代的到来，我们迫不及待地想与大家一起探索 Gemini 带来的无限可能。