推出 Gemini:我们最大、能力最强的 AI 模型

Google 及 Alphabet CEO Sundar Pichai 的寄语:

每一次技术变革,都是推动科学发现、加速人类进步、改善生活的契机。我相信,我们当下见证的 AI 转型,将是我们有生之年影响最深远的一次,其重要性远超此前的移动互联网或网页革命。AI 有潜力为世界各地的人们创造从日常到非凡的各种机遇,它将带来新一波创新与经济增长,以我们前所未见的规模推动知识、学习、创造力和生产力的发展。

这正是让我兴奋的地方——有机会让 AI 为世界上每一个人提供帮助。

作为一家 AI 优先的公司,我们走过了近八年的历程,而进步的步伐还在不断加快:如今,数百万人正在我们的产品中使用生成式 AI,做着一年前还无法想象的事情——从寻找复杂问题的答案,到使用新工具进行协作与创造。与此同时,开发者们正在使用我们的模型和基础设施构建新的生成式 AI 应用,全球的创业公司和企业也在借助我们的 AI 工具不断成长。

这股势头令人难以置信,但我们才刚刚触及可能性的皮毛。

我们正以大胆而负责任的态度推进这项工作。这意味着,我们既要雄心勃勃地开展研究,追求能为人类和社会带来巨大福祉的能力,也要构建安全保障机制,并与政府和专家合作,共同应对 AI 日益强大所带来的风险。在 AI 原则的指引下,我们将持续投资于最优秀的工具、基础模型和基础设施,并将它们融入我们的产品以及更广泛的生态中。

如今,我们正在这一旅程上迈出下一步——推出 Gemini,这是迄今为止我们能力最强、通用性最高的模型,在众多主流基准测试中都取得了最先进的性能表现。我们的第一个版本 Gemini 1.0 针对不同规模进行了优化:Ultra、Pro 和 Nano。这些是 Gemini 时代的首批模型,也是我们今年早些时候成立 Google DeepMind 时所设想愿景的首次实现。这个新的模型时代,是我们作为一家公司所进行的最重大的科学与工程努力之一。我对未来充满期待,对 Gemini 将为每个人解锁的机遇感到由衷兴奋。

—— Sundar

推出 Gemini

作者:Demis Hassabis,Google DeepMind CEO 及联合创始人,代表 Gemini 团队

AI 是我毕生工作的核心,也是我许多研究同事的共同追求。从十几岁时为电脑游戏编写 AI 程序开始,到后来作为神经科学研究者探索大脑运作机制的那些年里,我始终坚信:如果我们能构建出更智能的机器,就能以不可思议的方式利用它们造福人类。

"一个由 AI 负责任地赋能的世界"这一承诺,始终驱动着我们在 Google DeepMind 的工作。长久以来,我们一直希望构建新一代 AI 模型——以人类理解和交互世界的方式为灵感。这种 AI 不像一个聪明的软件,而更像某种有用且直观的存在——一位专业的帮手或助手。

今天,我们向着这一愿景又迈进了一步——我们推出了 Gemini,这是我们迄今为止构建的能力最强、通用性最高的模型。

Gemini 是 Google 各团队(包括 Google Research 的同事们)大规模协作的成果。它从一开始就被构建为多模态模型,这意味着它能够泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。

Gemini 也是我们迄今为止最灵活的模型——能够高效地运行在从数据中心到移动设备的各种环境中。它最先进的能力将显著提升开发者和企业客户使用 AI 进行构建和扩展的方式。

我们针对三种不同规模优化了 Gemini 1.0,也就是我们的第一个版本:

  • Gemini Ultra — 我们最大、能力最强的模型,适用于高度复杂的任务。
  • Gemini Pro — 我们最优秀的模型,适用于广泛任务的规模化处理。
  • Gemini Nano — 我们最高效的模型,适用于端侧设备任务。

最先进的性能表现

我们一直在对 Gemini 模型进行严格的测试,并在各种任务上评估它们的性能。从自然图像、音频和视频理解,到数学推理,Gemini Ultra 的表现在大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准测试里,有 30 项超越了当前最先进的结果。

凭借 90.0% 的 MMLU(大规模多任务语言理解)得分,Gemini Ultra 成为第一个在该测试中超越人类专家水平的模型,该测试结合了数学、物理、历史、法律、医学和伦理学等 57 个学科,既考验世界知识,也考验推理能力。

我们对 MMLU 的新基准测试方法使 Gemini 能够利用其推理能力,在回答难题之前更仔细地思考,从而比仅凭第一印象带来显著改进。

Gemini 在包括文本和编码在内的一系列基准测试中超越了最先进的性能。

Gemini Ultra 还在新的 MMMU 基准测试中取得了 59.4% 的最先进分数,该基准由跨不同领域的多模态任务组成,需要经过深思熟虑的推理。

在我们测试的图像基准测试中,Gemini Ultra 在没有光学字符识别(OCR)系统辅助的情况下超越了先前最先进的模型——OCR 系统用于从图像中提取文本以进行进一步处理。这些基准测试凸显了 Gemini 的原生多模态能力,并预示了 Gemini 更复杂推理能力的早期迹象。

更多细节请参阅我们的 Gemini 技术报告

Gemini 在一系列多模态基准测试中超越了最先进的性能。

下一代能力

在此之前,创建多模态模型的标准方法是为不同模态训练单独的组件,然后将它们拼接在一起,大致模拟其中一些功能。这些模型有时可以很好地执行某些任务,比如描述图像,但在更概念性和复杂的推理方面却很吃力。

我们将 Gemini 设计为原生多模态,从一开始就用不同的模态进行预训练。然后,我们用额外的多模态数据对其进行微调,以进一步提升其有效性。这有助于 Gemini 从根本上无缝理解和推理各种输入,远远优于现有的多模态模型——而且它的能力在几乎每个领域都是最先进的。

了解更多关于 Gemini 的能力及其工作原理

复杂的推理

Gemini 1.0 复杂的多模态推理能力可以帮助理解复杂的书面和视觉信息。这使它具备独特的技能,能够发现在海量数据中难以辨别的知识。

它通过阅读、筛选和理解信息,从数十万份文档中提取见解的非凡能力,将有助于在从科学到金融的许多领域以数字速度实现新的突破。

Gemini 解锁新的科学见解

理解文本、图像、音频等

Gemini 1.0 被训练为同时识别和理解文本、图像、音频等,因此它能更好地理解细微信息,并能回答与复杂主题相关的问题。这使它特别擅长解释数学和物理等复杂学科中的推理。

Gemini 解释数学和物理中的推理

高级编码

我们的第一个版本的 Gemini 可以理解、解释并生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它跨语言工作并对复杂信息进行推理的能力,使其成为世界上领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色,包括 HumanEval——评估编码任务性能的重要行业标准,以及 Natural2Code——我们的内部保留数据集,它使用作者生成的来源而非基于网络的信息。

Gemini 也可以用作更高级编码系统的引擎。两年前,我们推出了 AlphaCode——第一个在编程竞赛中达到有竞争力性能水平的 AI 代码生成系统。

使用 Gemini 的专用版本,我们创建了一个更先进的代码生成系统 AlphaCode 2,它擅长解决超越编码范畴的竞争性编程问题,涉及复杂的数学和理论计算机科学。

Gemini 擅长编码和竞争性编程

在与原始 AlphaCode 相同的平台上进行评估时,AlphaCode 2 显示出巨大的进步,解决了几乎两倍的问题,我们估计它的表现优于 85% 的竞赛参与者——而 AlphaCode 接近 50%。当程序员通过定义代码样本要遵循的某些属性来与 AlphaCode 2 协作时,它的表现甚至更好。

我们很高兴程序员越来越多地使用高能力 AI 模型作为协作工具,帮助他们推理问题、提出代码设计并协助实现——这样他们就能更快地发布应用程序和设计更好的服务。

更多细节请参阅我们的 AlphaCode 2 技术报告

更可靠、可扩展且高效

我们使用 Google 内部设计的 张量处理单元(TPU)v4 和 v5e,在我们的 AI 优化基础设施上大规模训练了 Gemini 1.0。我们将其设计为我们训练起来最可靠、最可扩展的模型,也是服务起来最高效的模型。

在 TPU 上,Gemini 的运行速度明显快于更早、更小、能力更弱的模型。这些定制设计的 AI 加速器一直是 Google AI 驱动产品的核心,这些产品为数十亿用户提供服务,如搜索、YouTube、Gmail、Google 地图、Google Play 和 Android。它们还使世界各地的公司能够经济高效地训练大规模 AI 模型。

今天,我们宣布了迄今为止最强大、最高效、最具可扩展性的 TPU 系统——Cloud TPU v5p,专为训练前沿 AI 模型而设计。下一代 TPU 将加速 Gemini 的开发,并帮助开发者和企业客户更快地训练大规模生成式 AI 模型,让新产品和功能更快地触达客户。

Google 数据中心中一排 Cloud TPU v5p AI 加速器超级计算机。

以责任和安全为核心构建

在 Google,我们致力于在我们所做的一切中推进大胆而负责任的 AI。在 Google 的 AI 原则 和我们产品中强大的安全政策基础上,我们正在添加新的保护措施以应对 Gemini 的多模态能力。在开发的每个阶段,我们都在考虑潜在风险,并致力于测试和减轻这些风险。

Gemini 拥有迄今为止所有 Google AI 模型中最全面的安全评估,包括偏见和毒性评估。我们对网络攻击、说服和自主性等潜在风险领域进行了新颖的研究,并应用了 Google Research 一流的对抗性测试技术,以帮助在 Gemini 部署前识别关键安全问题。

为了识别我们内部评估方法中的盲点,我们正在与多元化的外部专家和合作伙伴合作,对我们的模型进行一系列问题的压力测试。

为了在 Gemini 的训练阶段诊断内容安全问题并确保其输出符合我们的政策,我们使用了诸如 Real Toxicity Prompts 之类的基准测试——这是由 Allen AI 研究所的专家开发的一组 100,000 个从网络中提取的具有不同程度毒性的提示。关于这项工作的更多细节即将推出。

为了限制伤害,我们构建了专用的安全分类器来识别、标记和整理涉及暴力或负面刻板印象的内容。结合强大的过滤器,这种分层方法旨在使 Gemini 对每个人都更安全、更具包容性。此外,我们正在继续解决模型的已知挑战,如事实性、基础、归因和确证。

责任和安全将始终是我们模型开发和部署的核心。这是一项长期承诺,需要协作建设,因此我们正在与行业和更广泛的生态系统合作,通过 MLCommons、前沿模型论坛及其 AI 安全基金,以及我们的安全 AI 框架(SAIF)等组织,定义最佳实践并设定安全和安保基准。

可用性

从今天开始:

  • Bard 将使用 Gemini Pro 的精细调优版本,以提供更高级的推理、规划和理解能力。这是 Bard 有史以来最大的一次升级。
  • Pixel 8 Pro 将是首款搭载 Gemini Nano 的智能手机——它已经为 Recorder 中的摘要功能和 Gboard 的智能回复(首先支持 WhatsApp)等功能提供支持,未来还将推出更多功能。
  • 对于开发者和企业客户,Gemini Pro 将通过 Gemini API 提供,该 API 在 Google AI Studio 和 Google Cloud Vertex AI 中均可用。
  • Android 开发者也可以使用 Gemini Nano(通过 AICore)在最新的 Pixel 设备上构建端侧 AI 功能。
  • Gemini Ultra 目前正在向一小部分客户、开发者、合作伙伴以及安全和责任专家提供,以进行早期测试和反馈,并将在明年初更广泛地推出。
  • 明年初,我们还将推出 Bard Advanced,它将让你能够使用我们最好、推理能力最强的模型 Gemini Ultra,以处理高度复杂的任务。

这些只是 Gemini 将为 Google 生态系统带来的部分功能——我们将在未来几个月内分享更多关于它在搜索、广告、Chrome 和 Duet AI 等产品中的集成信息。

这是 Gemini 的开端。我们正在积极推进更多能力,包括新的模式和功能,以及在各个领域更深层次的集成。

今天标志着一个新时代的到来,我们迫不及待地想与大家一起探索 Gemini 带来的无限可能。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签