推出 Gemini 2.0:为智能体时代打造的全新 AI 模型

Google 及 Alphabet CEO Sundar Pichai 的寄语:

信息是人类进步的核心。这就是为什么 26 年多来,我们始终专注于"整合全球信息,供大众使用,使人人受益"的使命。也正因为如此,我们不断推动 AI 的前沿发展,以跨各种输入形式组织信息,并通过任何输出来提供,使其真正为你所用。

这正是我们去年 12 月推出 Gemini 1.0 时的愿景。作为首个原生多模态构建的模型,Gemini 1.0 和 1.5 在多模态和长上下文方面取得了重大进展,能够跨文本、视频、图像、音频和代码理解信息,并处理更多的内容。

如今,数百万开发者正在使用 Gemini 进行构建。它正在帮助我们重新构想所有产品——包括我们全部 7 款拥有 20 亿用户的产品——并创造新产品。NotebookLM 就是多模态和长上下文能为人们带来什么的绝佳例子,也正因如此,它深受众人喜爱。

在过去一年里,我们一直在投资开发更具智能体(agentic)特性的模型——这意味着它们能更多地了解你周围的世界,提前多步思考,并在你的监督下代表你采取行动。

今天,我们很高兴地推出为这个全新智能体时代打造的下一代模型:Gemini 2.0,这是我们迄今为止能力最强的模型。凭借多模态方面的新进展——比如原生图像和音频输出——以及原生工具使用能力,它将使我们能够构建新的 AI 智能体,让我们离通用助手的愿景更近一步。

我们今天就将 2.0 交到开发者和可信测试者手中。我们正在快速将其集成到我们的产品中,首先从 Gemini 和 Search 开始。从今天起,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还推出了一项名为 Deep Research 的新功能,它利用高级推理和长上下文能力,充当研究助手,帮你探索复杂主题并撰写报告。它今天已在 Gemini Advanced 中可用,你可以在我们的网站上了解更多

没有什么产品比搜索被 AI 改变得更多了。我们的 AI 概览(AI Overviews)现已覆盖 10 亿用户,让人们能够提出全新类型的问题——迅速成为我们有史以来最受欢迎的搜索功能之一。下一步,我们将把 Gemini 2.0 的高级推理能力引入 AI 概览,以处理更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编程。我们本周已开始有限测试,并将在明年初更广泛地推出。在接下来的一年里,我们还将继续把 AI 概览带到更多国家和语言。

2.0 的进步建立在我们长达十年的差异化全栈 AI 创新方法之上。它构建在定制硬件之上,比如我们的第六代 TPU——Trillium。TPU 为 Gemini 2.0 的训练和推理提供了 100% 的动力,而今天 Trillium 已正式商用,客户也可以用它来构建。

如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 就是关于让信息变得更加有用。我迫不及待地想看看这个新时代会带来什么。

—— Sundar

推出 Gemini 2.0:为智能体时代打造的全新 AI 模型

作者:Demis Hassabis,Google DeepMind CEO;Koray Kavukcuoglu,Google DeepMind CTO,代表 Gemini 团队

在过去一年里,我们在人工智能领域继续取得令人难以置信的进展。今天,我们发布 Gemini 2.0 模型家族中的第一个模型:Gemini 2.0 Flash 实验版。这是我们的主力工作马模型,具有低延迟和增强的性能,处于我们技术的最前沿,且具备规模化能力。

我们还通过展示由 Gemini 2.0 的原生多模态能力实现的原型,分享我们智能体研究的前沿成果。

Gemini 2.0 Flash

Gemini 2.0 Flash 建立在 1.5 Flash 的成功之上——1.5 Flash 是我们迄今为止最受开发者欢迎的模型——在同样快速的响应时间下提供增强的性能。值得注意的是,2.0 Flash 甚至在关键基准测试中超越了 1.5 Pro,速度是其两倍。2.0 Flash 还带来了新能力。除了支持图像、视频和音频等多模态输入外,2.0 Flash 现在还支持多模态输出,比如与文本混合的原生生成图像,以及可控的文本转语音(TTS)多语言音频。它还可以原生调用工具,如 Google 搜索、代码执行以及第三方用户定义函数。

我们的目标是安全、快速地将我们的模型交到人们手中。在过去的一个月里,我们一直在分享早期的实验版 Gemini 2.0,从开发者那里获得了很好的反馈。

Gemini 2.0 Flash 现在作为实验模型向开发者提供,通过 Google AI StudioVertex AI 中的 Gemini API 访问,所有开发者都可以使用多模态输入和文本输出,而文本转语音和原生图像生成则面向早期访问合作伙伴开放。正式版(GA)将于明年 1 月推出,同时还会有更多模型尺寸。

为了帮助开发者构建动态和交互式应用程序,我们还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。关于 2.0 Flash 和 Multimodal Live API 的更多信息可以在我们的开发者博客中找到。

Gemini 2.0 已在 Gemini 应用(我们的 AI 助手)中可用

同样从今天开始,全球 Gemini 用户可以通过在桌面端和移动网页的模型下拉菜单中选择来访问 2.0 Flash 实验版的聊天优化版本,它也将很快在 Gemini 移动应用中可用。有了这个新模型,用户可以体验更加有用的 Gemini 助手。

明年初,我们将把 Gemini 2.0 扩展到更多 Google 产品。

用 Gemini 2.0 解锁智能体体验

Gemini 2.0 Flash 的原生用户界面操作能力,以及多模态推理、长上下文理解、复杂指令遵循与规划、组合函数调用、原生工具使用和改进的延迟等其他改进,共同发挥作用,实现了一类新的智能体体验。

AI 智能体的实际应用是一个充满令人兴奋可能性的研究领域。我们正在通过一系列原型探索这个新前沿,这些原型可以帮助人们完成任务和把事情做好。其中包括 Project Astra 的更新——我们探索通用 AI 助手未来能力的研究原型;全新的 Project Mariner——它从你的浏览器开始,探索人机智能体交互的未来;以及 Jules——一个可以帮助开发者的 AI 驱动代码智能体。

我们仍处于开发的早期阶段,但我们很高兴看到可信测试者如何使用这些新功能,以及我们能学到什么经验教训,以便将来在产品中更广泛地提供这些功能。

Project Astra:在现实世界中使用多模态理解的智能体

自从我们在 I/O 大会上推出 Project Astra 以来,我们一直在从在 Android 手机上使用它的可信测试者那里学习。他们宝贵的反馈帮助我们更好地理解了通用 AI 助手在实践中如何工作,包括对安全和伦理的影响。使用 Gemini 2.0 构建的最新版本的改进包括:

  • 更好的对话: Project Astra 现在能够使用多种语言和混合语言进行对话,对口音和不常见词汇有更好的理解。
  • 新的工具使用: 有了 Gemini 2.0,Project Astra 可以使用 Google 搜索、Lens 和地图,使其作为你日常生活中的助手更加有用。
  • 更好的记忆: 我们提高了 Project Astra 在让你掌控的同时记住事物的能力。它现在拥有长达 10 分钟的会话内记忆,并且可以记住你过去与它进行的更多对话,因此它能更好地为你个性化。
  • 改进的延迟: 凭借新的流处理能力和原生音频理解,智能体可以以大约人类对话的延迟理解语言。

我们正在努力将这些类型的功能带到 Google 产品中,比如 Gemini 应用、我们的 AI 助手,以及眼镜等其他形态因素。我们也开始将可信测试者计划扩展到更多人,包括一小群人,他们很快将开始在原型眼镜上测试 Project Astra。

Project Mariner:可以帮你完成复杂任务的智能体

Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,它从你的浏览器开始,探索人机智能体交互的未来。作为一个研究原型,它能够理解和推理你浏览器屏幕中的信息,包括像素和文本、代码、图像、表单等网页元素,然后通过一个实验性的 Chrome 扩展使用这些信息为你完成任务。

在针对 WebVoyager 基准测试(该基准测试端到端真实世界网络任务中的智能体性能)进行评估时,Project Mariner 作为单智能体设置取得了 83.5% 的最先进结果

现在还为时尚早,但 Project Mariner 表明,在浏览器内导航在技术上已成为可能,尽管它今天并不总是准确且完成任务速度较慢,而这会随着时间的推移迅速改善。

为了安全、负责任地构建这个系统,我们正在对新型风险和缓解措施进行积极研究,同时保持人类处于循环中。例如,Project Mariner 只能在浏览器的活动标签页中打字、滚动或点击,并且在采取某些敏感行动(比如购买东西)之前会要求用户最终确认。

可信测试者现在开始使用实验性的 Chrome 扩展测试 Project Mariner,我们同时也开始与网络生态系统进行对话。

Jules:面向开发者的智能体

接下来,我们正在探索 AI 智能体如何通过 Jules 帮助开发者——Jules 是一个实验性的 AI 驱动代码智能体,直接集成到 GitHub 工作流中。它可以处理一个问题,制定计划并执行,所有这些都在开发者的指导和监督下进行。这项努力是我们构建在所有领域(包括编码)都有用的 AI 智能体这一长期目标的一部分。

关于这个正在进行的实验的更多信息可以在我们的开发者博客文章中找到。

游戏和其他领域中的智能体

Google DeepMind 有着悠久的历史,使用游戏来帮助 AI 模型变得更擅长遵循规则、规划和逻辑。例如,就在上周,我们推出了 Genie 2——我们的 AI 模型可以创建无穷无尽的可玩 3D 世界——全部从单张图像生成。秉承这一传统,我们使用 Gemini 2.0 构建了智能体,可以帮助你在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作对游戏进行推理,并在实时对话中提供下一步该做什么的建议。

我们正在与 Supercell 等领先游戏开发商合作,探索这些智能体的工作原理,测试它们在各种游戏中解释规则和挑战的能力——从《部落冲突》等策略游戏到《卡通农场》等农场模拟游戏。

除了充当虚拟游戏伙伴外,这些智能体甚至可以利用 Google 搜索将你与网络上丰富的游戏知识联系起来。

除了探索虚拟世界中的智能体能力外,我们还在试验可以通过将 Gemini 2.0 的空间推理能力应用于机器人技术来帮助物理世界的智能体。虽然还处于早期阶段,但我们对能够在物理环境中提供帮助的智能体的潜力感到兴奋。

你可以在 labs.google 了解更多关于这些研究原型和实验的信息。

在智能体时代负责任地构建

Gemini 2.0 Flash 和我们的研究原型使我们能够测试和迭代处于 AI 研究前沿的新能力,这些能力最终将使 Google 产品更有用。

随着我们开发这些新技术,我们认识到它所带来的责任,以及 AI 智能体为安全和安保带来的许多问题。这就是为什么我们采取探索性和渐进式的开发方法,对多个原型进行研究,迭代实施安全培训,与可信测试者和外部专家合作,并进行广泛的风险评估以及安全和保障评估。

例如:

  • 作为我们安全流程的一部分,我们与责任与安全委员会(RSC)——我们历史悠久的内部审查小组——合作,识别和理解潜在风险。
  • 我们正在与外部专家和合作伙伴合作,对我们的智能体原型进行压力测试,识别盲点并为最佳实践做出贡献。
  • 我们的智能体原型内置了护栏,比如在采取某些敏感行动之前要求用户确认,并从一开始就设计了透明度。

我们将继续迭代和改进,随着这些技术的成熟,分享更多关于我们安全方法的信息。

接下来是什么

自 Gemini 1.0 推出以来的一年里,我们从一个能够理解和推理信息的模型,发展到一系列正在开启智能体时代的模型。这是一个快速发展的领域,我们才刚刚开始看到可能性的出现。

Gemini 2.0 Flash 今天作为实验模型可用,更多 Gemini 2.0 模型将于明年初推出——所有这些都以安全和责任为核心。我们将继续投资于基础研究和产品开发,以构建更有能力的模型和智能体,并通过我们的产品将它们交到每个人手中。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签