我们的下一代模型：Gemini 1.5 - Gemini

Google 及 Alphabet CEO Sundar Pichai 的寄语：

上周，我们推出了能力最强的模型 Gemini 1.0 Ultra，并从 Gemini Advanced 开始，在让 Google 产品更有用方面迈出了重要一步。今天，开发者和云客户也可以开始使用 1.0 Ultra 进行构建——通过 AI Studio 和 Vertex AI 中的 Gemini API。

我们的团队继续以安全为核心，不断推进最新型号的前沿发展。他们进展迅速。事实上，我们已经准备好推出下一代：Gemini 1.5。它在多个维度上都展现出了显著的提升，而 1.5 Pro 的质量可与 1.0 Ultra 相媲美，同时使用的计算资源更少。

这新一代模型还在长上下文理解方面实现了突破。我们已经能够大幅增加模型可处理的信息量——稳定运行高达 100 万 tokens，是迄今为止所有大规模基础模型中最长的上下文窗口。

更长的上下文窗口向我们展示了可能性的前景。它们将带来全新的能力，并帮助开发者构建更有用的模型和应用。我们很高兴能向开发者和企业客户提供这一实验性功能的有限预览。Demis 将在下方分享更多关于能力、安全性和可用性的信息。

—— Sundar

推出 Gemini 1.5

作者：Demis Hassabis，Google DeepMind CEO，代表 Gemini 团队

这是 AI 领域激动人心的时刻。该领域的新进展有望在未来几年让 AI 对数十亿人更加有用。自从推出 Gemini 1.0 以来，我们一直在测试、改进和增强其能力。

今天，我们宣布推出下一代模型：Gemini 1.5。

Gemini 1.5 带来了显著提升的性能。它代表了我们方法上的一次质变，建立在研究和工程创新之上，涵盖了我们基础模型开发和基础设施的几乎每一个部分。这包括让 Gemini 1.5 的训练和服务更加高效，采用了全新的混合专家（MoE）架构。

我们发布的首个 Gemini 1.5 模型是 Gemini 1.5 Pro。这是一款中型多模态模型，经过优化可在广泛任务上规模化运行，其性能与我们迄今为止最大的模型 1.0 Ultra 相当。它还引入了长上下文理解方面的突破性实验性功能。

Gemini 1.5 Pro 标配 128,000 tokens 的上下文窗口。但从今天开始，有限的开发者和企业客户群体可以通过 AI Studio 和 Vertex AI 的私有预览，尝试高达 100 万 tokens 的上下文窗口。

随着我们全面推出 100 万 tokens 上下文窗口，我们正在积极优化，以改善延迟、降低计算需求并提升用户体验。我们很高兴人们能尝试这一突破性能力，并在下方分享更多关于未来可用性的细节。

这些下一代模型的持续进步，将为人们、开发者和企业创造、发现和构建的新可能打开大门。

领先基础模型的上下文长度

高效的架构

Gemini 1.5 建立在我们对 Transformer 和 MoE 架构的领先研究之上。传统 Transformer 充当一个大型神经网络，而 MoE 模型则分为更小的"专家"神经网络。

根据给定输入的类型，MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。Google 一直是深度学习 MoE 技术的早期采用者和先驱，通过稀疏门控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究。

我们在模型架构方面的最新创新使 Gemini 1.5 能够更快地学习复杂任务并保持质量，同时更高效地进行训练和服务。这些效率正在帮助我们的团队比以往任何时候都更快地迭代、训练和交付更高级的 Gemini 版本，并且我们正在努力进一步优化。

更大的上下文，更有用的功能

AI 模型的"上下文窗口"由 tokens 组成，tokens 是用于处理信息的构建块。Tokens 可以是单词、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大，它在给定提示中可以接收和处理的信息就越多——从而使其输出更加一致、相关和有用。

通过一系列机器学习创新，我们将 1.5 Pro 的上下文窗口容量增加到远远超出 Gemini 1.0 最初的 32,000 tokens。我们现在可以在生产环境中运行多达 100 万个 tokens。

这意味着 1.5 Pro 可以一次性处理大量信息——包括 1 小时的视频、11 小时的音频、超过 30,000 行代码的代码库或超过 700,000 个单词。在我们的研究中，我们还成功测试了多达 1000 万个 tokens。

对大量信息进行复杂推理

1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如，当给出阿波罗 11 号登月任务的 402 页记录时，它可以推理整个文档中的对话、事件和细节。

Gemini 1.5 Pro 可以理解、推理和识别阿波罗 11 号登月任务 402 页记录中的奇妙细节。

更好地跨模态理解和推理

1.5 Pro 可以对不同模态（包括视频）执行高度复杂的理解和推理任务。例如，当给出一部 44 分钟的巴斯特·基顿无声电影时，该模型可以准确分析各种情节点和事件，甚至推理电影中容易被忽略的小细节。

当给出简单的线条图作为现实生活中物体的参考材料时，Gemini 1.5 Pro 可以识别 44 分钟的巴斯特·基顿无声电影中的场景。

使用更长代码块的相关问题解决

1.5 Pro 可以跨更长的代码块执行更相关的问题解决任务。当给出超过 100,000 行代码的提示时，它可以更好地跨示例进行推理，提出有用的修改，并解释代码的不同部分如何工作。

Gemini 1.5 Pro 可以跨 100,000 行代码进行推理，给出有用的解决方案、修改和解释。

增强的性能

在对文本、代码、图像、音频和视频评估进行全面测试时，1.5 Pro 在我们用于开发大型语言模型（LLM）的 87% 的基准测试中优于 1.0 Pro。当在相同基准上与 1.0 Ultra 进行比较时，它的表现大致相当。

即使上下文窗口增加，Gemini 1.5 Pro 也能保持高水平的性能。在"大海捞针"（NIAH）评估中——一小段包含特定事实或陈述的文本被故意放置在长文本块中——1.5 Pro 在 100 万 tokens 的数据块中 99% 的时间都能找到嵌入的文本。

Gemini 1.5 Pro 还展示了令人印象深刻的"上下文学习"技能，这意味着它可以从长提示中给出的信息中学习新技能，而无需额外的微调。我们在"从一本书中学习机器翻译"（MTOB）基准上测试了这项技能，该基准显示模型从它从未见过的信息中学习的效果如何。当给出 Kalamang——一种全球使用者不到 200 人的语言——的语法手册时，模型学习从英语翻译到 Kalamang 的水平与从相同内容学习的人类似。

由于 1.5 Pro 的长上下文窗口在大规模模型中尚属首次，我们正在不断开发新的评估和基准测试来测试其新颖的能力。

更多详情，请参阅我们的 Gemini 1.5 Pro 技术报告。

广泛的伦理与安全测试

根据我们的 AI 原则和强大的安全政策，我们确保我们的模型经过广泛的伦理和安全测试。然后，我们将这些研究成果整合到我们的治理流程以及模型开发和评估中，以持续改进我们的 AI 系统。

自 12 月推出 1.0 Ultra 以来，我们的团队一直在完善该模型，使其更安全地进行更广泛的发布。我们还对安全风险进行了新颖的研究，并开发了红队技术来测试一系列潜在危害。

在发布 1.5 Pro 之前，我们采取了与 Gemini 1.0 模型相同的负责任部署方法，在内容安全和代表性伤害等领域进行了广泛评估，并将继续扩大这一测试范围。除此之外，我们正在开发进一步的测试，以应对 1.5 Pro 新颖的长上下文能力。

使用 Gemini 模型构建和实验

我们致力于负责任地将每一代 Gemini 模型带给全球数十亿人、开发者和企业。

从今天开始，我们通过 AI Studio 和 Vertex AI 向开发者和企业客户提供 1.5 Pro 的有限预览。在我们的 Google for Developers 博客和 Google Cloud 博客上了解更多相关信息。

当模型准备好进行更广泛的发布时，我们将推出标准 128,000 token 上下文窗口的 1.5 Pro。很快，我们计划推出从标准 128,000 上下文窗口开始，随着模型的改进逐步扩展到 100 万 tokens 的定价层级。

早期测试人员可以在测试期间免费尝试 100 万 token 上下文窗口，尽管他们应该预期此实验性功能的延迟时间会更长。速度方面的显著改进也即将到来。

有兴趣测试 1.5 Pro 的开发者可以在 AI Studio 中立即注册，而企业客户可以联系他们的 Vertex AI 客户团队。

了解更多关于 Gemini 的能力及其工作原理。