去年 12 月,我们推出了首个原生多模态模型 Gemini 1.0,包含 Ultra、Pro 和 Nano 三个版本。仅仅几个月后,我们发布了 1.5 Pro,性能得到增强,并实现了 100 万 tokens 上下文窗口的突破性进展。
开发者和企业客户已经以令人难以置信的方式将 1.5 Pro 投入使用,并发现其长上下文窗口、多模态推理能力和出色的整体性能非常有用。
从用户反馈中我们了解到,某些应用场景需要更低的延迟和更低的服务成本。这激励着我们持续创新,因此,今天我们推出 Gemini 1.5 Flash:一款比 1.5 Pro 更轻量级的模型,专为大规模快速高效服务而设计。
1.5 Pro 和 1.5 Flash 现已在 Google AI Studio 和 Vertex AI 中公开预览,并配备 100 万 token 上下文窗口。现在,1.5 Pro 还通过候补名单向使用 API 的开发者和 Google Cloud 客户 提供 200 万 token 上下文窗口。
我们还将推出 Gemini 模型家族的全面更新,宣布我们的下一代开放模型 Gemma 2,并分享关于 AI 助手未来的进展——Project Astra。
领先基础模型的上下文长度与 Gemini 1.5 的 200 万 token 能力对比
Gemini 模型家族更新
全新 1.5 Flash:专为速度和效率优化
1.5 Flash 是 Gemini 模型家族的最新成员,也是 API 中服务速度最快的 Gemini 模型。它针对大规模高容量、高频任务进行了优化,服务成本更低,并具备我们突破性的长上下文窗口。
虽然它是比 1.5 Pro 更轻量级的模型,但它能够对海量信息进行多模态推理,并为其规模提供令人印象深刻的质量。
全新的 Gemini 1.5 Flash 模型专为速度和效率优化,具备强大的多模态推理能力,并拥有我们突破性的长上下文窗口。
1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等任务。这是因为它通过"蒸馏"过程由 1.5 Pro 训练而来——将大型模型中最核心的知识和技能转移到更小、更高效的模型中。
在我们更新的 Gemini 1.5 技术报告、Gemini 技术页面 中了解更多关于 1.5 Flash 的信息,并了解 1.5 Flash 的可用性和定价。
显著改进 1.5 Pro
在过去几个月里,我们显著改进了 1.5 Pro——我们在广泛任务中表现最佳的通用模型。
除了将其上下文窗口扩展到 200 万 tokens 外,我们还通过数据和算法的进步,增强了其代码生成、逻辑推理与规划、多轮对话以及音频和图像理解能力。我们在这些任务的公共和内部基准测试中都看到了强劲的改进。
1.5 Pro 现在可以遵循日益复杂和细致的指令,包括那些指定涉及角色、格式和风格的产品级行为的指令。我们改进了对模型在特定用例下响应的控制,比如打造聊天代理的角色和响应风格,或通过多次函数调用自动化工作流。我们还使用户能够通过设置系统指令来引导模型行为。
我们在 Gemini API 和 Google AI Studio 中添加了音频理解功能,因此 1.5 Pro 现在可以对 Google AI Studio 中上传的视频进行图像和音频的交叉推理。我们现在正在将 1.5 Pro 集成到 Google 产品中,包括 Gemini Advanced 和 Workspace 应用。
在我们更新的 Gemini 1.5 技术报告 和 Gemini 技术页面 中了解更多关于 1.5 Pro 的信息。
Gemini Nano 理解多模态输入
Gemini Nano 正在从纯文本输入扩展到也包括图像。从 Pixel 开始,使用多模态 Gemini Nano 的应用程序将能够像人类一样理解世界——不仅通过文本,还通过视觉、声音和口语。
在 Google 官方博客 上了解更多关于 Android 上 Gemini 1.0 Nano 的信息。
下一代开放模型
今天,我们还分享了对 Gemma 的一系列更新——这是我们的开放模型家族,使用与创建 Gemini 模型相同的研究和技术构建。
我们宣布 Gemma 2——我们的下一代开放模型,致力于负责任的 AI 创新。Gemma 2 采用新架构,专为突破性性能和效率而设计,并将提供新的尺寸。
Gemma 家族还新增了 PaliGemma——我们受 PaLI-3 启发的首个视觉语言模型。我们还升级了我们的负责任生成式 AI 工具包,新增了用于评估模型响应质量的 LLM Comparator。
在 开发者博客 上了解更多。
通用 AI 智能体的开发进展
作为 Google DeepMind 负责任地构建 AI 以造福人类的使命的一部分,我们一直希望开发能够在日常生活中提供帮助的通用 AI 智能体。这就是为什么今天,我们要分享我们在构建 AI 助手未来方面的进展——Project Astra(高级视觉与对话响应式智能体)。
要真正有用,智能体需要像人类一样理解和响应复杂而动态的世界——接收并记住它所看到和听到的内容,以理解上下文并采取行动。它还需要主动、可教且个性化,这样用户才能自然地与其交谈,而不会有滞后或延迟。
虽然我们在开发能够理解多模态信息的 AI 系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别的速度是一项艰巨的工程挑战。在过去几年中,我们一直在努力改进模型的感知、推理和对话方式,以使交互的节奏和质量感觉更加自然。
Project Astra 的两部分演示——我们对 AI 助手未来的愿景。每部分都是一次性实时拍摄的。
在 Gemini 的基础上,我们开发了原型智能体,它们可以通过连续编码视频帧、将视频和语音输入组合成事件时间线,并缓存这些信息以实现高效回忆,从而更快地处理信息。
通过利用我们领先的语音模型,我们还增强了它们的声音,赋予智能体更广泛的语调范围。这些智能体可以更好地理解它们被使用的上下文,并在对话中快速响应。
有了这样的技术,很容易想象这样一个未来:人们可以通过手机或眼镜,拥有一个专家级 AI 助手在身边。其中一些功能将在今年晚些时候登陆 Google 产品,比如 Gemini 应用和网页体验。
持续探索
到目前为止,我们的 Gemini 模型家族已经取得了令人难以置信的进展,我们始终在努力进一步推进最先进的技术。通过投资于不懈的创新生产线,我们能够在前沿探索新想法,同时也开启新的、令人兴奋的 Gemini 用例的可能性。
了解更多关于 Gemini 及其能力 的信息。