推出为开发者打造的 GPT‑5.1

今天,我们在 API 平台上发布了 GPT‑5.1。这是 GPT‑5 系列中的下一代模型,在智能与速度之间实现平衡,适用于广泛的智能体与编码任务。GPT‑5.1 会根据任务复杂度动态调整思考时间,让模型在处理日常简单任务时实现显著提速,并且在令牌(Token)使用上更高效。该模型还提供了"无推理"模式,用于在无需深度思考的任务中实现更快速的响应,同时保持 GPT‑5.1 的前沿智能。

为了让 GPT‑5.1 更加高效,我们推出了高级提示(Prompt)缓存功能,最长可保留 24 小时,从而在后续问题中以更低成本提供更快的响应。此外,我们的优先处理客户将可畅享相较 GPT‑5 实现大幅提速的 GPT‑5.1 性能。

在编码方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作,升级了 GPT‑5.1 的编码个性、可控性和代码质量。总体而言,使用 GPT‑5.1 编码更直观,而且在完成任务时用户可看到更清晰的更新。

最后,我们在 GPT‑5.1 中推出了两项新工具:一是 apply_patch 工具,助力更可靠地编辑代码;二是 shell 工具,使模型能够运行 Shell 命令。

GPT‑5.1 标志着 GPT‑5 系列的又一次跃进,我们计划继续投资于更智能、更强大的模型,帮助开发者构建可靠的智能体工作流。

在不同任务中进行高效推理

自适应推理

为了让 GPT‑5.1 速度更快,我们全面改进了训练方式,使其具备更灵活的思考机制。在简单任务中,GPT‑5.1 使用更少的 Token 进行推理,从而带来更流畅的产品体验并降低 Token 成本。在需要额外思考的复杂任务中,GPT‑5.1 保持持久性,探索不同选项并自我检查,以最大限度地提高可靠性。

Balyasny Asset Management 表示,GPT‑5.1"在我们的完整动态评估套件中表现优于 GPT‑4.1 和 GPT‑5,同时运行速度比 GPT‑5 快 2-3 倍。"他们还表示,在其大量使用工具的推理任务中,GPT‑5.1"始终以约一半的 Token 用量达到与领先竞品相当或更好的质量。"同样,AI 保险业务流程外包公司 Pace 也测试了该模型,并表示他们的智能体"在 GPT‑5.1 上运行速度提高了 50%,同时在我们的评估中准确率超过了 GPT‑5 和其他领先模型。"

GPT-5.1 在简单任务上花费更少时间,在困难任务上花费更多时间

第10百分位第30百分位第50百分位第70百分位第90百分位每次响应模型生成的 Token 数量(相对于 GPT-5)−88%−79%−70%−60%−45%−70%−50%−28%−7%+36%GPT-5(中等)GPT-5.1(中等)GPT-5.1(高)

GPT‑5.1 比 GPT‑5 更动态地调整思考时间。在一组具有代表性的 ChatGPT 任务分布中,即使在高推理强度下,GPT‑5.1 在较简单任务上的速度也要快得多。

例如,当被问及"显示一个列出全局安装包的 npm 命令"时,GPT‑5.1 只需 2 秒即可回答,而不是 10 秒。

GPT-5(中等)需要约 250 个 Token(约 10 秒)

显示一个列出全局安装包的 npm 命令

npm list -g --depth=0

GPT-5.1(中等)需要约 50 个 Token(约 2 秒)

显示一个列出全局安装包的 npm 命令

你可以使用以下命令列出全局安装的 npm 包:

  • 仅显示包名:npm ls -g --depth=0
  • 包含安装路径:npm ls -g

通常第一个就是你想要的。

全新"无推理"模式

开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用无推理的 GPT‑5.1。这使得模型在对延迟敏感的用例中表现得像非推理模型,同时拥有 GPT‑5.1 的高智能,并具备高性能工具调用的额外优势。相对于使用"最小"推理的 GPT‑5,无推理的 GPT‑5.1 在并行工具调用(这本身就能提高端到端任务完成速度)、编码任务、遵循指令和使用搜索工具方面表现更出色,并且在我们的 API 平台中支持网页搜索Sierra 分享称,在他们的实际评估中,"无推理"模式下的 GPT‑5.1"与 GPT‑5 最小推理相比,低延迟工具调用性能提升了 20%"。

随着 reasoning_effort 中引入 'none' 选项,开发者现在拥有了更大的灵活性和控制权,可以根据自己的用例在速度、成本和智能之间取得平衡。GPT‑5.1 默认为 'none',这非常适合对延迟敏感的工作负载。我们建议开发者对于复杂度较高的任务选择 'low''medium',而当智能和可靠性比速度更重要时选择 'high'

高级提示缓存

高级缓存通过允许提示在缓存中保留最长 24 小时(而非目前支持的几分钟)来提高推理效率。有了更长的保留窗口,更多的后续请求可以利用缓存的上下文——从而降低延迟、减少成本,并为多轮对话、编码会话或知识检索工作流等长时间运行的交互带来更流畅的性能。

提示缓存定价保持不变,缓存的输入 Token 比未缓存的 Token 便宜 90%,缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用高级缓存,请在 Responses 或 Chat Completions API 中添加参数 prompt_cache_retention='24h'。更多详情请参阅提示缓存文档

编码

GPT‑5.1 在 GPT‑5 编码能力的基础上,具备了更可控的编码个性、更少的过度思考、更高的代码质量、在工具调用序列中更好的面向用户的更新消息(前导文本),以及更实用的前端设计——尤其是在低推理强度下。

在快速代码编辑等较简单的编码任务中,GPT‑5.1 更快的速度使得来回迭代变得更加容易。GPT‑5.1 在简单任务上的速度提升并不会降低其在困难任务上的性能。在 SWE-bench Verified 上,GPT‑5.1 的思考时间甚至比 GPT‑5 更长,达到了 76.3%。

SWE-bench Verified 中,模型会获得一个代码仓库和问题描述,并且必须生成一个补丁来解决该问题。标签表示推理强度。准确率是在全部 500 个问题上的平均值。所有模型都使用了带有基于 JSON 的 apply_patch 工具的测试框架。

我们从少数编码公司那里获得了关于 GPT‑5.1 的早期反馈。以下是他们的评价:

  • Augment Code 称 GPT‑5.1"更审慎,无效动作更少,推理更高效,任务专注度更好",并且他们看到"更准确的变更、更顺畅的拉取请求,以及在多文件项目中更快的迭代速度。"
  • Cline 分享称,在他们的评估中,"GPT‑5.1 在我们的差异编辑基准测试中取得了 SOTA(最优水平),提升了 7%,展示了在复杂编码任务中的卓越可靠性。"
  • CodeRabbit 称 GPT‑5.1 是其"拉取请求审查的首选顶级模型。"
  • Cognition 表示,GPT‑5.1"在理解你的需求并与你合作完成任务方面明显更好。"
  • Factory 表示,"GPT‑5.1 提供了明显更敏捷的响应,并能根据任务调整推理深度,减少了过度思考,改善了整体开发者体验。"
  • Warp 正在将 GPT‑5.1 设为新用户的默认选项,称其"在 GPT‑5 系列引入的令人印象深刻的智能增益基础上,成为了一个响应速度快得多的模型。"

"GPT 5.1 不只是另一个大语言模型——它是真正的智能体,是我测试过的最自然自主的模型。它像你一样写作,像你一样编码,轻松遵循复杂指令,并且在前端任务中表现出色,可以无缝融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力,我们很高兴能在我们的 IDE 中提供它。"

—— Denis Shiryaev,JetBrains AI 开发者工具生态负责人

GPT-5.1 新增工具

我们在 GPT‑5.1 中推出了两项新工具,帮助开发者在 Responses API 中充分发挥模型的潜力:一个自由格式的 apply_patch 工具,用于使代码编辑更加可靠,无需进行 JSON 转义;以及一个 shell 工具,让模型可以编写命令在你的本地机器上运行。

Apply_patch 工具

自由格式的 apply_patch 工具允许 GPT‑5.1 使用结构化差异在代码库中创建、更新和删除文件。模型不仅仅是建议编辑,而是发出补丁操作,由应用程序应用并反馈结果,从而实现迭代的、多步骤的代码编辑工作流。

要在 Responses API 中使用 apply_patch 工具,请将其包含在 tools 数组中:"tools": [{"type": "apply_patch"}],然后要么在输入中包含文件内容,要么为模型提供与文件系统交互的工具。模型将生成 apply_patch_call 项,用于创建、更新或删除包含差异的文件,你可以将这些差异应用到文件系统中。有关如何与 apply_patch 工具集成的更多信息,请查看我们的开发者文档

Shell 工具

Shell 工具允许模型通过受控的命令行界面与本地计算机交互。模型提出 Shell 命令;开发者的集成执行这些命令并返回输出。这创建了一个简单的"计划-执行"循环,让模型可以检查系统、运行实用程序并收集数据,直到它们能够完成任务。

要在 Responses API 中使用 shell 工具,开发者可以将其包含在 tools 数组中:"tools": [{"type": "shell"}]。API 将生成 "shell_call" 项,其中包含要执行的 Shell 命令。开发者在本地环境中执行命令,并在下一个 API 请求的 "shell_call_output" 项中传回执行结果。在我们的开发者文档中了解更多。

定价和可用性

GPT‑5.1 和 gpt-5.1-chat-latest 已在 API 中向所有付费层级的开发者提供。定价和速率限制与 GPT‑5 相同。我们还在 API 中发布了 gpt-5.1-codexgpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色,但 gpt-5.1-codex 模型针对 Codex 或类 Codex 框架中的长时间运行的智能体编码任务进行了优化。

开发者可以使用我们的 GPT‑5.1 开发者文档模型提示指南开始构建。我们目前不计划在 API 中弃用 GPT‑5,如果我们决定这样做,会提前通知开发者。

下一步发展

我们致力于迭代式地部署最强大、最可靠的模型,用于真正的智能体和编码工作——这些模型能够高效思考、快速迭代,并在保持开发者工作流畅的同时处理复杂任务。凭借自适应推理、更强的编码性能、更清晰的面向用户的更新,以及 apply_patchshell 等新工具,GPT‑5.1 旨在帮助你以更少的摩擦进行构建。我们正在继续大力投资于此:在未来的几周和几个月里,你可以期待更强大的智能体和编码模型。

附录:模型评估

评估GPT‑5.1(高)GPT‑5(高)
SWE-bench Verified(全部 500 个问题)76.3%72.8%
GPQA Diamond(无工具)88.1%85.7%
AIME 2025(无工具)94.0%94.6%
FrontierMath(使用 Python 工具)26.7%26.3%
MMMU85.4%84.2%
Tau²-bench Airline67.0%62.6%
Tau²-bench Telecom\*95.6%96.7%
Tau²-bench Retail77.9%81.1%
BrowseComp 长上下文 128k90.0%90.0%

\ 对于 Tau²-bench Telecom,我们给了 GPT‑5.1 一个简短的、通用的有帮助提示以提高其性能。*

ESC

输入关键词开始搜索

支持搜索标题、内容、标签