推出为开发者打造的 GPT‑5.1 - ChatGPT

今天，我们在 API 平台上发布了 GPT‑5.1。这是 GPT‑5 系列中的下一代模型，在智能与速度之间实现平衡，适用于广泛的智能体与编码任务。GPT‑5.1 会根据任务复杂度动态调整思考时间，让模型在处理日常简单任务时实现显著提速，并且在令牌（Token）使用上更高效。该模型还提供了"无推理"模式，用于在无需深度思考的任务中实现更快速的响应，同时保持 GPT‑5.1 的前沿智能。

为了让 GPT‑5.1 更加高效，我们推出了高级提示（Prompt）缓存功能，最长可保留 24 小时，从而在后续问题中以更低成本提供更快的响应。此外，我们的优先处理客户将可畅享相较 GPT‑5 实现大幅提速的 GPT‑5.1 性能。

在编码方面，我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作，升级了 GPT‑5.1 的编码个性、可控性和代码质量。总体而言，使用 GPT‑5.1 编码更直观，而且在完成任务时用户可看到更清晰的更新。

最后，我们在 GPT‑5.1 中推出了两项新工具：一是 apply_patch 工具，助力更可靠地编辑代码；二是 shell 工具，使模型能够运行 Shell 命令。

GPT‑5.1 标志着 GPT‑5 系列的又一次跃进，我们计划继续投资于更智能、更强大的模型，帮助开发者构建可靠的智能体工作流。

在不同任务中进行高效推理

自适应推理

为了让 GPT‑5.1 速度更快，我们全面改进了训练方式，使其具备更灵活的思考机制。在简单任务中，GPT‑5.1 使用更少的 Token 进行推理，从而带来更流畅的产品体验并降低 Token 成本。在需要额外思考的复杂任务中，GPT‑5.1 保持持久性，探索不同选项并自我检查，以最大限度地提高可靠性。

Balyasny Asset Management 表示，GPT‑5.1"在我们的完整动态评估套件中表现优于 GPT‑4.1 和 GPT‑5，同时运行速度比 GPT‑5 快 2-3 倍。"他们还表示，在其大量使用工具的推理任务中，GPT‑5.1"始终以约一半的 Token 用量达到与领先竞品相当或更好的质量。"同样，AI 保险业务流程外包公司 Pace 也测试了该模型，并表示他们的智能体"在 GPT‑5.1 上运行速度提高了 50%，同时在我们的评估中准确率超过了 GPT‑5 和其他领先模型。"

GPT-5.1 在简单任务上花费更少时间，在困难任务上花费更多时间

第10百分位第30百分位第50百分位第70百分位第90百分位每次响应模型生成的 Token 数量（相对于 GPT-5）−88%−79%−70%−60%−45%−70%−50%−28%−7%+36%GPT-5（中等）GPT-5.1（中等）GPT-5.1（高）

GPT‑5.1 比 GPT‑5 更动态地调整思考时间。在一组具有代表性的 ChatGPT 任务分布中，即使在高推理强度下，GPT‑5.1 在较简单任务上的速度也要快得多。

例如，当被问及"显示一个列出全局安装包的 npm 命令"时，GPT‑5.1 只需 2 秒即可回答，而不是 10 秒。

GPT-5（中等）需要约 250 个 Token（约 10 秒）

显示一个列出全局安装包的 npm 命令

npm list -g --depth=0

GPT-5.1（中等）需要约 50 个 Token（约 2 秒）

显示一个列出全局安装包的 npm 命令

你可以使用以下命令列出全局安装的 npm 包：

仅显示包名：npm ls -g --depth=0
包含安装路径：npm ls -g

通常第一个就是你想要的。

全新"无推理"模式

开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用无推理的 GPT‑5.1。这使得模型在对延迟敏感的用例中表现得像非推理模型，同时拥有 GPT‑5.1 的高智能，并具备高性能工具调用的额外优势。相对于使用"最小"推理的 GPT‑5，无推理的 GPT‑5.1 在并行工具调用（这本身就能提高端到端任务完成速度）、编码任务、遵循指令和使用搜索工具方面表现更出色，并且在我们的 API 平台中支持网页搜索。Sierra 分享称，在他们的实际评估中，"无推理"模式下的 GPT‑5.1"与 GPT‑5 最小推理相比，低延迟工具调用性能提升了 20%"。

随着 reasoning_effort 中引入 'none' 选项，开发者现在拥有了更大的灵活性和控制权，可以根据自己的用例在速度、成本和智能之间取得平衡。GPT‑5.1 默认为 'none'，这非常适合对延迟敏感的工作负载。我们建议开发者对于复杂度较高的任务选择 'low' 或 'medium'，而当智能和可靠性比速度更重要时选择 'high'。

高级提示缓存

高级缓存通过允许提示在缓存中保留最长 24 小时（而非目前支持的几分钟）来提高推理效率。有了更长的保留窗口，更多的后续请求可以利用缓存的上下文——从而降低延迟、减少成本，并为多轮对话、编码会话或知识检索工作流等长时间运行的交互带来更流畅的性能。

提示缓存定价保持不变，缓存的输入 Token 比未缓存的 Token 便宜 90%，缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用高级缓存，请在 Responses 或 Chat Completions API 中添加参数 prompt_cache_retention='24h'。更多详情请参阅提示缓存文档。

编码

GPT‑5.1 在 GPT‑5 编码能力的基础上，具备了更可控的编码个性、更少的过度思考、更高的代码质量、在工具调用序列中更好的面向用户的更新消息（前导文本），以及更实用的前端设计——尤其是在低推理强度下。

在快速代码编辑等较简单的编码任务中，GPT‑5.1 更快的速度使得来回迭代变得更加容易。GPT‑5.1 在简单任务上的速度提升并不会降低其在困难任务上的性能。在 SWE-bench Verified 上，GPT‑5.1 的思考时间甚至比 GPT‑5 更长，达到了 76.3%。

在 SWE-bench Verified 中，模型会获得一个代码仓库和问题描述，并且必须生成一个补丁来解决该问题。标签表示推理强度。准确率是在全部 500 个问题上的平均值。所有模型都使用了带有基于 JSON 的 apply_patch 工具的测试框架。

我们从少数编码公司那里获得了关于 GPT‑5.1 的早期反馈。以下是他们的评价：

Augment Code 称 GPT‑5.1"更审慎，无效动作更少，推理更高效，任务专注度更好"，并且他们看到"更准确的变更、更顺畅的拉取请求，以及在多文件项目中更快的迭代速度。"
Cline 分享称，在他们的评估中，"GPT‑5.1 在我们的差异编辑基准测试中取得了 SOTA（最优水平），提升了 7%，展示了在复杂编码任务中的卓越可靠性。"
CodeRabbit 称 GPT‑5.1 是其"拉取请求审查的首选顶级模型。"
Cognition 表示，GPT‑5.1"在理解你的需求并与你合作完成任务方面明显更好。"
Factory 表示，"GPT‑5.1 提供了明显更敏捷的响应，并能根据任务调整推理深度，减少了过度思考，改善了整体开发者体验。"
Warp 正在将 GPT‑5.1 设为新用户的默认选项，称其"在 GPT‑5 系列引入的令人印象深刻的智能增益基础上，成为了一个响应速度快得多的模型。"

"GPT 5.1 不只是另一个大语言模型——它是真正的智能体，是我测试过的最自然自主的模型。它像你一样写作，像你一样编码，轻松遵循复杂指令，并且在前端任务中表现出色，可以无缝融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力，我们很高兴能在我们的 IDE 中提供它。"

—— Denis Shiryaev，JetBrains AI 开发者工具生态负责人

GPT-5.1 新增工具

我们在 GPT‑5.1 中推出了两项新工具，帮助开发者在 Responses API 中充分发挥模型的潜力：一个自由格式的 apply_patch 工具，用于使代码编辑更加可靠，无需进行 JSON 转义；以及一个 shell 工具，让模型可以编写命令在你的本地机器上运行。

Apply_patch 工具

自由格式的 apply_patch 工具允许 GPT‑5.1 使用结构化差异在代码库中创建、更新和删除文件。模型不仅仅是建议编辑，而是发出补丁操作，由应用程序应用并反馈结果，从而实现迭代的、多步骤的代码编辑工作流。

要在 Responses API 中使用 apply_patch 工具，请将其包含在 tools 数组中："tools": [{"type": "apply_patch"}]，然后要么在输入中包含文件内容，要么为模型提供与文件系统交互的工具。模型将生成 apply_patch_call 项，用于创建、更新或删除包含差异的文件，你可以将这些差异应用到文件系统中。有关如何与 apply_patch 工具集成的更多信息，请查看我们的开发者文档。

Shell 工具

Shell 工具允许模型通过受控的命令行界面与本地计算机交互。模型提出 Shell 命令；开发者的集成执行这些命令并返回输出。这创建了一个简单的"计划-执行"循环，让模型可以检查系统、运行实用程序并收集数据，直到它们能够完成任务。

要在 Responses API 中使用 shell 工具，开发者可以将其包含在 tools 数组中："tools": [{"type": "shell"}]。API 将生成 "shell_call" 项，其中包含要执行的 Shell 命令。开发者在本地环境中执行命令，并在下一个 API 请求的 "shell_call_output" 项中传回执行结果。在我们的开发者文档中了解更多。

定价和可用性

GPT‑5.1 和 gpt-5.1-chat-latest 已在 API 中向所有付费层级的开发者提供。定价和速率限制与 GPT‑5 相同。我们还在 API 中发布了 gpt-5.1-codex 和 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色，但 gpt-5.1-codex 模型针对 Codex 或类 Codex 框架中的长时间运行的智能体编码任务进行了优化。

开发者可以使用我们的 GPT‑5.1 开发者文档和模型提示指南开始构建。我们目前不计划在 API 中弃用 GPT‑5，如果我们决定这样做，会提前通知开发者。

下一步发展

我们致力于迭代式地部署最强大、最可靠的模型，用于真正的智能体和编码工作——这些模型能够高效思考、快速迭代，并在保持开发者工作流畅的同时处理复杂任务。凭借自适应推理、更强的编码性能、更清晰的面向用户的更新，以及 apply_patch 和 shell 等新工具，GPT‑5.1 旨在帮助你以更少的摩擦进行构建。我们正在继续大力投资于此：在未来的几周和几个月里，你可以期待更强大的智能体和编码模型。

附录：模型评估

评估	GPT‑5.1（高）	GPT‑5（高）
SWE-bench Verified^{（全部 500 个问题）}	76.3%	72.8%
GPQA Diamond^{（无工具）}	88.1%	85.7%
AIME 2025^{（无工具）}	94.0%	94.6%
FrontierMath^{（使用 Python 工具）}	26.7%	26.3%
MMMU	85.4%	84.2%
Tau²-bench Airline	67.0%	62.6%
Tau²-bench Telecom\*	95.6%	96.7%
Tau²-bench Retail	77.9%	81.1%
BrowseComp 长上下文 128k	90.0%	90.0%

\ 对于 Tau²-bench Telecom，我们给了 GPT‑5.1 一个简短的、通用的有帮助提示以提高其性能。*