今天,我们在 API 平台上发布了 GPT‑5.1。这是 GPT‑5 系列中的下一代模型,在智能与速度之间实现平衡,适用于广泛的智能体与编码任务。GPT‑5.1 会根据任务复杂度动态调整思考时间,让模型在处理日常简单任务时实现显著提速,并且在令牌(Token)使用上更高效。该模型还提供了"无推理"模式,用于在无需深度思考的任务中实现更快速的响应,同时保持 GPT‑5.1 的前沿智能。
为了让 GPT‑5.1 更加高效,我们推出了高级提示(Prompt)缓存功能,最长可保留 24 小时,从而在后续问题中以更低成本提供更快的响应。此外,我们的优先处理客户将可畅享相较 GPT‑5 实现大幅提速的 GPT‑5.1 性能。
在编码方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司紧密合作,升级了 GPT‑5.1 的编码个性、可控性和代码质量。总体而言,使用 GPT‑5.1 编码更直观,而且在完成任务时用户可看到更清晰的更新。
最后,我们在 GPT‑5.1 中推出了两项新工具:一是 apply_patch 工具,助力更可靠地编辑代码;二是 shell 工具,使模型能够运行 Shell 命令。
GPT‑5.1 标志着 GPT‑5 系列的又一次跃进,我们计划继续投资于更智能、更强大的模型,帮助开发者构建可靠的智能体工作流。
在不同任务中进行高效推理
自适应推理
为了让 GPT‑5.1 速度更快,我们全面改进了训练方式,使其具备更灵活的思考机制。在简单任务中,GPT‑5.1 使用更少的 Token 进行推理,从而带来更流畅的产品体验并降低 Token 成本。在需要额外思考的复杂任务中,GPT‑5.1 保持持久性,探索不同选项并自我检查,以最大限度地提高可靠性。
Balyasny Asset Management 表示,GPT‑5.1"在我们的完整动态评估套件中表现优于 GPT‑4.1 和 GPT‑5,同时运行速度比 GPT‑5 快 2-3 倍。"他们还表示,在其大量使用工具的推理任务中,GPT‑5.1"始终以约一半的 Token 用量达到与领先竞品相当或更好的质量。"同样,AI 保险业务流程外包公司 Pace 也测试了该模型,并表示他们的智能体"在 GPT‑5.1 上运行速度提高了 50%,同时在我们的评估中准确率超过了 GPT‑5 和其他领先模型。"
GPT-5.1 在简单任务上花费更少时间,在困难任务上花费更多时间
第10百分位第30百分位第50百分位第70百分位第90百分位每次响应模型生成的 Token 数量(相对于 GPT-5)−88%−79%−70%−60%−45%−70%−50%−28%−7%+36%GPT-5(中等)GPT-5.1(中等)GPT-5.1(高)
GPT‑5.1 比 GPT‑5 更动态地调整思考时间。在一组具有代表性的 ChatGPT 任务分布中,即使在高推理强度下,GPT‑5.1 在较简单任务上的速度也要快得多。
例如,当被问及"显示一个列出全局安装包的 npm 命令"时,GPT‑5.1 只需 2 秒即可回答,而不是 10 秒。
GPT-5(中等)需要约 250 个 Token(约 10 秒)
显示一个列出全局安装包的 npm 命令
npm list -g --depth=0
GPT-5.1(中等)需要约 50 个 Token(约 2 秒)
显示一个列出全局安装包的 npm 命令
你可以使用以下命令列出全局安装的 npm 包:
- 仅显示包名:npm ls -g --depth=0
- 包含安装路径:npm ls -g
通常第一个就是你想要的。
全新"无推理"模式
开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用无推理的 GPT‑5.1。这使得模型在对延迟敏感的用例中表现得像非推理模型,同时拥有 GPT‑5.1 的高智能,并具备高性能工具调用的额外优势。相对于使用"最小"推理的 GPT‑5,无推理的 GPT‑5.1 在并行工具调用(这本身就能提高端到端任务完成速度)、编码任务、遵循指令和使用搜索工具方面表现更出色,并且在我们的 API 平台中支持网页搜索。Sierra 分享称,在他们的实际评估中,"无推理"模式下的 GPT‑5.1"与 GPT‑5 最小推理相比,低延迟工具调用性能提升了 20%"。
随着 reasoning_effort 中引入 'none' 选项,开发者现在拥有了更大的灵活性和控制权,可以根据自己的用例在速度、成本和智能之间取得平衡。GPT‑5.1 默认为 'none',这非常适合对延迟敏感的工作负载。我们建议开发者对于复杂度较高的任务选择 'low' 或 'medium',而当智能和可靠性比速度更重要时选择 'high'。
高级提示缓存
高级缓存通过允许提示在缓存中保留最长 24 小时(而非目前支持的几分钟)来提高推理效率。有了更长的保留窗口,更多的后续请求可以利用缓存的上下文——从而降低延迟、减少成本,并为多轮对话、编码会话或知识检索工作流等长时间运行的交互带来更流畅的性能。
提示缓存定价保持不变,缓存的输入 Token 比未缓存的 Token 便宜 90%,缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用高级缓存,请在 Responses 或 Chat Completions API 中添加参数 prompt_cache_retention='24h'。更多详情请参阅提示缓存文档。
编码
GPT‑5.1 在 GPT‑5 编码能力的基础上,具备了更可控的编码个性、更少的过度思考、更高的代码质量、在工具调用序列中更好的面向用户的更新消息(前导文本),以及更实用的前端设计——尤其是在低推理强度下。
在快速代码编辑等较简单的编码任务中,GPT‑5.1 更快的速度使得来回迭代变得更加容易。GPT‑5.1 在简单任务上的速度提升并不会降低其在困难任务上的性能。在 SWE-bench Verified 上,GPT‑5.1 的思考时间甚至比 GPT‑5 更长,达到了 76.3%。
在 SWE-bench Verified 中,模型会获得一个代码仓库和问题描述,并且必须生成一个补丁来解决该问题。标签表示推理强度。准确率是在全部 500 个问题上的平均值。所有模型都使用了带有基于 JSON 的 apply_patch 工具的测试框架。
我们从少数编码公司那里获得了关于 GPT‑5.1 的早期反馈。以下是他们的评价:
- Augment Code 称 GPT‑5.1"更审慎,无效动作更少,推理更高效,任务专注度更好",并且他们看到"更准确的变更、更顺畅的拉取请求,以及在多文件项目中更快的迭代速度。"
- Cline 分享称,在他们的评估中,"GPT‑5.1 在我们的差异编辑基准测试中取得了 SOTA(最优水平),提升了 7%,展示了在复杂编码任务中的卓越可靠性。"
- CodeRabbit 称 GPT‑5.1 是其"拉取请求审查的首选顶级模型。"
- Cognition 表示,GPT‑5.1"在理解你的需求并与你合作完成任务方面明显更好。"
- Factory 表示,"GPT‑5.1 提供了明显更敏捷的响应,并能根据任务调整推理深度,减少了过度思考,改善了整体开发者体验。"
- Warp 正在将 GPT‑5.1 设为新用户的默认选项,称其"在 GPT‑5 系列引入的令人印象深刻的智能增益基础上,成为了一个响应速度快得多的模型。"
"GPT 5.1 不只是另一个大语言模型——它是真正的智能体,是我测试过的最自然自主的模型。它像你一样写作,像你一样编码,轻松遵循复杂指令,并且在前端任务中表现出色,可以无缝融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力,我们很高兴能在我们的 IDE 中提供它。"
—— Denis Shiryaev,JetBrains AI 开发者工具生态负责人
GPT-5.1 新增工具
我们在 GPT‑5.1 中推出了两项新工具,帮助开发者在 Responses API 中充分发挥模型的潜力:一个自由格式的 apply_patch 工具,用于使代码编辑更加可靠,无需进行 JSON 转义;以及一个 shell 工具,让模型可以编写命令在你的本地机器上运行。
Apply_patch 工具
自由格式的 apply_patch 工具允许 GPT‑5.1 使用结构化差异在代码库中创建、更新和删除文件。模型不仅仅是建议编辑,而是发出补丁操作,由应用程序应用并反馈结果,从而实现迭代的、多步骤的代码编辑工作流。
要在 Responses API 中使用 apply_patch 工具,请将其包含在 tools 数组中:"tools": [{"type": "apply_patch"}],然后要么在输入中包含文件内容,要么为模型提供与文件系统交互的工具。模型将生成 apply_patch_call 项,用于创建、更新或删除包含差异的文件,你可以将这些差异应用到文件系统中。有关如何与 apply_patch 工具集成的更多信息,请查看我们的开发者文档。
Shell 工具
Shell 工具允许模型通过受控的命令行界面与本地计算机交互。模型提出 Shell 命令;开发者的集成执行这些命令并返回输出。这创建了一个简单的"计划-执行"循环,让模型可以检查系统、运行实用程序并收集数据,直到它们能够完成任务。
要在 Responses API 中使用 shell 工具,开发者可以将其包含在 tools 数组中:"tools": [{"type": "shell"}]。API 将生成 "shell_call" 项,其中包含要执行的 Shell 命令。开发者在本地环境中执行命令,并在下一个 API 请求的 "shell_call_output" 项中传回执行结果。在我们的开发者文档中了解更多。
定价和可用性
GPT‑5.1 和 gpt-5.1-chat-latest 已在 API 中向所有付费层级的开发者提供。定价和速率限制与 GPT‑5 相同。我们还在 API 中发布了 gpt-5.1-codex 和 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编码任务中表现出色,但 gpt-5.1-codex 模型针对 Codex 或类 Codex 框架中的长时间运行的智能体编码任务进行了优化。
开发者可以使用我们的 GPT‑5.1 开发者文档和模型提示指南开始构建。我们目前不计划在 API 中弃用 GPT‑5,如果我们决定这样做,会提前通知开发者。
下一步发展
我们致力于迭代式地部署最强大、最可靠的模型,用于真正的智能体和编码工作——这些模型能够高效思考、快速迭代,并在保持开发者工作流畅的同时处理复杂任务。凭借自适应推理、更强的编码性能、更清晰的面向用户的更新,以及 apply_patch 和 shell 等新工具,GPT‑5.1 旨在帮助你以更少的摩擦进行构建。我们正在继续大力投资于此:在未来的几周和几个月里,你可以期待更强大的智能体和编码模型。
附录:模型评估
| 评估 | GPT‑5.1(高) | GPT‑5(高) |
|---|---|---|
| SWE-bench Verified(全部 500 个问题) | 76.3% | 72.8% |
| GPQA Diamond(无工具) | 88.1% | 85.7% |
| AIME 2025(无工具) | 94.0% | 94.6% |
| FrontierMath(使用 Python 工具) | 26.7% | 26.3% |
| MMMU | 85.4% | 84.2% |
| Tau²-bench Airline | 67.0% | 62.6% |
| Tau²-bench Telecom\* | 95.6% | 96.7% |
| Tau²-bench Retail | 77.9% | 81.1% |
| BrowseComp 长上下文 128k | 90.0% | 90.0% |
\ 对于 Tau²-bench Telecom,我们给了 GPT‑5.1 一个简短的、通用的有帮助提示以提高其性能。*