2026年3月17日
快速高效的模型,专为代码编写与子智能体优化
4:28
目录
- 子智能体
今天,我们正式发布 GPT-5.4 mini 与 nano,这是我们迄今为止能力最强的小型模型。它们将 GPT-5.4 的诸多优势引入到更快速、更高效的模型中,专为高吞吐量工作负载而设计。
GPT-5.4 mini 在代码编写、推理、多模态理解以及工具使用方面较 GPT-5 mini 有显著提升,同时运行速度提高两倍以上。它在多项评估中也接近体量更大的 GPT-5.4 模型的性能,包括 SWE-Bench Pro 和 OSWorld-Verified 基准测试。
GPT-5.4 nano 是 GPT-5.4 最轻量、最经济的版本,专为对速度和成本要求极高的任务而设计。它也是 GPT-5 nano 的重大升级版本。我们推荐将其用于分类、数据提取、排序,以及处理简单辅助任务的编程子智能体。
两款模型专为对延迟敏感的应用场景打造,在这类场景中,响应速度直接关系到产品体验:例如需要即时响应的代码助手、能快速完成辅助任务的子智能体、可捕捉并解析截图的计算机使用系统,以及能够实时推理图像的多模态应用。在这些设定下,最好的模型通常不是体量最大的那个,而是能够快速响应、可靠调用工具,并能在复杂专业任务中保持出色表现的模型。
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (公开) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT-5 mini 可用的最高 reasoning_effort 为 'high'。
以下是我们的客户在工作流中测试 GPT-5.4 mini 与 nano 后的评价:
HebbiaCodeRabbitMercorGitHubRoxNotionWhoopPerplexity
> "GPT-5.4 mini 在同类模型中展现出了强劲的端到端性能。在我们的评估中,它在多项输出任务和引文召回(citation recall)上的表现超越了竞争模型或与其持平,且成本大幅降低。此外,它的端对端通过率(pass rate)高于体量更大的 GPT-5.4 模型,来源溯源(source attribution)能力也更强。" > > — Aabhas Sharma,Hebbia 首席技术官
编程
GPT-5.4 mini 和 nano 在需要快速迭代的代码工作流中表现尤为出色。两款模型能以极低的延迟处理定向编辑、代码库导航、前端生成以及调试循环。这使其非常适合那些追求更高速度、更低成本的代码任务。
在基准测试中,GPT-5.4 mini 在同等延迟下的表现始终优于 GPT-5 mini,且在运行速度大幅提升的同时,其通过率(pass rate)接近 GPT-5.4 的水平。在代码工作流中,它实现了性能与延迟之间的最优权衡。
SWE-Bench Pro(公开)准确率与延迟
02004006008001,000估算延迟(秒)35%40%45%50%55%60%准确率GPT-5.4GPT-5.4 miniGPT-5.4 nanoGPT-5 mini
SWE-Bench Pro(公开)准确率与成本比较
0.000.200.400.600.80预估费用($)35%40%45%50%55%60%准确率GPT-5.4GPT-5.4 miniGPT-5.4 nanoGPT-5 mini
我们通过观察模型的生产环境行为并进行离线模拟来估算延迟。延迟估算涵盖了工具调用耗时(代码执行时间)、采样 Token 以及输入 Token。实际延迟可能会有显著差异,并取决于诸多我们的模拟中未涵盖的因素。同样,成本估算基于撰写本文时这些模型的 API 定价。费用未来可能会发生变化。推理强度已从 low 调整为 xhigh。
子智能体
GPT-5.4 mini 也非常适合那些结合了不同规格模型的系统。例如在 Codex 中,GPT-5.4 这种体量较大的模型负责处理规划、协作和最终判定,同时将具体的子任务并行分配给 GPT-5.4 mini 子智能体——例如搜索代码库、审阅大文件或处理辅助文档。如需了解子智能体在 Codex 中的工作原理,请参阅文档。
随着小型模型变得更快、更强大,这种模式变得越来越有用。开发者不必使用一个模型来处理所有事情,而是可以构建组合系统,让更大的模型决定做什么,让更小的模型大规模快速执行。GPT-5.4 mini 是我们迄今为止针对这类工作流最强的 mini 模型。
计算机使用
GPT-5.4 mini 在多模态任务上也表现出色,特别是与计算机使用相关的任务。该模型可以快速解读密集用户界面的截图,高速完成计算机使用任务。在 OSWorld-Verified 测试中,GPT-5.4 mini 接近 GPT-5.4 的水平,同时大幅超越 GPT-5 mini。
可用性与定价
GPT-5.4 mini 即日起在 API、Codex 和 ChatGPT 中上线。
在 API 中,GPT-5.4 mini 支持文本和图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用和技能。它拥有 400k 上下文窗口,输入价格为每百万 Token 0.75 美元,输出价格为每百万 Token 4.50 美元。
在 Codex 中,GPT-5.4 mini 可在 Codex 应用、CLI、IDE 扩展和网页版中使用。它仅消耗 GPT-5.4 配额的 30%,让开发者能够以约三分之一的成本在 Codex 中快速处理较简单的编码任务。Codex 还可以委派给 GPT-5.4 mini 子智能体,让推理强度较低的工作在更便宜的模型上运行。
在 ChatGPT 中,免费和 Go 用户可通过"+"菜单中的"思考"功能使用 GPT-5.4 mini。对于所有其他用户,GPT-5.4 mini 作为 GPT-5.4 Thinking 的速率限制回退选项。
GPT-5.4 nano 仅在 API 中提供,输入价格为每百万 Token 0.20 美元,输出价格为每百万 Token 1.25 美元。
如需了解有关模型安全防护措施的更多信息,请查看我们的部署安全中心上的系统卡附录。
---
编码
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro(公开) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
工具调用
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench(电信) | 98.9% | 93.4% | 92.5% | 74.1% |
智能
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE(含工具) | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE(无工具) | 39.8% | 28.2% | 24.3% | 18.3% |
多模态 / 视觉 / 计算机使用
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro(含 Python) | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5(无工具)² — 数值越低越好 | 0.109 | 0.1263 | 0.2419 | 0.1791 |
长上下文
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K(准确率) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT-5 mini 可用的最高 reasoning_effort 为 'high'。
2 总体编辑距离。OmniDocBench 测试时 reasoning_effort 设置为 'none',以反映低成本、低延迟性能。
---
作者:OpenAI