OpenAI 正式发布 GPT-5.5

2026 年 4 月 24 日更新:GPT-5.5 和 GPT-5.5 Pro 现已在 API 中可用。系统卡也已更新,描述了适用的额外防护措施。

我们正式发布 GPT-5.5——这是我们迄今最智能、交互体验最直观的模型,也是迈向全新计算机办公模式的关键一步。

GPT-5.5 能够更快速地理解你的意图,并独立承担更多实质性工作。它擅长编写和调试代码、在线调研、分析数据、创建文档和电子表格、操作软件,以及在不同工具之间流转直至任务完成。你不必再小心翼翼地管理每一个步骤,只需交给 GPT-5.5 一个复杂的、由多个部分组成的任务,就可以相信它会规划方案、使用工具、检查工作、在模糊地带中导航,并持续推进。

在智能体编程、计算机使用、知识型工作和前沿科学研究等领域,提升尤为显著——这些领域的进步依赖于跨上下文推理和持续采取行动的能力。GPT-5.5 在实现智能跃升的同时,并未牺牲速度:通常情况下,更大、更强的模型服务速度会更慢,但 GPT-5.5 在真实服务环境中的单 Token 延迟与 GPT-5.4 持平,而智能表现却高出许多。它完成相同的 Codex 任务所需的 Token 也显著更少,因此不仅能力更强,效率也更高。

我们发布的 GPT-5.5 配备了迄今为止最强大的一套防护措施,旨在减少滥用,同时保留对有益工作的访问权限。在发布前,我们通过全套安全与准备框架对该模型进行了评估,与内部和外部红队人员合作,增加了针对高级网络安全和生物能力的定向测试,并从近 200 家受信任的早期访问合作伙伴那里收集了真实用例的反馈。

即日起,GPT-5.5 将陆续面向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户推出;GPT-5.5 Pro 将面向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。API 部署需要不同的防护措施,我们正与合作伙伴和客户密切合作,制定大规模服务所需的安全保障要求。我们将很快把 GPT-5.5 和 GPT-5.5 Pro 引入 API。

GPT-5.5GPT-5.4GPT-5.5 ProGPT-5.4 ProClaude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%--69.4%68.5%
Expert-SWE(内部)73.1%68.5%----
GDPval(胜出或平局)84.9%83.0%82.3%82.0%80.3%67.3%
OSWorld-Verified78.7%75.0%--78.0%-
Toolathlon55.6%54.6%---48.8%
BrowseComp84.4%82.7%90.1%89.3%79.3%85.9%
FrontierMath Tier 1–351.7%47.6%52.4%50.0%43.8%36.9%
FrontierMath Tier 435.4%27.1%39.6%38.0%22.9%16.7%
CyberGym81.8%79.0%--73.1%-

模型能力

OpenAI 正在构建全球性的智能体 AI 基础设施,让全球的个人和企业都能通过 AI 完成工作。在过去一年里,我们看到 AI 极大地加速了软件工程。随着 Codex 和 ChatGPT 中 GPT-5.5 的推出,同样的变革正开始延伸到科学研究和人们在计算机上从事的更广泛工作中。

在所有这些领域中,GPT-5.5 不仅仅是更智能;它在解决问题的方式上也更高效,通常能用更少的 Token 和更少的重试获得更高质量的输出。在 Artificial Analysis 的编码指数(Coding Index)上,GPT-5.5 以竞品前沿编码模型一半的成本,提供了最先进的智能水平。

Artificial Analysis 智能指数是由第三方运行的 10 项评估的加权平均值:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity's Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

智能体编程

GPT-5.5 是我们迄今为止最强大的智能体编程模型。在 Terminal-Bench 2.0(测试需要规划、迭代和工具协调的复杂命令行工作流)上,它达到了 82.7% 的顶尖准确率。在 SWE-Bench Pro(评估真实 GitHub 问题解决能力)上,它达到了 58.6%,在单次尝试中端到端解决的任务比以往模型更多。在 Expert-SWE(我们针对长周期编程任务的内部前沿评估,人类中位完成时间估计为 20 小时)上,GPT-5.5 也优于 GPT-5.4。

在所有这三项评估中,GPT-5.5 在提高 GPT-5.4 分数的同时,使用的 Token 更少。

该模型的编程优势在 Codex 中体现得尤为明显,它可以承担从实现和重构到调试、测试和验证的工程工作。早期测试表明,GPT-5.5 更擅长真实工程工作所依赖的行为,比如在大型系统中保持上下文、通过模糊的故障进行推理、用工具检查假设,以及在周边代码库中贯彻变更。

太空任务应用 / 地震追踪器 / 地牢游戏 / 3D 游戏

渲染的轨迹使用了 NASA/JPL Horizons 提供的猎户座、月球和太阳的矢量数据,并应用了显示缩放以提高可读性。

提示词: [附图] 使用 webgl 和 vite 实现一个新应用,使用阿尔忒弥斯二号任务的真实数据。确保彻底测试应用,直到功能完整且看起来像图片中的应用。密切关注行星和飞行路径的渲染。我希望能够与 3D 渲染进行交互。确保它具有逼真的轨道力学。

除了基准测试之外,早期测试人员表示 GPT-5.5 展现出更强的理解系统全貌的能力:为什么某个东西会失败、修复需要落在哪里,以及代码库中还有什么会受到影响。

> "这是我用过的第一个具有真正概念清晰度的编程模型。" > > —— Dan Shipper,Every 创始人兼 CEO

Every 创始人兼 CEO Dan Shipper 将 GPT-5.5 描述为"我用过的第一个具有真正概念清晰度的编程模型"。

在发布一个应用后,他花了几天时间调试一个上线后的问题,然后请来他最好的工程师之一重写了部分系统。为了测试 GPT-5.5,他实际上倒转了时间:模型能否查看损坏的状态并产出工程师最终决定的那种重写方案?GPT-5.4 做不到。GPT-5.5 做到了。

> "它真的让我感觉像是在与一个更高的智能一起工作,几乎有一种尊重的感觉。" > > —— Pietro Schirano,MagicPath CEO

MagicPath CEO Pietro Schirano 也看到了类似的阶跃变化:GPT-5.5 将一个包含数百项前端和重构变更的分支合并到一个同样发生了巨大变化的主分支中,大约 20 分钟就一次性解决了所有问题。

测试该模型的资深工程师表示,GPT-5.5 在推理和自主性方面明显强于 GPT-5.4 和 Claude Opus 4.7,能够提前发现问题,并在没有明确提示的情况下预测测试和审查需求。在一个案例中,一位工程师要求它重新架构协作式 Markdown 编辑器中的评论系统,回来时得到了一个几乎完整的 12 个 Diff 堆栈。其他人表示,他们需要的实现修正少得出奇,与 GPT-5.4 相比,他们对 GPT-5.5 的计划更有信心。

一位提前获得该模型访问权限的 NVIDIA 工程师甚至说:"失去对 GPT-5.5 的访问权限,感觉就像被截肢了一样。"

> "GPT-5.5 明显比 GPT-5.4 更智能、更有韧性,编程能力更强,工具使用更可靠。它能在任务上坚持更长时间而不提前停止,这对于我们用户委托给 Cursor 的复杂、长时间运行的工作来说最为重要。" > > —— Michael Truell,Cursor 联合创始人兼 CEO

知识型工作

让 GPT-5.5 擅长编程的那些优势,也让它在计算机上的日常工作中同样强大。因为模型更擅长理解意图,它能更自然地完成知识型工作的完整循环:查找信息、理解什么重要、使用工具、检查输出,并将原始材料转化为有用的东西。

在 Codex 中,GPT-5.5 在生成文档、电子表格和幻灯片演示方面比 GPT-5.4 更出色。Alpha 测试人员表示,它在运筹研究、电子表格建模以及将混乱的业务输入转化为计划等工作上的表现优于以往模型。当与 Codex 的计算机使用技能相结合时,GPT-5.5 让我们更接近这样一种感觉:模型真的可以和你一起使用计算机——看到屏幕上的内容、点击、输入、导航界面,并精准地在不同工具之间移动。

OpenAI 的团队已经在真实工作流中使用这些优势。如今,公司超过 85% 的员工每周都在使用 Codex,涵盖软件工程、财务、传播、营销、数据科学和产品管理等职能。在传播团队,他们使用 Codex 中的 GPT-5.5 分析了六个月的演讲请求数据,建立了评分和风险框架,并验证了一个自动化 Slack 智能体,使低风险请求可以自动处理,而高风险请求仍路由到人工审核。在财务团队,他们使用 Codex 审查了 24,771 份 K-1 税表,共计 71,637 页,使用的工作流排除了个人信息,帮助团队比上一年提前两周完成了任务。在市场推广团队,一名员工实现了每周业务报告生成的自动化,每周节省 5-10 小时。

金融建模 / 测试引导流程

在 ChatGPT 中,GPT-5.5 Thinking 为更难的问题提供更快的帮助,给出更智能、更简洁的答案,帮助你更高效地完成复杂工作。它擅长编程、研究、信息综合与分析以及文档密集型任务等专业工作,尤其是在使用插件时。

GPT-5.5 Pro 中,早期测试人员看到 ChatGPT 能承担的工作难度和质量都有了显著提升,延迟的改善使其更适合处理高要求任务。与 GPT-5.4 Pro 相比,测试人员发现 GPT-5.5 Pro 的回复在全面性、结构性、准确性、相关性和实用性方面都明显更好,在商业、法律、教育和数据科学方面的表现尤其强劲。

GPT-5.5 在反映这类工作的多项基准测试中达到了最先进的性能。在 GDPval(测试智能体在 44 种职业中产出明确知识型工作的能力)上,GPT-5.5 得分 84.9%。在 OSWorld-Verified(衡量模型能否自主操作真实计算机环境)上,它达到 78.7%。在 Tau2-bench Telecom(测试复杂客户服务工作流)上,它在没有提示词微调的情况下达到了 98.0%。GPT-5.5 在其他知识型工作基准测试中也表现强劲:FinanceAgent 为 60.0%,内部投资银行建模任务为 88.5%,OfficeQA Pro 为 54.1%。

Tau2-bench Telecom 是在没有提示词微调的情况下运行的(且以 GPT-4.1 作为用户模型)。GPT-5.5 比其前身更好地理解任务意图,并且 Token 效率更高。

> "GPT-5.5 提供了执行密集型工作所需的持续性能。该模型基于 NVIDIA GB200 NVL72 系统构建并提供服务,使我们的团队能够从自然语言提示中端到端地交付功能,将调试时间从几天缩短到几小时,并将复杂代码库中数周的实验变成一夜之间的进展。这不仅仅是更快的编程——这是一种新的工作方式,帮助人们以根本不同的速度开展工作。" > > —— Justin Boitano,NVIDIA 企业级 AI 副总裁

科学研究

GPT-5.5 在科学和技术研究工作流中也展现出提升,这些工作流需要的不仅仅是回答一个难题。研究人员需要探索一个想法、收集证据、测试假设、解释结果,并决定下一步尝试什么。GPT-5.5 比其他模型更擅长在这个循环中持续推进。

值得注意的是,GPT-5.5 在 GeneBench 上相比 GPT-5.4 有明显提升——这是一项专注于遗传学和定量生物学中多阶段科学数据分析的新评估。这些问题要求模型在最少的监督指导下对可能模糊或有错误的数据进行推理,解决隐藏的混杂因素或质控失败等现实障碍,并正确实现和解释现代统计方法。鉴于这些任务通常对应科学专家需要数天的项目,模型的表现令人瞩目。

同样,在 BixBench(一个围绕真实生物信息学和数据分析设计的基准测试)上,GPT-5.5 在已公布分数的模型中取得了领先性能。该模型的科学能力现在已经足够强大,可以作为一名真正的合作科学家,切实加速生物医学研究前沿的进展。

在另一个例子中,一个带有自定义工具的内部版 GPT-5.5 帮助发现了关于拉姆齐数的新证明——拉姆齐数是组合数学的核心研究对象之一。组合数学研究离散对象如何组合在一起:图、网络、集合和模式。拉姆齐数大致问的是,一个网络需要多大才能保证某种秩序必然出现。该领域的成果很少见,而且通常技术难度很大。在这里,GPT-5.5 找到了关于非对角拉姆齐数一个长期存在的渐近事实的证明,随后在 Lean 中得到了验证。这个结果是一个具体的例子,表明 GPT-5.5 不仅贡献了代码或解释,还在一个核心研究领域贡献了一个令人惊讶且有用的数学论证。

早期测试人员在使用 ChatGPT 中的 GPT-5.5 Pro 时,更像是把它当作研究伙伴而不是一次性应答引擎:通过多轮审阅手稿、对技术论证进行压力测试、提出分析方案,并结合代码、笔记和 PDF 上下文一起工作。共同的主线是,GPT-5.5 更擅长帮助研究人员从问题走向实验再到产出。

杰克逊基因组医学实验室的免疫学教授兼研究员 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集。他生成了一份详尽的研究报告,不仅总结了实验发现,还提出了关键问题和见解。他表示,这类工作以往通常需要团队耗时数月才能完成。

波兰波兹南亚当·密茨凯维奇大学数学系助理教授 Bartosz Naskręcki 使用 Codex 中的 GPT-5.5,仅凭一条提示词就在 11 分钟内构建了一个代数几何应用。该应用能够实现二次曲面交集的可视化,并能将生成的曲线转换为魏尔斯特拉斯模型。

随后,他进一步扩展了该应用,加入了更稳定的奇点可视化功能,并提供了可供后续研究复用的精确系数。对他而言,更重大的转变在于 Codex 现在能够辅助实现自定义的数学可视化和计算机代数工作流,而这些在以前往往需要专门的工具。综合来看,这些案例证明了 GPT-5.5 正在将专家的意图转化为切实可用的研究工具和分析成果。

提示词:

创建一个应用,绘制两个二次曲面,并用红色为相交曲线着色。使用计算黎曼-罗赫定理将其转换为魏尔斯特拉斯曲线。

主窗口

两个带有略微透明着色的彩色曲面,高质量渲染,沿着一条红色的代数曲线相交

支持鼠标双向旋转、完整捏合缩放机制、触觉按压显示小菜单(含滑块用于更改每个曲面的系数);通过 Z 缓冲区级别进行检测

新一代推理效率

GPT-5.5 代表了推理效率的代际飞跃。我们在模型训练过程中与推理基础设施团队共同设计,使其能够在大幅提升智能的同时,保持与 GPT-5.4 相当的单 Token 延迟。这在前沿模型中是罕见的成就——通常情况下,更强的模型意味着更慢的服务速度。

更重要的是,GPT-5.5 解决相同问题所需的 Token 数量明显更少。在 Codex 任务中,它完成相同工作消耗的 Token 比 GPT-5.4 减少了 30-50%,因为它更擅长直接找到正确的路径,而不是通过反复试错来逼近答案。这意味着,尽管 GPT-5.5 的单位 Token 价格高于 GPT-5.4,但对于许多实际任务来说,总成本可能实际上更低。

在 Artificial Analysis 智能指数上,GPT-5.5 以竞品前沿编码模型约一半的成本实现了最高的智能得分。当考虑到完成相同任务所需的总 Token 时,它在性价比方面树立了新的行业标准。

我们还引入了更灵活的推理配置,让用户可以根据具体任务调整计算投入。在 API 中,你可以选择不同的推理努力程度,从快速响应到深度思考,以在速度、成本和质量之间取得最佳平衡。在 ChatGPT 中,Auto 模式会自动根据查询复杂度路由到合适的推理深度,而 Fast 和 Thinking 模式则让你可以手动控制。

提升网络防御能力,守护全民安全

随着模型能力的增强,我们的安全责任也在增加。GPT-5.5 是我们第一个在网络安全能力方面被评为"高"风险等级的模型,因此我们在发布前实施了比以往任何模型都更全面的安全评估和防护措施。

我们在全套安全和准备框架下对 GPT-5.5 进行了评估,包括:

  • 高级网络安全能力定向测试:我们与内部和外部红队专家合作,对模型在漏洞发现、利用开发和网络作战方面的能力进行了全面评估。这包括 Capture the Flag(CTF)挑战、CVE 基准测试、网络靶场测试和漏洞利用生成评估。
  • 生物和化学能力定向测试:我们评估了模型在病毒学、生物化学、蛋白质结合预测和 DNA 序列设计方面的能力,确保对潜在的双重用途风险有充分了解。
  • 近 200 家早期访问合作伙伴的真实用例反馈:我们与来自企业、政府和非营利组织的近 200 家受信任合作伙伴合作,在真实工作场景中测试模型,收集关于安全边界和防护措施有效性的反馈。

基于这些评估,我们实施了一套分层的防护措施:

  • 标准安全防护:适用于所有用户,包括内容过滤、滥用检测和速率限制。
  • 网络安全受信访问计划(Trusted Access for Cyber, TAC):对于经过验证的网络安全防御者,我们放宽了部分分类器拒绝限制,使其能够更有效地使用模型进行漏洞分析、恶意软件分析、检测工程和补丁验证等防御工作。
  • GPT-5.5-Cyber(受限预览):针对最专业的网络安全工作流(如授权的红队测试、渗透测试和受控的漏洞验证),我们提供了一个更宽松的模型变体,仅向约 40 家经过严格审核的组织提供。

我们的方法遵循一个核心原则:安全能力应该首先惠及防御者。我们正与 Cisco、Palo Alto Networks、SentinelOne、Snyk 等主要安全厂商合作,将 GPT-5.5 的能力嵌入到安全工具栈中,帮助整个生态系统提升防御水平。我们还推出了 Codex Security 计划,为开源维护者提供免费的安全工具,用于威胁建模、攻击路径分析和补丁验证。

我们相信,正确的治理方式不是简单地限制能力,而是确保能力流向正确的用途。通过受信访问框架、严格的身份验证要求(从 2026 年 6 月 1 日起,访问最高权限级别需要防钓鱼 MFA)、审计日志和定期用例审查,我们致力于在推动安全进步的同时管控风险。

可用性与定价

GPT-5.5 于 2026 年 4 月 23 日正式发布,并于 4 月 24 日在 API 中全面可用。以下是各平台的可用性详情:

ChatGPT

  • GPT-5.5 Thinking:面向 Plus、Pro、Business 和 Enterprise 用户
  • GPT-5.5 Pro:面向 Pro、Business 和 Enterprise 用户
  • GPT-5.5 Instant:于 2026 年 5 月 5 日向免费用户推出,成为新的默认模型

Codex

  • GPT-5.5:面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划用户,上下文窗口为 400K Token
  • 提供 Fast 模式,速度提升 1.5 倍,成本为 2.5 倍

API

API 模型 ID 为 gpt-5.5gpt-5.5-pro,支持 Responses API 和 Chat Completions API,完整上下文窗口为 100 万 Token。

定价:

模型 / 模式输入价格输出价格缓存输入上下文窗口
GPT-5.5每百万 Token 5.00 美元每百万 Token 30.00 美元每百万 Token 0.50 美元1,000,000
GPT-5.5 Pro每百万 Token 30.00 美元每百万 Token 180.00 美元不适用1,000,000
批量(异步)标准价格的 50%标准价格的 50%不适用与标准相同
Flex(弹性)标准价格的 50%标准价格的 50%不适用与标准相同
优先级标准价格的 2.5 倍标准价格的 2.5 倍不适用与标准相同

推理努力程度(Reasoning Effort):在 API 中,你可以通过调整推理努力程度来控制 Token 消耗和输出质量:

  • low(低):约 1 倍输出 Token 乘数,适用于大多数常规调用
  • medium(中):约 1.3-2 倍,适用于多步骤编码、结构化生成
  • high(高):约 2-4 倍,适用于深度研究、准确性至关重要的审查
  • xhigh(极高):约 3-8 倍,适用于带工具链的智能体循环、高密度规划

知识截止日期为 2025 年 12 月 1 日。

评估

GPT-5.5 在广泛的基准测试中展现了强大的性能,尤其在智能体任务、编码、知识型工作和科学研究方面表现突出。

智能体与编码基准

  • Terminal-Bench 2.0:82.7%(业界最佳)——测试需要规划、迭代和工具协调的复杂命令行工作流
  • SWE-Bench Pro:58.6%——评估真实 GitHub 问题解决能力
  • Expert-SWE(内部):73.1%——针对长周期编码任务的内部前沿评估(人类中位完成时间约 20 小时)
  • Toolathlon:55.6%(业界最佳)——测试工具使用能力
  • CyberGym:81.8%(业界最佳)——网络安全能力评估

知识型工作基准

  • GDPval:84.9%(胜出或平局)——测试智能体在 44 种职业中产出明确知识型工作的能力
  • OSWorld-Verified:78.7%(业界最佳)——衡量模型自主操作真实计算机环境的能力
  • Tau2-bench Telecom:98.0%(无需提示词微调)——测试复杂客户服务工作流
  • BrowseComp:90.1%(Pro 版本,业界最佳)——浏览与信息综合能力
  • FinanceAgent:60.0%——金融智能体任务
  • OfficeQA Pro:54.1%——办公文档问答

数学与推理基准

  • FrontierMath Tier 1–3:52.4%(Pro 版本,业界最佳)
  • FrontierMath Tier 4:39.6%(Pro 版本,业界最佳)
  • GPQA Diamond:93.6%——研究生水平科学问答
  • ARC-AGI-2:85.0%——抽象推理

科学研究基准

  • GeneBench:25.0%(比 GPT-5.4 提高 6 个百分点)——多阶段遗传学和定量生物学数据分析
  • BixBench:已公布分数的模型中名列前茅——真实生物信息学和数据分析

与竞品的对比

总体而言,GPT-5.5 在智能体和编码相关基准测试中处于领先地位,在知识型工作和长上下文任务方面也表现强劲。在某些纯编码基准(如 SWE-Bench Pro 公开榜单)上,Claude Opus 4.7 仍保持领先;在某些抽象推理基准上,Gemini 3.1 Pro 略有优势。但从 Artificial Analysis 智能指数的综合排名来看,GPT-5.5 在同等 Token 成本下提供了最高的整体智能水平。

值得注意的是,基准测试分数只能说明部分情况。GPT-5.5 的真正优势在于实际工作场景中的表现——它更擅长自主推进任务、处理模糊性、协调多种工具,并在更少的重试中产出更高质量的最终结果。早期用户的一致反馈是,GPT-5.5 不仅仅是分数更高,它更像是一个真正能帮你把事情做完的工作伙伴。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签