隆重推出 GPT-5.2

面向专业工作和持久运行智能体的最先进前沿模型。

我们推出 GPT‑5.2,这是迄今为止最强大的专业知识型工作模型系列。

目前,ChatGPT Enterprise 的普通用户表示,AI 每天能为他们节省 40–60 分钟;而重度用户甚至表示,每周能节省超过 10 小时。我们打造 GPT‑5.2 旨在为人们释放更多经济价值;它在制作电子表格、构建演示文稿、编写代码、图像感知、长上下文理解、工具使用以及处理复杂多步骤项目方面表现更加出色。

GPT‑5.2 在众多基准测试中刷新了行业最高水平,包括 GDPval——在该评测中,它在涵盖 44 个职业的明确定义知识型工作任务上超越了行业专业人士。

GPT‑5.2 ThinkingGPT‑5.1 Thinking
GDPval(胜出或持平)
知识型工作任务
70.9%38.8% (GPT‑5)
SWE-Bench Pro(公开版)
软件工程
55.6%50.8%
SWE-bench Verified
软件工程
80.0%76.3%
GPQA Diamond(无工具)
科学问题
92.4%88.1%
CharXiv 推理(使用 Python)
科学图表问题
88.7%80.3%
AIME 2025(无工具)
数学竞赛
100.0%94.0%
FrontierMath(第 1–3 级)
高等数学
40.3%31.0%
FrontierMath(第 4 级)
高等数学
14.6%12.5%
ARC-AGI-1(已验证)
抽象推理
86.2%72.8%
ARC-AGI-2(已验证)
抽象推理
52.9%17.6%

NotionBoxShopifyHarveyZoom 观察到,GPT‑5.2 展现出业界领先的长时推理和工具调用性能。DatabricksHexTriple Whale 发现,GPT‑5.2 在智能体数据科学和文档分析任务中表现卓越。CognitionWarpCharlie LabsJetBrainsAugment Code 表示,GPT‑5.2 实现了业界领先的智能体编码性能,在交互式编程、代码审查和缺陷发现等领域带来了可衡量的提升。

在 ChatGPT 中,GPT‑5.2 Instant、Thinking 和 Pro 将于今日开始陆续推出,首先面向付费套餐用户。在 API 中,它们现已向所有开发者开放。

总体而言,GPT‑5.2 在通用智能、长上下文理解、智能体工具调用和视觉能力方面带来了显著提升——使其在端到端执行复杂现实任务方面比以往任何模型都更加出色。

模型性能

具备经济效益的任务

GPT‑5.2 Thinking 是迄今为止最适合现实世界专业应用的模型。在 GDPval——一项衡量涵盖 44 个职业的明确定义知识型工作任务的评测中,GPT‑5.2 Thinking 创下了新的行业最高纪录,也是我们首个达到或超越人类专家水平的模型。具体而言,根据人类专家评审,GPT‑5.2 Thinking 在 GDPval 知识型工作任务的对比中,有 70.9% 的表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格和其他工作成果。GPT‑5.2 Thinking 完成 GDPval 任务的输出速度是专家的 11 倍以上,成本却不到 1%——这表明在人类监督下,GPT‑5.2 可以有效辅助专业工作。速度和成本估算基于历史指标;ChatGPT 中的速度可能有所不同。

在 GDPval 中,模型需要完成明确定义的知识型工作,涵盖对美国 GDP 贡献最大的 9 个行业中的 44 种职业。任务要求生成真实的工作成果,例如销售演示文稿、会计电子表格、急诊排班表、制造业图表或短视频。在 ChatGPT 中,GPT‑5.2 Thinking 拥有 GPT‑5 Thinking 所不具备的新工具。

在评审一份特别出色的输出时,一位 GDPval 评委评价道:"这是输出质量上一次令人兴奋且显著的飞跃……它看起来就像是由一家拥有专业团队的公司完成的,布局设计令人惊讶地精致,对两项交付物都给出了非常好的建议,尽管其中一项仍有一些小错误需要修正。"

此外,在我们针对初级投资银行分析师的内部电子表格建模任务基准测试中——例如为财富 500 强公司构建格式规范、引用完整的三表模型,或为私有化交易构建杠杆收购模型——GPT 5.2 Thinking 的平均任务得分比 GPT‑5.1 高出 9.3%,从 59.1% 提升至 68.4%。

并排对比显示,GPT‑5.2 Thinking 生成的电子表格和幻灯片在精致度和格式上都有所提升:

人力规划模型

提示: 创建一个人力规划模型:人员编制、招聘计划、流失率和预算影响。包括工程、市场、法务和销售部门。

要在 ChatGPT 中使用新的电子表格和演示文稿功能,你必须使用 Plus、Pro、Business 或 Enterprise 套餐,并选择 GPT‑5.2 ThinkingPro。复杂的生成可能需要数分钟才能完成。

编码

GPT‑5.2 Thinking 在 SWE-Bench Pro 上创下了 55.6% 的新行业最高纪录,这是一项对现实世界软件工程能力的严格评估。与仅测试 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 测试四种语言,旨在更具抗污染性、更具挑战性、更多样化且更贴近工业实际。

SWE-Bench Pro 中,模型会获得一个代码仓库,并必须生成补丁来解决现实的软件工程任务。

在 SWE-bench Verified 上(未在图中绘制),GPT‑5.2 Thinking 取得了我们 80% 的新高分。

对于日常专业使用而言,这意味着该模型能够更可靠地调试生产代码、实现功能需求、重构大型代码库,并以更少的人工干预端到端地交付修复。

GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现,它在前端开发和复杂或非常规 UI 工作方面明显更强——尤其是涉及 3D 元素的场景——使其成为全栈工程师强大的日常伙伴。以下是它仅凭单个提示就能生成的几个示例:

海浪模拟、节日贺卡生成器、打字雨游戏

提示:创建一个单页应用,单个 HTML 文件,满足以下要求:

  • 名称:海浪模拟
  • 目标:展示逼真的动画海浪。
  • 功能:可调整风速、浪高、光照。
  • 界面应该平静且逼真。

早期测试者分享了他们对 GPT‑5.2 编码能力的反馈:

> "GPT-5.2 代表了自 GPT-5 以来 GPT 模型在智能体编码方面的最大飞跃,在其价位区间内是一款业界领先的编码模型。版本号的提升低估了智能水平的跃升。我们很高兴将其设为 Windsurf 和几个核心 Devin 工作负载的默认模型。" > > —— Jeff Wang,Windsurf 首席执行官

事实性

GPT‑5.2 Thinking 的幻觉比 GPT‑5.1 Thinking 更少。在一组来自 ChatGPT 的去标识化查询中,包含错误的回复相对减少了 30%。对于专业人士而言,这意味着在使用模型进行研究、写作、分析和决策支持时出错更少——使模型在日常知识型工作中更加可靠。

推理强度设置为可用的最高级别,并启用了搜索工具。错误由其他模型检测,这些模型本身也可能出错。声明级别的错误率远低于回复级别的错误率,因为大多数回复包含许多声明。

与所有模型一样,GPT‑5.2 Thinking 并不完美。对于任何关键内容,请务必核实其答案。

长上下文

GPT‑5.2 Thinking 在长上下文推理方面创下了新的行业最高纪录,在 OpenAI MRCRv2 上取得了领先性能——这是一项测试模型整合分散在长文档中信息能力的评估。在深度文档分析等现实任务中(需要跨数十万 Token 关联信息),GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。特别是,这是我们见过的首个在 4-needle MRCR 变体上(高达 256k Token)实现接近 100% 准确率的模型。

实际上,这使专业人士能够使用 GPT‑5.2 处理长文档——例如报告、合同、研究论文、文字记录和多文件项目——同时在数十万 Token 的范围内保持连贯性和准确性。这使 GPT‑5.2 特别适合深度分析、综合和复杂的多来源工作流程。

OpenAI-MRCR v2(多轮共指消解)中,多个相同的"针"式用户请求被插入到由类似请求和响应组成的长"干草堆"中,然后要求模型重现对第 n 根针的响应。该评测的第 2 版修正了约 5% 参考答案有误的任务。平均匹配率衡量模型响应与正确答案之间的平均字符串匹配率。256k 最大输入 Token 处的点表示 128k–256k 输入 Token 的平均值,以此类推。这里的 256k 表示 256 × 1,024 = 262,144 个 Token。推理强度设置为可用的最高级别。

对于那些受益于超出最大上下文窗口推理的任务,GPT‑5.2 Thinking 兼容我们新的 Responses /compact 端点,该端点扩展了模型的有效上下文窗口。这使 GPT‑5.2 Thinking 能够处理更多工具密集型、长时间运行的工作流程,否则这些流程将受到上下文长度的限制。更多信息请参阅我们的 API 文档

视觉

GPT‑5.2 Thinking 是我们迄今为止最强大的视觉模型,在图表推理和软件界面理解方面将错误率降低了约一半。

对于日常专业使用而言,这意味着该模型能够更准确地解读仪表盘、产品截图、技术图表和可视化报告——支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。

CharXiv Reasoning 中,模型回答关于科学论文中可视化图表的问题。启用了 Python 工具,推理强度设置为最高。

ScreenSpot-Pro 中,模型必须对来自各种专业场景的高分辨率图形用户界面截图进行推理。启用了 Python 工具,推理强度设置为最高。如果没有 Python 工具,得分会低得多。我们建议在此类视觉任务上启用 Python 工具。

与之前的模型相比,GPT‑5.2 Thinking 对图像中元素的定位有更强的理解,这在相对布局对解决问题起关键作用的任务中很有帮助。在下面的示例中,我们要求模型识别图像输入中的组件(在本例中是主板),并返回带有大致边界框的标签。即使在低质量图像上,GPT‑5.2 也能识别主要区域,并放置有时与每个组件真实位置匹配的边界框;而 GPT‑5.1 只标记了少数几个部分,对空间排列的理解要弱得多。两个模型都会犯明显的错误,但 GPT‑5.2 表现出对图像更好的理解。

GPT‑5.1

GPT‑5.2

工具调用

GPT‑5.2 Thinking 在 Tau2-bench Telecom 上取得了 98.7% 的新行业最高纪录,展示了其在长时多轮任务中可靠使用工具的能力。

对于对延迟敏感的用例,GPT‑5.2 Thinking 在 reasoning.effort='none' 时的表现也更好,大幅超越 GPT‑5.1 和 GPT‑4.1。

τ2-bench 中,模型在与模拟用户的多轮交互中使用工具完成客户支持任务。对于电信领域,我们在系统提示中加入了一条简短的、总体上有帮助的指令以提升性能。我们排除了航空子集,因为其真实值评分质量较低。

对于专业人士而言,这转化为更强大的端到端工作流程——例如解决客户支持案例、从多个系统提取数据、运行分析以及生成最终输出,步骤之间出现故障的情况更少。

例如,当提出一个需要多步骤解决的复杂客户服务问题时,模型能够更有效地协调跨多个代理的完整工作流程。在下面的案例中,一位旅客报告航班延误、错过转机、托运行李丢失以及需要在纽约过夜,并且因医疗原因需要特殊的前排座位。GPT‑5.2 管理整个任务链——重新预订、特殊协助座位和赔偿——提供了比 GPT‑5.1 更完整的结果。

> 我从巴黎飞往纽约的航班延误了,我错过了飞往奥斯汀的转机航班。我的托运行李也不见了,我需要在纽约过夜。我还因医疗原因需要特殊的前排座位。你能帮我吗?

GPT‑5.1

GPT‑5.2

科学与数学

我们对 AI 的期望之一是它能够加速科学研究,造福所有人。为此,我们一直与科学家合作并倾听他们的意见,了解 AI 如何能够加快他们的工作,上个月我们在这里分享了一些早期的合作实验。

我们相信,GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是世界上辅助和加速科学家工作的最佳模型。在 GPQA Diamond(一项研究生水平、防谷歌搜索的问答基准测试)上,GPT‑5.2 Pro 达到了 93.2%,紧随其后的 GPT‑5.2 Thinking 为 92.4%。

GPQA Diamond 中,模型回答关于物理、化学和生物的多项选择题。未启用工具,推理强度设置为最高。

在 FrontierMath(第 1–3 级)——一项专家级数学评估——上,GPT‑5.2 Thinking 创下了新的行业最高纪录,解决了 40.3% 的问题。

FrontierMath 中,模型解决专家级数学问题。启用了 Python 工具,推理强度设置为最高。

我们已经开始看到 AI 模型在数学和科学领域以有意义的方式推进研究。例如,在使用 GPT‑5.2 Pro 的近期研究中,研究人员探讨了统计学习理论中的一个开放问题。在一个范围明确、环境受控的环境中,模型提出了一个证明,随后得到了作者的验证和外部专家的审查,这表明前沿模型在严格的人类监督下可以为数学研究做出贡献。

ARC-AGI 2

在 ARC-AGI-1(已验证)——衡量通用推理能力的基准测试——中,GPT‑5.2 成为首个突破 90% 大关的模型,比去年 o3‑preview 的 87% 有所提高,同时实现该性能的成本降低了约 390 倍。

在难度更高、更侧重于流体推理的 ARC-AGI-2(已验证)中,GPT‑5.2 Thinking 以 52.9% 的成绩刷新了思维链模型的纪录;GPT‑5.2 Pro 更进一步,达到 54.2%,拓展了模型在处理全新抽象问题时的推理能力。

从这些评测提升中可以看出,GPT‑5.2 在多步推理、数值准确性以及在复杂技术问题上的稳定性方面都更加强大。

以下是早期测试者对 GPT‑5.2 的评价:

> "GPT-5.2 为我们开启了彻底的架构转型。我们将一个脆弱的多智能体系统整合为一个拥有 20 多个工具的单一超级智能体。最棒的是,它就是能用。这个超级智能体更快、更智能,维护起来容易 100 倍。我们看到延迟显著降低,工具调用能力更强,而且我们不再需要庞大的系统提示,因为 5.2 只需一个简单的提示就能可靠执行。这感觉就像魔法。" > > —— AJ Orbach,Triple Whale 首席执行官

ChatGPT 中的 GPT‑5.2

在 ChatGPT 中,用户会发现 GPT‑5.2 在日常使用中更加出色——结构更清晰、更可靠,同时仍提供愉快的对话体验。

GPT‑5.2 Instant 是一款高效且功能强大的日常工作和学习"主力模型",在信息查询、操作指南内容、技术写作和翻译方面有显著改进,同时保留了 GPT‑5.1 Instant 更温暖、更自然的对话风格。早期测试者特别指出,其解释更清晰,能够在前面就呈现出关键信息。

GPT‑5.2 Thinking 专为更深入的工作而设计,帮助用户以更高的完成度处理复杂任务,擅长编码、长文档总结、回答上传文件的问题、逐步解答数学和逻辑问题,以及通过更清晰的结构和更有用的细节支持规划和决策。

GPT‑5.2 Pro 是应对高难度问题时最智能、最可靠的选择,在答案质量至关重要的场景中表现出色。早期测试显示,它出现重大错误更少,在编程等复杂领域表现更强。

安全

GPT‑5.2 延续了我们随 GPT‑5 推出的安全补全研究,使模型在不越过安全界限的情况下提供最有帮助的答案。

在这个版本中,我们继续推进在增强模型在敏感对话中的回应能力方面的工作,使其在涉及自杀、自残、心理困扰或对模型产生情感依赖的提示时,能够做出更恰当、更稳妥的回应。这些有针对性的改进使 GPT‑5.2 Instant 和 GPT‑5.2 Thinking 的不当回复显著减少,相比 GPT‑5.1 以及 GPT‑5 Instant 和 Thinking 模型都有明显提升。更多信息请参阅系统卡

我们正在逐步推出年龄预测模型,以便自动为未满 18 岁的用户应用内容保护措施,限制他们接触敏感内容。这项工作是对我们现有的未成年人识别和家长控制功能的补充。

GPT‑5.2 是持续改进过程中的又一步,我们的工作远未结束。尽管这个版本在智能和效率方面实现了大幅提升,但我们知道用户仍期待更多。我们正在着手解决 ChatGPT 中的已知问题,包括一些用户在长时间对话中遇到的回复质量下降问题,以及改进模型遵循复杂、多步骤指令的能力。

心理健康评估

作为我们安全工作的一部分,我们对 GPT‑5.2 在心理健康相关查询方面的表现进行了广泛评估。我们的评估发现:

  • 与 GPT‑5.1 相比,GPT‑5.2 在回应心理健康相关查询时提供的资源和支持性回应更多
  • 模型在识别危机情况和提供适当的紧急资源方面更加准确
  • 在与心理健康相关的对话中,不当或有害回复的比率显著降低

我们与心理健康专家合作,确保我们的安全方法基于最佳实践,并将继续迭代和改进这些功能。

可用性与定价

ChatGPT 与 API 的模型命名方式

GPT‑5.2 系列包括多种模型变体,以满足不同的使用场景。以下是 ChatGPT 和 API 中模型名称的对应关系:

ChatGPT 中的名称API 模型名称描述
GPT‑5.2 Instantgpt-5.2-chat-latest快速响应,适合日常任务
GPT‑5.2 Thinkinggpt-5.2深度推理,适合复杂任务
GPT‑5.2 Progpt-5.2-pro最高性能,适合专业级需求

GPT‑5.1 模型将在未来三个月内继续作为旧版模型在 API 中可用。

每百万 Token 的价格

以下是 GPT‑5.2 系列模型的 API 定价:

模型输入价格(每百万 Token)缓存输入价格(每百万 Token)输出价格(每百万 Token)
gpt-5.2 / gpt-5.2-chat-latest$1.75$0.175$14.00
gpt-5.2-pro$21.00$2.10$168.00

与 GPT‑5.1 相比,GPT‑5.2 的定价反映了其增强的能力和更高的计算成本。缓存输入享受 90% 的折扣,使需要重复处理相似内容的工作流程更具成本效益。

我们的合作伙伴

GPT‑5.2 的发布得到了广泛合作伙伴生态系统的支持,他们正在各自的平台上集成和测试该模型。从生产力工具到开发平台,我们的合作伙伴正在利用 GPT‑5.2 的功能为用户创造新价值。

一些早期合作伙伴包括:

  • Notion — 利用 GPT‑5.2 增强文档协作和知识管理
  • Box — 集成 GPT‑5.2 用于内容管理和智能文档处理
  • Shopify — 使用 GPT‑5.2 为商家提供 AI 驱动的商务工具
  • Harvey — 利用 GPT‑5.2 提供法律 AI 解决方案
  • Zoom — 集成 GPT‑5.2 用于会议智能和生产力工具
  • Databricks — 使用 GPT‑5.2 进行数据智能和分析
  • JetBrains — 利用 GPT‑5.2 增强开发工具和 IDE 功能
  • Cognition — 使用 GPT‑5.2 为 Devin AI 软件工程代理提供支持

附录

详细基准

以下是 GPT‑5.2 系列在各种基准测试中的更全面性能对比:

基准测试GPT‑5.2 ProGPT‑5.2 ThinkingGPT‑5.1 ThinkingGPT‑5 Thinking
GDPval(胜出或持平)74.1%70.9%38.8%
SWE-Bench Pro(公开版)55.6%50.8%
SWE-bench Verified80.0%76.3%
GPQA Diamond(无工具)93.2%92.4%88.1%84.7%
CharXiv 推理(使用 Python)88.7%80.3%
AIME 2025(无工具)100.0%94.0%86.2%
HMMT(2025 年 2 月)99.4%96.3%
FrontierMath(第 1–3 级)40.3%31.0%
FrontierMath(第 4 级)14.6%12.5%
ARC-AGI-1(已验证)90.5%86.2%72.8%56.4%
ARC-AGI-2(已验证)54.2%52.9%17.6%
MMLU-Pro88.5%85.1%81.7%
HumanEval94.2%91.5%89.3%
Tau2-bench Telecom98.7%95.2%

这些结果展示了 GPT‑5.2 在广泛任务中的显著进步,从知识型工作到编码、科学、数学和抽象推理。我们将继续改进模型,并期待看到社区用 GPT‑5.2 构建什么。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签