我们隆重推出 GPT‑5,这是我们迄今为止最先进的 AI 系统。GPT‑5 相较于我们之前的模型,在智能水平上实现了重大飞跃,其在编程、数学、写作、医疗、视觉感知等多个领域均展现出领先的性能。这是一个统一的系统,能够智能判断何时需要快速响应,何时需要深入思考,从而提供专家级别的回答。GPT‑5 向所有用户开放,Plus 订阅用户可获得更多使用权限,而 Pro 订阅用户则可访问 GPT‑5 Pro 版本,该版本具备扩展推理能力,可提供更加全面和准确的答案。
统一的系统
GPT‑5 是一个统一系统,包含一个智能高效的模型,能够回答大多数问题;一个更深入的推理模型(GPT‑5 Thinking),用于解决更复杂的问题;以及一个实时路由器,能够根据对话类型、复杂度、工具需求以及您的明确意图(例如,如果您在提示中说"认真思考这个问题")快速决定使用哪个模型。路由器会持续基于真实信号进行训练,包括用户切换模型、对回复的偏好率以及测量准确性,并随着时间的推移不断优化。当达到使用限制时,每个模型的精简版本将处理剩余的查询。在不久的将来,我们计划将这些功能整合到一个单一模型中。
一个更智能、更广泛适用的模型
GPT‑5 不仅在基准测试中表现优于前代模型,回答问题也更快,但最重要的是,它在处理现实世界查询时更加实用。我们在减少幻觉、提升指令遵循能力以及减少阿谀奉承方面取得了显著进展,同时在 ChatGPT 最常见的三个应用场景中提升了 GPT‑5 的性能:写作、编程和医疗。
编码
GPT‑5 是我们迄今为止最强大的编码模型。它在复杂的前端生成和调试大型代码库方面表现出显著提升。它能够仅凭一个提示,以直观且富有美感的方式,将创意转化为现实,创建出美观且响应迅速的网站、应用和游戏,展现出对美感的敏锐把握。早期测试者还注意到了其设计选择,对间距、字体和留白等元素有了更深入的理解。
以下是一些 GPT‑5 仅凭一个提示生成的示例:
- 滚动小球迷你游戏
- 像素艺术
- 打字游戏
- 鼓模拟器
- Lo-Fi 可视化播放器
创意表达与写作
GPT‑5 是我们迄今为止最强大的写作助手,能够帮助您将粗略的想法转化为富有文学深度和节奏感的引人入胜的文字。它能够更可靠地处理涉及结构模糊性的写作,例如维持不押韵的抑扬五步格或自然流畅的自由体诗,将对形式的尊重与表达的清晰度相结合。这些提升的写作能力意味着 ChatGPT 在协助您完成日常任务时表现更佳,例如起草和编辑报告、邮件、备忘录等。
医疗保健
GPT‑5 是我们迄今为止针对医疗保健相关问题表现最佳的模型,它能帮助用户获取健康知识并更好地维护自身健康权益。该模型在我们今年早些时候基于真实场景和医生定义的标准发布的评估工具 HealthBench 上,得分显著高于以往任何模型。与之前模型相比,它更像一个积极的思维伙伴,会主动标记潜在问题并提出问题,以提供更具帮助性的答案。该模型现在能够提供更精准、更可靠的回复,能够根据用户的背景信息、知识水平和地理位置进行调整,从而在各种场景下提供更安全、更有帮助的回复。重要的是,ChatGPT 并不能替代医疗专业人员——可以将其视为一个合作伙伴,帮助您理解结果、在与医疗提供者交流时提出正确的问题,并在做出决策时权衡各种选项。
评估
GPT‑5 在各方面都表现得更加智能,这一点在其在学术和人类评估的基准测试中的表现中得到了体现,尤其是在数学、编程、视觉感知和医疗保健领域。它在数学(在 AIME 2025 测试中无需工具即可达到 94.6%)、现实世界编程(在 SWE-bench 验证测试中达到 74.9%,在 Aider-Polyglot 测试中达到 88%)、多模态理解(在 MMMU 测试中达到 84.2%)和医疗保健(在 HealthBench Hard 测试中达到 46.2%)等领域均树立了新的行业标杆——这些提升在实际应用中也得到了体现。凭借 GPT‑5 Pro 的扩展推理能力,该模型还在 GPQA 上创下了新纪录,没有工具情况下得分 88.4%。
编码
All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.
指令遵循和自主工具使用
GPT‑5 在测试指令遵循和自主工具使用能力的基准测试中取得了显著进步,这些能力使其能够可靠地执行多步骤请求、在不同工具之间进行协调,并适应背景信息变化。在实际应用中,这意味着它在处理复杂、动态任务方面表现更佳;GPT‑5 能更准确地遵循您的指令,并利用其可用的工具全程完成更多工作。
多模态
该模型在多种多模态基准测试中表现优异,涵盖视觉、视频、空间及科学推理等领域。更强大的多模态性能意味着 ChatGPT 能够更准确地处理图片及其他非文本输入——无论是解读图表、总结演示文稿的照片,还是回答关于示意图的问题。
医疗保健
具有重要经济意义的任务
GPT‑5 也是我们在内部基准测试中表现最佳的模型,该测试用于评估模型在复杂、具有经济价值的知识工作中的性能。在使用推理能力时,GPT‑5 在大约一半的案例中与专家相当或优于专家,而在涵盖超过 40 个职业(包括法律、物流、销售和工程等)的任务中,其表现均优于 o3 和 ChatGPT 智能体。
更快速、更高效的推理能力
GPT‑5 在更短的推理时间内能获得更大的价值。在我们的评估中,配备推理功能的 GPT‑5 在各项能力上均表现优于 OpenAI o3,且输出令牌数量减少了 50% 至 80%,包括视觉推理、自主编程以及研究生水平的科学问题解决能力。
GPT‑5 在 Microsoft Azure AI 超级计算机上进行了训练。
构建更强大、更可靠且更具帮助性的模型
对现实世界问题的更准确回答
GPT‑5 出现幻觉的可能性比我们之前的模型低得多。在代表 ChatGPT 生产流量的匿名提示上启用网络搜索后,GPT‑5 的回复中包含事实错误的可能性比 GPT‑4o 低约 45%,而在思考过程中,GPT‑5 的回复中包含事实错误的可能性比 OpenAI o3 低约 80%。
我们特别致力于提升模型在处理复杂开放式问题时的可靠性。因此,我们新增了评估指标以对开放式事实准确性进行压力测试。我们测量了 GPT‑5 在处理来自两个公开事实性基准的开放式事实查询提示时的幻觉率:LongFact(概念和物体)和 FActScore。在所有这些基准测试中,"GPT‑5 Thinking"显示出幻觉率的显著下降——大约是 o3 的六分之一——这标志着在生成一致准确的长篇内容方面取得了明显的进步。
更诚实的回复
除了事实准确性得到提升外,具备推理功能的 GPT‑5 还会更诚实地向用户说明其操作和能力——尤其是在任务无法完成、定义不明确或缺少关键工具的情况下。为了在训练中获得高奖励,推理模型可能会学会谎称已成功完成任务,或对不确定的答案表现出过分自信。例如,为了验证这一点,我们从多模态基准 CharXiv 的提示中移除了所有图片,发现 OpenAI o3 在 86.7% 的情况下仍对不存在的图片给出自信的答案,而 GPT‑5 仅为 9%。
在推理过程中,GPT‑5 能更准确地识别任务无法完成的情况,并清晰地传达其局限性。我们评估了在涉及不可能编码任务和缺失多模态资产的设置中欺骗率,并发现具备推理功能的 GPT‑5 在所有情况下都比 o3 的欺骗率更低。在代表实际生产环境中 ChatGPT 流量的庞大对话数据集上,我们已将欺骗率从 o3 的 4.8% 降至 GPT‑5 推理回复的 2.1%。尽管这对于用户而言已是一项显著改进,但仍有更多工作待完成,我们将继续研究以提升模型的事实准确性和诚实度。
更安全、更友好的回复
GPT‑5 在安全性方面取得了重大突破。过去,ChatGPT 主要依赖基于拒绝的安全训练:根据用户的提示,模型应选择服从或拒绝。虽然此类训练对明确恶意的提示效果良好,但面对用户意图不明确,或信息可能被用于良性或恶意用途的情境时,其处理能力会受到限制。拒绝训练在病毒学等双用途领域尤其缺乏灵活性,因为一个无害的请求可以在高层次上安全完成,但如果详细完成,可能会被恶意行为者利用。
对于 GPT‑5,我们引入了一种新的安全训练形式——安全完成——它教模型在可能的情况下提供最有帮助的答案,同时仍保持在安全边界内。有时,这可能意味着仅部分回答用户的问题,或仅在高层次上进行回答。如果模型需要拒绝回答,GPT‑5 经过训练,能够透明地告知用户拒绝的原因,并提供安全替代方案。在受控实验和我们的生产模型中,我们发现这种方法更为细致,能够更好地处理双用途问题,对模糊意图具有更强的鲁棒性,并减少不必要的过度拒绝。
减少阿谀奉承,提升风格
总体而言,GPT‑5 相比 GPT‑4o 表现出更少的过度讨好倾向,使用更少的无谓表情符号,并在后续互动中展现出更微妙且富有思考性的表达方式。它应让人感觉更像是与一位拥有博士级智力的贴心朋友聊天,而非"与 AI 对话"。
今年早些时候,我们发布了 GPT‑4o 的一个更新,该更新意外导致模型变得过于阿谀奉承,即过度奉承或讨好。我们迅速回滚了该更改,并此后致力于通过以下方式理解并减少此类行为:
- 开发新的评估方法以衡量阿谀奉承程度
- 优化我们的训练,使模型不那么人云亦云——例如,加入一些通常会引发过度一致性的示例,然后训练模型避免这种情况。
在使用专门设计用于诱发阿谀奉承回复的提示进行针对性阿谀奉承评估时,GPT‑5 显著减少了阿谀奉承的回复(从 14.5% 降至 6% 以下)。有时,减少阿谀奉承可能会导致用户满意度下降,但我们所做的改进在将阿谀奉承减少超过一半的同时,也带来了其他可量化的提升,因此用户仍能进行高质量、建设性的对话。
更多自定义 ChatGPT 的方式
GPT‑5 在遵循指令方面有了显著提升,我们也观察到其遵循自定义指令的能力相应得到提升。
我们还为所有 ChatGPT 用户推出了四个新预设个性的研究预览版,这得益于在可操控性方面的改进。这些个性化设置最初仅支持文本聊天,后续将扩展至语音功能,可让您无需编写自定义提示,即可调整 ChatGPT 的交互方式——无论是简洁专业的、体贴支持的,还是略带讽刺的。首批提供的四个选项包括"愤世嫉俗者"、"机器人"、"倾听者"和"极客",这些设置均为可选项,可在设置中随时调整,旨在与您的沟通风格相匹配。
所有这些新角色在内部评估中均达到或超过了我们降低阿谀奉承行为的标准。
生物风险的全面防护措施
我们决定将"GPT‑5 Thinking"模型视为生物和化学领域的"高能力"类别,并已实施了强有力的防护措施以充分降低相关风险。我们严格按照我们的《防范准备框架》对该模型进行了安全评估,并与 CAISI 和 UK AISI 等合作伙伴完成了 5,000 小时的红队测试。
与我们对 ChatGPT 智能体的处理方式类似,尽管目前尚无确凿证据表明该模型能实质性地帮助新手造成严重生物危害——即我们定义的"高能力"阈值——但我们采取了预防性措施,现已启动必要的安全防护机制,以提升应对未来此类能力出现时的准备度。因此,"GPT‑5 Thinking"具备强大的安全架构,采用多层防御系统保障生物安全:包括全面的威胁建模、通过全新安全完成范式训练模型以避免输出有害内容、持续运行的分类器与推理监控机制,以及明确的执行流程。
GPT‑5 Pro
对于最复杂、最具挑战性的任务,我们还推出了 GPT‑5 Pro,取代 OpenAI o3‑Pro,这是 GPT‑5 的一个变体,能够进行更长时间的推理,采用可扩展但高效的并行测试时间计算,以提供最高质量和最全面的答案。GPT‑5 Pro 在 GPT‑5 系列中于多个具有挑战性的智能基准测试中表现最佳,包括在 GPQA 包含极具难度科学问题的测试中达到最先进水平。
在对超过 1000 个具有经济价值的实际推理提示进行评估时,外部专家在 67.8% 的情况下更倾向于选择 GPT‑5 Pro 而非"GPT‑5 Thinking"。GPT‑5 Pro 的重大错误率降低了 22%,并在医疗保健、科学、数学和编程领域表现出色。专家们认为其回复具有相关性、实用性和全面性。
如何使用 GPT‑5
GPT‑5 现已成为 ChatGPT 的新默认模型,取代了 GPT‑4o、OpenAI o3、OpenAI o4-mini、GPT‑4.1 和 GPT‑4.5,适用于已登录的用户。只需打开 ChatGPT 并输入您的问题;GPT‑5 将自动处理后续操作,并在回复需要时自动应用推理。付费用户仍可通过模型选择器选择"GPT‑5 Thinking"选项,或在提示中输入类似"认真思考这个问题"的指令,以确保在生成回复时使用推理功能。
可用性和访问权限
GPT‑5 现已开始向所有 Plus、Pro、Team 和免费版用户开放,Enterprise 和 Edu 版用户的访问权限将于下周开放。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录,在 Codex CLI 中使用 GPT‑5 开始编码。
与 GPT‑4o 类似,GPT‑5 免费用户与付费用户的区别在于使用量。Pro 订阅用户可享受 GPT‑5 的无限访问权限,并可使用 GPT‑5 Pro。Plus 用户可将其作为日常问题的默认模型舒适使用,其使用量显著高于免费用户。Team、Enterprise 和 Edu 版客户也可将其作为日常工作的默认模型舒适使用,其宽松的使用额度使整个组织都能轻松依赖 GPT‑5。对于 ChatGPT 免费版用户,完整推理功能可能需要几天时间才能全面推出。一旦免费用户达到 GPT‑5 的使用限制,他们将过渡到 GPT‑5 mini,这是一个更小、更快且功能强大的模型。