今天,我们推出下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,在编程、高级推理和 AI 智能体方面树立新标准。
Claude Opus 4 是世界上最好的编程模型,在复杂、长时间运行的任务和智能体工作流上具有持续的性能表现。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级,在提供卓越编程和推理能力的同时,能更精确地响应你的指令。
除了模型,我们还宣布:
- 工具使用的扩展思考(测试版):两款模型都可以在扩展思考期间使用工具——比如网页搜索——让 Claude 能够在推理和工具使用之间交替进行,以改进响应。
- 新的模型能力:两款模型都可以并行使用工具,更精确地遵循指令,并且——当开发者授予本地文件访问权限时——展示出显著提升的记忆能力,能够提取并保存关键事实,以保持连续性并随着时间积累隐性知识。
- Claude Code 现已正式可用:在研究预览期间收到广泛积极的反馈后,我们正在扩展开发者与 Claude 协作的方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,以及与 VS Code 和 JetBrains 的原生集成,直接在你的文件中显示编辑内容,实现无缝的结对编程体验。
- 新的 API 能力:我们正在 API 上发布四项新能力,使开发者能够构建更强大的 AI 智能体:代码执行工具、MCP 连接器、Files API,以及将提示缓存长达一小时的能力。
Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于深度推理的扩展思考。Pro、Max、团队和企业 Claude 计划都包括这两款模型和扩展思考,Sonnet 4 也向免费用户提供。两款模型都在我们的 API、Amazon Bedrock 和 Google Cloud Vertex AI 上可用。价格与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万令牌 15/75 美元(输入/输出),Sonnet 4 为 3/15 美元。
Claude 4
Claude Opus 4 是我们迄今为止最强大的模型,也是世界上最好的编程模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上领先。它在需要持续专注和数千步的长时间运行任务上提供持续的性能,能够连续工作数小时——大大超越了所有 Sonnet 模型,并显著扩展了 AI 智能体可以完成的任务范围。
Claude Opus 4 擅长编程和复杂问题解决,为前沿智能体产品提供动力。Cursor 称其在编程方面达到了最先进水平,在复杂代码库理解方面实现了飞跃。Replit 报告其精度提高,并且在跨多个文件的复杂变更方面取得了显著进步。Block 称其为第一个在其智能体 codename goose 中提升编辑和调试期间代码质量,同时保持完整性能和可靠性的模型。Rakuten 通过一个要求苛刻的开源重构验证了其能力,该重构独立运行了 7 小时,性能持续稳定。Cognition 指出 Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。
Claude Sonnet 4 在 Sonnet 3.7 行业领先能力的基础上显著改进,在 SWE-bench 上以 72.7% 的最新水平表现出色。该模型平衡了内部和外部用例的性能和效率,具有增强的可操控性,可以更好地控制实现。虽然在大多数领域无法与 Opus 4 匹敌,但它提供了能力和实用性的最佳组合。
GitHub 表示,Claude Sonnet 4 在智能体场景中表现出色,并将其作为 GitHub Copilot 中新编程智能体的动力模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告 Sonnet 4 擅长自主的多功能应用开发,以及问题解决和代码库导航的显著改善——将导航错误从 20% 减少到接近零。Sourcegraph 表示,该模型显示出作为软件开发领域重大飞跃的潜力——更长时间保持在正轨上,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告了更高的成功率、更精准的代码编辑,以及在复杂任务中更细致的工作,使其成为他们主要模型的首选。
这些模型全面推进了我们客户的 AI 战略:Opus 4 在编程、研究、写作和科学发现方面推动边界,而 Sonnet 4 则作为 Sonnet 3.7 的即时升级,为日常用例带来前沿性能。
| Claude Opus 4 | Claude Sonnet 4 | Claude Sonnet 3.7 | OpenAI o3 | OpenAI GPT-4.1 | Gemini 2.5 Pro Preview (05-06) | |
|---|---|---|---|---|---|---|
| 智能体编程 SWE-bench Verified1, 5 | 72.5% / 79.4% | 72.7% / 80.2% | 62.3% / 70.3% | 69.1% | 54.6% | 63.2% |
| 智能体终端编程 Terminal-bench2, 5 | 43.2% / 50.0% | 35.5% / 41.3% | 35.2% | 30.2% | 30.3% | 25.3% |
| 研究生级推理 GPQA Diamond5 | 79.6% / 83.3% | 75.4% / 83.8% | 78.2% | 83.3% | 66.3% | 83.0% |
| 智能体工具使用 TAU-bench 零售 | 81.4% | 80.5% | 81.2% | 70.4% | 68.0% | — |
| TAU-bench 航空 | 59.6% | 60.0% | 58.4% | 52.0% | 49.4% | — |
| 多语言问答 MMMLU3 | 88.8% | 86.5% | 85.9% | 88.8% | 83.7% | — |
| 视觉推理 MMMU(验证集) | 76.5% | 74.4% | 75.0% | 82.9% | 74.8% | 79.6% |
| 高中数学竞赛 AIME 20254, 5 | 75.5% / 90.0% | 70.5% / 85.0% | 54.8% | 88.9% | — | 83.0% |
方法论
- Opus 4 和 Sonnet 4 使用 bash/编辑器工具实现 72.5% 和 72.7% 的 pass@1(10 次试验的平均值,单次尝试补丁,无测试时计算,使用 top_p 为 0.95 的核心采样)。
- Opus 4 和 Sonnet 4 使用与非 Claude 模型相同的智能体实现,分别获得 39.2% 和 33.5% 的 pass@1;上述报告的 43.2% 和 35.5% 是使用 Claude Code 作为智能体框架的结果。
- Claude 在 MMMLU 上的分数是 14 种非英语语言的平均值。
- Opus 4 和 Sonnet 4 在 AIME 上使用 top_p 为 0.95 的核心采样运行。
- 在 SWE-Bench、Terminal-Bench、GPQA 和 AIME 上,我们还报告了通过并行测试时计算(采样多个序列并通过内部评分模型选择最佳的一个)获益的结果。
模型改进
除了带工具使用的扩展思考、并行工具执行和记忆改进之外,我们还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易受到捷径和漏洞影响的智能体任务上,两款模型出现这种行为的可能性比 Sonnet 3.7 低 65%。
Claude Opus 4 在记忆能力方面也大大超越了所有以前的模型。当开发者构建为 Claude 提供本地文件访问权限的应用程序时,Opus 4 变得擅长创建和维护"记忆文件"来存储关键信息。这解锁了更好的长期任务意识、连贯性和智能体任务性能——就像 Opus 4 在玩 Pokémon 时创建了一个"导航指南"一样。
记忆:当可以访问本地文件时,Claude Opus 4 记录关键信息以帮助改善其游戏玩法。上面描绘的笔记是 Opus 4 在玩 Pokémon 时真实记录的笔记。
最后,我们为 Claude 4 模型引入了思考摘要功能,使用一个较小的模型来压缩冗长的思考过程。这种摘要仅在大约 5% 的情况下需要——大多数思考过程足够短,可以完整显示。需要原始思维链进行高级提示工程的用户可以联系销售部门,了解我们新的开发者模式,以保留完全访问权限。
Claude Code
Claude Code 现已正式可用,将 Claude 的强大功能带到你更多的开发工作流中——在终端、你最喜欢的 IDE 中,以及通过 Claude Code SDK 在后台运行。
适用于 VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到你的 IDE 中。Claude 提议的编辑内容内联显示在你的文件中,在熟悉的编辑器界面中简化了审查和跟踪。只需在你的 IDE 终端中运行 Claude Code 即可安装。
除了 IDE 之外,我们还发布了一个可扩展的 Claude Code SDK,这样你就可以使用与 Claude Code 相同的核心智能体来构建你自己的智能体和应用程序。我们还发布了一个 SDK 可能性的示例:GitHub 上的 Claude Code,目前处于测试阶段。在 PR 上标记 Claude Code 以响应审查者反馈、修复 CI 错误或修改代码。要安装,请在 Claude Code 中运行 /install-github-app。
开始使用
这些模型朝着虚拟协作者迈出了一大步——保持完整的上下文,在更长的项目上持续专注,并推动变革性影响。它们经过了广泛的测试和评估,以最大限度地降低风险并最大化安全性,包括为更高的 AI 安全级别(如 ASL-3)实施措施。
我们很高兴看到你将创造什么。立即在 Claude、Claude Code 或你选择的平台上开始使用。
一如既往,你的反馈帮助我们改进。
---
#### 附录
#### 性能基准数据来源
- Open AI:o3 发布文章、o3 系统卡片、GPT-4.1 发布文章、GPT-4.1 托管评估
- Gemini:Gemini 2.5 Pro Preview 模型卡片
- Claude:Claude 3.7 Sonnet 发布文章
#### 性能基准报告
Claude Opus 4 和 Sonnet 4 是混合推理模型。本博客文章中报告的基准显示了使用或不使用扩展思考的最高分数。我们在下面注明了每个结果是否使用了扩展思考:
- 无扩展思考:SWE-bench Verified、Terminal-bench
- 扩展思考(最多 64K 令牌):
#### TAU-bench 方法论
分数是通过在航空公司和零售代理政策中都添加一个提示附件来实现的,该附件指示 Claude 在使用扩展思考和工具使用时更好地利用其推理能力。鼓励模型在解决问题时写下其想法,这与我们通常的思考模式不同,以便在多轮对话过程中最好地利用其推理能力。为了适应 Claude 通过更多思考而增加的额外步骤,最大步骤数(按模型完成次数计算)从 30 步增加到 100 步(大多数对话在 30 步内完成,只有一个对话达到 50 步以上)。
#### SWE-bench 方法论
对于 Claude 4 系列模型,我们继续使用相同的简单支架,只为模型配备了我们之前版本此处描述的两个工具——一个 bash 工具和一个通过字符串替换操作的文件编辑工具。我们不再包含 Claude 3.7 Sonnet 使用的第三个"规划工具"。在所有 Claude 4 模型上,我们报告全部 500 个问题的分数。OpenAI 模型的分数是在 477 个问题子集上报告的。
对于我们的"高计算量"数字,我们采用了额外的复杂性和并行测试时计算,如下所示:
- 我们对多个并行尝试进行采样。
- 我们丢弃破坏了仓库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝采样方法;请注意,没有使用任何隐藏测试信息。
- 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致 Opus 4 和 Sonnet 4 的分数分别为 79.4% 和 80.2%。