今天,我们发布 Claude 3.7 Sonnet¹——这是我们迄今为止最智能的模型,也是市场上首个混合推理模型。Claude 3.7 Sonnet 既可以产生近乎即时的响应,也可以进行扩展的、逐步的思考,并且这种思考过程对用户是可见的。API 用户还可以对模型的思考时长进行细粒度控制。
Claude 3.7 Sonnet 在编程和前端 Web 开发方面表现出特别显著的提升。与该模型一同推出的还有我们的智能体编程命令行工具 Claude Code。Claude Code 目前处于有限研究预览阶段,使开发者能够直接从终端将大量工程任务委托给 Claude。
Claude 3.7 Sonnet 现已在所有 Claude 计划中可用——包括免费版、Pro 版、团队版和企业版——同时也在 Claude 开发者平台、Amazon Bedrock 和 Google Cloud Vertex AI 上提供。扩展思考模式除免费 Claude 套餐外,在所有界面上均可用。
在标准模式和扩展思考模式下,Claude 3.7 Sonnet 的价格与其前代产品相同:每百万输入令牌 3 美元,每百万输出令牌 15 美元——其中包括思考令牌。
Claude 3.7 Sonnet:让前沿推理变得实用
我们以不同于市场上其他推理模型的理念开发了 Claude 3.7 Sonnet。正如人类使用同一个大脑进行快速反应和深度思考一样,我们认为推理应该是前沿模型的一种集成能力,而不是一个完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。
Claude 3.7 Sonnet 在几个方面体现了这一理念。首先,Claude 3.7 Sonnet 既是普通的 LLM,也是推理模型,二者合一:你可以选择何时让模型正常回答,何时让它在回答前思考更长时间。在标准模式下,Claude 3.7 Sonnet 代表了 Claude 3.5 Sonnet 的升级版本。在扩展思考模式下,它会在回答前进行自我反思,从而提高在数学、物理、指令遵循、编程和许多其他任务上的表现。我们通常发现,在两种模式下,对模型的提示方式是相似的。
其次,通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考的"预算":你可以告诉 Claude 思考不超过 N 个令牌,N 可以是最高 128K 令牌输出限制内的任意值。这使你能够在速度(和成本)与答案质量之间进行权衡。
第三,在开发推理模型的过程中,我们较少针对数学和计算机科学竞赛问题进行优化,而是将重点转向更能反映企业实际使用 LLM 方式的现实任务。
早期测试 证明了 Claude 在编程能力方面的全面领先地位:Cursor 指出,Claude 在现实世界编程任务中再次成为同类最佳,在处理复杂代码库到高级工具使用等各个领域都有显著改进。Cognition 发现,在规划代码变更和处理全栈更新方面,它远远优于任何其他模型。Vercel 强调了 Claude 对复杂智能体工作流的卓越精度,而 Replit 已成功部署 Claude 来从头构建复杂的 Web 应用和仪表板,这是其他模型难以完成的。在 Canva 的评估中,Claude 始终能生成可投入生产的代码,具有出色的设计品味,并大幅减少了错误。
Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了最先进的性能,该基准测试评估 AI 模型解决现实世界软件问题的能力。有关支架的更多信息,请参阅附录。
Claude 3.7 Sonnet 在 TAU-bench 上取得了最先进的性能,TAU-bench 是一个测试 AI 智能体在复杂现实世界任务中与用户和工具交互的框架。有关支架的更多信息,请参阅附录。
Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能体编程方面表现出色,扩展思考在数学和科学方面提供了显著提升。除了传统基准测试之外,它甚至在我们的 Pokémon 游戏玩法测试 中超越了所有以前的模型。
Claude Code
自 2024 年 6 月以来,Sonnet 一直是全球开发者的首选模型。今天,我们通过推出 Claude Code——我们的首个智能体编程工具——来进一步赋能开发者,目前处于有限研究预览阶段。
Claude Code 是一个积极的协作者,可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub,以及使用命令行工具——在每一步都让你保持知情。
Claude Code 是一个早期产品,但已经成为我们团队不可或缺的工具,特别是在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中,Claude Code 单次通过就能完成通常需要 45 分钟以上手动工作的任务,减少了开发时间和开销。
在接下来的几周里,我们计划根据使用情况不断改进它:增强工具调用可靠性、增加对长时间运行命令的支持、改进应用内渲染,以及加深 Claude 对自身能力的理解。
我们推出 Claude Code 的目标是更好地了解开发者如何使用 Claude 进行编程,从而为未来的模型改进提供信息。通过加入此预览,你将获得与我们用来构建和改进 Claude 的相同强大工具,你的反馈将直接塑造其未来。
使用 Claude 处理你的代码库
我们还改进了 Claude.ai 上的编程体验。我们的 GitHub 集成现已在所有 Claude 计划中可用——使开发者能够将其代码仓库直接连接到 Claude。
Claude 3.7 Sonnet 是我们迄今为止最好的编程模型。通过更深入地理解你的个人、工作和开源项目,它成为修复 bug、开发功能和构建文档的更强大合作伙伴,涵盖你最重要的 GitHub 项目。
负责任地构建
我们对 Claude 3.7 Sonnet 进行了广泛的测试和评估,与外部专家合作,确保它符合我们在安全性、安全性和可靠性方面的标准。Claude 3.7 Sonnet 还对有害请求和良性请求做出了更细致的区分,与其前代产品相比,不必要的拒绝减少了 45%。
此版本的系统卡片涵盖了几个类别中的新安全结果,详细介绍了我们的负责任扩展政策评估,其他 AI 实验室和研究人员可以将其应用于自己的工作。该卡片还讨论了计算机使用带来的新风险,特别是提示注入攻击,并解释了我们如何评估这些漏洞并训练 Claude 来抵抗和缓解它们。此外,它还研究了推理模型可能带来的安全益处:理解模型如何做出决策的能力,以及模型推理是否真正可信和可靠。阅读完整的系统卡片以了解更多信息。
展望未来
Claude 3.7 Sonnet 和 Claude Code 标志着向真正能够增强人类能力的 AI 系统迈出了重要一步。凭借其深度推理、自主工作和有效协作的能力,它们让我们更接近一个 AI 丰富和扩展人类所能成就的未来。
我们很高兴你能探索这些新功能,并看到你将用它们创造什么。一如既往,我们欢迎你的反馈,因为我们将继续改进和发展我们的模型。
---
#### 附录
1 关于命名的经验教训。
评估数据来源
TAU-bench
关于支架的信息
分数是通过在航空公司代理政策中添加一个提示附件来实现的,该附件指示 Claude 更好地利用"规划"工具,在多轮对话过程中,鼓励模型在解决问题时写下其想法,这与我们通常的思考模式不同,以便最好地利用其推理能力。为了适应 Claude 通过更多思考而增加的额外步骤,最大步骤数(按模型完成次数计算)从 30 步增加到 100 步(大多数对话在 30 步内完成,只有一个对话达到 50 步以上)。
此外,Claude 3.5 Sonnet(新版)的 TAU-bench 分数与我们最初发布时报告的分数不同,因为自那以后数据集有了小幅改进。我们在更新后的数据集上重新运行,以便与 Claude 3.7 Sonnet 进行更准确的比较。
SWE-bench Verified
关于支架的信息
解决 SWE-bench 这样的开放式智能体任务有很多方法。有些方法将决定调查或编辑哪些文件以及运行哪些测试的大部分复杂性转移到更传统的软件上,让核心语言模型在预定义的位置生成代码,或从更有限的一组动作中进行选择。Agentless(Xia et al., 2024)是一个流行的框架,用于评估 Deepseek 的 R1 和其他模型,它通过基于提示和嵌入的文件检索机制、补丁定位以及针对回归测试的 40 选 1 拒绝采样来增强智能体。其他支架(例如 Aide)进一步补充模型,提供额外的测试时计算,如重试、N 选 1 或蒙特卡洛树搜索(MCTS)。
对于 Claude 3.7 Sonnet 和 Claude 3.5 Sonnet(新版),我们使用了一种更简单的方法,只使用最少的支架,模型在单个会话中决定运行哪些命令和编辑哪些文件。我们的主要"无扩展思考" pass@1 结果只是为模型配备了此处描述的两个工具——一个 bash 工具,和一个通过字符串替换操作的文件编辑工具——以及我们在 TAU-bench 结果中提到的"规划工具"。由于基础设施限制,在我们的内部基础设施上,500 个问题中只有 489 个是实际可解的(即黄金解决方案通过测试)。对于我们的普通 pass@1 分数,我们将 11 个无法解决的问题计为失败,以保持与官方排行榜的一致性。为了透明起见,我们单独发布了在我们的基础设施上无法运行的测试用例。
对于我们的"高计算量"数字,我们采用了额外的复杂性和并行测试时计算,如下所示:
- 我们使用上述支架对多个并行尝试进行采样
- 我们丢弃破坏了仓库中可见回归测试的补丁,类似于 Agentless 采用的拒绝采样方法;请注意,没有使用任何隐藏测试信息
- 然后,我们使用类似于我们在 GPQA 和 AIME 上的结果的评分模型对剩余的尝试进行排序,并在研究文章中进行了描述,并选择最佳的一个进行提交
这导致在我们的基础设施上可用的 n=489 个已验证任务的子集上得分为 70.3%。如果没有这个支架,Claude 3.7 Sonnet 使用相同的子集在 SWE-bench Verified 上达到 63.7%。被排除的 11 个与我们内部基础设施不兼容的测试用例是:
- scikit-learn__scikit-learn-14710
- django__django-10097
- psf__requests-2317
- sphinx-doc__sphinx-10435
- sphinx-doc__sphinx-7985
- sphinx-doc__sphinx-8475
- matplotlib__matplotlib-20488
- astropy__astropy-8707
- astropy__astropy-8872
- sphinx-doc__sphinx-8595
- sphinx-doc__sphinx-9711