- 更新
2026年6月12日
我们正在暂停对 Claude Fable 5 和 Claude Mythos 5 的访问。对于给客户带来的不便,我们深表歉意,并正在努力尽快恢复访问。
今天,我们推出 Claude Fable 5——一款我们已使其可安全通用的 Mythos 级¹模型。
Fable 5 的能力超过了我们以往任何一款公开发布的模型。它在几乎所有经过测试的 AI 能力基准上都达到了最先进水平,在软件工程、知识工作、视觉、科学研究等众多领域表现出色。任务越长、越复杂,Fable 5 相对于我们其他模型的领先优势就越大。
发布能力如此强大的模型伴随着风险。如果没有安全保障措施,Fable 5 在网络安全等领域的能力可能会被滥用以造成严重损害。因此,我们推出该模型时附带了安全保障措施,这意味着某些主题的查询将改为由我们能力次强的模型 Claude Opus 4.8 响应。为了既安全又快速地发布模型,我们对这些安全保障措施进行了保守调整——它们有时会捕获无害的请求,不过平均而言,在不到 5% 的会话中会触发。随着未来几个月更强大的模型的到来,我们正在努力尽快改进安全保障措施并减少误报。
对于一小部分网络防御者和基础设施提供商,我们还推出了 Claude Mythos 5。它的底层模型与 Fable 5 相同,但在某些领域取消了安全保障措施。² Mythos 5 将最初通过 Glasswing 计划 与美国政府合作部署,作为 Claude Mythos Preview 的升级。它拥有世界上所有模型中最强的网络安全能力。很快,我们打算通过更广泛的可信访问计划扩大 Mythos 5 的访问范围。
像 Fable 5 和 Mythos 5 这样的模型的能力有潜力为世界带来深远的好处。我们已经在 Glasswing 计划中看到了初步迹象,这些模型已经帮助网络防御者保护至关重要的软件。我们在生命科学研究中也看到了这一点,这些模型正在提出新的假设并加速新疗法的开发。
Fable 5 和 Mythos 5 的定价为每百万输入令牌 10 美元,每百万输出令牌 50 美元——不到 Claude Mythos Preview 价格的一半。今天的联合发布是朝着我们的目标迈出的又一步,即尽快、尽可能安全地将先进的 AI 能力带给尽可能多的用户。
评估 Claude Fable 5 和 Claude Mythos 5
下表比较了 Fable 5 和 Mythos 5 与其他领先模型的能力。
Fable 5 和 Mythos 5 可以比以往任何 Claude 模型更长时间地自主工作。下面我们讨论这些技能如何应用于软件工程,并介绍该模型在知识工作、视觉、记忆和生命科学研究方面的改进能力。
软件工程。 在早期测试中,Stripe 报告说 Fable 5 将数月的工程工作压缩到了几天内。在一个 5000 万行的 Ruby 代码库中,该模型在一天内完成了一次跨代码库的迁移,而如果手动完成,整个团队需要两个多月。Fable 5 也比以往的 Claude 模型更具令牌效率:在 Cognition 的 FrontierCode 评估中——该评估测试模型是否能够通过困难的编程任务,同时满足高质量生产代码库的标准——Fable 5 在前沿模型中得分最高,即使在中等努力程度下也是如此。
知识工作。 Fable 5 在复杂分析任务上表现出色。在 Hebbia 面向高级推理的金融基准测试中,Fable 5 在所有模型中得分最高,在基于文档的推理、图表和表格解释以及问题解决方面取得了大幅提升。IMC 指出,Fable 5 几乎在所有方面都通过了他们的交易分析评估,包括事实查找、概念推理、根本原因分析和期望值分析。
视觉。 Fable 5 是处理涉及视觉任务的新的最先进模型。它可以从详细的科学图表中提取精确数字,还可以执行复杂的基于视觉的任务,例如仅从截图重建 Web 应用的源代码。它还需要更少的支架:例如,以前的 Claude 模型即使在有提供额外有用工具的辅助框架的情况下也难以玩 Pokémon FireRed,但 Fable 5 仅使用最少的纯视觉辅助框架就通关了 FireRed。
记忆和长上下文。 Fable 5 在长时间运行的任务中能够在数百万令牌的范围内保持专注,并使用自己的笔记改进输出。当我们让模型玩卡组构建游戏 Slay the Spire 时,赋予其访问持久的基于文件的记忆的能力,相比 Opus 4.8,其性能提升了三倍;Fable 到达游戏最终关卡的频率也是 Opus 4.8 的三倍。
药物设计: 使用 Mythos 5,我们内部的蛋白质设计专家将药物设计过程的某些方面加速了约 10 倍。在一个例子中,他们发现 Mythos 5 在拥有蛋白质设计和生物信息学工具但没有人类协助的情况下,表现与熟练的人类操作员相当甚至更优。在此过程中,该模型执行了通常由科学家完成的所有任务:选择结合位点、选择和运行蛋白质设计工具,以及在失败中恢复。本研究中的 14 个蛋白质靶点中有 9 个(如下所示)产生了我们目前正在研究的强力药物设计候选物。
分子生物学中的新假设。 Mythos 5 是我们第一个能够持续产生新颖、引人注目的科学假设的模型。在与 Opus 级模型的盲法头对头比较中,我们的科学家约 80% 的时候更喜欢 Mythos 的分子生物学假设,并且已经将其中几个推进到实验评估阶段。与此同时,Mythos 的一个假设——关于大肠杆菌蛋白质的一种新机制——得到了一项研究的证实,该研究来自一个独立研究同一问题的实验室。
基因组学的新研究。 Mythos 5 在一周多的基本自主工作中进行了新的基因组学研究。它组装了跨越 138 个动物物种的数百万个细胞的单细胞数据,并设计和训练了一个自定义机器学习模型,以识别即使在亲缘关系很远的生物体中执行相同功能的细胞。仅在高层人类输入的情况下,Mythos 5 训练的模型优于最近发表在《科学》杂志上的一个模型——尽管体积小了 100 倍。我们打算在未来几个月发表这些结果。
对齐。 在我们的自动化对齐评估中,我们发现 Mythos 5 的未对齐行为水平(包括模型采取的未对齐行动,如欺骗和与用户滥用模型的行为合作)很低,与 Opus 4.8 相似。鉴于它们是相同的底层模型,Fable 5 的对齐水平也将相似。该评估在模型的系统卡片中有完整描述,以及详细的其他安全和能力测试套件。
---
¹ Mythos 级模型是我们能力最强的模型类别,代表了前沿 AI 能力的领先水平。
² Mythos 5 和 Fable 5 是相同的底层模型。Mythos 5 具有较少的输出限制,通过可信访问程序提供给网络安全防御者和基础设施提供商。Fable 5 是我们向公众提供的版本,具有更广泛的安全护栏。
Claude Fable 5 的早期反馈
获得早期访问权限的客户对 Fable 5 进行了自己的测试。以下是他们的原话,展示了他们所看到的:
> Claude Fable 5 是 CursorBench 上最先进的模型。它开启了一类以前的模型无法企及的长期问题。 > > Michael Truell > 首席执行官兼联合创始人
> Claude Fable 5 为 GitHub 服务的开发者带来了真正的进步。在我们的早期测试中,它以超越先前基准的自主性和可靠性承担复杂、长期的编码任务。但最让我们兴奋的是它所指向的方向:一个未来,开发者可以将越来越雄心勃勃的工作交给智能体,并在整个软件生命周期中信任结果。 > > Mario Rodriguez > 首席产品官
> 这是我们有机会测试的所有 Claude 模型中最强劲的结果。Claude Fable 5 在智能体编程和原型设计方面明显向前迈进了一步。 > > Matt Colyer > 开发者产品总监
> Claude Fable 5 的推理能力明显超越了 Opus 4.8。它以高级研究科学家的水平工作——选择方向、分配资源、摒弃不正确的信念,并产生新颖的第一性原理输出。 > > Sean Ward > 首席执行官兼联合创始人
> Claude Fable 5 理解构建者的意思,而不仅仅是他们输入的内容。一年前需要一百个提示的应用,现在它一次就能完成。当客户真的遇到困难时,它是我们用来帮助他们快速解决问题的模型,这样他们就能完成设定的目标。 > > Fabian Hedin > 首席技术官兼联合创始人
> Claude Fable 5 给人的感觉截然不同。在盲审中,我们的律师发现它的红线修改每次都能匹配或击败我们当前的模型。 > > Aveek Duttagupta > 技术人员成员
> 在最高努力程度下,Claude Fable 5 会反思并验证自己的工作。对我们来说,这就是实现高度自主操作的关键——额外的思考是值得的。 > > Yusuke Kaji > 商务 AI 总经理
> Claude Fable 5 用更少的轮次提供了更强大的工程能力——处理我们员工每天在 Claude Code 中运行的复杂多智能体工作流。 > > Luke Anderson > 首席技术官
> Claude Fable 5 是 FrontierBench(Cognition 的前沿编程评估)上得分最高的模型。它擅长长期推理,并且能够开箱即用地泛化到不熟悉的工具。 > > Scott Wu > 首席执行官
> Claude Fable 5 是我们测试过的最强的金融优先模型,无论是在一般金融还是推理方面。这是显著的一步提升。 > > Damian Miraglia > 应用 AI 首席工程师
> Claude Fable 5 是第一个在我们复杂、长期分析任务的核心分析基准上突破 90% 的模型——比 Opus 高出 10 个百分点。在最困难的问题上,它展现出强大的判断力和对细微差别的关注。 > > Izzy Miller > AI 研究负责人