豆包大模型2.1系列发布:Pro与Turbo双版本,性价比拉满

豆包大模型2.1系列发布:Pro与Turbo双版本,性价比拉满

微信公众号 2026-06-23 产品动态 查看原文
豆包

豆包

Seed2.1重磅发布,智能对话助手,办公创作全能!

查看详情

今天,火山引擎正式发布豆包大模型2.1系列:Doubao-Seed-2.1-pro 和 Doubao-Seed-2.1-turbo,API 服务已全量上线火山方舟。

随着语言模型在 Coding 和 Agent 能力上跨越生产级可用的"质变点",企业和开发者比以往更需要最新最强的模型。对此,火山引擎进一步推出 Doubao-Seed-Evolving,聚焦 Coding 和 Agent 场景,以每月2~4次的速度快速迭代,持续交付最新最强的模型,企业和开发者无需更换 API 接入节点即可拥有最新模型。

豆包大模型2.1是生产级 Coding 和 Agent 任务的首选。在企业和开发者邀测的大量真实生产环境中,豆包大模型2.1在 Coding 工程交付、Agent 长链路任务执行上全面提升,在多模态理解能力上保持领先优势,可胜任企业研发和高经济价值的生产任务。

其中,豆包大模型2.1 Pro 是该系列的旗舰模型,也是当前国产模型中性价比最高的选择之一:每百万 Tokens 输入价格为6元、输出价格为30元、缓存命中条件下只需要1.2元;豆包大模型2.1 Turbo 则是规模化调用时更优的选择,相比豆包大模型2.1 Pro 模型能力相近、价格减半。

Coding&Agent 场景下,豆包大模型2.1 Pro 每百万Tokens 的综合成本仅1.96元,更具性价比。

此外,豆包大模型2.1全面兼容各项主流 Harness 框架,如:Claude Code、Codex、OpenClaw、Hermes Agent 等。当前,豆包大模型2.1 Pro 已上线 TRAE、TRAE WORK、扣子。同时,豆包产品即将接入豆包大模型2.1 Pro,为数亿用户提供全新的办公能力和体验。

Coding端到端能力大幅强化

企业生产场景交付稳定

豆包大模型2.1提升了 Coding 的端到端交付能力,可在真实企业级开发任务中完成需求理解、功能实现、bug 修复、运行环境搭建和结果验证等任务,形成稳定交付。

在 Coding Agent 方向,公开基准和开发者实际生产环境下的众测表明,豆包大模型2.1系列跨越生产级可用的质变点。

在业界公认最贴近真实研发的终端编程评测 Terminal Bench 2.1 上,豆包大模型 2.1 Pro 与 Claude Opus 4.7 基本持平,能在在命令行里端到端完成一整个工程任务。在长程软件开发任务的公认基准 SWE-Pro 上,豆包大模型2.1 Pro 接近 GPT-5.5 的表现。

豆包大模型2.1 Pro 在 ProgramBench 基准上也保持竞争力,可独立完成软件系统的架构设计与代码实现。在 NL2Repo-Bench 上,豆包大模型2.1 Pro 的表现领先 GPT-5.5,该基准主要评估模型将自然语言需求转化仓库级代码改动的能力,更接近真实软件工程场景。

此外,在 SciCode 科学计算代码评测上,豆包 2.1 Pro 拿到59.8分,超过 Claude Opus 4.7 和 GPT-5.5。该评测覆盖数理化生材5大学科的真实科研问题,是 AI for Science 方向最有含金量的基准之一。

在众测开发者评估中,开发者基于真实代码仓库提交工程任务,并对匿名模型输出进行比较。结果显示,在更贴近真实 Coding 流程的任务中,豆包大模型 2.1在最终完成质量上获得更高评价,近六成开发者认为 2.1 Pro 的产物质量比 Opus 4.6 更高。

我们也在芯片设计 RTL 这个生产场景下测了测豆包大模型2.1 Pro 的 Coding 能力。这是芯片设计里最核心、最严谨的环节,需要把每个寄存器和信号线在每个时钟周期里怎么流动写清楚,通常需要3到5名工程师做数周工作。

在这个测试中,豆包大模型2.1 Pro 围绕一个 16×16 PE 的 Tiny NPU Tile,连续运行近18个小时,经历9轮迭代,最终完成了6个核心模块、1303行 RTL 代码;还跑通了仿真、测试、综合检查等完整工程流程。最终它通过了手写数字识别验证,大大节省了工程师开发时间,完成了生产级 Coding 交付能力。

通用Agent能力显著提升

执行复杂任务更可靠

豆包大模型2.1在通用 Agent 能力上显著提升,并进一步强化了跨工具、跨环境的任务交付能力。在各类高经济价值的生产力任务中,可稳定完成项目规划、文件处理、工具调用等多步骤任务,产出可落地的结果。

以 GDPval 为例,这是 OpenAI 发布的真实世界经济价值任务评测集,覆盖9大行业,44种职业;豆包2.1在该基准上获得最高分,能胜任各行各业的高价值生产任务。

在更高难度、更专业的任务上,豆包大模型2.1也有较好表现。Agents' Last Exam(ALE)是2026年6月刚发布的 Agent 长程任务 Benchmark,覆盖13个行业集群、1000多项高经济价值真实任务。该评测发布不久,各模型短期内难以针对该测试进行充分定向优化,能够更真实地衡量模型面对新任务场景时的泛化能力。豆包大模型2.1 Pro 在这项评测上超越 Claude Opus4.7,展现出领先的长程规划和复杂任务执行能力。

同时,豆包大模型2.1大幅提升了工具调用的能力。在 MCP-Atlas 评测集上,豆包大模型2.1 Pro 全面超过 Opus4.7 与 GPT 5.5,在使用真实 MCP Server 和各种工具的能力上更稳定。

基于豆包大模型2.1 Pro 的 Agent 能力,升级后的豆包产品不仅能回答问题,还支持理解工作目标、自主拆解任务,并调用本地电脑、文档、表格、网页等工具持续执行完成任务,从"回答问题"升级为"专业办公":可以完成软件开发、数据分析、专业设计、流程自动化、金融分析等专业工作。

多模态理解持续领先

解锁更多Agentic场景

豆包大模型2.1延续了一贯的优势,在知识、推理、多模态理解等基础能力上进一步提升,对复杂视觉信息和视频内容处理能够做到更准确,进一步支撑了 Agentic 场景、代码工程和前沿探索。

GUI Agent 方面,豆包大模型2.1展现出较强的跨端理解与长程操作能力。在 OSWorld 和 MobileWorld 多个榜单上获得佳绩。豆包大模型 2.1 Pro 桌面端能力接近 Claude Opus 4.7、移动端则大幅领先,并全面超过 GPT-5.5,取得全球 SOTA。

图像方面,豆包2.1具备更强的空间理解与跨图像分析能力。在 MMMU-Pro 等多个榜单上获得高分,全面超过 GPT-5.5、Claude Opus 4.7 和 Gemini 3.1 Pro,取得全球 SOTA。

视频方面,豆包大模型2.1在动态过程与时序理解能力上显著增强。在 TOMATO 与 LVBench 两个业界权威榜单上,豆包2.1 Pro 得分均大幅领先 Gemini 3.1 Pro,在全球稳居领先位置。

在这个例子中,豆包大模型2.1 Pro 综合发挥了视觉理解、Agent 和 Coding 能力,实现了端到端的视频剪辑能力。它一次性消化了两个多小时的长视频,先产出口语化解说稿,再根据解说做好精准定位,自动拼接片段,合成解说音频,并且自动挑选背景音乐,最终合成带字幕的成片。

用上"豆包大模型2.1",他们这么说

豆包大模型2.1持续引入内外部用户和开发者的反馈,并结合真实案例校准模型优化方向,更关注模型在真实工程场景中的实际价值。在前期邀测的企业和开发者实际生产任务中,用户将豆包大模型2.1系列视为生产级可用的质变点。

WPS

依托灵犀的 Harness 框架,Seed 2.1 Pro 在 PPT 生成、表格交付、文字编辑与办公内容整理等核心任务上形成了稳定可用的链路,切实提升了日常办公效率。它尤其擅长概念解释、信息归纳与结构化梳理,能精准理解意图,把零散信息整理成层次清晰的成果;在创意写作上,也能提供丰富的思路发散与表达参考。

得到

在 AI 助手场景的实测中,Doubao-Seed-2.1-Pro 的综合表现优于其他对比模型。它对业务规则和指令约束的遵循非常稳定,核心禁令实现零违规;同时在写作语感、共情表达和上下文关联上表现突出,能更自然地贴合智能助手的人设与交互体验。

Unity(团结引擎)

在 3D 游戏开发场景里,Seed 2.1 Pro 在脚本逻辑类任务上表现很强,多项任务可以稳定拿到高分。它的单次能力上限也高于顶尖模型,对需要理解场景逻辑、完成代码修改与交付结果的任务,已经展现出很强潜力。

我们还邀请了方舟 Coding Plan 开发者参与众测,测试包括豆包大模型2.1 Pro 在内的多款模型,过程中模型对开发者匿名。打分结果显示,豆包大模型2.1 Pro 能很好地完成多样化开发任务,且在受测的多款模型中保持领先。

在企业内业务系统的开发场景中,豆包大模型能处理好新需求与繁重的历史业务之间的逻辑。在用户使用豆包大模型 2.1 Pro 完成的某储能安全平台开发任务中,模型不仅根据业务目标完成了包括故障上报在内的多个核心模块开发、而且补齐了容器化、CI/CD、迁移脚本、和测试链路。开发者表示代码完整规范,达到了可直接合并上线的水平。

在算法开发任务中,豆包大模型2.1 Pro 实现的逻辑不光能正确运行,而且性能优异。其开发的无人机地理信息系统路径规划功能,让系统能够在山区等复杂地形中更快、更准确地规划路线:该项任务下,模型需要升级规划算法,提升其性能与正确性,豆包大模型2.1 Pro 的实现完整且正确,同时相比原规划算法显著提升了性能表现。

豆包大模型2.1帮助用户完成高并发任务队列开发时,要把一个在高并发场景下容易出错的 Redis 异步任务队列,升级成具备原子任务流转、失败重试和监控能力的生产级系统。用户反馈豆包大模型2.1修改的代码在保持 API 向后兼容的同时,显著提升了高并发场景下的稳定性和一致性。

即刻起,豆包大模型2.1已全量上线火山方舟,点击文末【阅读原文】体验豆包大模型2.1系列,期待你的反馈。