Seed2.0 正式发布：面向Agent时代的通用大模型 - 豆包

2026年2月14日，字节跳动Seed团队正式发布Seed2.0系列大模型。大语言模型驱动的产品已深刻融入我们的生活。过去一年多，Seed开发的LLM模型系列已支持豆包等拥有上亿用户的C端产品。随着Agent时代到来，LLM将在现实世界的复杂任务中发挥更大作用：比如参与科学研究，支持复杂软件开发，LLM甚至可以基于上下文自主学习，完成各类具有经济价值的任务。

在这个关键节点，Seed2.0系列围绕大规模生产环境下的使用需求做了系统性优化，旨在帮助突破真实世界中的复杂任务。

基于真实场景的优化方向

通过分析Seed通用模型在MaaS服务中的调用情况，团队发现，最高比例的需求为处理混杂图表、文档等非结构化信息的知识内容。企业往往要求模型先做"读得多、想得多"的任务，再进入复杂且专业的流程型工作，对模型的长内容理解和多步任务执行能力要求越来越高。

基于真实使用场景，Seed2.0系列重点在以下方面进行了优化：

更稳健的视觉与多模态理解：Seed2.0强化了视觉感知与推理能力，对复杂文档、表格、图形、视频内容的解析水平显著提升，视觉信息处理更精准
更可靠的复杂指令执行：Seed2.0提升了指令遵循和推理表现，并强化了对多约束、多步骤、长链路任务的理解与执行能力，已具备支撑高价值任务的能力基础
更快速、更灵活的推理选择：Seed2.0提供Pro、Lite、Mini三款不同尺寸的通用Agent模型，以及专门的Code模型，覆盖不同的场景需求，供企业和开发者选择

除了更好地支持生产级需求，Seed2.0还致力于提升模型智能上限。 目前，Seed2.0已能从解决奥林匹克竞赛类问题迈向支持研究级的推理任务。比如，Seed2.0可尝试探索埃尔德什级别的数学问题，也可完成部分科学相关任务的编程工作，进一步突破机器智能的边界。

Seed2.0 Pro和Code模型已分别在豆包App和TRAE上线，同时，Seed2.0全系列模型API已同步上线火山引擎。

体验入口：

豆包App-选择"专家"模式-开启对话
TRAE-在"内置模型"中选择"Doubao-Seed-2.0-Code"

多模态理解能力全面升级

Seed2.0全面升级了多模态能力，在各类视觉理解任务上均达到业界顶尖水平，其视觉推理、感知能力、空间推理与长上下文理解能力表现尤为突出，Seed2.0 Pro在大多数相关基准测试中取得了最高分数。

数学与视觉推理

Seed2.0 Pro在MathVista、MathVision、MathKangaroo、MathCanvas等数学推理基准上达到业界最优水平。同时，在LogicVista、VisuLogic等视觉解谜与逻辑推理基准上，Seed2.0 Pro得分较Seed1.8显著提升。

视觉感知

Seed2.0的视觉感知能力进一步升级。在VLMsAreBiased、VLMsAreBlind、BabyVision等基准中，Seed2.0取得了业界最高分，说明它在面对不同类型的视觉输入时，仍能保持准确且可信的感知和判断能力。

文档理解

视觉理解基础能力的进步，让Seed2.0在真实应用场景中的表现大幅提升。在文档理解中，模型面对的往往不是标准的数据输入，而是复杂版式混排的原始材料。相比Seed1.8，Seed2.0处理非结构化信息的能力显著强化，其在ChartQAPro与OmniDocBench 1.5基准上达到顶尖模型水准。

长上下文理解

在长上下文理解方面，Seed2.0在DUDE、MMLongBench与MMLongBench-Doc上均取得业界最佳分数。

视频理解

面对视频场景，Seed2.0强化了对时间序列与运动感知的理解能力，在TVBench、TempCompass、MotionBench等关键测评中处于领先位置，且在EgoTempo基准上超过了人类分数，表明它对"变化、动作、节奏"这类信息的捕捉更为稳定，在工程侧可用性更高。

长视频场景中，Seed2.0在大部分评测上超越了其他顶尖模型。其可以高效准确地处理小时级别的长视频，此外，视频工具VideoCut进一步提高了长视频处理的时长范围，并提升了推理精度。在视频长、信息杂的企业真实部署场景中，Seed2.0可帮助快速捕捉视频关键信息，准确地输出用于下游决策的结论。

同时，Seed2.0在多个流式实时问答视频基准测试中表现优异，能作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴，实现从被动问答到主动指导的交互升级，可应用于健身、穿搭等陪伴场景。

LLM与Agent表现大幅强化

Seed团队观察到一个典型失衡：语言模型已经可以顺利解决竞赛难题，但放在真实世界中，它们依然很难端到端地完成实际任务——比如一次性构建一个设计精良、功能完整的小程序。

LLM和Agent为什么在处理现实问题时屡屡碰壁？团队认为，原因主要来自两点：

真实世界任务往往跨越更长时间尺度、包含多个阶段，而现有LLM Agent难以自主构建高效工作流，并在长时间跨度中积累经验
真实世界知识具有很强的领域壁垒且呈长尾分布，各行业的经验不在训练语料的高频区，导致即便模型擅长数学与代码，其在专业场景中往往价值有限

长尾领域知识加强

Seed2.0首先通过系统性加强长尾领域知识来应对这一难题。Seed2.0 Pro在SuperGPQA上分数超过GPT-5.2，其在科学领域的整体成绩与Gemini 3 Pro和GPT-5.2保持相当水平。

此外，Seed2.0 Pro在跨学科知识应用上的能力显著增强，其在FrontierSci等STEM基准测试中表现突出，部分场景得分超过Gemini 3 Pro。同时，Seed2.0 Pro在ICPC、IMO、CMO测试中均获得金牌成绩，说明模型在数学、代码及推理智能方面进一步提升。

指令遵循能力强化

Seed2.0还重点强化了指令遵循能力。相关评测显示，Seed2.0可保持较强的一致性与可控性，这为其作为Agent模型在长链路、多步骤任务中严格按约束条件执行奠定基础。

长链路任务能力突出

从基础Agent能力的得分来看，Seed2.0在长链路任务中表现突出，尤其擅长连续完成"找资料、做归纳、写结论"等连续工作流。搜索与深度研究任务中，Seed2.0在BrowseComp-zh、HLE-text等七项评测上均取得较高分数，展现出在研究型任务里的推进能力与稳定性。

复杂Agent能力达第一梯队

在复杂Agent能力评估中，Seed2.0达到业界第一梯队水平。比如，在具备直接经济价值的现实任务评测中，Seed2.0在客服问答、信息抽取、意图识别、中小学阶段问题解答等高频用户场景上表现稳定；在GDPVal-Diamond、XPert Bench等复杂专业任务基准上，模型同样取得了有竞争力的结果，说明它可以胜任长链路、多约束查询任务。

同时，Seed2.0 Pro在FrontierSci-research等前沿科研基准上表现强劲，并在AInstein Bench上领先，体现出在科学发现场景中较强的假设驱动式推理能力。

从研究想法到可落地方案

此外，Seed2.0还能把"研究想法"推进到"形成可落地的实验方案"。

以高尔基体蛋白分析为例，它不仅能给出总体实验路线，还能把基因工程、小鼠模型构建、亚细胞分离与多组学分析串成一条完整流程，细化到关键环节怎么做、用什么进行对照以排除污染、用哪些指标评估纯度。相关领域专家表示，Seed2.0给出的方案，在跨学科的实验细节与步骤化表达上，超出了他们对大模型的预期，其回答不止停留在策略层面，而是能产出结构清晰、科学上相对可靠，且具有可执行性的实验草案。

推理成本进一步降低

在提升了长程任务执行能力的同时，Seed2.0还进一步降低了推理成本。其模型效果与业界顶尖大模型相当，同时token定价降低了约一个数量级。在现实世界的复杂任务中，由于大规模推理与长链路生成将消耗大量token，这一成本优势将变得更为关键。

总结与展望

针对企业与用户的真实需求及使用场景，Seed团队筛选和搭建了一系列评测基准，用于构建适用于大语言模型的评估体系。

依托这套可靠且具有前瞻性的评估体系，Seed2.0强化了多模态理解与推理能力，并致力于解决长尾知识与复杂指令遵循问题，从而提升模型在复杂、长周期现实任务中的可靠性。在针对真实应用场景中的评测中，Seed2.0表现出色，达到业界第一梯队水平，且已表现出支持科学研究级任务的潜力。

同时，团队也观察到，Seed2.0在端到端整体代码生成、上下文学习方面取得了明显进步，不过在部分高难基准上，其与国际领先模型相比仍有提升空间。未来，团队将继续面向真实场景迭代Seed语言模型，不断提高其智能上限。