Seed1.6 系列模型发布：256K长上下文 + Adaptive CoT动态思考 - 豆包

2025年6月25日，字节跳动Seed团队推出Seed1.6系列通用模型。该系列融合了多模态能力，支持自适应的深度思考、多模态理解、图形界面操作，且支持256K长上下文的深度推理。

在Seed1.6模型系列中，团队探索了Adaptive CoT（自适应思维链）技术，让模型能够根据问题难度自动触发思考过程，取得了模型效果和推理性能的平衡。

同时，Seed1.6系列模型在多项benchmark上表现突出，包括在多项视觉任务上表现接近或超过Seed1.5-VL，在国内外高考试题等泛化测试中也取得了优秀的分数。

预训练：融合多模态能力，支持256K上下文

Seed1.6沿用Seed1.5在稀疏MoE上的探索结果，使用23B激活、230B总参数进行预训练。在持续预训练阶段融合了多模态能力，同时支持文本和视觉能力。

预训练分为三个阶段：

第一阶段：纯文本预训练

训练数据主要由网页、书籍、论文、代码等数据组成。通过基于规则和模型的多种数据清洗、过滤、去重与采样策略，提升了预训练数据的质量和知识密度。

第二阶段：多模态混合持续训练（MMCT）

进一步提升文本数据的知识和推理密度，增加了学科、代码、推理类数据的占比；同时加入了视觉模态的数据，和高质量文本数据混合训练。

第三阶段：长上下文持续训练（LongCT）

使用不同长度范围的长文数据，逐步将模型的最大序列长度从32K提升至256K。

通过对模型架构、训练算法和基础设施的持续改进，Seed1.6 Base模型性能在参数规模接近的情况下较Seed1.5 Base取得明显提升，为后续的Post-training工作提供了良好的基础。

Adaptive CoT：动态思考，兼顾效果与效率

深度思考模型在数学、编程等高难度领域展现了令人印象深刻的能力，其核心因素是long CoT大幅增强了模型的推理能力。但同时也容易带来过度思考的问题——深度思考模型会无差别地用long CoT进行输出，生成大量无用的token，增加推理负担。

为此，Seed1.6提出了"动态思考能力"（Adaptive CoT, AdaCoT），提供三种推理模式：

全思考（FullCoT）：对所有prompt都会进行思考再给出回答，效果与Seed1.6-Thinking持平，同时对CoT长度进行了压缩
不思考（NoCoT）：对所有prompt都不会进行思考，直接回答，效率更高
自适应思考（AdaCoT）：以上两种模式的融合，模型会根据不同的prompt，自动选择是否进行思考

为了实现动态思考能力，团队在RL训练中引入新的奖励函数——惩罚过度思考、奖励恰当思考。

实际效果

在MMLU、MMLU pro等简单或中等难度的任务上，Seed1.6-AdaCoT表现出不同的CoT触发率：

MMLU上CoT触发率：37%
MMLU pro上CoT触发率：70%
触发率与难度呈正相关

在这类任务中，模型在性能未下降的情况下有效节省了token数。

在AIME、BeyondAIME等困难任务上，Seed1.6-AdaCoT的CoT触发率达到90~100%，且效果与Seed1.6-FullCoT相当，说明自适应思考保留了Long CoT给模型带来的推理能力优势。

同时，AdaCoT的方法在多模态场景同样有效。

多模态融合的思考能力

Seed1.6-Thinking总体延续Seed1.5-Thinking的训练方法，训练过程中采用了多阶段的RFT（拒绝采样微调）和RL（强化学习）迭代优化。每一轮RL以上一轮RFT为起点，在RFT候选的筛选上使用多维度的reward model选择最优回答。

相比Seed1.5-Thinking，Seed1.6-Thinking的升级包括：

拓展了训练算力
加大了高质量训练数据规模（Math、Code、Puzzle和Non-reasoning等）
提升了模型在复杂问题上的思考长度
在模型能力维度上深度融合了VLM，给模型带来清晰的视觉理解能力

因此，Seed1.6-Thinking在复杂文本场景中的推理能力明显提升，同时也具备了较好的视觉推理能力。

为了进一步强化模型思考能力，Seed1.6-Thinking还引入了parallel decoding（并行解码），这是一种无需训练即可扩展模型能力的方法。对于比较困难的任务，parallel decoding可以明显提升模型效果。比如在高难度测试集Beyond AIME上，Seed1.6-Thinking的测试结果实现了8分的提升，在代码任务上的测试结果也有明显的提升。

泛化测试：高考成绩优异

在传统benchmark评测之外，团队还评测了模型在两个国家大学入学考试中的结果，验证模型在泛化测试上的表现。

2025年高考试题测试

采用2025年山东卷高考真题进行测试，语数外采用新课标全国Ⅰ卷，其余科目为山东省自主命题，满分750分。

对比模型包括：Gemini2.5-Pro-0605、Seed1.6-Thinking、DeepSeek-R1-0528、Claude-Sonnet-4、OpenAI-o3-high-0416。

结果：

理科：Seed1.6-Thinking排名第二，达到648分，其中物理表现比较突出
文科：Seed1.6-Thinking排名第一，达到683分，地理和历史优势较大
文理科分数均超出大部分985高校往年录取分数线

在获得更高清版本的高考试题图后，结合文本和图片进行全模态推理，Seed1.6-Thinking在生物和化学两科的总分可再提升近30分（理科总分达到676分）。

JEE Advanced试题测试

JEE Advanced是印度理工学院的第二阶段入学考试，每年数百万人参加第一阶段，前25万人进入第二阶段。考试分两场，每场3小时，同时考察数学、物理、化学三科。

结果：

对比全印度人类考生，第一名为332分，第10名为317分
Gemini-2.5-Pro和Seed1.6-Thinking可取得全印度top 10的成绩
Seed1.6-Thinking在5次采样的数学测试中回答全部正确

总结与展望

Seed1.6系列模型是Seed团队在推理效果和性能平衡上的一次成功尝试，同时模型从预训练到后训练融合了VLM多模态能力，在最新的高考题目测试中也表现突出。

未来Seed团队将进一步探索更高效的模型架构，提升模型的推理效果，丰富多模态能力，深入探索模型端到端完成任务的agent能力。