2025年6月25日,字节跳动Seed团队推出Seed1.6系列通用模型。该系列融合了多模态能力,支持自适应的深度思考、多模态理解、图形界面操作,且支持256K长上下文的深度推理。
在Seed1.6模型系列中,团队探索了Adaptive CoT(自适应思维链)技术,让模型能够根据问题难度自动触发思考过程,取得了模型效果和推理性能的平衡。
同时,Seed1.6系列模型在多项benchmark上表现突出,包括在多项视觉任务上表现接近或超过Seed1.5-VL,在国内外高考试题等泛化测试中也取得了优秀的分数。
预训练:融合多模态能力,支持256K上下文
Seed1.6沿用Seed1.5在稀疏MoE上的探索结果,使用23B激活、230B总参数进行预训练。在持续预训练阶段融合了多模态能力,同时支持文本和视觉能力。
预训练分为三个阶段:
第一阶段:纯文本预训练
训练数据主要由网页、书籍、论文、代码等数据组成。通过基于规则和模型的多种数据清洗、过滤、去重与采样策略,提升了预训练数据的质量和知识密度。
第二阶段:多模态混合持续训练(MMCT)
进一步提升文本数据的知识和推理密度,增加了学科、代码、推理类数据的占比;同时加入了视觉模态的数据,和高质量文本数据混合训练。
第三阶段:长上下文持续训练(LongCT)
使用不同长度范围的长文数据,逐步将模型的最大序列长度从32K提升至256K。通过对模型架构、训练算法和基础设施的持续改进,Seed1.6 Base模型性能在参数规模接近的情况下较Seed1.5 Base取得明显提升,为后续的Post-training工作提供了良好的基础。
Adaptive CoT:动态思考,兼顾效果与效率
深度思考模型在数学、编程等高难度领域展现了令人印象深刻的能力,其核心因素是long CoT大幅增强了模型的推理能力。但同时也容易带来过度思考的问题——深度思考模型会无差别地用long CoT进行输出,生成大量无用的token,增加推理负担。
为此,Seed1.6提出了"动态思考能力"(Adaptive CoT, AdaCoT),提供三种推理模式:
- 全思考(FullCoT):对所有prompt都会进行思考再给出回答,效果与Seed1.6-Thinking持平,同时对CoT长度进行了压缩
- 不思考(NoCoT):对所有prompt都不会进行思考,直接回答,效率更高
- 自适应思考(AdaCoT):以上两种模式的融合,模型会根据不同的prompt,自动选择是否进行思考
为了实现动态思考能力,团队在RL训练中引入新的奖励函数——惩罚过度思考、奖励恰当思考。
实际效果
在MMLU、MMLU pro等简单或中等难度的任务上,Seed1.6-AdaCoT表现出不同的CoT触发率:
- MMLU上CoT触发率:37%
- MMLU pro上CoT触发率:70%
- 触发率与难度呈正相关
在这类任务中,模型在性能未下降的情况下有效节省了token数。
在AIME、BeyondAIME等困难任务上,Seed1.6-AdaCoT的CoT触发率达到90~100%,且效果与Seed1.6-FullCoT相当,说明自适应思考保留了Long CoT给模型带来的推理能力优势。
同时,AdaCoT的方法在多模态场景同样有效。
多模态融合的思考能力
Seed1.6-Thinking总体延续Seed1.5-Thinking的训练方法,训练过程中采用了多阶段的RFT(拒绝采样微调)和RL(强化学习)迭代优化。每一轮RL以上一轮RFT为起点,在RFT候选的筛选上使用多维度的reward model选择最优回答。
相比Seed1.5-Thinking,Seed1.6-Thinking的升级包括:
- 拓展了训练算力
- 加大了高质量训练数据规模(Math、Code、Puzzle和Non-reasoning等)
- 提升了模型在复杂问题上的思考长度
- 在模型能力维度上深度融合了VLM,给模型带来清晰的视觉理解能力
因此,Seed1.6-Thinking在复杂文本场景中的推理能力明显提升,同时也具备了较好的视觉推理能力。
为了进一步强化模型思考能力,Seed1.6-Thinking还引入了parallel decoding(并行解码),这是一种无需训练即可扩展模型能力的方法。对于比较困难的任务,parallel decoding可以明显提升模型效果。比如在高难度测试集Beyond AIME上,Seed1.6-Thinking的测试结果实现了8分的提升,在代码任务上的测试结果也有明显的提升。
泛化测试:高考成绩优异
在传统benchmark评测之外,团队还评测了模型在两个国家大学入学考试中的结果,验证模型在泛化测试上的表现。
2025年高考试题测试
采用2025年山东卷高考真题进行测试,语数外采用新课标全国Ⅰ卷,其余科目为山东省自主命题,满分750分。
对比模型包括:Gemini2.5-Pro-0605、Seed1.6-Thinking、DeepSeek-R1-0528、Claude-Sonnet-4、OpenAI-o3-high-0416。
结果:
- 理科:Seed1.6-Thinking排名第二,达到648分,其中物理表现比较突出
- 文科:Seed1.6-Thinking排名第一,达到683分,地理和历史优势较大
- 文理科分数均超出大部分985高校往年录取分数线
在获得更高清版本的高考试题图后,结合文本和图片进行全模态推理,Seed1.6-Thinking在生物和化学两科的总分可再提升近30分(理科总分达到676分)。
JEE Advanced试题测试
JEE Advanced是印度理工学院的第二阶段入学考试,每年数百万人参加第一阶段,前25万人进入第二阶段。考试分两场,每场3小时,同时考察数学、物理、化学三科。
结果:
- 对比全印度人类考生,第一名为332分,第10名为317分
- Gemini-2.5-Pro和Seed1.6-Thinking可取得全印度top 10的成绩
- Seed1.6-Thinking在5次采样的数学测试中回答全部正确
总结与展望
Seed1.6系列模型是Seed团队在推理效果和性能平衡上的一次成功尝试,同时模型从预训练到后训练融合了VLM多模态能力,在最新的高考题目测试中也表现突出。
未来Seed团队将进一步探索更高效的模型架构,提升模型的推理效果,丰富多模态能力,深入探索模型端到端完成任务的agent能力。