Seed1.6 系列模型发布:256K长上下文 + Adaptive CoT动态思考

2025年6月25日,字节跳动Seed团队推出Seed1.6系列通用模型。该系列融合了多模态能力,支持自适应的深度思考、多模态理解、图形界面操作,且支持256K长上下文的深度推理。

在Seed1.6模型系列中,团队探索了Adaptive CoT(自适应思维链)技术,让模型能够根据问题难度自动触发思考过程,取得了模型效果和推理性能的平衡。

同时,Seed1.6系列模型在多项benchmark上表现突出,包括在多项视觉任务上表现接近或超过Seed1.5-VL,在国内外高考试题等泛化测试中也取得了优秀的分数。

预训练:融合多模态能力,支持256K上下文

Seed1.6沿用Seed1.5在稀疏MoE上的探索结果,使用23B激活、230B总参数进行预训练。在持续预训练阶段融合了多模态能力,同时支持文本和视觉能力。

预训练分为三个阶段:

第一阶段:纯文本预训练

训练数据主要由网页、书籍、论文、代码等数据组成。通过基于规则和模型的多种数据清洗、过滤、去重与采样策略,提升了预训练数据的质量和知识密度。

第二阶段:多模态混合持续训练(MMCT)

进一步提升文本数据的知识和推理密度,增加了学科、代码、推理类数据的占比;同时加入了视觉模态的数据,和高质量文本数据混合训练。

第三阶段:长上下文持续训练(LongCT)

使用不同长度范围的长文数据,逐步将模型的最大序列长度从32K提升至256K

通过对模型架构、训练算法和基础设施的持续改进,Seed1.6 Base模型性能在参数规模接近的情况下较Seed1.5 Base取得明显提升,为后续的Post-training工作提供了良好的基础。

Adaptive CoT:动态思考,兼顾效果与效率

深度思考模型在数学、编程等高难度领域展现了令人印象深刻的能力,其核心因素是long CoT大幅增强了模型的推理能力。但同时也容易带来过度思考的问题——深度思考模型会无差别地用long CoT进行输出,生成大量无用的token,增加推理负担。

为此,Seed1.6提出了"动态思考能力"(Adaptive CoT, AdaCoT),提供三种推理模式:

  • 全思考(FullCoT):对所有prompt都会进行思考再给出回答,效果与Seed1.6-Thinking持平,同时对CoT长度进行了压缩
  • 不思考(NoCoT):对所有prompt都不会进行思考,直接回答,效率更高
  • 自适应思考(AdaCoT):以上两种模式的融合,模型会根据不同的prompt,自动选择是否进行思考

为了实现动态思考能力,团队在RL训练中引入新的奖励函数——惩罚过度思考、奖励恰当思考

实际效果

在MMLU、MMLU pro等简单或中等难度的任务上,Seed1.6-AdaCoT表现出不同的CoT触发率:

  • MMLU上CoT触发率:37%
  • MMLU pro上CoT触发率:70%
  • 触发率与难度呈正相关

在这类任务中,模型在性能未下降的情况下有效节省了token数。

在AIME、BeyondAIME等困难任务上,Seed1.6-AdaCoT的CoT触发率达到90~100%,且效果与Seed1.6-FullCoT相当,说明自适应思考保留了Long CoT给模型带来的推理能力优势。

同时,AdaCoT的方法在多模态场景同样有效。

多模态融合的思考能力

Seed1.6-Thinking总体延续Seed1.5-Thinking的训练方法,训练过程中采用了多阶段的RFT(拒绝采样微调)和RL(强化学习)迭代优化。每一轮RL以上一轮RFT为起点,在RFT候选的筛选上使用多维度的reward model选择最优回答。

相比Seed1.5-Thinking,Seed1.6-Thinking的升级包括:

  • 拓展了训练算力
  • 加大了高质量训练数据规模(Math、Code、Puzzle和Non-reasoning等)
  • 提升了模型在复杂问题上的思考长度
  • 在模型能力维度上深度融合了VLM,给模型带来清晰的视觉理解能力

因此,Seed1.6-Thinking在复杂文本场景中的推理能力明显提升,同时也具备了较好的视觉推理能力。

为了进一步强化模型思考能力,Seed1.6-Thinking还引入了parallel decoding(并行解码),这是一种无需训练即可扩展模型能力的方法。对于比较困难的任务,parallel decoding可以明显提升模型效果。比如在高难度测试集Beyond AIME上,Seed1.6-Thinking的测试结果实现了8分的提升,在代码任务上的测试结果也有明显的提升。

泛化测试:高考成绩优异

在传统benchmark评测之外,团队还评测了模型在两个国家大学入学考试中的结果,验证模型在泛化测试上的表现。

2025年高考试题测试

采用2025年山东卷高考真题进行测试,语数外采用新课标全国Ⅰ卷,其余科目为山东省自主命题,满分750分。

对比模型包括:Gemini2.5-Pro-0605、Seed1.6-Thinking、DeepSeek-R1-0528、Claude-Sonnet-4、OpenAI-o3-high-0416。

结果

  • 理科:Seed1.6-Thinking排名第二,达到648分,其中物理表现比较突出
  • 文科:Seed1.6-Thinking排名第一,达到683分,地理和历史优势较大
  • 文理科分数均超出大部分985高校往年录取分数线

在获得更高清版本的高考试题图后,结合文本和图片进行全模态推理,Seed1.6-Thinking在生物和化学两科的总分可再提升近30分(理科总分达到676分)。

JEE Advanced试题测试

JEE Advanced是印度理工学院的第二阶段入学考试,每年数百万人参加第一阶段,前25万人进入第二阶段。考试分两场,每场3小时,同时考察数学、物理、化学三科。

结果

  • 对比全印度人类考生,第一名为332分,第10名为317分
  • Gemini-2.5-Pro和Seed1.6-Thinking可取得全印度top 10的成绩
  • Seed1.6-Thinking在5次采样的数学测试中回答全部正确

总结与展望

Seed1.6系列模型是Seed团队在推理效果和性能平衡上的一次成功尝试,同时模型从预训练到后训练融合了VLM多模态能力,在最新的高考题目测试中也表现突出。

未来Seed团队将进一步探索更高效的模型架构,提升模型的推理效果,丰富多模态能力,深入探索模型端到端完成任务的agent能力。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签