Doubao-1.5-pro 正式发布:MoE架构,7倍性能杠杆

2025年1月22日,字节跳动Seed团队正式发布Doubao-1.5-pro大模型。该模型采用稀疏混合专家(MoE)架构,通过训练-推理一体化设计,在模型性能和推理效率之间取得了极致平衡。Doubao-1.5-pro仅用较小的激活参数,即可超过一流超大稠密预训练模型的性能,在多个公开评测基准上取得优异成绩。

MoE架构:7倍性能杠杆

Doubao-1.5-pro使用稀疏MoE架构,这是其高效率的核心来源。

从训练和推理效率的角度出发,团队对稀疏度Scaling Law进行了深入研究,确定了性能和效率比较平衡的稀疏比例。根据MoE Scaling Law,小参数量激活的模型也可以达到世界一流模型的性能。

关键数据

  • 总参数:约140B(MoE架构)
  • 激活参数:仅20B
  • 性能杠杆:7倍——用1/7的激活参数,达到甚至超过同等总参数稠密模型的性能

业界在这一性能杠杆上的普遍水平为不到3倍。Doubao-1.5-pro将这一比例提升到了7倍,意味着在相同推理成本下,可以提供更强的模型能力。

团队通过完全相同的部分训练数据(9T tokens)对比验证,用激活参数仅为稠密模型参数量1/7的MoE模型,超过了稠密模型的性能。

性能评估:全面提升

Doubao-1.5-pro基础模型能力全面提升,在多个公开评测基准上表现优异。

在知识、代码、推理、中文处理等多个维度的评测中,Doubao-1.5-pro的综合得分优于GPT-4oClaude 3.5 Sonnet等业界主流模型。

模型提供两种上下文长度配置:

  • 32K版本:平衡性能和成本,适用于大多数场景
  • 256K版本:超长上下文,支持深度思考和长文档处理

Doubao-1.5-pro还配备了"深度思考"推理模式,可以在需要复杂推理的任务中通过延长思考链来提升答案质量。

高性能推理系统

作为一个高度稀疏的MoE模型,Doubao-1.5-pro在Prefill/Decode与Attention/FFN构成的四个计算象限中,表现出显著不同的计算与访存特征。

针对四个不同象限,团队采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾TTFT(首字延迟)和TPOT(每字延迟)的最优化目标。

Prefill阶段优化

  • Prefill Attention:使用MMA/WGMMA等指令扩展开源的FlashAttention 8-bit实现,结合Per N tokens Per Sequence的量化策略
  • Prefill FFN:采用W4A8量化,有效降低稀疏MoE专家的访存开销,通过跨Query Batching策略使MFU提升至0.8

Decode阶段优化

  • Decode Attention:采用TP方式部署,优化单batch内不同Query KV长度差异大的常见场景
  • Decode FFN:保持W4A8量化,配合极低成本的Sampling采样以及Speculative Decoding策略

语音多模态:端到端语音对话

在语音多模态上,Doubao-1.5-pro提出了新的Speech2Speech端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端。

相比传统的ASR+LLM+TTS的级联方式,端到端方案在对话效果上有质的飞跃:

  • 更低的延迟:80ms级别的实时响应
  • 更自然的交互:支持随时打断、实时反馈
  • 更强的情感表达:真人级情感拟真
  • 端侧离线能力:端云协同语音架构

Doubao-1.5-pro不仅拥有高理解力(高智商),还具备语音高表现力与高自然度。

模型参数动态调整

在预训练模型基础上,算法团队还设计了一系列模型参数动态调整算法。可以基于具体应用对模型性能的需求,从以下维度对模型参数进行扩增和缩小:

  • 模型深度
  • 模型宽度
  • MoE专家数
  • 激活专家数
  • 隐藏token推理

这种动态调整能力使得团队可以在模型能力和推理成本之间取得最优平衡,同时较小的预训练模型提高了迭代开发效率,可以并发支持多个产品线。

结语

Doubao-1.5-pro的发布标志着字节跳动Seed团队在MoE架构和高效推理方面达到了业界领先水平。用1/7的激活参数实现7倍的性能杠杆,这不仅是技术上的突破,更为大模型的商业化落地提供了更经济可行的路径。

随着Doubao-1.5-pro的推出,豆包大模型家族的能力得到了质的飞跃。从这一代开始,MoE架构成为Seed系列模型的标准配置,为后续的1.6、2.0等版本奠定了坚实的技术基础。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签