MiniMax发布abab 6：国内首款MoE架构大模型，万亿参数开启性能新纪元 - MiniMax

2024年1月，MiniMax正式发布 abab 6——国内首款采用MoE（Mixture of Experts，混合专家）架构的大语言模型。这一发布标志着MiniMax在大模型技术路线上迈出了关键一步，也让中国大模型在MoE这一前沿赛道上跟上了全球步伐。

为什么是MoE？

在abab 6之前，MiniMax的abab系列（从abab 1到abab 5.5）都采用传统的稠密Transformer架构——每一次推理都会激活模型的全部参数。这种架构虽然简单稳定，但随着模型规模的增大，计算成本会呈线性增长，性价比逐渐降低。

MoE架构则提供了另一种思路：将模型拆分为多个"专家"子网络，每次推理时只动态激活其中一部分专家。这样一来，模型的总参数量可以做得很大，但实际计算量只和激活的参数有关，从而在保持高智能水平的同时显著降低推理成本。

2024年初，MoE还远未成为行业主流。OpenAI的GPT系列虽然据传已经采用了MoE架构，但并未公开技术细节；国内大多数团队还在深耕稠密模型。MiniMax选择在这个时间点all in MoE，体现了团队对技术趋势的前瞻性判断。

作为MiniMax的首款MoE大模型，abab 6在多个维度实现了质的飞跃。

混合专家架构：abab 6采用稀疏激活的MoE设计，总参数量达到万亿级，实际激活的专家网络参数为千亿级。这种"大总参、小激活"的模式，在性能和效率之间取得了极佳平衡。
专家路由优化：自研的路由算法能够根据输入内容智能选择最合适的专家组合，确保不同类型的任务都能被分配到最擅长处理它的"专家"手中。
训练稳定性：MoE模型的训练难度远高于稠密模型，容易出现负载不均衡、训练不稳定等问题。MiniMax团队通过创新的训练策略，成功解决了这些工程难题。

abab 6在多项核心能力上实现了显著提升：

1. 复杂推理能力 在多跳逻辑推理、数学推导、因果分析等需要深度思考的任务中，abab 6的表现相比abab 5.5有了质的飞跃。它能够处理嵌套条件判断、跨文档信息对齐等复杂场景，推理链的准确性大幅提升。

2. 指令遵从精度 对于需要严格遵循格式约束的场景（如JSON Schema输出、特定模板填充），abab 6的指令遵循率显著提升。这对于B端企业集成场景尤为重要——开发者不再需要为模型"不听话"而烦恼。

3. 代码生成能力 abab 6在代码生成、调试、重构方面的能力明显增强，支持Python、Java、JavaScript等主流编程语言，能够处理中等复杂度的编程任务。

4. 多语言支持 模型在中英文之外的多语言能力也得到了加强，为后续全球化布局奠定了基础。

abab 6发布后，迅速成为MiniMax全线产品的核心引擎：

据公开数据，abab 6发布后，MiniMax产品的月活跃用户数迅速突破千万，模型能力的提升直接转化为了用户增长。

仅仅几个月后，也就是2024年5月，MiniMax又乘胜追击，推出了abab 6的升级版——abab 6.5系列。这个系列最大的特点是场景化细分，针对不同用户群体推出了专门优化的子型号：

abab 6.5系列最令人兴奋的升级，当属245k token的超长上下文窗口。这意味着用户可以一次性整入整本PDF合同、百页技术白皮书、甚至连续数小时的会议录音文本，无需分块处理。

对于法律尽调、学术精读、长文档分析等场景来说，这无疑是革命性的体验提升。

回顾abab系列的发展历程，我们能清晰地看到MiniMax技术能力的成长轨迹：

短短两年时间，从首个模型到万亿参数MoE，MiniMax跑出了令人惊叹的迭代速度。这种"小步快跑、快速迭代"的研发节奏，也成为了公司的核心竞争力之一。

abab 6的发布对MiniMax而言具有里程碑式的战略意义：

技术上，它证明了MiniMax具备自研大规模MoE模型的能力，在大模型架构创新领域进入了国内第一梯队。

产品上，更强的模型能力直接带动了用户增长和商业化突破，Talkie/星野的月活、付费率均实现大幅提升。

生态上，开放平台API吸引了越来越多的企业开发者，MiniMax开始从C端产品公司向"模型+应用+平台"的全栈AI公司转型。

更重要的是，abab 6为后续多模态模型的发展奠定了坚实的文本基础。几个月后，当MiniMax推出视频生成模型时，正是abab系列积累的大模型训练经验和工程能力，支撑了视频赛道的快速突破。

站在今天回望，abab 6无疑是MiniMax发展历程中的关键转折点——它不仅是一次技术升级，更是公司从"初创团队"向"行业头部"跃迁的标志性事件。

在那个MoE还被视为"激进选择"的2024年初，MiniMax用实际行动证明了这条技术路线的可行性。而abab 6积累的MoE设计、训练、推理全链路经验，也为后来M1、M2等更强大模型的诞生铺平了道路。