2024年1月,MiniMax正式发布 abab 6——国内首款采用MoE(Mixture of Experts,混合专家)架构的大语言模型。这一发布标志着MiniMax在大模型技术路线上迈出了关键一步,也让中国大模型在MoE这一前沿赛道上跟上了全球步伐。
为什么是MoE?
在abab 6之前,MiniMax的abab系列(从abab 1到abab 5.5)都采用传统的稠密Transformer架构——每一次推理都会激活模型的全部参数。这种架构虽然简单稳定,但随着模型规模的增大,计算成本会呈线性增长,性价比逐渐降低。
MoE架构则提供了另一种思路:将模型拆分为多个"专家"子网络,每次推理时只动态激活其中一部分专家。这样一来,模型的总参数量可以做得很大,但实际计算量只和激活的参数有关,从而在保持高智能水平的同时显著降低推理成本。
2024年初,MoE还远未成为行业主流。OpenAI的GPT系列虽然据传已经采用了MoE架构,但并未公开技术细节;国内大多数团队还在深耕稠密模型。MiniMax选择在这个时间点all in MoE,体现了团队对技术趋势的前瞻性判断。
abab 6:技术突破与能力跃升
作为MiniMax的首款MoE大模型,abab 6在多个维度实现了质的飞跃。
架构创新
- 混合专家架构:abab 6采用稀疏激活的MoE设计,总参数量达到万亿级,实际激活的专家网络参数为千亿级。这种"大总参、小激活"的模式,在性能和效率之间取得了极佳平衡。
- 专家路由优化:自研的路由算法能够根据输入内容智能选择最合适的专家组合,确保不同类型的任务都能被分配到最擅长处理它的"专家"手中。
- 训练稳定性:MoE模型的训练难度远高于稠密模型,容易出现负载不均衡、训练不稳定等问题。MiniMax团队通过创新的训练策略,成功解决了这些工程难题。
能力提升
abab 6在多项核心能力上实现了显著提升:
1. 复杂推理能力 在多跳逻辑推理、数学推导、因果分析等需要深度思考的任务中,abab 6的表现相比abab 5.5有了质的飞跃。它能够处理嵌套条件判断、跨文档信息对齐等复杂场景,推理链的准确性大幅提升。
2. 指令遵从精度 对于需要严格遵循格式约束的场景(如JSON Schema输出、特定模板填充),abab 6的指令遵循率显著提升。这对于B端企业集成场景尤为重要——开发者不再需要为模型"不听话"而烦恼。
3. 代码生成能力 abab 6在代码生成、调试、重构方面的能力明显增强,支持Python、Java、JavaScript等主流编程语言,能够处理中等复杂度的编程任务。
4. 多语言支持 模型在中英文之外的多语言能力也得到了加强,为后续全球化布局奠定了基础。
产品化落地
abab 6发布后,迅速成为MiniMax全线产品的核心引擎:
- Talkie/星野:AI陪伴产品的对话质量、角色一致性显著提升
- 海螺AI:基于abab 6打造的多模态AI助手快速上线
- 开放平台API:面向企业和开发者提供模型调用服务
据公开数据,abab 6发布后,MiniMax产品的月活跃用户数迅速突破千万,模型能力的提升直接转化为了用户增长。
abab 6.5系列:场景化细分与超长上下文
仅仅几个月后,也就是2024年5月,MiniMax又乘胜追击,推出了abab 6的升级版——abab 6.5系列。这个系列最大的特点是场景化细分,针对不同用户群体推出了专门优化的子型号:
abab 6.5s——生产力增强版
- 针对办公、学习、代码等生产力场景优化
- 支持245k超长上下文窗口(约合18万字)
- 支持Function Calling,可作为Agent调用外部工具
- 内置法律、金融等专业领域术语强化
abab 6.5t——中文人设对话版
- 针对中文虚拟角色、IP拟人等场景优化
- 支持personality_traces参数,可精确控制角色的语气密度、知识边界、情感响应阈值
- 有效抑制人设漂移,保持多轮对话中的角色一致性
abab 6.5g——英文人设对话版
- 面向海外市场的英文角色对话优化
- 深度适配英文文化语境,对习语、幽默、正式程度具备显式建模能力
- 支持英文IP角色的高保真还原
超长上下文突破
abab 6.5系列最令人兴奋的升级,当属245k token的超长上下文窗口。这意味着用户可以一次性整入整本PDF合同、百页技术白皮书、甚至连续数小时的会议录音文本,无需分块处理。对于法律尽调、学术精读、长文档分析等场景来说,这无疑是革命性的体验提升。
从abab 1到abab 6:两年迭代之路
回顾abab系列的发展历程,我们能清晰地看到MiniMax技术能力的成长轨迹:
| 版本 | 发布时间 | 架构 | 核心特点 |
|---|---|---|---|
| abab 1 | 2022.04 | 稠密Transformer | 首款模型,基础对话能力 |
| abab 2-5 | 2022-2023 | 稠密Transformer | 持续迭代,能力逐步增强 |
| abab 5.5 | 2023年底 | 稠密Transformer | 稠密架构巅峰,接近GPT-3.5水平 |
| abab 6 | 2024.01 | MoE混合专家 | 首款万亿参数MoE,性能跃升 |
| abab 6.5系列 | 2024.05 | MoE混合专家 | 场景化细分,245k超长上下文 |
短短两年时间,从首个模型到万亿参数MoE,MiniMax跑出了令人惊叹的迭代速度。这种"小步快跑、快速迭代"的研发节奏,也成为了公司的核心竞争力之一。
战略意义:从跟随到引领
abab 6的发布对MiniMax而言具有里程碑式的战略意义:
技术上,它证明了MiniMax具备自研大规模MoE模型的能力,在大模型架构创新领域进入了国内第一梯队。
产品上,更强的模型能力直接带动了用户增长和商业化突破,Talkie/星野的月活、付费率均实现大幅提升。
生态上,开放平台API吸引了越来越多的企业开发者,MiniMax开始从C端产品公司向"模型+应用+平台"的全栈AI公司转型。
更重要的是,abab 6为后续多模态模型的发展奠定了坚实的文本基础。几个月后,当MiniMax推出视频生成模型时,正是abab系列积累的大模型训练经验和工程能力,支撑了视频赛道的快速突破。
结语
站在今天回望,abab 6无疑是MiniMax发展历程中的关键转折点——它不仅是一次技术升级,更是公司从"初创团队"向"行业头部"跃迁的标志性事件。
在那个MoE还被视为"激进选择"的2024年初,MiniMax用实际行动证明了这条技术路线的可行性。而abab 6积累的MoE设计、训练、推理全链路经验,也为后来M1、M2等更强大模型的诞生铺平了道路。