Kimi k1.5: 通过强化学习扩展大语言模型

Kimi 团队

🚀 推出 Kimi k1.5 —— 一款达到 o1 级别的多模态模型

  • 最先进的短思考链(short-CoT)性能,在 AIME、MATH-500、LiveCodeBench 等基准测试中大幅超越 GPT-4o 和 Claude Sonnet 3.5(最高提升 +550%)

  • 长思考链(long-CoT)性能在多种模态上与 o1 持平(MathVista、AIME、Codeforces 等)

Kimi k1.5 的关键要素

关于 k1.5 的设计和训练,有几个关键要素:

  • 长上下文扩展。我们将强化学习的上下文窗口扩展到 128K,并观察到随着上下文长度的增加,性能持续提升。我们方法背后的一个核心思想是使用部分展开(partial rollouts)来提高训练效率——即通过复用之前轨迹的大部分来采样新轨迹,避免从头重新生成新轨迹的成本。我们的观察表明,上下文长度是大语言模型强化学习持续扩展的一个关键维度。

  • 改进的策略优化。我们推导出了长思考链强化学习的公式,并采用了在线镜像下降的变体来进行鲁棒的策略优化。我们的有效采样策略、长度惩罚和数据配方优化进一步改进了该算法。

  • 简洁的框架。长上下文扩展与改进的策略优化方法相结合,建立了一个简洁的大语言模型强化学习框架。由于我们能够扩展上下文长度,学习到的思考链展现出规划、反思和修正的特性。增加上下文长度具有增加搜索步骤数量的效果。因此,我们证明了不依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂技术,也能实现强大的性能。

  • 多模态。我们的模型在文本和视觉数据上联合训练,具有在两种模态上联合推理的能力。

技术报告摘要

语言模型使用下一个词元预测的预训练已被证明对扩展计算是有效的,但受限于可用训练数据的数量。扩展强化学习(RL)为人工智能的持续改进开辟了新的维度,有望使大语言模型(LLMs)能够通过学习用奖励进行探索来扩展其训练数据。然而,此前发表的工作尚未产生有竞争力的结果。

有鉴于此,我们报告了 Kimi k1.5 的训练实践——这是我们最新的通过强化学习训练的多模态大语言模型,包括其强化学习训练技术、多模态数据配方和基础设施优化。长上下文扩展和改进的策略优化方法是我们方法的关键要素,它们建立了一个简洁、有效的强化学习框架,不依赖于蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。

值得注意的是,我们的系统在多个基准测试和模态上实现了最先进的推理性能——例如,AIME 达到 77.5 分,MATH 500 达到 96.2 分,Codeforces 达到第 94 百分位,MathVista 达到 74.9 分——与 OpenAI 的 o1 持平。

此外,我们提出了有效的长转短方法,使用长思考链技术来改进短思考链模型,产生了最先进的短思考链推理结果——例如,AIME 达到 60.8 分,MATH500 达到 94.6 分,LiveCodeBench 达到 47.3 分——大幅超越了现有的短思考链模型,如 GPT-4o 和 Claude Sonnet 3.5(最高提升 +550%)。

基准测试结果

长思考链(Long-CoT)性能

基准测试Kimi k1.5OpenAI o1GPT-4oClaude Sonnet 3.5
AIME77.5~78
MATH-50096.2~96
Codeforces94th percentile~94th
MathVista74.9~75

短思考链(Short-CoT)性能

基准测试Kimi k1.5GPT-4oClaude Sonnet 3.5提升幅度
AIME60.8~10~12+500%
MATH-50094.6~80~82+15%
LiveCodeBench47.3~20~18+163%

核心创新

1. 长上下文强化学习

我们首次证明,将强化学习的上下文窗口扩展到 128K 可以持续提升模型性能。通过部分展开技术,我们高效地复用之前的轨迹来生成新的训练样本,显著降低了训练成本。

这一发现的意义在于:上下文长度本身就是强化学习扩展的一个关键维度,类似于模型大小和训练数据量对于监督预训练的重要性。

2. 简洁有效的 RL 框架

我们的框架摒弃了复杂的技术,如:

  • 蒙特卡洛树搜索(MCTS)
  • 价值函数
  • 过程奖励模型(PRM)

相反,我们仅通过以下简单组合就实现了 o1 级别的性能:

  • 长上下文窗口
  • 改进的策略优化(在线镜像下降变体)
  • 有效的采样策略
  • 长度惩罚
  • 优化的数据配方

3. 长转短(Long-to-Short)技术

我们开发了有效的方法,使用长思考链技术来改进短思考链模型。这使得模型在保持快速响应的同时,仍然具有强大的推理能力。

在实际应用中,这意味着用户可以在大多数时间享受快速响应(short-CoT),而在需要深度推理时切换到长思考链模式(long-CoT)。

4. 原生多模态

Kimi k1.5 在文本和视觉数据上联合训练,能够在两种模态上进行联合推理。这在数学视觉推理(MathVista)等任务上得到了验证,性能与 o1 持平。

引用

@article{team2025kimi,
 title={Kimi k1.5: Scaling reinforcement learning with llms},
 author={Team, Kimi and Du, Angang and Gao, Bofei and Xing, Bowei and Jiang, Changjiu and Chen, Cheng and Li, Cheng and Xiao, Chenjun and Du, Chenzhuang and Liao, Chonghua and others},
 journal={arXiv preprint arXiv:2501.12599},
 year={2025}
}

资源

ESC

输入关键词开始搜索

支持搜索标题、内容、标签