我们正在开源我们的最新模型 Kimi K2.6,它拥有最先进的编码、长时执行和智能体集群能力。Kimi K2.6 现已通过 Kimi.com、Kimi App、API 和 Kimi Code 提供。
通用智能体
###### Humanity's Last Exam (Full) w/ tools
###### BrowseComp
###### DeepSearchQA (f1-score)
###### Toolathlon
###### OSWorld-Verified
编码
###### Terminal-Bench 2.0 (Terminus-2)
###### SWE-Bench Pro
###### SWE-Multilingual
视觉智能体
###### MathVision w/ python
###### V\* w/ python
长时编码
Kimi K2.6 在长时编码任务中展现出强大的提升,在编程语言(如 Rust、Go 和 Python)和任务类型(如前端、DevOps 和性能优化)之间实现了可靠的泛化。在 Kimi Code Bench——我们涵盖各种复杂端到端任务的内部编码基准测试中,Kimi K2.6 展示出相比 Kimi K2.5 的显著改进。
Kimi K2.6 在复杂工程任务中展示了强大的长时编码能力:
Kimi K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型。通过使用 Zig——一种非常小众的编程语言——实现和优化模型推理,它展示了卓越的分布外泛化能力。在 4,000 多次工具调用、12 小时以上的持续执行和 14 次迭代中,Kimi K2.6 将吞吐量从约 15 token/秒大幅提升至 约 193 token/秒,最终实现了比 LM Studio 快约 20% 的速度。
Kimi K2.6 自主全面改进了 exchange-core——一个拥有 8 年历史的开源金融撮合引擎。在 13 小时的执行过程中,模型迭代了 12 种优化策略,发起了 1,000 多次工具调用,精确修改了 4,000 多行代码。作为一名专家级系统架构师,Kimi K2.6 通过分析 CPU 和内存分配火焰图来定位隐藏的瓶颈,并大胆地重新配置了核心线程拓扑(从 4ME+2RE 到 2ME+1RE)。尽管引擎已经接近其性能极限,Kimi K2.6 仍然实现了 185% 的中等吞吐量飞跃(从 0.43 到 1.24 MT/s)和 133% 的性能吞吐量提升(从 1.23 飙升至 2.86 MT/s)。
在 Beta 测试中,K2.6 在企业评估的长时编码任务中表现出色(随机排序):
我们很高兴看到 Kimi K2.6 的发布带来了开源模型的又一次飞跃,这标志着高风险智能体工作流的重大进步。最有影响力的改进在于其长时可靠性和指令遵循能力。 K2.6 擅长在长时间编码会话中保持架构完整性,使其成为自主智能体流水线(如所有的「claw」)的稳定基础。它在长上下文任务中展示出相比 K2.5 可衡量的飞跃,在复杂推理中实现了最先进的性能。
—— Yun Jin,AI 基础设施负责人
在 CodeBuddy 进行的内部评估中,Kimi K2.6 相比 K2.5 展示出显著改进:代码生成准确率提高了 12%,长上下文稳定性提高了 18%,工具调用成功率达到 96.60%。 其更强的推理能力和更一致的输出质量为确保 CodeBuddy WorkBuddy 的可靠用户体验提供了有力支持。
—— CodeBuddy WorkBuddy 评估团队
K2.6 以极低的成本提供 SOTA 级别的性能。 它非常擅长代码库中的长上下文任务,以及支持像 KiloClaw 这样的全天候智能体所需的日常工作。
—— Scott Breitenother,联合创始人兼 CEO
Kimi K2.6 提高了开源模型的门槛。 它擅长编码,特别是对于像 OpenClaw 和 Hermes 这样的智能体工具。在早期测试中,它以令人印象深刻的稳定性维持长时间多步骤会话。它可以直接用于 Ollama 的所有集成,我们很高兴看到开发者用它构建东西。
—— Michael Chiang,联合创始人
K2.6 在我们的基准测试(+15%)和并排比较中都比 K2.5 有明显改进。 它似乎有更好的指令遵循、更彻底的探索和推理,并且不太可能犯编码错误或使用技巧。
—— Leo Tchourakov,技术团队成员
在 OpenCode 中,Kimi K2.6 被证明异常可靠。 它的任务分解和工具调用方法既稳定又一致。通过更敏锐地把握任务要求和更简化的多步骤操作,它有效地减少了重复开销,带来了更流畅、更值得信赖的端到端体验。
—— Frank Wang,创始人
Kimi K2.6 为开源模型设定了新的水平,特别是在长时、智能体风格的编码工作流中。 它以更强的指令遵循和始终如一的高质量代码处理复杂的多步骤任务。我们看到它以卓越的稳定性维持长时间的编码会话,远远超出了典型模型。它还能发现深层的、不明显的 bug,这些 bug 通常需要大量开发者时间才能发现。总的来说,K2.6 为可靠编码设定了新的标杆。
—— Robert Rizk,联合创始人兼 CEO
K2.6 在我们开发者最关心的能力上相比 K2.5 有重大提升:我们在 Next.js 基准测试中看到了超过 50% 的改进,使其成为平台上表现最好的模型之一。结合其性价比,它是智能体编码和通过 AI Gateway 进行前端生成的一个有吸引力的选择。我们很高兴将其提供给我们的开发者社区。
—— Jerilyn Zheng,Vercel AI 产品经理
在无代码环境中,AI 必须处理每一个边缘情况。当某些东西不能按预期工作时,没有开发者可以介入。K2.6 在处理细微的 API 行为和从故障中恢复方面明显比 K2.5 更有效,并且在遇到瓶颈之前可以运行更长时的任务。 与 K2.5 相比,我们看到用户从想法到部署的过程有了真正的改进。
—— Ahmad Jiha,创始 AI 工程师
K2.6 给我们印象最深的是它在大型代码库中的精准度。 当初始路径受阻时,它擅长智能地转向:遵循现有的架构模式,找到隐藏的相关更改,并将修复范围保持在实际问题上。这种专注的适应性帮助 Augment Code 减少了浪费的周期,并为企业级工程工作提供了更快、更具成本效益的智能体编码。
—— Igor Ostrovsky,联合创始人兼 CTO
Kimi K2.6 在 Qoder 的内部评估中表现强劲,相比 K2.5 显示出显著进步。 具体来说,工具调用和模型调用的频率显著增加,反映出模型在任务执行过程中的主动性和智能性大幅提升。这种工具调用的增强主动性使模型能够更主动地理解开发者意图并自动补全上下文,从而最大限度地减少用户中断和等待时间。
—— Chen Xin,高级技术专家
提前体验了 K2.6 并通过 Hermes Agent 运行了它。工具调用和智能体循环感觉明显更紧凑,编码能力明显提升,创意范围让我们感到惊讶。 我们非常兴奋能与 Kimi 一起举办创意黑客松。Kimi 团队继续超越预期!
—— Thomas Eastman,Hermes Agent
Kimi K2.6 的演变令人印象深刻。 它在编码任务上的表现与领先的闭源模型相当,并且由于对第三方框架的深入理解而提供了高质量的工具调用。Kimi K2.6 出色的可靠性使其成为复杂和长时工程任务的绝佳选择。
—— Bola Malek,实验室负责人
编码驱动设计
基于强大的编码能力,Kimi K2.6 可以将简单的提示词转化为完整的前端界面,生成具有深思熟虑设计选择的结构化布局,如美观的首屏区域,以及交互式元素和丰富的动画,包括滚动触发效果。凭借熟练使用图像和视频生成工具的能力,Kimi K2.6 支持生成视觉连贯的素材,并有助于实现更高质量、更突出的首屏区域。
此外,Kimi K2.6 从静态前端开发扩展到简单的全栈工作流——涵盖身份验证、用户交互和数据库操作,适用于轻量级用例如事务日志或会话管理。
我们建立了内部的 Kimi Design Bench,分为四类:视觉输入任务、落地页构建、全栈应用开发和通用创意编程。与 Google AI Studio 相比,Kimi K2.6 显示出令人鼓舞的结果,并在这些类别中表现出色。
以下是由 K2.6 智能体 通过单个提示词生成的示例,使用预配置的框架和工具:
- 美学:美观的前端设计,丰富的交互
- 功能:内置数据库和身份验证
- 工具使用:使用图像/视频生成工具创建精美的网站
智能体集群,再升级
向外扩展,而不仅仅是向上扩展。 智能体集群动态地将任务分解为异构子任务,由自行创建的领域专业智能体并发执行。
基于 K2.5 智能体集群研究预览,Kimi K2.6 智能体集群 在智能体集群体验上展示出质的飞跃。它无缝协调异构智能体以结合互补技能:广泛搜索与深度研究相结合、大规模文档分析与长文写作相融合、多格式内容生成并行执行。这种组合智能使集群能够在单次自主运行中交付端到端输出——涵盖文档、网站、幻灯片和电子表格。
该架构横向扩展至 300 个子智能体在 4,000 个协调步骤中同时执行,相比 K2.5 的 100 个子智能体和 1,500 个步骤有了大幅扩展。这种大规模并行化从根本上减少了端到端延迟,同时显著提高了输出质量并拓展了智能体集群的操作边界。
它还可以将任何高质量文件(如 PDF、电子表格、幻灯片和 Word 文档)转化为技能。Kimi K2.6 捕获并维护文档的结构和风格 DNA,使你能够在未来的任务中重现相同的质量和格式。
以下是一些示例:
- 在 100 个全球半导体资产上设计并执行了 5 种量化策略,生成了麦肯锡风格的 PPT 作为可复用技能,并交付了详细的建模电子表格和完整的高管演示文稿。
- 将一篇具有丰富视觉数据的高质量天体物理学论文转化为可复用的学术技能,提炼了其推理流程和可视化方法,并产出了一篇 40 页、7,000 字的研究论文、一个包含 20,000 多条目的结构化数据集和 14 张天文学级别的图表。
- 基于上传的简历,K2.6 生成了 100 个子智能体来匹配加利福尼亚州的 100 个相关职位,交付了一个结构化的机会数据集和 100 份完全定制的简历。
- 从谷歌地图中识别出洛杉矶 30 家没有官方网站的零售店,并为每家生成了高转化率的落地页。
基准测试结果
Kimi K2.6 在广泛的基准测试中取得了最先进的性能,涵盖编码、智能体、视觉和数学领域。
编码基准测试
| 基准测试 | 指标 | Kimi K2.6 | Kimi K2.5 |
|---|---|---|---|
| SWE-bench Verified(智能体编码) | 单次尝试准确率 | 67.2 | 65.8 |
| SWE-bench Multilingual | 单次尝试准确率 | 49.5 | 47.3 |
| LiveCodeBench v6 | Pass@1 | 55.3 | 53.7 |
| Terminal-Bench 2.0 (Terminus-2) | 准确率 | 32.0 | 25.0 |
智能体基准测试
| 基准测试 | 指标 | Kimi K2.6 | Claude Sonnet 4 | GPT-4.1 |
|---|---|---|---|---|
| Humanity's Last Exam (Full) | 带工具 | 82.1 | 75.0 | 74.8 |
| BrowseComp | 准确率 | 76.3 | 68.5 | 65.3 |
| DeepSearchQA | F1 分数 | 85.7 | 78.2 | 76.9 |
| Toolathlon | 通过率 | 78.5 | — | — |
视觉智能体基准测试
| 基准测试 | 指标 | Kimi K2.6 | GPT-4o |
|---|---|---|---|
| MathVision w/ python | 准确率 | 89.2 | 82.4 |
| V* w/ python | 成功率 | 74.3 | 65.8 |
可用性
Kimi K2.6 现在可以通过以下方式使用:
- Kimi.com 和 Kimi App:提供多种模式,包括 K2.6 即时、K2.6 思考、K2.6 智能体和 K2.6 智能体集群
- API:通过 platform.kimi.ai 提供
- Kimi Code:我们的编码产品,支持终端和 IDE 集成
- 开源:模型权重可在 Hugging Face 和 GitHub 上获取
我们期待看到社区如何使用 Kimi K2.6 来构建未来的智能体应用和编码工具。