今天,我们推出 Kimi K2.5——迄今为止最强大的开源模型。
Kimi K2.5 在 Kimi K2 的基础上,通过约 15 万亿视觉和文本混合 token 进行了持续预训练。作为一款原生多模态模型,K2.5 提供了业界领先的编码和视觉能力,以及自主驱动的智能体集群(Agent Swarm)范式。
对于复杂任务,Kimi K2.5 可以自主驱动一个由最多 100 个子智能体组成的智能体集群,在多达 1,500 次工具调用中执行并行工作流。与单智能体设置相比,执行时间最多缩短 4.5 倍。智能体集群由 Kimi K2.5 自动创建和协调,无需任何预定义的子智能体或工作流。
Kimi K2.5 现已通过 Kimi.com、Kimi App、API 和 Kimi Code 提供。Kimi.com 和 Kimi App 现在支持 4 种模式:K2.5 即时、K2.5 思考、K2.5 智能体和 K2.5 智能体集群(测试版)。智能体集群目前在 Kimi.com 上处于测试阶段,高级付费用户可获得免费额度。
智能体
###### HLE-Full
###### BrowseComp
###### DeepSearchQA
编码
###### SWE-Bench Verified
###### SWE-Bench Multilingual
图像
###### MMMU Pro
###### MathVision
###### OmniDocBench 1.5
视频
###### VideoMMMU
###### LongVideoBench
在三个智能体基准测试——HLE、BrowseComp 和 SWE-Verified——中,Kimi K2.5 以极低的成本提供了强大的性能。
视觉编码
Kimi K2.5 是迄今为止最强大的开源编码模型,在前端开发方面具有特别出色的能力。
K2.5 可以将简单的对话转化为完整的前端界面,实现交互式布局和丰富的动画(如滚动触发效果)。以下是 K2.5 通过单个提示词和图像生成工具生成的示例:
除了文本提示词,K2.5 还擅长视觉编码。通过对图像和视频进行推理,K2.5 改进了图像/视频转代码生成和视觉调试,降低了用户视觉表达意图的门槛。
以下是 K2.5 从视频重构网站的示例:
原始 Jesko Jet 网站由 @thefirstthelast.agency 设计
这种能力源于大规模视觉-文本联合预训练。在规模足够大时,视觉和文本能力之间的权衡消失了——它们协同提升。
以下是 K2.5 对一个谜题进行推理并使用代码标记最短路径的示例:
对话
找到从左上角(绿点)到右下角(红点)的最短路径,黑色代表道路。
使用 BFS 或 A\* 在图像中寻找最短路径
用户希望我找到从左上角(绿点)到右下角(红点)穿过迷宫的最短路径。黑色代表道路(可通行),白色应该代表墙。
让我分析图像:
- 这是一个复杂的黑白像素迷宫图案
- 绿点应该在左上角
- 红点应该在右下角
- 我需要找到穿过黑色区域的最短路径
这本质上是一个网格上的路径寻找问题。我可以将其视为一个图,其中:
- 每个黑色像素是一个节点
- 边连接相邻的黑色像素(上、下、左、右,或者根据解释可能包括对角线)
- 目标是找到从起点到终点的最短路径
标准算法是 A\*(A星)或 Dijkstra 算法。考虑到网格特性,BFS(广度优先搜索)也适用,因为所有边的权重相等。
方法:
- 使用 Python(PIL/Pillow 或 OpenCV)加载图像
- 转换为二进制/黑白以识别可通行区域
- 找到起点(绿色)和终点(红色),或假设它们在左上角和右下角
- 实现 BFS 或 A\* 来寻找最短路径
- 在图像上可视化路径
让我先加载和分析图像。
我来帮你找到穿过这个迷宫的最短路径。让我分析图像并实现路径寻找算法。
在图像中定位绿色和红色角点
角落似乎是白色的。问题描述提到左上角有一个绿点,右下角有一个红点。让我在图像中搜索绿色和红色像素。绿色通常是 [0, 255, 0] 或接近它,红色是 [255, 0, 0] 或接近它。
我需要扫描图像中的绿色和红色像素。由于图像很大(1503x3003),我应该先专门在角落附近寻找,或者检查非黑色和非白色的颜色。
让我先转换为灰度并进行阈值处理以查看迷宫结构,然后寻找彩色像素。
让我在图像中搜索绿色(起点)和红色(终点)点:
将图像转换为二进制迷宫并定位最近的黑色起点/终点
似乎没有纯绿色或红色像素。图像似乎是灰度或接近灰度的,非常深的颜色(接近黑色)是路径。让我更仔细地看看极端角落是否有特定的图案,或者我需要寻找最暗/最亮的像素。
实际上,再看一下描述:「找到从左上角(绿点)到右下角(红点)的最短路径,黑色代表道路。」
用户提到了绿点和红点,但它们可能在提供的图像中不可见,或者太小而难以检测。描述说「黑色代表道路」——所以黑色像素是可通行的。
让我检查角落是否有不同的值。我应该寻找:
- 起点:左上角 (0,0)
- 终点:右下角 (height-1, width-1)
但我需要检查这些是否实际上在道路上(黑色)。从之前的输出看,左上角像素是 [255, 255, 255](白色),不是黑色。右下角是 [255, 254, 255](几乎白色)。所以实际的起点和终点可能在附近。
让我转换为灰度并进行阈值处理以创建二进制迷宫,然后找到每个角落最近的黑色像素作为实际的起点/终点。
让我将图像转换为二进制迷宫,并找到离角落最近的道路(黑色)像素:
带父节点跟踪和重构的 BFS 最短路径
很好!我找到了起点在 (7, 3)——靠近左上角,终点在 (1495, 2999)——靠近右下角。
现在我需要实现 BFS(广度优先搜索)来寻找最短路径。迷宫相当大(1503x3003 ≈ 450 万像素),但如果使用 deque,BFS 应该能够有效处理。
迷宫似乎是一个完美迷宫(没有环路,单条路径),但我还是应该实现 BFS 以保证最短路径。
步骤:
- 从起点到终点进行 BFS
- 使用父节点字典跟踪路径
- 重构路径
- 可视化结果
现在我将实现 BFS 来寻找穿过这个迷宫的最短路径:
在图像上叠加迷宫路径并用 Matplotlib 可视化
太棒了!BFS 找到了一条 113,557 步的路径。现在我需要在迷宫上可视化这条路径。鉴于迷宫很大且路径很长,我将创建一个可视化,将路径以红色叠加在原始图像上。
我应该:
- 创建原始图像或二进制迷宫的副本
- 用不同的颜色(红色或亮绿色)绘制路径
- 显示它
考虑到大小,我可能想要:
- 显示带有路径的完整迷宫(可能很难看到细节)
- 或者显示放大的部分
- 或者创建动画(但这很复杂)
让我先尝试可视化迷宫上的完整路径。由于图像很大,我会绘制它并叠加路径。
现在让我在迷宫上可视化最短路径:
用更粗的线条和渐变色可视化最短路径
路径相当长(113,557 步),蜿蜒穿过整个迷宫。红线显示出来了但有点细。让我也创建一个起点和终点的放大视图来验证路径是否正确,也许用更粗的线条创建更清晰的可视化。
此外,我应该通过检查连续点是否相邻(距离为 1)并且都在黑色像素上来验证路径是否实际有效。
实际上,从可视化来看,很难清楚地看到路径,因为它太密集了。让我通过在连续点之间绘制更粗的线条来创建更好的可视化,或者通过创建渐变色效果来显示进度。
让我也验证路径长度,并且它确实是最短的(BFS 保证了对于像这样的无加权图的最短路径)。
让我创建一个更清晰的可视化,用颜色编码显示路径进展:
验证路径的终点区域并保存最终结果图像
完美!路径是有效的(所有连续步骤都是相邻的)。现在让我也显示终点区域进行验证,并保存最终结果图像。
让我也显示终点区域并保存最终结果:
BFS 在迷宫中找到 113,557 步的最短路径
完美!我成功找到了穿过迷宫的最短路径。结果显示:
- 算法:BFS(广度优先搜索)——保证无加权网格中的最短路径
- 路径长度:113,557 步(像素)
- 起点:(7, 3)——靠近左上角
- 终点:(1495, 2999)——靠近右下角
- 验证:所有 113,556 个连续步骤都有效(点之间的曼哈顿距离 = 1)
可视化显示:
- 完整迷宫,路径用渐变颜色着色(绿色 → 红色 → 蓝色)显示进展
- 放大的起点区域,显示绿色起点和初始路径
- 放大的终点区域,显示红色路径通向蓝色终点
- 解决方案已保存到文件
我现在应该向用户提供最终答案,包括摘要和路径坐标(如果他们需要的话)。
找到解决方案!
我使用 BFS(广度优先搜索) 算法成功找到了穿过迷宫的最短路径,该算法保证了无加权网格迷宫的最优解。
结果:
| 指标 | 值 |
|---|---|
| 路径长度 | 113,557 步 |
| 起始位置 | (7, 3)——靠近左上角 |
| 结束位置 | (1495, 2999)——靠近右下角 |
| 算法 | BFS(无加权图最优) |
| 验证 | 所有步骤有效(4 方向移动) |
主要观察:
- 路径可视化:解决方案用颜色渐变可视化:
- 绿色 表示起点区域(左上角)
- 红/黄色 表示中间进展
- 蓝色 表示终点区域(右下角)
- 迷宫结构:这是一个密集的「完美迷宫」(本质上是一棵生成树),墙密度约为 50%,这意味着路径蜿蜒穿过大约一半的可用空间。
- 复杂性:在近 450 万像素的搜索空间中,BFS 算法逐层高效地探索了所有可能路径,以保证最短路线。
下载:
完整的解决方案图像已保存,可以在上面查看。路径在原始黑色(道路)和白色(墙)迷宫结构上以颜色突出显示。
注意:坐标(行,列)从左上角开始为 0 索引。实际路径由 113,557 个连接的像素组成,形成从起点到终点的连续路线,没有任何捷径(正如 BFS 最优性所保证的)。
K2.5 在现实世界软件工程任务中表现出色。 我们使用 Kimi Code Bench 对其进行评估,这是我们的内部编码基准测试,涵盖从构建到调试、重构、测试和脚本编写的各种端到端任务,跨越多种编程语言。在这个基准测试中,K2.5 在所有任务类型上都显示出比 K2 持续且有意义的改进。
要体验 K2.5 的智能体编码能力,K2.5 智能体 提供了一组预配置的工具,可立即获得亲身体验。对于软件工程用例,我们建议将 Kimi K2.5 与我们的新编码产品 Kimi Code 配对使用。
Kimi Code 在你的终端中工作,可以与各种 IDE 集成,包括 VSCode、Cursor、Zed 等。Kimi Code 是开源的,支持图像和视频作为输入。它还可以自动发现现有的技能和 MCP,并将它们迁移到 Kimi Code 中的工作环境中。
以下是使用 Kimi Code 将马蒂斯《舞蹈》的美学转化为 Kimi App 的示例。这个演示突出了自主视觉调试的突破。使用视觉输入和文档查找,K2.5 可以自主地视觉检查自己的输出并对其进行迭代。它端到端创建了一个受艺术启发的网页:
智能体集群
向外扩展,而不仅仅是向上扩展。 我们发布 K2.5 智能体集群 作为研究预览,标志着从单智能体扩展向自主驱动、协调的集群式执行的转变。
通过并行智能体强化学习(PARL)训练,K2.5 学会了自主驱动一个由最多 100 个子智能体组成的智能体集群,在多达 1,500 个协调步骤中执行并行工作流,无需预定义的角色或手工制作的工作流。
PARL 使用一个可训练的协调智能体将任务分解为可并行化的子任务,每个子任务由动态实例化的冻结子智能体执行。与顺序智能体执行相比,并发运行这些子任务显著减少了端到端延迟。
训练一个可靠的并行协调器具有挑战性,因为延迟的、稀疏的奖励信号以及协调器和子智能体之间的复杂依赖关系。PARL 通过以下方式应对这一挑战:(1) 一种课程学习策略,从少量并行子智能体开始,随着训练的进行逐渐增加数量;(2) 一种信用分配机制,根据子智能体对整体任务成功的贡献来评估子智能体。
这种「向外扩展」的方法补充了传统的「向上扩展」(更大的单智能体模型),为解决复杂的、长时间运行的任务提供了一条新的途径,否则这些任务对于单智能体系统来说太慢或难以处理。
智能体集群用例
K2.5 智能体集群擅长需要广泛研究、多视角分析或大量并行执行的复杂任务。以下是一些例子:
#### 深度研究报告
对于需要综合来自数十个来源的信息的研究任务,K2.5 智能体集群可以并行搜索和浏览多个网站、文档和数据库,然后综合发现结果。一个典型的 50 页行业分析报告,单智能体可能需要 30 分钟,智能体集群可以在 7 分钟内完成。
#### 代码库重构
对于大型代码库重构,智能体集群可以将代码库分成多个部分,并指派子智能体同时重构每个部分,而协调器监督架构一致性。这大大减少了重构大型项目的时间。
#### 多语言内容创作
对于需要以多种语言创建内容的任务,每个子智能体可以处理一种语言,确保一致的语气和信息,同时将生成时间减少一个数量级。
智能体集群的性能
在复杂的智能体基准测试上,K2.5 智能体集群显示出比单智能体设置的显著改进,特别是在需要并行探索和多步骤推理的任务上。
基准测试结果
Kimi K2.5 在广泛的基准测试中实现了最先进的性能,跨越编码、智能体、视觉和数学领域。
编码基准测试
| 基准测试 | Kimi K2.5 | Kimi K2 | DeepSeek-V3 | Qwen3-235B |
|---|---|---|---|---|
| SWE-bench Verified(智能体编码)单次尝试 | 67.2 | 65.8 | 38.8 | 34.4 |
| SWE-bench Multilingual | 49.5 | 47.3 | 25.8 | 20.9 |
| LiveCodeBench v6 | 55.3 | 53.7 | 46.9 | 37.0 |
智能体基准测试
| 基准测试 | Kimi K2.5 | Claude Sonnet 4 | GPT-4.1 |
|---|---|---|---|
| HLE-Full | 78.3 | 75.0 | 74.8 |
| BrowseComp | 72.1 | 68.5 | 65.3 |
| DeepSearchQA | 81.5 | 78.2 | 76.9 |
视觉基准测试
| 基准测试 | Kimi K2.5 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMMU Pro | 73.2 | 69.8 | 71.5 |
| MathVision | 86.7 | 82.4 | 84.1 |
| OmniDocBench 1.5 | 81.3 | 78.9 | 79.5 |
| VideoMMMU | 67.8 | 62.4 | 64.1 |
| LongVideoBench | 75.2 | 68.7 | 71.3 |
可用性
Kimi K2.5 现在可以通过以下方式使用:
- Kimi.com 和 Kimi App:提供 4 种模式——K2.5 即时、K2.5 思考、K2.5 智能体和 K2.5 智能体集群(测试版)
- API:通过 platform.kimi.ai 提供
- Kimi Code:我们的新编码产品,支持终端和 IDE 集成
- 开源:模型权重将在 Hugging Face 和 GitHub 上提供
智能体集群目前在 Kimi.com 上处于测试阶段,高级付费用户可获得免费额度。我们正在积极扩展访问权限,并期待看到社区如何使用这种新的智能体范式。