今天我们推出 Qwen3.7-Max,这是我们为智能体时代设计的最新专有模型。Qwen3.7-Max 被打造为一个多功能的智能体基座——在编写和调试代码、自动化办公工作流以及维持数百或数千步的自主执行方面同样出色。
Qwen3.7-Max 的独特之处在于其智能体能力的广度和深度。它作为编程智能体表现卓越,从前端原型设计到复杂的多文件工程。它通过 MCP 集成和多智能体编排,成为可靠的办公和生产力助手。它能够在极长的时间范围内保持连贯的推理——正如一次长达 35 小时、包含 1,000 多次工具调用的完全自主内核优化运行所展示的那样。它能够跨智能体框架进行泛化,无论是通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,性能都保持一致。
- Qwen3.7-Max —— 现已通过 阿里云百炼大模型服务平台 提供:
通过 阿里云百炼大模型服务平台 上的 API 调用。
性能
| Opus-4.6 Max | K2.6 Thinking | GLM-5.1 Thinking | DS-V4-Pro Max | Qwen3.6-Plus | Qwen3.7-Max | |
|---|---|---|---|---|---|---|
| 编程智能体 | ||||||
| Terminal Bench 2.0-Terminus | 65.4 | 66.7 | 63.5 | 67.9 | 61.6 | 69.7 |
| SWE-Verified | 80.8 | 80.2 | -- | 80.6 | 78.8 | 80.4 |
| SWE-Pro | 57.3 | 59.5 | 58.8 | 59.0 | 56.6 | 60.6 |
| SWE-Multilingual | 77.5 | 76.7 | -- | 76.2 | 73.8 | 78.3 |
| NL2repo | 47.6 | 42.8 | 41.0 | 35.5 | 34.4 | 47.2 |
| SciCode | 51.9 | 52.2 | 45.1 | -- | 41.4 | 53.5 |
| QwenWebDev | 1617 | -- | 1564 | 1570 | 1500 | 1568 |
| QwenSVG | 1541 | 1325 | 1605 | 1506 | 1432 | 1608 |
| 通用智能体 | ||||||
| Qwenclaw | 65.5 | 54.7 | 58.7 | 59.2 | 57.2 | 64.3 |
| CoWorkBench | 68.2 | 58.2 | 66.0 | 66.3 | 64.5 | 67.2 |
| ClawEval | 70.4 | 61.5 | 62.7 | 58.4 | 57.1 | 65.2 |
| Skillsbench | -- | 56.2 | 53.1 | 52.3 | 45.7 | 59.2 |
| BFCL-V4 | 76.7 | 71.3 | 70.9 | 70.6 | 68.9 | 75.0 |
| MCP-Mark | 56.7 | 55.9 | 57.5 | 57.1 | 48.2 | 60.8 |
| MCP-Atlas | 75.8 | 66.6 | 71.8 | 73.6 | 74.1 | 76.4 |
| Vitabench | -- | 39.1 | 45.1 | 51.9 | 42.8 | 47.9 |
| SpreadSheetBench-v1 | 89.3 | 84.5 | 85.2 | 84.9 | 80.2 | 87.0 |
| Kernel Bench L3 | 2.63/98% | 1.41/80% | 2.00/78% | 1.07/54% | 1.03/48% | 1.98/96% |
| HLE w/ tools | 53.0 | 54.0 | 52.3 | 48.2 | 50.2 | 53.5 |
| QwenWorldBench | 56.1 | 50.9 | 50.2 | 52.3 | 47.6 | 57.3 |
| STEM 与推理 | ||||||
| GPQA Diamond | 91.3 | 90.5 | 86.2 | 90.1 | 90.4 | 92.4 |
| HLE | 40.0 | 36.4 | 34.7 | 37.7 | 28.8 | 41.4 |
| LiveCodeBench | 88.8 | 89.6 | -- | 93.5 | 87.1 | 91.6 |
| HMMT 2026 Feb | 96.2 | 92.7 | 89.4 | 95.2 | 87.8 | 97.1 |
| IMOAnswerBench | 75.3 | 86.0 | 83.8 | 89.8 | 83.8 | 90.0 |
| CritPT | 12.6 | 8.0 | 4.6 | 12.9 | 2.9 | 11.4 |
| Apex | 34.5 | 24.0 | 11.5 | 38.3 | 8.8 | 44.5 |
| 通用能力 | ||||||
| MMLU-Pro | 89.7 | 87.1 | 86.3 | 87.5 | 88.5 | 89.6 |
| MMLU-Redux | 95.2 | 95.3 | 94.3 | 94.8 | 94.5 | 95.0 |
| SuperGPQA | 72.5 | 71.3 | 68.0 | 69.9 | 71.6 | 73.6 |
| IFEval | 91.9 | 94.5 | 94.5 | 91.9 | 94.3 | 94.3 |
| IFBench | 62.5 | 76.0 | 76.0 | 77.0 | 74.2 | 79.1 |
| MRCR-v2 (128k) | 84.0 | 63.1 | 62.0 | 74.4 | 85.9 | 90.4 |
| 多语言 | ||||||
| WMT24++ | 82.7 | 81.6 | 81.8 | 82.2 | 84.3 | 85.8 |
| MAXIFE | 81.3 | 87.7 | 87.7 | 88.9 | 88.2 | 89.2 |
| MMMLU | 90.6 | 87.5 | 87.2 | 87.9 | 89.5 | 90.3 |
| MMLU-ProX | 86.1 | 83.7 | 83.9 | 83.9 | 84.7 | 87.0 |
| NOVA-63 | 59.1 | 56.7 | 54.6 | 52.8 | 57.9 | 59.0 |
| INCLUDE | 87.4 | 84.2 | 84.3 | 86.1 | 85.1 | 86.2 |
| Global PIQA | 91.2 | 89.2 | 89.5 | 90.5 | 89.8 | 91.4 |
| PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 86.5 |
\* Terminal-Bench 2.0:Harbor/Terminus-2 测试框架;5小时超时,12 CPU/24 GB RAM;temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K 上下文;5次运行取平均值。所有实验在每轮前预置一个 token,允许模型决定是否进行扩展思考。
\* SWE-Bench 系列:内部智能体框架(bash + 文件编辑工具);temp=1.0, top_p=0.95, 200K 上下文窗口。
\* SWE-bench Pro:已修正问题任务,所有基线均在精炼基准上评估。
\* NL2Repo:通过 Claude-code 评估。我们禁用了尝试访问特定代码仓库的 Bash 命令,如 pip download、pip install 和 git clone。
\* QwenWebDev:内部前端代码生成基准;双语(英/中),7个类别;自动渲染 + 多模态评判;BT/Elo 评分。
\* QwenClawBench:真实用户分布的 Claw 智能体基准;开源:https://github.com/SKYLENAGE-AI/QwenClawBench。
\* CoWorkBench:内部协同办公基准;跨计算机科学、金融、法律、医疗和其他生产力领域的长周期任务。
\* SkillsBench:通过 OpenCode 在 78 个任务上评估(不包括 9 个依赖外部 API 的任务);5次运行取平均值。
\* MCP-Mark:GitHub MCP v0.30.3;Playwright 响应在 32K token 处截断。
\* MCP-Atlas:公开集分数;gemini-2.5-pro 评判器。
\* VITA-Bench:平均子领域分数;使用 claude-4.5-sonnet 作为评判器,因为较旧的官方评判器已不可用。
\* Kernel Bench L3:报告的指标:在 50 个问题上,相对于 PyTorch eager 参考的每个问题加速比的中位数 / 快于 torch.compile 的问题比例。每个测试样本在隔离的 Docker 容器中运行,配备一个 H100 80GB GPU,互联网访问仅限于 CUTLASS 代码库和官方 CUDA 文档,限制为 500 次工具调用,在 100 轮无改进后提前停止。应用 GPT-5.4 (xhigh) 来检测潜在的黑客行为。使用 CUPTI 进行内核级计时。
\* QwenWorldBench:用于评估 LLM 作为模拟智能体环境的世界模型的内部基准;7 个领域(终端、SWE、MCP、搜索、操作系统、安卓、网页);基于真实环境反馈的开放式 5 维度评分评判。
\* 推理场景:推荐系统提示:"推理力度设为 xhigh。请仔细思考任务,验证关键假设,考虑合理的替代方案,并优先考虑最终答案的正确性、一致性和清晰度。"
\* MRCR-v2:使用 128K 上下文子集,包含 8 个针点;评估方案采用自 https://github.com/google-deepmind/eval_hub/tree/master/eval_hub/mrcr_v2。
\* WMT24++:更难的 WMT24 子集;通过 XCOMET-XXL 在 55 种语言上的平均分数。
\* MAXIFE:英文 + 多语言提示的准确率(共 23 个设置)。
\* MMLU-ProX:29 种语言的平均准确率。
\* 空单元格(--)表示分数尚未获得或不适用。
在编程智能体方面,Qwen3.7-Max 在 SWE-Pro (60.6)、SWE-Multilingual (78.3)、SciCode (53.5) 和 QwenSVG (1608) 上表现强劲。在 Terminal Bench 2.0-Terminus (69.7) 上,它超越了 DS-V4-Pro Max (67.9)。在 SWE-Verified (80.4) 上,它与 Opus-4.6 Max (80.8) 和 DS-V4-Pro Max (80.6) 持平。
在通用智能体方面,改进更为显著。Qwen3.7-Max 在 MCP-Mark (60.8 vs GLM-5.1 的 57.5)、MCP-Atlas (76.4 vs Opus-4.6 的 75.8) 和 Skillsbench (59.2 vs K2.6 的 56.2) 上表现异常出色,并在 Kernel Bench L3 上展示了强大的 GPU 内核优化能力(1.98 倍中位加速,96% 胜率)。它在 BFCL-V4 (75.0)、Qwenclaw (64.3) 和 ClawEval (65.2) 上也获得高分,接近 Opus-4.6 Max。在办公自动化基准 SpreadSheetBench-v1 上,它取得了 87 分的顶级成绩。
在推理方面,Qwen3.7-Max 在 GPQA Diamond (92.4 vs Opus-4.6 的 91.3)、HLE (41.4 vs Opus-4.6 的 40)、HMMT 2026 Feb (97.1 vs Opus-4.6 的 96.2)、IMOAnswerBench (90 vs DS-V4-Pro 的 89.8) 和 Apex (44.5 vs DS-V4-Pro 的 38.3) 上取得了领先结果,展示了在最困难推理基准上的非凡实力。
在通用能力和多语言方面,Qwen3.7-Max 在 IFBench (79.1 vs DS-V4-Pro 的 77.0) 上脱颖而出,展示了精确的指令遵循能力。它在 WMT24++ (85.8) 和 MAXIFE (89.2) 上取得领先分数,确认了顶级的多语言理解和翻译质量。它还在 SuperGPQA (73.6) 和 QwenWorldBench (57.3) 上取得了强劲结果。
值得注意的是,这些分数来自各种各样的智能体框架。Qwen3.7-Max 并非针对任何单一框架进行优化,而是在 Claude Code、OpenClaw、Qwen Code 和自定义工具使用框架中均提供一致的性能,使其成为任何智能体系统可靠的即插即用基座。
协同办公生产力助手
Qwen3.7-Max 作为您的高级同事,处理现实世界的生产力任务。其强大的智能体能力从根本上简化了专业工作流程——综合复杂信息、进行深度数据分析和建模,并生成可供发布的文档和可视化——可靠地处理高复杂度的企业工作负载。
Qwen3.7-Max 与主流智能体框架原生兼容。对于长周期任务,它支持跨数小时会话的自主规划和持续执行。通过数千次工具调用和数十轮精化迭代,它稳步提升输出质量。通常需要一到两周专业团队努力的复杂项目,现在可以在数小时内端到端完成,带来可衡量的生产力提升。
智能体扩展
在 Qwen3.5 中引入的环境扩展方法基础上,我们在 Qwen3.7 中继续积极扩展智能体训练环境的质量和多样性。正如语言模型从多样化的预训练文本中泛化一样,我们发现智能体能力也从多样化的训练环境中泛化。
如下图所示,这种环境扩展产生了清晰且一致的改进轨迹,Qwen3.7-Max 取得了前三的平均排名,接近 Claude-4.6-Opus-Max。至关重要的是,我们评估中的所有基准都包含完全未见过的、域外环境,这些环境从未出现在训练中。
我们还观察到扩展行为中惊人的可预测性:任何基准子集上的性能增益都高度一致,并且可以可靠地预测剩余基准或整体平均值上的相对增益,这表明环境扩展驱动的是真正的能力泛化,而不是特定基准的改进。关于扩展动力学和方法论的进一步分析将在我们即将发布的技术报告中详细说明。
跨框架泛化
我们的 Rollout 环境基础设施将每个训练实例解耦为三个正交组件——任务、框架和验证器——它们可以自由重组。我们支持广泛的框架及其不断演进的版本,并将我们的环境建立在真实场景而非合成代理之上。这种解耦设计实现了组合式扩展:同一任务与不同框架(跨类型和版本)及验证器配对,边际成本极低。更关键的是,它实现了跨框架和跨验证器的 RL 训练,其中模型在不同的框架配置下遇到相同的任务,迫使其学习可泛化的问题解决策略,而不是框架特定的捷径。在 QwenClawBench 和 CoWorkBench 上,无论评估时使用何种框架,Qwen3.7-Max 都提供强劲且一致的性能,证实了模型已经学会了解决任务——而不是利用特定的框架。
在野外自我进化
Extend Attention 是 SGLang 中一个生产级、可变长度的多头注意力算子。在我们的测试场景中,它计算新生成的 token 与最多 32K 条前缀 KV 缓存之间的注意力分数,并支持 MTP——这是 LLM 服务中一个内存受限、延迟关键的内核。参考实现是 SGLang 官方的 Triton 实现。
我们让 Qwen3.7-Max 在配备平头哥 ZW-M890 PPU 的 ECS 实例上优化这个内核——这是一个训练期间从未见过的硬件平台。模型没有预先的性能分析数据、没有硬件文档,也没有针对该架构的示例内核。它从一个空的工作空间开始,只包含任务描述、现有的 SGLang 实现和一个评估脚本。
在约 35 小时的持续自主执行过程中,模型进行了432 次内核评估,跨越 1,158 次工具调用。它完全自主地编写、编译、性能分析并迭代改进 Extend Attention 内核——诊断编译失败、修复正确性错误、通过运行时性能分析识别性能瓶颈,并多次重新设计内核架构。
最终结果:相对于 Triton 参考实现,几何平均加速 10.0 倍,在多个工作负载上测量。优化轨迹显示了持续的、非平凡的进展,远远超过最初几个小时:模型在 30 多小时后仍在发现有意义的改进,这表明长周期自主优化不仅可行,而且富有成效。
优化轨迹中的关键结构转变
- Split-KV 并行(0.33x → 2.58x,约 2 小时):初始内核仅在 36 个 SM 上启动 8 个块(4 个 token × 2 个 KV 头 × 1 个批次),导致大多数 SM 闲置。模型重新设计了内核,采用 Split-KV 分区——将前缀 KV 缓存按查询划分到多个线程块中——并引入了使用在线 softmax 重缩放的独立归约内核来合并部分结果。
- 启动和分配开销移除(2.58x → 5.37x,约 2.5 小时):模型系统性地移除了主机-设备同步开销:将每次调用的
cudaMalloc/cudaFree替换为预分配的torch::empty张量,通过使用张量元数据消除了前缀长度查询的同步cudaMemcpy调用,并将内层循环展开 2 倍以分摊循环控制开销并增加指令级并行度。
- 工作负载自适应分割调优(5.37x → 6.85x,约 3 小时):模型从固定分割除数演变为工作负载大小相关的启发式方法——对较小输入应用更激进的分割,并根据 36-SM 架构调整每个工作负载的分割数量以最大化 SM 波次占用率。
- 归约和批处理优化(6.85x → 8.50x,3 小时–25 小时):通过切换到基于寄存器的 K/V 加载以提高 SM 占用率,消除共享内存屏障;使用持久静态张量存储部分结果以避免每次调用分配;
完整的优化轨迹和技术细节将在我们即将发布的技术报告中呈现。
体验 Qwen3.7
立即在 Qwen Chat 上体验 Qwen3.7-Max,或通过 阿里云百炼大模型服务平台 上的 API 调用。加入我们的 Discord 社区,分享您的想法和反馈。
Qwen 的朋友们
感谢我们所有的朋友和合作伙伴,感谢你们持续的支持和合作。我们期待着继续共同推动 AI 边界的发展。