GLM-5:从氛围编程到智能体工程

在 Z.ai 体验 GitHubGitHub HuggingFaceHuggingFace 📄技术报告

我们推出了 GLM-5,面向复杂系统工程和长周期智能体任务。规模扩展仍然是提升通用人工智能(AGI)智能效率的最重要途径之一。与 GLM-4.5 相比,GLM-5 的参数规模从 355B(32B 激活)扩展至 744B(40B 激活),预训练数据从 23T 增加到 28.5T token。GLM-5 还集成了 DeepSeek 稀疏注意力(DSA),在保持长上下文能力的同时显著降低了部署成本。

强化学习旨在弥合预训练模型能力与卓越表现之间的差距。然而,由于强化学习训练效率低下,在大语言模型中大规模部署强化学习是一项挑战。为此,我们开发了 slime,这是一种新型异步强化学习基础设施,大幅提升了训练吞吐量和效率,支持更细粒度的后训练迭代。凭借预训练和后训练两方面的进步,GLM-5 在广泛的学术基准测试中相比 GLM-4.7 实现了显著提升,并在推理、编程和智能体任务上取得了全球所有开源模型中的最佳性能,缩小了与前沿模型的差距。

GLM-5 专为复杂系统工程和长周期智能体任务而设计。在我们的内部评估套件 CC-Bench-V2 中,GLM-5 在前端、后端和长周期任务上均显著优于 GLM-4.7,缩小了与 Claude Opus 4.5 的差距。

Vending Bench 2(一项衡量长期运营能力的基准测试)上,GLM-5 在开源模型中排名第一。Vending Bench 2 要求模型在一年期限内经营一家模拟自动售货机业务;GLM-5 最终账户余额为 4,432 美元,接近 Claude Opus 4.5,展现出强大的长期规划和资源管理能力。

GLM-5 已在 Hugging FaceModelScope 上开源,模型权重采用 MIT 许可证发布。GLM-5 也可在开发者平台 api.z.aiBigModel.cn 上使用,兼容 Claude Code 和 OpenClaw。您也可以在 Z.ai 上免费体验。

| 基准测试 | GLM-5 (思考模式) | GLM-4.7 (思考模式) | DeepSeek-V3.2 (思考模式) | Kimi K2.5 (思考模式) | Claude Opus 4.5 (扩展思考) | Gemini 3.0 Pro (高思考级别) | GPT-5.2 (xhigh) |

------------------------
推理
Humanity's Last Exam30.524.825.131.528.437.235.4
| Humanity's Last Exam (含工具) | 50.4 | 42.8 | 40.8 | 51.8 | 43.4\ | 45.8\ | 45.5\* | | AIME 2026 I | 92.7 | 92.9 | 92.7 | 92.5 | 93.3 | 90.6 | - | | HMMT 2025年11月 | 96.9 | 93.5 | 90.2 | 91.1 | 91.7 | 93.0 | 97.1 | | IMOAnswerBench | 82.5 | 82.0 | 78.3 | 81.8 | 78.5 | 83.3 | 86.3 | | GPQA-Diamond | 86.0 | 85.7 | 82.4 | 87.6 | 87.0 | 91.9 | 92.4 | | 编程 | | | | | | | | | SWE-bench Verified | 77.8 | 73.8 | 73.1 | 76.8 | 80.9 | 76.2 | 80.0 | | SWE-bench Multilingual | 73.3 | 66.7 | 70.2 | 73.0 | 77.5 | 65.0 | 72.0 | | Terminal-Bench 2.0 Terminus-2 | 56.2 / 60.7† | 41.0 | 39.3 | 50.8 | 59.3 | 54.2 | 54.0 | | Terminal-Bench 2.0 Claude Code | 56.2 / 61.1† | 32.8 | 46.4 | - | 57.9 | - | - | | CyberGym | 43.2 | 23.5 | 17.3 | 41.3 | 50.6 | 39.9 | - | | 通用智能体 | | | | | | | | | BrowseComp | 62.0 | 52.0 | 51.4 | 60.6 | 37.0 | 37.8 | - | | BrowseComp (含上下文管理) | 75.9 | 67.5 | 67.6 | 74.9 | 67.8 | 59.2 | 65.8 | | BrowseComp-Zh | 72.7 | 66.6 | 65.0 | 62.3 | 62.4 | 66.8 | 76.1 | | τ²-Bench | 89.7 | 87.4 | 85.3 | 80.2 | 91.6 | 90.7 | 85.5 | | MCP-Atlas 公开集 | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | 68.0 | | Tool-Decathlon | 39.2 | 23.8 | 35.2 | 27.8 | 43.5 | 36.4 | 46.3 | | Vending Bench 2 | 4,432.12 美元 | 2,376.82 美元 | 1,034.00 美元 | 1,198.46 美元 | 4,967.06 美元 | 5,478.16 美元 | 3,591.33 美元 |

\*:指其完整集合的分数。

†:修复了某些模糊指令的 Terminal-Bench 2.0 验证版本

更多评估详情请参阅脚注。

Office

基础模型正在从"聊天"转向"工作",就像面向知识工作者的 Office 工具和面向工程师的编程工具一样。

GLM-4.5 是我们在推理、编程和智能体方面的第一步,使模型能够完成复杂任务。借助 GLM-5,我们进一步增强了复杂系统工程和长周期智能体能力。GLM-5 可以将文本或素材直接转换为 .docx、.pdf 和 .xlsx 文件——产品需求文档、课程计划、试卷、电子表格、财务报告、运行表、菜单等——端到端交付即可使用的文档。

我们的官方应用 Z.ai 正在推出智能体模式,内置 PDF / Word / Excel 创建技能,支持多轮协作,将输出转化为真正的交付成果。

Westbrook High School Football Sponsorship Proposal(韦斯特布鲁克高中橄榄球赞助提案) NVIDIA Equity Research Report(英伟达股票研究报告) Google Earnings Review(谷歌财报回顾)

提示词 + 任务上下文

您正在撰写一份视觉吸引力强、结构清晰的赞助提案,旨在以 DOC 文档形式交付。

作者背景:本提案由美国一所高中的学生会代表撰写。

文档目的:本文档的目标是向潜在赞助商清晰而有说服力地介绍提案,以确保为即将到来的学校橄榄球比赛或橄榄球赛季获得资金赞助。

提案应:

  • 介绍橄榄球赛事及其在学校和当地社区中的意义
  • 解释赞助资金将如何使用
  • 清晰列出赞助机会和赞助商权益
  • 说明为什么赞助该赛事能提供有意义的品牌曝光和社区参与

目标受众:对青少年体育、教育和社区参与感兴趣的本地企业、社区组织和潜在企业赞助商。

──────────────── 整体定位:

这是一份正式但由学生主导的赞助提案。语气应:

  • 积极、充满活力且尊重
  • 专业但平易近人
  • 以社区为导向且真诚

避免夸大其词或过度商业化的语言。

──────────────── 所需结构和内容:

  • 简介

  • 简要介绍学校、学生会和橄榄球项目
  • 提出赞助请求的目的

  • 橄榄球赛事介绍

  • 对橄榄球比赛或赛季的描述
  • 橄榄球对学校精神、团队合作和学生生活的重要性
  • 预计出席人数(学生、家庭、社区成员)

  • 赞助资金使用

  • 赞助资金将如何支持赛事(设备、场地、制服、赛事运营等)
  • 强调对学生的益处和社区影响

  • 赞助机会

  • 不同的赞助级别(如金牌、银牌、铜牌)
  • 每个级别的赞助商可获得什么(标志展示、公告、横幅、节目单、社交媒体提及等)

  • 赞助商权益

  • 在学校和当地社区内的品牌曝光
  • 与青少年发展和教育的积极关联
  • 长期合作机会

  • 结论与行动号召

  • 表达感谢
  • 为感兴趣的赞助商明确下一步行动

──────────────── 视觉和设计要求(非常重要):

文档必须视觉丰富且引人入胜。包含并引用视觉元素,例如:

  • 橄榄球比赛、球员或学校精神活动的照片或图片占位符
  • 比较赞助级别和权益的表格
  • 关键信息的高亮框或标注

使用诸如以下的说明文字:"图片:我们的校橄榄球队在主场比赛期间" "表格:赞助级别和权益概览"

视觉元素应服务于清晰度和吸引力,而非纯粹装饰。

──────────────── 颜色和风格指南:

使用多彩、充满活力且适合校园的视觉风格。

建议的调色板(可根据学校颜色调整):

  • 主色(章节标题):深校园色(如藏青色或栗色)
  • 辅色(子章节):较浅的互补色
  • 强调色:明亮但有品味的色调(如金色、橙色或浅蓝色)
  • 正文:深灰色或黑色
  • 表格标题 / 高亮框:浅色调、令人愉悦的背景色

颜色使用规则:

  • 使用颜色来创建视觉层次和吸引力。
  • 避免过于暗沉或单调的设计。
  • 确保良好的对比度以提高可读性。

──────────────── 写作和排版限制:

  • 使用清晰、简洁且友好的语言。
  • 段落应简短易读。
  • 请勿在句子中间插入换行符。
  • 适当时使用项目符号和表格。
  • 确保文档在屏幕上和打印时都有良好的阅读体验。

质量标准:

  • 文档应看起来像一份精心准备的学生会赞助提案。
  • 赞助商应清楚了解赛事、赞助价值以及如何参与。
  • 最终输出应无需进一步编辑即可共享为 DOC 文件。
  • 图片应居中。

GLM-5 生成的文档(.docx)

GLM-5 入门指南

通过 GLM Coding Plan 使用 GLM-5

在您最喜欢的编程智能体中体验 GLM-5——Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等等。https://docs.z.ai/devpack/overview

GLM Coding Plan 订阅用户: 由于计算能力有限,我们正在逐步向 Coding Plan 用户推出 GLM-5。

  • Max 套餐用户: 您现在可以通过将模型名称更新为 "GLM-5" 来启用 GLM-5(例如,在 Claude Code 的 ~/.claude/settings.json 中)。

  • 其他套餐级别: 随着推出范围的扩大,将逐步增加支持。

  • 配额说明: 与 GLM-4.7 相比,GLM-5 的请求消耗更多套餐配额

更喜欢图形界面?我们提供 Z Code——一个智能体开发环境,让您可以(甚至远程)控制多个智能体,让它们协作处理复杂任务。

立即开始构建: https://z.ai/subscribe

通过 OpenClaw 使用 GLM-5

除了编程智能体,GLM-5 还支持 OpenClaw——一个将 GLM-5 变成个人助理的框架,可以跨应用和设备操作,而不仅仅是聊天。

OpenClaw 已包含在 GLM Coding Plan 中。请参阅指南

在 Z.ai 上与 GLM-5 对话

您可以通过 Z.ai 访问 GLM-5。如果系统没有自动切换,请手动将模型选项更改为 GLM-5。我们为 GLM-5 提供聊天模式和智能体模式:

  • 聊天模式: 即时响应、互动聊天、轻量级交付

  • 智能体模式: 多种工具、丰富技能,直接交付结果

本地部署 GLM-5

GLM-5 的模型权重已在 HuggingFaceModelScope 上公开发布。对于本地部署,GLM-5 支持包括 vLLM 和 SGLang 在内的推理框架。完整的部署说明可在官方 GitHub 仓库中找到。

我们还支持在非 NVIDIA 芯片上部署 GLM-5,包括华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原和海光。通过内核优化和模型量化,GLM-5 可以在这些芯片上实现合理的吞吐量。

脚注

  • Humanity's Last Exam(HLE)及其他推理任务: 我们使用最大生成长度 131,072 个 token 进行评估(temperature=1.0, top_p=0.95, max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;标有 \* 的结果来自完整集合。我们使用 GPT-5.2(medium)作为评判模型。对于含工具的 HLE,我们使用最大上下文长度 202,752 个 token。

  • SWE-bench 与 SWE-bench Multilingual: 我们使用 OpenHands 运行 SWE-bench 套件,采用定制的指令提示。设置:temperature=0.7, top_p=0.95, max_new_tokens=16384,上下文窗口为 200K。

  • BrowseComp: 在没有上下文管理的情况下,我们保留最近 5 轮的详细信息。在有上下文管理的情况下,我们使用与 DeepSeek-V3.2 和 Kimi K2.5 相同的全部丢弃策略。

  • Terminal-Bench 2.0(Terminus 2): 我们使用 Terminus 框架进行评估,设置 timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192,上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB 内存。

  • Terminal-Bench 2.0(Claude Code): 我们在 Claude Code 2.1.14(思考模式)中进行评估,设置 temperature=1.0, top_p=0.95, max_new_tokens=65536。我们移除了实际时间限制,但保留了每个任务的 CPU 和内存约束。我们修复了 Claude Code 引入的环境问题,并在修复了模糊指令的 Terminal-Bench 2.0 验证数据集上报告结果(参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。分数为 5 次运行的平均值。

  • CyberGym: 我们在 Claude Code 2.1.18(思考模式,无网络工具)中进行评估,设置(temperature=1.0, top_p=1.0, max_new_tokens=32000),每个任务超时时间为 250 分钟。结果为 1,507 个任务的单次运行 Pass@1。

  • MCP-Atlas: 所有模型均在思考模式下对 500 个任务的公开子集进行评估,每个任务超时 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。

  • τ²-bench: 我们在零售和电信领域添加了一个小的提示词调整,以避免因用户过早终止而导致的失败。对于航空领域,我们应用了 Claude Opus 4.5 系统卡中提出的领域修复方案。

  • Vending Bench 2: 运行由 Andon Labs 独立执行。

ESC

输入关键词开始搜索

支持搜索标题、内容、标签