在 Z.ai 体验 GitHub GitHub HuggingFace 📄技术报告

我们推出了 GLM-5，面向复杂系统工程和长周期智能体任务。规模扩展仍然是提升通用人工智能（AGI）智能效率的最重要途径之一。与 GLM-4.5 相比，GLM-5 的参数规模从 355B（32B 激活）扩展至 744B（40B 激活），预训练数据从 23T 增加到 28.5T token。GLM-5 还集成了 DeepSeek 稀疏注意力（DSA），在保持长上下文能力的同时显著降低了部署成本。

强化学习旨在弥合预训练模型能力与卓越表现之间的差距。然而，由于强化学习训练效率低下，在大语言模型中大规模部署强化学习是一项挑战。为此，我们开发了 slime，这是一种新型异步强化学习基础设施，大幅提升了训练吞吐量和效率，支持更细粒度的后训练迭代。凭借预训练和后训练两方面的进步，GLM-5 在广泛的学术基准测试中相比 GLM-4.7 实现了显著提升，并在推理、编程和智能体任务上取得了全球所有开源模型中的最佳性能，缩小了与前沿模型的差距。

GLM-5 专为复杂系统工程和长周期智能体任务而设计。在我们的内部评估套件 CC-Bench-V2 中，GLM-5 在前端、后端和长周期任务上均显著优于 GLM-4.7，缩小了与 Claude Opus 4.5 的差距。

在 Vending Bench 2（一项衡量长期运营能力的基准测试）上，GLM-5 在开源模型中排名第一。Vending Bench 2 要求模型在一年期限内经营一家模拟自动售货机业务；GLM-5 最终账户余额为 4,432 美元，接近 Claude Opus 4.5，展现出强大的长期规划和资源管理能力。

GLM-5 已在 Hugging Face 和 ModelScope 上开源，模型权重采用 MIT 许可证发布。GLM-5 也可在开发者平台 api.z.ai 和 BigModel.cn 上使用，兼容 Claude Code 和 OpenClaw。您也可以在 Z.ai 上免费体验。

---	---	---	---	---	---	---	---
推理
Humanity's Last Exam	30.5	24.8	25.1	31.5	28.4	37.2	35.4

| Humanity's Last Exam （含工具） | 50.4 | 42.8 | 40.8 | 51.8 | 43.4\ | 45.8\ | 45.5\* | | AIME 2026 I | 92.7 | 92.9 | 92.7 | 92.5 | 93.3 | 90.6 | - | | HMMT 2025年11月 | 96.9 | 93.5 | 90.2 | 91.1 | 91.7 | 93.0 | 97.1 | | IMOAnswerBench | 82.5 | 82.0 | 78.3 | 81.8 | 78.5 | 83.3 | 86.3 | | GPQA-Diamond | 86.0 | 85.7 | 82.4 | 87.6 | 87.0 | 91.9 | 92.4 | | 编程 | | | | | | | | | SWE-bench Verified | 77.8 | 73.8 | 73.1 | 76.8 | 80.9 | 76.2 | 80.0 | | SWE-bench Multilingual | 73.3 | 66.7 | 70.2 | 73.0 | 77.5 | 65.0 | 72.0 | | Terminal-Bench 2.0 Terminus-2 | 56.2 / 60.7† | 41.0 | 39.3 | 50.8 | 59.3 | 54.2 | 54.0 | | Terminal-Bench 2.0 Claude Code | 56.2 / 61.1† | 32.8 | 46.4 | - | 57.9 | - | - | | CyberGym | 43.2 | 23.5 | 17.3 | 41.3 | 50.6 | 39.9 | - | | 通用智能体 | | | | | | | | | BrowseComp | 62.0 | 52.0 | 51.4 | 60.6 | 37.0 | 37.8 | - | | BrowseComp （含上下文管理） | 75.9 | 67.5 | 67.6 | 74.9 | 67.8 | 59.2 | 65.8 | | BrowseComp-Zh | 72.7 | 66.6 | 65.0 | 62.3 | 62.4 | 66.8 | 76.1 | | τ²-Bench | 89.7 | 87.4 | 85.3 | 80.2 | 91.6 | 90.7 | 85.5 | | MCP-Atlas 公开集 | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | 68.0 | | Tool-Decathlon | 39.2 | 23.8 | 35.2 | 27.8 | 43.5 | 36.4 | 46.3 | | Vending Bench 2 | 4,432.12 美元 | 2,376.82 美元 | 1,034.00 美元 | 1,198.46 美元 | 4,967.06 美元 | 5,478.16 美元 | 3,591.33 美元 |

\*：指其完整集合的分数。

†：修复了某些模糊指令的 Terminal-Bench 2.0 验证版本。

更多评估详情请参阅脚注。

Office

基础模型正在从"聊天"转向"工作"，就像面向知识工作者的 Office 工具和面向工程师的编程工具一样。

GLM-4.5 是我们在推理、编程和智能体方面的第一步，使模型能够完成复杂任务。借助 GLM-5，我们进一步增强了复杂系统工程和长周期智能体能力。GLM-5 可以将文本或素材直接转换为 .docx、.pdf 和 .xlsx 文件——产品需求文档、课程计划、试卷、电子表格、财务报告、运行表、菜单等——端到端交付即可使用的文档。

我们的官方应用 Z.ai 正在推出智能体模式，内置 PDF / Word / Excel 创建技能，支持多轮协作，将输出转化为真正的交付成果。

Westbrook High School Football Sponsorship Proposal（韦斯特布鲁克高中橄榄球赞助提案） NVIDIA Equity Research Report（英伟达股票研究报告） Google Earnings Review（谷歌财报回顾）

提示词 + 任务上下文

您正在撰写一份视觉吸引力强、结构清晰的赞助提案，旨在以 DOC 文档形式交付。

作者背景：本提案由美国一所高中的学生会代表撰写。

文档目的：本文档的目标是向潜在赞助商清晰而有说服力地介绍提案，以确保为即将到来的学校橄榄球比赛或橄榄球赛季获得资金赞助。

提案应：

介绍橄榄球赛事及其在学校和当地社区中的意义
解释赞助资金将如何使用
清晰列出赞助机会和赞助商权益
说明为什么赞助该赛事能提供有意义的品牌曝光和社区参与

目标受众：对青少年体育、教育和社区参与感兴趣的本地企业、社区组织和潜在企业赞助商。

──────────────── 整体定位：

这是一份正式但由学生主导的赞助提案。语气应：

积极、充满活力且尊重
专业但平易近人
以社区为导向且真诚

避免夸大其词或过度商业化的语言。

──────────────── 所需结构和内容：

简介

简要介绍学校、学生会和橄榄球项目
提出赞助请求的目的

橄榄球赛事介绍

对橄榄球比赛或赛季的描述
橄榄球对学校精神、团队合作和学生生活的重要性
预计出席人数（学生、家庭、社区成员）

赞助资金使用

赞助资金将如何支持赛事（设备、场地、制服、赛事运营等）
强调对学生的益处和社区影响

赞助机会

不同的赞助级别（如金牌、银牌、铜牌）
每个级别的赞助商可获得什么（标志展示、公告、横幅、节目单、社交媒体提及等）

赞助商权益

在学校和当地社区内的品牌曝光
与青少年发展和教育的积极关联
长期合作机会

结论与行动号召

表达感谢
为感兴趣的赞助商明确下一步行动

──────────────── 视觉和设计要求（非常重要）：

文档必须视觉丰富且引人入胜。包含并引用视觉元素，例如：

橄榄球比赛、球员或学校精神活动的照片或图片占位符
比较赞助级别和权益的表格
关键信息的高亮框或标注

使用诸如以下的说明文字："图片：我们的校橄榄球队在主场比赛期间" "表格：赞助级别和权益概览"

视觉元素应服务于清晰度和吸引力，而非纯粹装饰。

──────────────── 颜色和风格指南：

使用多彩、充满活力且适合校园的视觉风格。

建议的调色板（可根据学校颜色调整）：

主色（章节标题）：深校园色（如藏青色或栗色）
辅色（子章节）：较浅的互补色
强调色：明亮但有品味的色调（如金色、橙色或浅蓝色）
正文：深灰色或黑色
表格标题 / 高亮框：浅色调、令人愉悦的背景色

颜色使用规则：

使用颜色来创建视觉层次和吸引力。
避免过于暗沉或单调的设计。
确保良好的对比度以提高可读性。

──────────────── 写作和排版限制：

使用清晰、简洁且友好的语言。
段落应简短易读。
请勿在句子中间插入换行符。
适当时使用项目符号和表格。
确保文档在屏幕上和打印时都有良好的阅读体验。

质量标准：

文档应看起来像一份精心准备的学生会赞助提案。
赞助商应清楚了解赛事、赞助价值以及如何参与。
最终输出应无需进一步编辑即可共享为 DOC 文件。
图片应居中。

GLM-5 生成的文档（.docx）

GLM-5 入门指南

通过 GLM Coding Plan 使用 GLM-5

在您最喜欢的编程智能体中体验 GLM-5——Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等等。https://docs.z.ai/devpack/overview

GLM Coding Plan 订阅用户： 由于计算能力有限，我们正在逐步向 Coding Plan 用户推出 GLM-5。

Max 套餐用户： 您现在可以通过将模型名称更新为 "GLM-5" 来启用 GLM-5（例如，在 Claude Code 的 ~/.claude/settings.json 中）。

其他套餐级别： 随着推出范围的扩大，将逐步增加支持。

配额说明： 与 GLM-4.7 相比，GLM-5 的请求消耗更多套餐配额。

更喜欢图形界面？我们提供 Z Code——一个智能体开发环境，让您可以（甚至远程）控制多个智能体，让它们协作处理复杂任务。

立即开始构建： https://z.ai/subscribe

通过 OpenClaw 使用 GLM-5

除了编程智能体，GLM-5 还支持 OpenClaw——一个将 GLM-5 变成个人助理的框架，可以跨应用和设备操作，而不仅仅是聊天。

OpenClaw 已包含在 GLM Coding Plan 中。请参阅指南。

在 Z.ai 上与 GLM-5 对话

您可以通过 Z.ai 访问 GLM-5。如果系统没有自动切换，请手动将模型选项更改为 GLM-5。我们为 GLM-5 提供聊天模式和智能体模式：

聊天模式： 即时响应、互动聊天、轻量级交付

智能体模式： 多种工具、丰富技能，直接交付结果

本地部署 GLM-5

GLM-5 的模型权重已在 HuggingFace 和 ModelScope 上公开发布。对于本地部署，GLM-5 支持包括 vLLM 和 SGLang 在内的推理框架。完整的部署说明可在官方 GitHub 仓库中找到。

我们还支持在非 NVIDIA 芯片上部署 GLM-5，包括华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原和海光。通过内核优化和模型量化，GLM-5 可以在这些芯片上实现合理的吞吐量。

脚注

Humanity's Last Exam（HLE）及其他推理任务： 我们使用最大生成长度 131,072 个 token 进行评估（temperature=1.0, top_p=0.95, max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；标有 \* 的结果来自完整集合。我们使用 GPT-5.2（medium）作为评判模型。对于含工具的 HLE，我们使用最大上下文长度 202,752 个 token。

SWE-bench 与 SWE-bench Multilingual： 我们使用 OpenHands 运行 SWE-bench 套件，采用定制的指令提示。设置：temperature=0.7, top_p=0.95, max_new_tokens=16384，上下文窗口为 200K。

BrowseComp： 在没有上下文管理的情况下，我们保留最近 5 轮的详细信息。在有上下文管理的情况下，我们使用与 DeepSeek-V3.2 和 Kimi K2.5 相同的全部丢弃策略。

Terminal-Bench 2.0（Terminus 2）： 我们使用 Terminus 框架进行评估，设置 timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192，上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB 内存。

Terminal-Bench 2.0（Claude Code）： 我们在 Claude Code 2.1.14（思考模式）中进行评估，设置 temperature=1.0, top_p=0.95, max_new_tokens=65536。我们移除了实际时间限制，但保留了每个任务的 CPU 和内存约束。我们修复了 Claude Code 引入的环境问题，并在修复了模糊指令的 Terminal-Bench 2.0 验证数据集上报告结果（参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）。分数为 5 次运行的平均值。

CyberGym： 我们在 Claude Code 2.1.18（思考模式，无网络工具）中进行评估，设置（temperature=1.0, top_p=1.0, max_new_tokens=32000），每个任务超时时间为 250 分钟。结果为 1,507 个任务的单次运行 Pass@1。

MCP-Atlas： 所有模型均在思考模式下对 500 个任务的公开子集进行评估，每个任务超时 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。

τ²-bench： 我们在零售和电信领域添加了一个小的提示词调整，以避免因用户过早终止而导致的失败。对于航空领域，我们应用了 Claude Opus 4.5 系统卡中提出的领域修复方案。

Vending Bench 2： 运行由 Andon Labs 独立执行。

GLM-5：从氛围编程到智能体工程