在 Z.ai 体验 GitHub
HuggingFace 📄技术报告
我们推出了 GLM-5,面向复杂系统工程和长周期智能体任务。规模扩展仍然是提升通用人工智能(AGI)智能效率的最重要途径之一。与 GLM-4.5 相比,GLM-5 的参数规模从 355B(32B 激活)扩展至 744B(40B 激活),预训练数据从 23T 增加到 28.5T token。GLM-5 还集成了 DeepSeek 稀疏注意力(DSA),在保持长上下文能力的同时显著降低了部署成本。
强化学习旨在弥合预训练模型能力与卓越表现之间的差距。然而,由于强化学习训练效率低下,在大语言模型中大规模部署强化学习是一项挑战。为此,我们开发了 slime,这是一种新型异步强化学习基础设施,大幅提升了训练吞吐量和效率,支持更细粒度的后训练迭代。凭借预训练和后训练两方面的进步,GLM-5 在广泛的学术基准测试中相比 GLM-4.7 实现了显著提升,并在推理、编程和智能体任务上取得了全球所有开源模型中的最佳性能,缩小了与前沿模型的差距。
GLM-5 专为复杂系统工程和长周期智能体任务而设计。在我们的内部评估套件 CC-Bench-V2 中,GLM-5 在前端、后端和长周期任务上均显著优于 GLM-4.7,缩小了与 Claude Opus 4.5 的差距。
在 Vending Bench 2(一项衡量长期运营能力的基准测试)上,GLM-5 在开源模型中排名第一。Vending Bench 2 要求模型在一年期限内经营一家模拟自动售货机业务;GLM-5 最终账户余额为 4,432 美元,接近 Claude Opus 4.5,展现出强大的长期规划和资源管理能力。
GLM-5 已在 Hugging Face 和 ModelScope 上开源,模型权重采用 MIT 许可证发布。GLM-5 也可在开发者平台 api.z.ai 和 BigModel.cn 上使用,兼容 Claude Code 和 OpenClaw。您也可以在 Z.ai 上免费体验。
| 基准测试 | GLM-5 (思考模式) | GLM-4.7 (思考模式) | DeepSeek-V3.2 (思考模式) | Kimi K2.5 (思考模式) | Claude Opus 4.5 (扩展思考) | Gemini 3.0 Pro (高思考级别) | GPT-5.2 (xhigh) |
| --- | --- | --- | --- | --- | --- | --- | --- |
|---|---|---|---|---|---|---|---|
| 推理 | |||||||
| Humanity's Last Exam | 30.5 | 24.8 | 25.1 | 31.5 | 28.4 | 37.2 | 35.4 |
\*:指其完整集合的分数。
†:修复了某些模糊指令的 Terminal-Bench 2.0 验证版本。
更多评估详情请参阅脚注。
Office
基础模型正在从"聊天"转向"工作",就像面向知识工作者的 Office 工具和面向工程师的编程工具一样。
GLM-4.5 是我们在推理、编程和智能体方面的第一步,使模型能够完成复杂任务。借助 GLM-5,我们进一步增强了复杂系统工程和长周期智能体能力。GLM-5 可以将文本或素材直接转换为 .docx、.pdf 和 .xlsx 文件——产品需求文档、课程计划、试卷、电子表格、财务报告、运行表、菜单等——端到端交付即可使用的文档。
我们的官方应用 Z.ai 正在推出智能体模式,内置 PDF / Word / Excel 创建技能,支持多轮协作,将输出转化为真正的交付成果。
Westbrook High School Football Sponsorship Proposal(韦斯特布鲁克高中橄榄球赞助提案) NVIDIA Equity Research Report(英伟达股票研究报告) Google Earnings Review(谷歌财报回顾)
提示词 + 任务上下文
您正在撰写一份视觉吸引力强、结构清晰的赞助提案,旨在以 DOC 文档形式交付。
作者背景:本提案由美国一所高中的学生会代表撰写。
文档目的:本文档的目标是向潜在赞助商清晰而有说服力地介绍提案,以确保为即将到来的学校橄榄球比赛或橄榄球赛季获得资金赞助。
提案应:
- 介绍橄榄球赛事及其在学校和当地社区中的意义
- 解释赞助资金将如何使用
- 清晰列出赞助机会和赞助商权益
- 说明为什么赞助该赛事能提供有意义的品牌曝光和社区参与
目标受众:对青少年体育、教育和社区参与感兴趣的本地企业、社区组织和潜在企业赞助商。
──────────────── 整体定位:
这是一份正式但由学生主导的赞助提案。语气应:
- 积极、充满活力且尊重
- 专业但平易近人
- 以社区为导向且真诚
避免夸大其词或过度商业化的语言。
──────────────── 所需结构和内容:
- 简介
- 简要介绍学校、学生会和橄榄球项目
- 提出赞助请求的目的
- 橄榄球赛事介绍
- 对橄榄球比赛或赛季的描述
- 橄榄球对学校精神、团队合作和学生生活的重要性
- 预计出席人数(学生、家庭、社区成员)
- 赞助资金使用
- 赞助资金将如何支持赛事(设备、场地、制服、赛事运营等)
- 强调对学生的益处和社区影响
- 赞助机会
- 不同的赞助级别(如金牌、银牌、铜牌)
- 每个级别的赞助商可获得什么(标志展示、公告、横幅、节目单、社交媒体提及等)
- 赞助商权益
- 在学校和当地社区内的品牌曝光
- 与青少年发展和教育的积极关联
- 长期合作机会
- 结论与行动号召
- 表达感谢
- 为感兴趣的赞助商明确下一步行动
──────────────── 视觉和设计要求(非常重要):
文档必须视觉丰富且引人入胜。包含并引用视觉元素,例如:
- 橄榄球比赛、球员或学校精神活动的照片或图片占位符
- 比较赞助级别和权益的表格
- 关键信息的高亮框或标注
使用诸如以下的说明文字:"图片:我们的校橄榄球队在主场比赛期间" "表格:赞助级别和权益概览"
视觉元素应服务于清晰度和吸引力,而非纯粹装饰。
──────────────── 颜色和风格指南:
使用多彩、充满活力且适合校园的视觉风格。
建议的调色板(可根据学校颜色调整):
- 主色(章节标题):深校园色(如藏青色或栗色)
- 辅色(子章节):较浅的互补色
- 强调色:明亮但有品味的色调(如金色、橙色或浅蓝色)
- 正文:深灰色或黑色
- 表格标题 / 高亮框:浅色调、令人愉悦的背景色
颜色使用规则:
- 使用颜色来创建视觉层次和吸引力。
- 避免过于暗沉或单调的设计。
- 确保良好的对比度以提高可读性。
──────────────── 写作和排版限制:
- 使用清晰、简洁且友好的语言。
- 段落应简短易读。
- 请勿在句子中间插入换行符。
- 适当时使用项目符号和表格。
- 确保文档在屏幕上和打印时都有良好的阅读体验。
质量标准:
- 文档应看起来像一份精心准备的学生会赞助提案。
- 赞助商应清楚了解赛事、赞助价值以及如何参与。
- 最终输出应无需进一步编辑即可共享为 DOC 文件。
- 图片应居中。
GLM-5 生成的文档(.docx)
GLM-5 入门指南
通过 GLM Coding Plan 使用 GLM-5
在您最喜欢的编程智能体中体验 GLM-5——Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等等。https://docs.z.ai/devpack/overview
GLM Coding Plan 订阅用户: 由于计算能力有限,我们正在逐步向 Coding Plan 用户推出 GLM-5。
- Max 套餐用户: 您现在可以通过将模型名称更新为
"GLM-5"来启用 GLM-5(例如,在 Claude Code 的~/.claude/settings.json中)。
- 其他套餐级别: 随着推出范围的扩大,将逐步增加支持。
- 配额说明: 与 GLM-4.7 相比,GLM-5 的请求消耗更多套餐配额。
更喜欢图形界面?我们提供 Z Code——一个智能体开发环境,让您可以(甚至远程)控制多个智能体,让它们协作处理复杂任务。
立即开始构建: https://z.ai/subscribe
通过 OpenClaw 使用 GLM-5
除了编程智能体,GLM-5 还支持 OpenClaw——一个将 GLM-5 变成个人助理的框架,可以跨应用和设备操作,而不仅仅是聊天。
OpenClaw 已包含在 GLM Coding Plan 中。请参阅指南。
在 Z.ai 上与 GLM-5 对话
您可以通过 Z.ai 访问 GLM-5。如果系统没有自动切换,请手动将模型选项更改为 GLM-5。我们为 GLM-5 提供聊天模式和智能体模式:
- 聊天模式: 即时响应、互动聊天、轻量级交付
- 智能体模式: 多种工具、丰富技能,直接交付结果
本地部署 GLM-5
GLM-5 的模型权重已在 HuggingFace 和 ModelScope 上公开发布。对于本地部署,GLM-5 支持包括 vLLM 和 SGLang 在内的推理框架。完整的部署说明可在官方 GitHub 仓库中找到。
我们还支持在非 NVIDIA 芯片上部署 GLM-5,包括华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原和海光。通过内核优化和模型量化,GLM-5 可以在这些芯片上实现合理的吞吐量。
脚注
- Humanity's Last Exam(HLE)及其他推理任务: 我们使用最大生成长度 131,072 个 token 进行评估(
temperature=1.0, top_p=0.95, max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;标有 \* 的结果来自完整集合。我们使用 GPT-5.2(medium)作为评判模型。对于含工具的 HLE,我们使用最大上下文长度 202,752 个 token。
- SWE-bench 与 SWE-bench Multilingual: 我们使用 OpenHands 运行 SWE-bench 套件,采用定制的指令提示。设置:
temperature=0.7, top_p=0.95, max_new_tokens=16384,上下文窗口为 200K。
- BrowseComp: 在没有上下文管理的情况下,我们保留最近 5 轮的详细信息。在有上下文管理的情况下,我们使用与 DeepSeek-V3.2 和 Kimi K2.5 相同的全部丢弃策略。
- Terminal-Bench 2.0(Terminus 2): 我们使用 Terminus 框架进行评估,设置
timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192,上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB 内存。
- Terminal-Bench 2.0(Claude Code): 我们在 Claude Code 2.1.14(思考模式)中进行评估,设置
temperature=1.0, top_p=0.95, max_new_tokens=65536。我们移除了实际时间限制,但保留了每个任务的 CPU 和内存约束。我们修复了 Claude Code 引入的环境问题,并在修复了模糊指令的 Terminal-Bench 2.0 验证数据集上报告结果(参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。分数为 5 次运行的平均值。
- CyberGym: 我们在 Claude Code 2.1.18(思考模式,无网络工具)中进行评估,设置(
temperature=1.0, top_p=1.0, max_new_tokens=32000),每个任务超时时间为 250 分钟。结果为 1,507 个任务的单次运行 Pass@1。
- MCP-Atlas: 所有模型均在思考模式下对 500 个任务的公开子集进行评估,每个任务超时 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。
- τ²-bench: 我们在零售和电信领域添加了一个小的提示词调整,以避免因用户过早终止而导致的失败。对于航空领域,我们应用了 Claude Opus 4.5 系统卡中提出的领域修复方案。
- Vending Bench 2: 运行由 Andon Labs 独立执行。