7月28日晚21点,智谱官方公众号发布新一代旗舰模型 GLM-4.5,专为智能体应用打造,同时融合了推理、代码和智能体能力。
特性:
GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实代码智能体的人工对比评测中,实测国内最佳;
采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿;
两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式;
高速、低成本:API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens;高速版最高可达 100 tokens/秒。
效果评测
12项基准测试中,综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一。
Agentic榜单世界第二,Coding榜单世界第三,推理榜单第七
GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于 GLM 模型的更高参数效率。
另外,成本和效率继续提升,于是此次推出远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。
训练方法
首先在 15 万亿 token 通用数据上预训练
此后代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练
最后通过强化学习进一步增强模型推理、代码与智能体能力。
更多技术细节见技术博客 :
Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。
API 已上线开放平台 BigModel.cn,可以一键兼容 Claude Code 框架。
同时,智谱清言 (chatglm.cn) 和 z.ai 免费体验满血版。
同步发布的,还有 GLM-4.5-Air版
官方展示案例:全栈开发任务,编写复杂应用、游戏、交互网页
模拟人类使用google搜索引擎,操纵鼠标点击链接
B站发弹幕:点B站视频链接,进入播放页面,点击弹幕区,发弹幕
发微博:编辑微博,发送,给别人点赞
写网页代码,flappybird游戏
制作ppt,输出hinton最新发言,ppt版
实测:开启全网搜索模式“hinton最新发言,整理成ppt”
模型识别出人名hinton,并检索到全名Geoffrey Hinton,检索最新资讯。
逐步阅读网页内容,展示关键决策动作:extinction、risk、wipe out、翻页等。
大约15min后,输出ppt大纲。
再次输入“转成ppt”:并未转ppt
可见,基座模型不断侵蚀Agent地盘,从工具调用扩展到多模态理解,GUI Agent等,越来越像人,AGI更进一步。
附录
官方文章:GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型
github仓库:https://github.com/zai-org/GLM-4.5
技术博客:https://z.ai/blog/glm-4.5