首页
学习
活动
专区
圈层
工具
发布

智谱GLM-4.5:推理、代码、智能体 SOTA

7月28日晚21点,智谱官方公众号发布新一代旗舰模型 GLM-4.5,专为智能体应用打造,同时融合了推理、代码和智能体能力。

特性:

GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实代码智能体的人工对比评测中,实测国内最佳;

采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿;

两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式;

高速、低成本:API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens;高速版最高可达 100 tokens/秒。

效果评测

12项基准测试中,综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一。

Agentic榜单世界第二,Coding榜单世界第三,推理榜单第七

GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于 GLM 模型的更高参数效率。

另外,成本和效率继续提升,于是此次推出远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。

训练方法

首先在 15 万亿 token 通用数据上预训练

此后代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练

最后通过强化学习进一步增强模型推理、代码与智能体能力。

更多技术细节见技术博客 :

Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。

API 已上线开放平台 BigModel.cn,可以一键兼容 Claude Code 框架。

同时,智谱清言 (chatglm.cn) 和 z.ai 免费体验满血版。

同步发布的,还有 GLM-4.5-Air版

官方展示案例:全栈开发任务,编写复杂应用、游戏、交互网页

模拟人类使用google搜索引擎,操纵鼠标点击链接

B站发弹幕:点B站视频链接,进入播放页面,点击弹幕区,发弹幕

发微博:编辑微博,发送,给别人点赞

写网页代码,flappybird游戏

制作ppt,输出hinton最新发言,ppt版

实测:开启全网搜索模式“hinton最新发言,整理成ppt”

模型识别出人名hinton,并检索到全名Geoffrey Hinton,检索最新资讯。

逐步阅读网页内容,展示关键决策动作:extinction、risk、wipe out、翻页等。

大约15min后,输出ppt大纲。

再次输入“转成ppt”:并未转ppt

可见,基座模型不断侵蚀Agent地盘,从工具调用扩展到多模态理解,GUI Agent等,越来越像人,AGI更进一步。

附录

官方文章:GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型

github仓库:https://github.com/zai-org/GLM-4.5

技术博客:https://z.ai/blog/glm-4.5

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwBtIle4isHQdItLUxxhfO7A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券