首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >没想到最先来的是 GLM-5,师承 DeepSeek,股价大涨40%

没想到最先来的是 GLM-5,师承 DeepSeek,股价大涨40%

作者头像
Ai学习的老章
发布2026-03-02 20:44:22
发布2026-03-02 20:44:22
540
举报

大模型春晚第一个节目,可能是 GLM-5?

上午Qwen3.5 要来了,字节、DeepSeek 春节或将发布旗舰大模型一文中还在讨论 Qwen 3.5、字节 Seed、DeepSeek-V4 谁会先发,结果万万没想到——最有可能发布的是智谱的 GLM-5!

从一个神秘代号说起

OpenRouter 上悄悄上线了一个匿名模型,代号 「Pony Alpha」

这个模型一出场就是效果拔群、大杀四方,立刻引发了圈内热议。主流猜测指向智谱的下一代模型 GLM-5.0。

更夸张的是,消息一出,智谱股价直接大涨近 40%...

100% 确认:Pony Alpha 就是 GLM-5

网友公布一个简单的验证方法:

进入 OpenRouter 的聊天菜单设置,将系统提示从 "default" 更改为 "custom" 并留空,然后直接问它"你是什么模型"。

答案已经不言自明——

GitHub 上的蛛丝马迹

其实早有迹象

在 GitHub 上,多个相关项目已经开始为 GLM-5 做准备:

更值得关注的是,「GLM MoE DSA」 即将登陆 transformers 官方库 👀

巨型模型:745B 参数

GLM-5 的体量非常惊人——745B 参数,这是一个相当庞大的规模。

师承 DeepSeek:复用 V3 架构

从 vLLM 的一个新 PR(#34124)可以看出,GLM-5 基本是站在 DeepSeek 的肩膀上:

  • 复用了 DeepSeek-V3/V3.2 的架构
  • 采用了其稀疏注意机制(DSA,即 DeepSeek Sparse Attention)
  • 支持多令牌预测(MTP)

这意味着 GLM-5 属于 MoE(混合专家)架构,基于 DeepSeek-V3.2 的 DSA 技术路线。

大模型春节,真的来了

从 Qwen 3.5、字节 Seed,到现在的 GLM-5,各家都在春节期间悄悄放大招。

看来 2026 的大模型"春招",比我们预想的还要精彩!

你觉得下一个会是谁?DeepSeek-V4 还是 MiniMax 2.2?评论区聊聊~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 从一个神秘代号说起
  • 100% 确认:Pony Alpha 就是 GLM-5
  • GitHub 上的蛛丝马迹
  • 巨型模型:745B 参数
  • 师承 DeepSeek:复用 V3 架构
  • 大模型春节,真的来了
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档