首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

作者头像
张善友
发布2025-08-25 08:16:09
发布2025-08-25 08:16:09
4510
举报
文章被收录于专栏:张善友的专栏张善友的专栏

DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:

47626163e2396fc29314d8fb591b225f
47626163e2396fc29314d8fb591b225f

新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?

UE8M0 FP8是什么?

“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。

MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:

  • 块缩放(Block Scaling):将一个张量(Tensor)分割成小块(例如每32个元素一块),每个块共享一个缩放因子(Scale Factor,常用UE8M0格式存储)。这有效扩展了低精度格式的动态范围,避免了数值溢出或精度损失。
  • 硬件原生支持:新一代AI芯片(如NVIDIA Blackwell)的Tensor Core已原生支持MX格式计算,能在单元内完成数据、缩放因子计算和矩阵乘法,显著提升效率。

对于AI计算,尤其是大模型训练和推理,MXFP8能带来:

  • 计算效率提升:相比FP16,FP8计算吞吐量可提升约2倍。
  • 显存占用降低:模型参数显存占用减半,允许部署更大模型或降低硬件成本。
  • 功耗降低:数据搬运和计算的能耗显著下降。

MXFP8是一种结合了微缩放(Microscaling)技术的8位浮点格式,能有效提升大模型训练的效率和降低显存占用,以下是已量产或计划支持的相关芯片:

公司

芯片型号

状态/发布时间

关键特性

支持情况

寒武纪

思元590/690系列

已支持/已流片

支持FP8

MLU370-S4、思元590及690系列芯片均支持FP8计算

华为

昇腾910D/920系列

计划支持

预计2025年Q4支持原生FP8

路线图显示2025年第四季度将加入支持行列

燧原科技

燧原L600

2025年7月发布

国内首款原生支持FP8低精度计算的训推一体AI芯片,配备144GB存储容量和3.6TB/s存储带宽

原生支持FP8

沐曦

曦云C600

2025年Q4量产

基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能,采用HBM3e显存

原生支持FP8

摩尔线程

MTT S5000

已大规模量产

MUSA架构支持UE8M0 FP8 Scale,利用硬件原生FP8,相比FP16计算算力提升2倍,带宽效率提升

原生支持FP8

海光信息

深算系列

已支持

支持FP8精度

深算系列芯片支持FP8

壁仞科技

BR100系列

已发布

支持FP16/INT8计算

未明确提及FP8,但具备低精度计算基础

天数智芯

相关产品

适配中

参与DeepSeek模型适配

未明确提及FP8,但正在推进软硬件协同优化

UE8M0 FP8 是一种缩放因子格式。它的核心思想是微缩块(Microscaling, MX)格式:将一个张量分成许多小块(例如每块包含32个数值),每个块共享一个缩放因子(Scale),块内的数值则用低精度格式(如FP8)存储。

  • UE8M0:这个名称揭示了其结构。
    • U 代表无符号(Unsigned),因为它通常用于处理非负的激活值或缩放因子本身。
    • E8 代表8位指数(Exponent)。
    • M0 代表0位尾数(Mantissa)。这意味着UE8M0仅能表示2的整数幂(例如 ..., 2^-2=0.25, 2^-1=0.5, 2^0=1, 2^1=2, 2^2=4, ...),其动态范围极大(约2^{-127} 到 2^{128}) 。
  • 硬件友好:由于仅表示2的幂,在硬件解码时只需进行指数位移操作,无需传统的浮点乘法器,这可以显著简化电路、缩短关键路径延迟并降低功耗 。
  • 与计算格式协同:UE8M0 FP8 通常不直接用于计算,而是作为缩放因子,与E4M3或E5M2等计算格式协同工作,共同构成MXFP8格式 。

国产AI芯片厂商正积极布局MXFP8等低精度格式的支持,这背后是软硬协同生态的构建:

  • 软件生态支持:DeepSeek(深度求索)等AI厂商在算法和软件层面优化了对FP8格式的支持(如开源DeepGEMM库),并积极与国产芯片适配。这为国产芯片提供了“换道超车”的机会 。
  • 突破带宽瓶颈:许多国产AI芯片在HBM等高带宽内存技术上存在差距。MX格式通过显著降低数据位宽,能有效缓解带宽压力,让算力得到更充分利用 。
  • 硬件加速迭代:上述芯片厂商的新一代产品大多将原生支持FP8作为重要特性,通过架构设计(如专用的Tensor Core、指令集扩展)来高效支持MXFP8计算 。 UE8M0硬件解码简单的特性,使其非常适合在设计自主可控的国产AI加速器中集成,有助于降低功耗、提升能效比。
  • 应对技术封锁:在美国对高端AI芯片实施出口管制的背景下,推动国产算力发展至关重要。支持MXFP8等先进格式,有助于缩小国产芯片与国际顶尖产品在实际应用中的性能差距。

如果你在选择支持MXFP8的国产AI芯片,可以考虑以下几点:

  1. 确认原生支持:关注芯片是否原生支持FP8计算(而并非仅通过软件模拟或转换),这直接影响计算效率 。
  2. 关注软件生态:了解芯片与主流AI框架(如DeepSeek、TensorFlow、PyTorch)的适配情况,以及其低精度计算库的成熟度 。
  3. 考察实际性能:关注芯片在特定负载(如大模型训练或推理)下的实际算力、显存带宽和能效表现 。
  4. 了解量产进度:部分芯片可能已发布但尚未大规模量产,需确认其供货情况和使用案例。
总结

支持MXFP8的国产AI芯片阵容正在不断扩大,包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息等厂商的产品 。这反映了国产AI算力在软硬协同发展上的进步,旨在提升大模型处理效率,并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • UE8M0 FP8是什么?
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档