DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:
新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?
“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。
MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:
对于AI计算,尤其是大模型训练和推理,MXFP8能带来:
MXFP8是一种结合了微缩放(Microscaling)技术的8位浮点格式,能有效提升大模型训练的效率和降低显存占用,以下是已量产或计划支持的相关芯片:
公司 | 芯片型号 | 状态/发布时间 | 关键特性 | 支持情况 |
---|---|---|---|---|
寒武纪 | 思元590/690系列 | 已支持/已流片 | 支持FP8 | MLU370-S4、思元590及690系列芯片均支持FP8计算 |
华为 | 昇腾910D/920系列 | 计划支持 | 预计2025年Q4支持原生FP8 | 路线图显示2025年第四季度将加入支持行列 |
燧原科技 | 燧原L600 | 2025年7月发布 | 国内首款原生支持FP8低精度计算的训推一体AI芯片,配备144GB存储容量和3.6TB/s存储带宽 | 原生支持FP8 |
沐曦 | 曦云C600 | 2025年Q4量产 | 基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能,采用HBM3e显存 | 原生支持FP8 |
摩尔线程 | MTT S5000 | 已大规模量产 | MUSA架构支持UE8M0 FP8 Scale,利用硬件原生FP8,相比FP16计算算力提升2倍,带宽效率提升 | 原生支持FP8 |
海光信息 | 深算系列 | 已支持 | 支持FP8精度 | 深算系列芯片支持FP8 |
壁仞科技 | BR100系列 | 已发布 | 支持FP16/INT8计算 | 未明确提及FP8,但具备低精度计算基础 |
天数智芯 | 相关产品 | 适配中 | 参与DeepSeek模型适配 | 未明确提及FP8,但正在推进软硬件协同优化 |
UE8M0 FP8 是一种缩放因子格式。它的核心思想是微缩块(Microscaling, MX)格式:将一个张量分成许多小块(例如每块包含32个数值),每个块共享一个缩放因子(Scale),块内的数值则用低精度格式(如FP8)存储。
国产AI芯片厂商正积极布局MXFP8等低精度格式的支持,这背后是软硬协同生态的构建:
如果你在选择支持MXFP8的国产AI芯片,可以考虑以下几点:
支持MXFP8的国产AI芯片阵容正在不断扩大,包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息等厂商的产品 。这反映了国产AI算力在软硬协同发展上的进步,旨在提升大模型处理效率,并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。