
自从2003年GPGPU(General-Purpose computing on Graphics Processing Units 通用计算图形处理单元)概念被提出后,GPU的并行计算能力开始被应用于通用计算领域,而近年来随着HPC、人工智能、云的发展,GPGPU的市场规模也在进一步扩大。
market research intellect 2025年7月发布的报告称:2024年全球GPGPU市场规模大约为320 亿美元,预计2033年达到750亿美元,2026-2033期间年复合增长率为10%。Congruence market insights公司的调查显示:由于政府的大量投资以及对AI等尖端技术不断增长的需求,亚太地区的市场规模为全球最大,占比约为37.8%。

现在GPGPU这个领域,参与者除了有国外Nvidia、AMD、Intel这传统的三大巨头之外,国内也有芯原微电子(VeriSilicon)、摩尔线程、沐曦、天数智芯(iluvatar)、壁仞科技、登临科技、海光信息技术、红山微电子等多个参与者。今天就让我来带大家了解一下这些国内外厂家的GPGPU产品吧。
1.Nvidia
NVIDIA 2024年发布了最新一代基于Blackwell架构的GPGPU,和上一代Hopper架构(2022年发布)相比,它在性能、能效、内存技术和互联能力上实现了跨越式升级。

Blackwell架构有6大技术突破:

(1)工艺突破
采用台积电4NP工艺(4nm改进版),集成2080亿晶体管(H100/H200 为 800 亿个),创新性使用双芯片设计(两片GPU die通过10 TB/s超高速链路互联),将两颗GPU芯片对外呈现成一块统一的GPU。
(2)第二代Transformer Engine(TE)
第二代TE将定制的 NVIDIA Blackwell Tensor Core 技术与 NVIDIA Dynamo、TensorRT-LLM 和 NeMo框架的创新结合,加速了大语言模型 (LLM) 和多专家模型 (MoE) 的推理和训练。

TE是专为加速Transformer模型(如BERT、GPT等)设计的软硬件协同架构,通过动态精度计算与内存优化技术,显著提升训练与推理效率。

TE的动态精度计算基于下面的发现:Transformer模型不同层/操作对计算精度敏感度不同(如Attention需FP16,LayerNorm可用FP8)。
TE的解决方案是:
a.TE实时监测张量数值范围,自动选择 FP8/FP16/FP32混合精度(如梯度计算用FP16,权重存储用FP8)。
b.硬件层面:Tensor Core集成精度控制单元,单周期内切换精度模式,避免传统手动转换的开销。
TE 2.0对比1.0,特性上更加强大;训练时显存占用更少、单卡吞吐量更大;推理时延时更低,能效更强。

(3)第五代NVLINK
第五代NVLINK带来了带宽和扩展性的飞跃。
每个Blackwell GPU支持18条100GB/s链路,总双向带宽达1.8TB/s,是第四代NVLink(900GB/s)的2倍、PCIe 5.0标准的14倍。
通过NVLink Switch可实现576个GPU的无阻塞全互联,构建“虚拟巨量GPU”。每对GPU间通信速度保持1.8TB/s,加速大规模AI模型的训练和实时推理的性能。
(4)RAS(可靠性、可用性、可服务性) Engine
这是Nvidia GPGPU芯片的第一代RAS系统。
这一创新技术能够测试芯片上的每一个晶体管、触发器、内存以及片外内存,并能利用基于AI的预防性维护,针对监控硬件和软件中的数千个数据点,进行可靠性问题的诊断和预测。
RAS引擎能提供深度诊断信息,从而识别需要关注的方面并制定维护计划。
RAS引擎通过快速定位问题根因来缩短周转时间,并通过推动有效修复措施将停机时间降至最低。
管理员可以灵活调整计算资源和优化检查点策略,保证大规模训练任务不间断运行。
如果RAS引擎确定需要更换组件时,备用容量将被激活,以保证工作按时完成且性能下降最小化。
任何所需的硬件更换都可以预先安排,以避免计划外停机。
所以,RAS引擎能增加系统的弹性,并降低运营成本。
(5)Secure AI
NVIDIA 机密计算将可信执行环境(TEE)从CPU扩展到了GPU。该技术通过强大的硬件安全性保护敏感数据和 AI 模型免受未授权访问,从而为生成式人工智能类应用提供隐私保护的解决方案。
Blackwell是业界首个支持 TEE-I/O 的 GPU。
Blackwell 机密计算能提供与未加密模式几乎相同的吞吐量性能;
通过此特性,用户能快速将任何模型移动到受保护的飞地中,而无需更改代码。
(6)Decompression Engine
Blackwell的专用解压缩引擎支持最新压缩格式如LZ4、Snappy、Deflate,能够以800GB/s的速度解压数据。
此特性结合8TB的HBM3e以及NVLINK-C2C,可以大幅提升数据分析以及数据库等应用的端到端性能。
2.AMD
AMD于2025年发布了Instinct MI350系列GPU(包含350X和355X两个版本),Instinct MI 400系列GPU将于2026年发布。

MI350X和MI355X系列都基于第四代CDNA架构。
CDNA4参数见下表,可以对比前代CDNA的参数看下第四代的变化:

由于都基于CDNA4架构,所以MI350X 和 MI355X 都具有288GB 的 HBM3E 内存、8 TB/s 的内存带宽,支持数据类型 FP4 和 FP6。
它们的不同之处在于:MI350X采用风冷,TBP为1000W;MI355X采用液冷,TBP为1400W。MI355X性能高于同架构的MI350X。

如果我们将AMD性能最强的MI355X和Nvidia的B200做一个对比的话,从纸面上的数据来看,MI355X的功耗高于B200,内存容量多于多于B200,性能强于B200,但扩展性比B200弱。

根据AMD的说法,在FP4精度下,MI355X的DeepSeek R1的推理性能相比Nvidia B200提升了20%;MI355X的Llama 3.1 405B推理性能相比Nvidia B200提升了30%,达到了与Nvidia GB200相当的水平。MI355X相比Nvidia B200在同样成本下可以获得多出40%的Token收益。

AMD的宣传资料里没有提及MI350系列具有类似Blackwell系列的RAS、解压引擎、安全相关的特性,估计还没来得及做进去。
3.Intel
Intel在GPGPU领域有两款产品:
一款是用于HPC&AI的MAX系列。如23年推出的Max1550和1100,曾被用于美国Aurora等超级计算机。Intel官网上这两款产品的停产时间是26年,但据材料称,该系列GPU已于24年中停产。
另一款是专攻AI的Gaudi系列。最新款Gaudi 3 于2024年初亮相,但24年未达成5亿美元的销售目标。对比竞争对手AMD的50亿美元左右、和NVDIA的百亿美元级别,实在是有些惨淡。
23年,Intel宣传,这两款GPU的下一代接班人是Falcon Shores。
传闻中,Falcon Shores将采用台积电3nm和5nm制程工艺,并应用台积电CoWoS-R封装技术集成HBM3内存(288GB),提供高达9.8TB/秒的带宽,支持8位浮点运算,满足大规模AI训练和推理需求。
但Falcon Shores屡次跳票。它原定于2024年发布,后推迟至2025年,最终在2025年1月30日被宣布取消商业化。现在官方太子是Jaguar Shores(2026年)。
Falcon Shores并不是第一款被终止的的数据中心GPU项目,而是是继Ponte Vecchio(限量部署)和Rialto Bridge(2023年取消)后,被终止的第三款。
所以Jaguar Shores,能顺利接棒吗?还能抓得住机会吗?


4.芯原微电子(VeriSilicon)
芯原微电子是成立于2001年总部位于上海的半导体公司。
据IPnest 在 2025 年4月的统计,2024 年,芯原半导体设计IP销售额中国第一,全球第九,还是相当有实力的。

芯原的Nano和Arcturus系列虽然也可用于除图形外的一些大型并行运算应用,如AI相关应用,但主要还是面向中低端算力市场,避开了与Nvidia和AMD把持的高端GPGPU的市场竞争。据芯原2024年年度报告,内置芯原GPU的客户芯片已经在全球范围内出货近20亿颗。

近日,芯原发布了GPGPU-AI计算IP是面向高性能AI计算的产品。(应该是官网上这款3D GPGPU IP)

官网上并没有披露太多的技术规格,根据其它零散材料可知它的一些特点:
(1)集成了专用AI加速器,为AI应用提供出色的计算能力。
(2)可编程AI加速器和稀疏感知计算引擎通过先进的调度技术加速基于Transformer和矩阵密集型的模型。
(3)支持广泛的混合精度计算数据格式,包括INT4/8、FP4/8、BF16、FP16/32/64和TF32
(4)设计有3D堆叠内存、LPDDR5X、HBM以及PCIe Gen5/Gen6和CXL的高带宽接口
(5) 能够进行多芯片和多卡横向扩展。
(6)为流行的AI 框架和工具链(例如 PyTorch、TensorFlow、ONNX 和 TVM)提供原生支持,可用于训练和推理。
(7)与通用计算语言(GPCL)兼容。GPCL与主流的 GPGPU 编程语言(如 CUDA 和 OpenCL)相契合。这种兼容性确保开发人员可以使用熟悉的工具和编译器。
这些功能与当今领先的LLM(包括 DeepSeek 等模型)的计算和可扩展性要求非常吻合。
5.壁仞科技
壁仞科技2019年成立于上海,专注于GPGPU芯片研发与智能计算解决方案。
2023年,因为它的高端 GPU 算力触发了美国最新 AI 芯片出口管制的“性能阈值”,而被列入了实体清单,这也给它的后续发展带来了一些困难。
现在在它的官网上,有两个系列的产品:106M模组/B加速卡,166C加速卡/M模组/L模组。
106系列适用于中低密度训练推理、兼顾边缘;166系列适用于高密度训练推理,直接对标H800级。
它还有配套的软件开发平台BIRENSUPAT。
该软件平台包括硬件抽象层、BIRENSUPA编程模型和BRCC编译器,深度学习和通用计算加速库、工具链,支持主流深度学习框架和自研推理加速引擎,并配备针对不同场景的应用SDK等。

壁仞科技副总裁兼AI软件首席架构师丁云帆在2024年7月的全球AI芯片大会上,发表了演讲《壁仞科技国产大算力GPU如何解决大模型落地挑战》,下面是三张PPT截图,从中可以看到壁仞的对在大模型中应用GPU的三大挑战的思考和自家产品应对方法:



6.摩尔线程
摩尔线程于2020年成立于北京,走的是基于MUSA架构的“全功能GPU”的技术路线,
(1) 全功能GPU是指具备功能完备性与精度完整性的GPU。
功能完备性:在单一芯片中集成了AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码等多种能力;
精度完整性:体现为单一芯片支持FP64 Vector、FP32 Vector、TF32 Tensor、FP16/BF16 Tensor、FP8 Tensor、INT8 Tensor 等不同计算精度,以满足不同场景的计算需求。
(2)MUSA架构涵盖统一的芯片架构、指令集、编程模型、软件运行库及驱动程序框架等关键要素。
开发人员可借助C/C++、Triton等编程语言,在该架构下编写并行计算程序,且同一代码能够在公司不同GPU产品及系统上运行。
MUSA架构具备与由Nvidia主导的国际主流GPU生态的兼容性。

(3)摩尔线程的产品及规格如下表所示(来自招股书):



7.天数智芯(iluvatar)
天数智芯是成立于2015年,总部位于上海的半导体公司。
(由于天数智芯的官网在维护中,所以下文的GPGPU资料是调研其他网上报告总结而来。)
天数智芯有以下三款核心的产品:
1.BI芯片(Big Island 2020年):7nm,云端训练旗舰芯片,有240亿晶体管,147TFLOPS@FP16,支持多精度混合训练;
2.天垓100(2021年):7nm,云端训练芯片,147TFLOPS@FP16,支持FP/BF16/INT8多精度,兼容PyTorch/TensorFlow,已适配DeepSeek等主流大模型;
3.智铠100(2022年):7nm,云边推理芯片,384TOPS@INT8,性价比高,适用于大模型推理。

天数智芯正在计划开发第二代天垓200及第三代天垓300,并加速AI与图形渲染技术的融合。
技术上有以下亮点:
全自研架构:拥有自主知识产权的GPGPU架构,非“类CUDA”仿制,具备原生指令集与编译器。
生态兼容性强:兼容X86/ARM/MIPS架构,支持200+ AI模型,适配DeepSeek、LLaMa、ChatGLM等主流框架。
软硬件协同优化:自主研发IXCCL分布式通信技术,优化大模型训练效率。
8.登临科技
登临科技于2017年底在苏州成立,2021年首款产品量产,2022年销售超1万片;
第二代产品于2023年量产,针对 Transformer 类模型(如 ChatGPT)性能可提升 3-5 倍。
官网上的产品如下图所示:

登临科技的GPU基于自主研发的GPU+架构,将通用GPGPU引擎与专用AI加速引擎(如Tensor单元)集成在单芯片内,通过硬件级动态调度实现资源最优分配。
通用计算任务(如控制流、数据预处理)由GPGPU处理;高密度AI运算(如矩阵乘法)则由专用引擎高效执行,显著减少数据搬运开销。

登临科技的产品还考虑了方方面面的兼容性:

不过从上述产品资料看,他们家的产品使用场景还是比较受限的,比如训练就用不了这款GPU。
但据说2023年推出了的Goldwasser二代产品支持FP32/FP16多精度计算(最高128GB内存),但是在官网以及其他网站上没有找到这款产品的详细介绍。
9.沐曦
沐曦于2020年9月在上海成立,致力于为异构计算提供全栈GPU芯片及解决方案。
沐曦有三个系列的GPU产品,均采用完全自主研发的核心GPU IP,:
(1)曦思N系列GPU产品用于智算推理
(2)曦云C系列GPU产品用于通用计算/训推一体
(3)曦彩G系列GPU产品用于图形渲染

GPU配套兼容主流GPU生态的完整软件栈MXMACA:Muxi MetaX Advanced Compute Architecture。

关于这个软件栈,还有一本配套的教材:

沐曦自研的MetaXLink具备高带宽卡间互连能力,可实现CPU和GPU之间以及GPU和GPU之间的快速通信。MetaXLink是自动建链,用户无感知。
根据网上材料显示,沐曦于2022-2024年间累计亏损超30亿元,听着有点吓人。
沐曦25年第一季度营收3亿元,其中训推一体系列GPU板卡的销售额占了公司销售额的绝大部分,这也有点吓人。

10.瀚博半导体
瀚博半导体成立于2018年,总部也位于上海。目前拥有自主研发的核心IP以及两代GPU芯片,提供适用于通用计算和图形渲染的GPU产品。
但它做的并不是传统意义上的GPGPU,而是带能画又能算的带AI外挂的渲染GPU。
同样,它的赛道也不是GPGPU,而是低功耗AI推理加速卡和边缘AI加速卡。
网上能收集到的最新的产品信息如下:
(1)它于2023年4月量产了基于第二代7nm的全功能GPU:SG100。
(a)能做渲染,支持Windows/Linux下的DirectX 11、OpenGL、Vulkan等API接口;
(b)具备AI算力,能用于图像分类、增强、NLP等AI应用场景;
(c)可处理视频。支持H.264、H.265、AV1等多种视频编解码格式。
可应用于数字孪生、数字人、云桌面、云手机、云游戏、云渲染、工业软件等多领域应用。

(2)还有针对LLM大模型的AI加速卡VA1L,具备200 TOPS INT8/72 TFLOPS FP16算力。

SG100和VA1L这两款产品在官网上都找不到材料说明。
11.海光
海光的DCU(Deep Computing Unit)虽然名字不是GPGPU,但它确实属于GPGPU。
由于它是在买来的AMD的GPU IP上redesign演化而来的,所以它技术上全面兼容ROCm GPU计算生态,由此对齐CUDA生态、工具链和开发者环境。
DCU目前迭代了三代产品:
深算一号于2021年商用、深算二号于2023年发布、深算三号在研发中。

DCU产品配套开发套件DTK(DCU Toolkit),支持HIP接口转换,可将CUDA代码迁移至海光平台。同时它兼容TensorFlow、PyTorch、PaddlePaddle等主流AI框架,并通过开源社区优化算子库,覆盖90%以上深度学习模型。
12.红山微电子
红山微电子于2019年在北京成立,在2022年已经推出了SC3、SC3s等产品,有MIMD架构和HSCL生态等技术优势。
但它的官网已经找不到了,公众号也于2023年停更。
虽然爱企查上它处于开业状态,但感觉不妙啊,是不是已经倒闭了?