首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >自己给的安全感—亚马逊、微软、阿里、华为等云厂商自研DPU大盘点

自己给的安全感—亚马逊、微软、阿里、华为等云厂商自研DPU大盘点

作者头像
霞姐聊IT
发布2025-05-30 08:23:25
发布2025-05-30 08:23:25
5390
举报

DPU是为了解决“数据中心税”问题,达成降本增效的目的而生的。而现在,数据中心也是DPU的最大应用场景。

以数据中心为物理载体的云厂商们,并不都是外购AMD、Intel、Nvidia、Marvell等供应商生产的标准的DPU。

和外购DPU相比,自研DPU需要承担较高的研发投入和技术风险,但在长期运营成本控制和差异化竞争力构建、以及供应链自主可控上具有优势。

因此通过自研的方式,研发适合自己业务场景的DPU自用的云厂商也不在少数。

今天,我们就盘点下云厂商的自研DPU吧!

1.亚马逊AWS

亚马逊2015年收购了以色列芯片设计初创公司Annapurna Labs,正式进入芯片行业,现今已经成为拥有完全自研的CPU、DPU、GPU芯片的云计算厂商。DPU:Nitro卡也演进到了第5代。

亚马逊的Nitro卡是包含在Nitro System中的一个组件。Nitro System完全消除了 EC2 实例上对 Dom0 的需求。基于 KVM 开发的定制化精简型Nitro hypervisor提供轻量级 VMM,同时将之前由 Dom0 中的设备模型执行的功能卸载到一组独立的 Nitro 卡中。

Nitro System有三个关键组件,除了上一段提到的Nitro卡、和Nitro Hypervisor,还有集成在母板上的安全芯片。

Nitro卡

Nitro卡外观如下,Nitro 5每张网卡最高可达到 200 Gbps。每台服务器可以配置一到多张卡,卡和服务器的接口是PCIe。

Nitro主卡是Nitro Controller(控制器),除 Nitro 控制器外,某些系统还使用额外的专用 Nitro 卡来执行特定功能。

这些从属Nitro 卡与 Nitro 控制器共享相同的 SoC(系统级芯片)和基础固件设计,但根据特定功能需求配备了额外硬件和专用固件应用。

例如,包括用于VPC的 Nitro 卡、用于 EBS(弹性块存储)的 Nitro 卡,以及用于本地 NVMe 存储的 Nitro 卡。

Nitro安全芯片

在Nitro 系统中,Nitro 控制器与其他 Nitro 卡共同作为一个域运行,而搭载 Intel、AMD 或 Graviton 处理器并运行客户工作负载的系统主板则构成第二个域。

尽管Nitro 控制器及其安全启动流程为 Nitro 系统提供了硬件信任根,但还需通过一个附加组件将这种信任和控制扩展到系统主板。

Nitro 安全芯片是连接这两个域的桥梁,它将 Nitro 控制器的控制范围扩展至系统主板,使其成为系统的从属组件,从而将 Nitro 控制器的信任链延伸至覆盖主板。

Nitro Hypervisor

Nitro Hypervisor是一个功能有限且经过精心设计的组件,其功能经过刻意精简,仅具备执行指定任务所需的能力,无多余功能。

Nitro 虚拟机管理程序接收来自 Nitro 控制器的虚拟机管理命令(如启动、停止等),利用服务器处理器的硬件虚拟化功能对内存和 CPU 资源进行分区,并通过 PCIe 将 Nitro 硬件接口提供的 SR-IOV 虚拟功能(用于 EBS 和实例存储的 NVMe 块存储、用于网络的弹性网络适配器 (ENA) 等)分配给相应的虚拟机。

它的开销非常非常小。

Nitro System还新增了Nitro Enclaves和Nitro TPM,提供更加安全可信的服务。

Nitro Enclaves

能够创建隔离的计算环境来进一步保护和安全地处理高度敏感的数据。

NitroTPM

NitroTPM 符合 TPM 2.0 规范。

NitroTPM 利用 AWS Nitro System 提供安全的加密卸载,并允许 EC2 实例生成、存储和使用密钥,而无需访问相同的密钥。

NitroTPM 还可以通过 TPM 鉴证机制提供实例完整性的加密证明。

2.微软Azure

2022年12月底,微软以1.9亿美元收购了前苹果和瞻博网络工程师创立的公司DPU 制造商Fungible。

据说原本微软是想和Fungible合作设计开发的,结果谈着谈着就以骨折价买下来了。

历时两年后,在2024 年 11 月 19 日的Microsoft Ignite 2024 大会上,微软正式推出了首款自主研发的 内部DPU——Azure Boost DPU。

它将高速以太网和PCIe 接口以及网络和存储引擎、数据加速器和安全功能集成到一个完全可编程的片上系统中。

此外,基于DPU 的系统增加了一个自定义应用层可利用 DPU 紧密集成的数据压缩、数据保护和加密引擎。

通过软硬件协同优化的方式,微软预计,与现有CPU 相比,DPU 能够以低 3 倍的功耗和 4 倍的性能运行云存储工作负载。

3.阿里云

阿里云一直是中国最大的公有云厂商。根据Gartner2024年发布的报告,在全球IaaS市场,阿里云位居第三,仅次于亚马逊AWS和微软Azure。

阿里15年和中天微合作,18年收购中天微并将其和内部达摩院芯片自研团队合并为平头哥,其芯片产品在云服务领域具有较强的竞争力,为阿里云的业务发展提供了有力支撑。

阿里云的CIPU的雏形是2017年发布的神龙架构,正式发布于2022年6月。

CIPU的定位是云计算的管控和加速中心,打破CPU中心架构,向下管理数据中心资源,向上接入飞天云操作系统。

CIPU可提供能力如下图所示:

阿里云对CIPU硬件加速的理解是,CIPU不仅仅是算力卸载,而是随路异构计算。CIPU在计算机系统中,位于存储和网络的必经之路上,因此它做的是近网络计算和近存储计算,减少数据移动,从而提升计算效率。这个理解还是相当到位的。

4.华为云 华为进入云计算行业时的商业愿景是,要成为世界五朵云之一,现在它实现了。现在华为云是中国云服务市场的第二名,全球IaaS市场的第五名。前面四位分别是:亚马逊、微软、谷歌和阿里巴巴。

华为有自己的大小海思,芯片能力也是非常强的。和云厂商的自研芯片大多自用不同,华为的自研的CPU、NPU、DPU不仅自己用,还对外销售。

2025年3月份,华为在中国合作伙伴大会2025—鲲鹏伙伴产业峰会上,发布了他们的全自研的SP900系列DPU。

霞姐写过一篇文章专门分析过,感兴趣的朋友请参考《华为DPU SP900系列以及配套编程框架简介》查看详细内容。

5.腾讯云

腾讯云中国第三,全球第六。它也有自己的自研DPU:水杉、银杉。

功能如下图所示:

这是22年腾讯关于DPU技术演进的示意图,现在25年了,应该实现了吧?

6.百度智能云

百度智能云在AI市场占据国内第一的地位。

百度也有自己的DPU太行。

太行DPU2.0通过vQPE、BTHv、BOE、BDMA、RDMA、BHQoS六大自研引擎,实现了极致效能提升。

百度智能云基于太行DPU2.0实现了计算架构的全面升级,将虚拟化软件全部卸载到DPU上,提供全核售卖的虚拟机能力,同时将存储和网络的I/O数据流利用DPU进行卸载和硬件加速,网络带宽升级到200Gbps,网络转发性能达到5000万PPS。

下图是23年百度对自己的DPU的展望,现在应该在实现中吧。

7.天翼云

天翼云在中国云计算市场具有重要地位,根据IDC等第三方报告,天翼云、移动云位于中国公有云IaaS市场前五前六。

天翼云自研的DPU叫紫金DPU。这名字很贵气,一听就是国家队选手。

紫金DPU采用的是SOC+FPGA架构,支持多种卸载加速功能。

据宣传,紫金DPU有三大特点(但听起来比较中规中规,没啥大的亮点):

(1)虚拟化全卸载。天翼云紫金架构将原运行在服务器CPU上的各类虚拟化组件卸载至紫金DPU,实现了服务器虚拟化零损耗,全面释放了算力,不仅提高了弹性云主机的售卖效率,而且全新支持弹性裸金属服务,实现降本增效,普惠客户。

(2)多种业务硬件加速,具备更高的性能和更低的时延。相比传统CPU依靠纯软件的处理方式,紫金DPU通过芯片级的硬件加速,网络PPS性能提升100%;存储IOPS性能提升200%,网络时延降低300%。新架构的整体性能实现大幅提升,为客户带来了更好的产品体验。

(3)提供高性能网络协议。天翼云紫金DPU将高性能网络数据面、NVMe-oF协议、EC纠错码等功能全面硬件化,自研的拥塞控制算法通过端网协同的主动控制做到精准流控,通过低队列深度实现超低时延,大幅提升分布式计算通信效率,并且具有可大规模部署的优势。同时,紫金DPU还实现了主机CPU环境与虚拟化环境的物理隔离,支持“一云多芯”,对于主机不同CPU芯片架构的服务器实现“即插即用”。

8.移动云

移动也有自己的DPU,名字叫“大云磐石”。据称该芯片由中国移动联合生态链共同研发设计,实现了关键技术自主可控,带宽达到400Gbps。

它的DPU是移动COCA的一个组成部分。COCA(Compute on Chip Architecture)软硬一体片上计算架构是一项旨在打造国家级自主可控高性能算力底座的重大技术创新。

移动还是很努力的,它搞了一个OpenCOCA产业联盟。

目前小伙伴有:云计算开源产业联盟、华为、云豹智能、锐捷网络、登临科技、昆仑芯、中兴、摩尔线程、中科驭数、云脉芯联、中科寒武纪、新华三、燧原科技、壁仞科技、星云智联、瀚博半导体等。

9.京东云

京东云的混合云技术比较领先,在政企云市场有一定影响力。

京东云的自研DPU叫京刚(吐槽一下,京刚这个名字听起来虽然有力量,但喜感也很足,哈哈),目前已经演进到了3.0。

京东云京刚3.0将虚拟化损耗降至零,网络性能提升4倍,支持 100Gb VPC 网络,云硬盘单实例性能突破百万IOPS。

10.字节跳动

字节跳动的“氦卡”是其旗下火山引擎推出的自研DPU板卡项目。

据2023年消息,火山引擎自主设计了DPU、自研了基于DPU的RDMA网络以及软硬一体的Hypervisor层,网络性能升级到5000万pps转发能力,20us延迟,处于业界领先地位。内部部署已经超过万台,渗透率上持续提升。

盘点结束了,霞姐有两点担忧:

1.大的云厂商的DPU都在自研,那么专门的DPU供应商的产品能占得盘子看起来有点小啊。DPU供应商如何能让自己的产品具有独特的竞争力呢?

2.华为作为DPU的使用者,同时又是供应商,潜在客户怎么能相信你能够提供给他最先进的产品呢?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 霞姐聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档