中移(苏州)软件技术有限公司(为中国移动通信集团有限公司的云能力中心,也为中移动云服务基础设施产品IaaS提供研发和运营支撑,下文简称“中国移动“)联合中国信息通信研究院(下文简称“中国信通院”)以及深圳云豹智能有限公司(下文简称“云豹智能”)在3月29日的算云融合产业大会上发布了《云计算通用可编程DPU发展白皮书(2023年)》,深度解析了云计算通用可编程DPU设计理念,指出具备层级化可编程、低时延网络和统一资源管控等特性的通用DPU芯片将成为连接算力与网络的核心基础部件。
这是目前业界最有深度和最具权威性的一篇DPU白皮书。重点分析了DPU需具备的通用可编程特性和各种应用场景,同时分析了传统DPU的局限性。近些年,由于业界没有优异和成熟的商用DPU SoC (System on a chip)方案,各大云厂商只能各自研发基于CPU+FPGA的DPU方案,导致DPU被误解为是个碎片化的市场,DPU对云计算的作用及潜力没有被业界正确认识。
在“十四五”规划明确指出加快推进新型基础设施建设后,东数西算工程和运营商算力网络建设如约而至。数字经济的背后,云计算是最核心的算力底座。在云计算里面,DPU已成为基础设施最核心的部件之一。
数字经济时代,云计算不断渗透进入各行各业。中国移动作为云计算“国家队”,正在加大投入,全力支持政府与国有企业数字化转型,降本增效,并为国有数据安全保驾护航。在该白皮书中,云豹智能作为中国移动唯一邀约参编企业,是国内DPU芯片头部企业,也是国内已知真正能做到高性能通用可编程DPU SoC的芯片公司。该白皮书的联合发布,代表着中国移动和云豹智能在DPU领域的深度合作,强强联手,为国家云基础架构及DPU的发展贡献力量。
中国移动云能力中心IaaS产品部总经理刘军卫谈到:“随着人类生产力进入算力时代,传统以CPU为核心的架构正在遭受算力瓶颈考验,多样化算力需求亟需软硬件架构全面变革,算力技术发展必将遵循‘软件定义一切,硬件加速一切’的理念,重构算力基础设施,通用可编程加速单元DPU将成为新的算力核心,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。”
传统数据中心随着网络带宽逐步从25Gbps向100Gbps、200Gbps、400Gbps乃至更高的带宽演进,网络数据处理占用的CPU算力资源也在不断地增大,甚至会有一半以上会消耗在这些基础设施的功能上,因此迫切需要一种新型处理器来减少对云主机CPU的消耗。DPU是以数据处理为中心,提供数据中心基础设施服务的通用处理器,是继CPU、GPU之后的“第三颗主力芯片”,可以卸载及加速网络和存储,同时具备安全和管控等基础功能,释放更多的算力资源供客户使用。在云计算与数据中心场景下,如果需要进一步提升算力与发挥基础设施效能,譬如动态和弹性地调度算力、网络和存储资源,那么DPU是必须的,且是不可替代的。
目前,国内云厂商大部分还是基于CPU+FPGA的DPU解决方案,这些方案在研发投入上拥有一定的时间优势,但因其功耗过高及性能受到限制,并未达到新一代云计算的要求。另外,由于FPGA基本被国外两大芯片巨头垄断,其高昂的价格也直接导致了产品成本居高不下,影响市场竞争力。
DPU SoC的产品是前者迭代的终极形态,需具备超高的异构芯片技术,通用可编程等特性,连同先进的芯片工艺,才能够满足更复杂、更广泛、更高性能的应用需求。目前,国外芯片巨头和头部云服务商都选择了通用DPU SoC的产品路线,因为相对于CPU+FPGA的方案,DPU SoC 有4到8倍性价比的提升。
图二:以DPU为中心的数据中心网络架构
各云厂商都在寻找最佳方案来提升各自的利润和竞争力,因为了解到CPU+FPGA并不是一个长远能满足新一代云计算的方案,所以都在期待一款有竞争力、易用及高性价比的DPU SoC出现。
美国的亚马逊云(AWS)不仅占据全球云计算市场最高份额,而且多年前已最先实现了DPU SoC(AWS称之为Nitro)商业化的成功部署。AWS在使用自研的DPU SoC后,每年售卖每台服务器的算力资源可以多获得几千美元的收益。AWS拥有几百万台服务器的体量,因此DPU带来AWS的收益是巨大的。DPU在AWS中的成功应用,受到业内广泛关注,并吸引了越来越多的芯片巨头涌入DPU赛道。Nvidia于2020年以69亿美元成功收购了业内知名网络芯片和设备公司Mellanox,通过融合Mellanox的网络技术,快速面向全球数据中心市场推出BlueField系列的DPU SoC。AMD于2022年以19亿美元收购了DPU SoC厂商Pensando。而国内的云厂商也正在寻求从FPGA架构到通用可编程DPU SoC演变的技术方案。
正是在这样的背景下,中国移动联合中国信通院和云豹智能发布了《云计算通用可编程DPU发展白皮书(2023年)》。深度解析了DPU的发展趋势:通用可编程、低时延网络、统一资源管理。同时介绍了通用可编程DPU SoC在数据中心、运营商、异构计算等多种不同的应用场景。
国内的数据中心建设中,服务器正在从25G向100G及更高带宽发展,并且应用部署的复杂度持续增高,不但要支持虚拟机、容器的应用管理部署,也需要支持裸金属应用。DPU作为数据中心的核心基础设施部件,要具备灵活的编程能力、数据的高吞吐能力和统一管控的能力,才能满足当前各种云计算业务和数据中心发展的需求。
据了解,目前云豹智能是国内已知真正能做到自研高性能DPU SoC的芯片公司,其产品也将是国内第一款通用可编程DPU SoC芯片。不仅提供高达400G的数据吞吐能力,还搭载性能强劲的CPU处理单元并配合多种可编程的数据处理引擎实现层级化可编程能力。根据该白皮书的描述,云豹智能在DPU的多个关键领域掌握并引领着多项核心技术:
云豹智能DPU SoC支持裸金属、虚拟机和容器统一运维和管控,提供弹性网络和存储、虚拟化管理和安全等一站式解决方案,极大地提升云服务商的服务质量和业务灵活性,降低整体投入,引领数据中心向算网融合持续演进。
中国移动作为支持国家数字经济的主要云服务商,在这白皮书给出了明确的答案,DPU SoC是云计算的关键部件,通用可编程的DPU SoC可以实现对数据中心的算力、网络和存储资源的经济高效卸载和管理。也明确分析了DPU SoC需具备的关键特性:层级化可编程性、低时延网络,统一管控以及适应持续发展的加速卸载,是云厂商推动数据中心向高效率、高扩展、高带宽、高灵活性发展的重要技术支撑。同时,也是各云厂商正在积极研究及探寻的DPU技术的发展方向。