与 榜 样 同 行
杰出贡献人才
日前,在CDCC第11届数据中心标准大会上,“2023年数据中心科技成果奖”正式揭晓。值得关注的是,在含金量十足的“杰出贡献人才奖”评选中,全行业仅有两人荣获这一殊荣,中国科学院计算技术研究所研究员张云泉位列其中。
在数据中心领域取得的突出成绩
在并行计算模型、并行数值算法、自适应性能优化技术、高性能数学库以及大规模可扩展应用全链条上产生了一系列创新性研究成果,提出了面向存储层次的并行计算模型,研制了具有完全自主知识产权国产多核/众核处理器高性能并行数学库,设计了BLAS、SpMV、FFT等共性高性能计算核心函数高效算法,完成了全球气候模拟、核材料辐射损伤、第一性原理计算等科学应用软件大规模可扩展性优化,形成了高性能计算多层次不连续非线性可扩展理论。在国内外学术刊物上发表论文二百余篇,出版专著三部,译著七部。中国高性能计算机TOP100排行榜创始人和发布者,国际人工智能算力排行榜AIPerf500发起人。
一、高性能计算多层次不连续非线性可扩展理论研究
从几十年发展的时间尺度和十万至百万核量级并行规模尺度研究大规模并行软件的研制发展历史,发现大规模并行应用软件的开发中物理模型、并行算法、并行软件实现以及底层硬件多个层次中存在的可扩展性的两种现象,即不连续性和非线性现象。对高性能计算的软硬件发展进行分析,总结出一种广泛存在于可扩展问题中称之为多层次不连续非线性可扩展理论(MDNS:Multi-level Discontinuous and Nonlinear Scalability)。从软件硬件两个角度,以及物理模型、计算模型、计算单元、网络通信等多个层次对高性能计算主要组成部分的发展进行分析,描述了其中存在的不连续非线性现象。
随着并行计算规模不断增加,在物理模型、并行算法设计和并行软件性能优化等多个层次中都出现了不同性质的不可连续扩展,即必须更换新物理模型,新并行算法设计或并行软件实现方法等的现象,将这种现象称为可扩展性的不连续现象。其次,即使在某种物理模型、并行算法设计和并行软件性能优化等的组合可扩展的并行计算规模范围内,其计算性能并不能随着计算资源的增加而线性提高,将此现象称为可扩展性的非线性现象。将以上两个现象统称为多层次不连续非线性可扩展现象。非线性描述的是一种量变,在一定范围内某种模型、方法是适用的,但是随着规模的增加,其性能增加的幅度在降低。不连续描述的是一种质变,量变达到某个阈值,不得不诉诸于新的具有创新性的模型或方法。
描述和克服大规模并行算法的可扩展性的不连续非线性现象,进而突破算法的有限区间可扩展性,在多个层次建立正确的理论解释,提出有效的解决方案,是缓解或解决可扩展性的不连续非线性现象最关键问题及难点。
对此,我们认为要采取分层次研究方法,即分别从物理模型、算法模型和性能模型三个层次研究可扩展性问题,从研究初始就面向可扩展性问题。其中物理层次主要从应用角度考虑高可扩展物理模型和数值算法,算法层次主要研究应用包含的核心函数的大规模高性能算法,而性能层次主要考虑硬件平台的高可用性能模型。这一思路考虑了从物理模型到最后并行程序的完整高性能计算研究链,然后利用两层协同设计方法,即对于物理建模层次和算法层次的可扩展性问题,采用应用-算法协同设计,对于软件实现和硬件构件的可扩展性问题,采用算法-体系结构协同设计,这种思路系统研究并分层次考虑可扩展性。以往大多数研究更多只关注算法层次问题,例如算法可扩展性或优化方法可扩展性,研究虽然对核心函数取得一系列研究成果,提出了大量优秀算法和关键优化技术,并取得良好的可扩展性,但整个应用程序自身并不能完全依赖其核心算法的性能和可扩展性,因此在实际应用常常不能达到层次间的完美匹配,且单独考虑某一层次可扩展无法满足整个应用的需求。认为应将软件硬件的协同设计方法进一步向上层应用扩展,提出了应用算法的协同设计概念,在未来解决多层次不连续非线性可扩展问题时应同时应用位于不同层次的两种协同设计方法,同时提高应用层次和硬件层次的可扩展性。
二、自适应高性能稠密矩阵代码生成框架AUGEM
相对于现有自适应稠密矩阵代码生成框架,如ATLAS不能充分发掘高级语言优化代码潜在性能,手工优化BLAS的经典GotoBLAS软件包虽能充分发掘潜在性能但是不可移植的缺点,该方法能够克服前述两类方法的缺点而发挥其优点,将用户输入的C语言实现的DLA核心代码直接转翻译成能够充分挖掘处理器潜在性能的高度优化的汇编代码。达到与主流手工优化的数学库相当的性能结果。在Intel SandyBridge和AMD Piledriver平台上测试了采用该框架优化后的GEMM,GEMV,AXPY和DOT函数的性能,并与四个主流BLAS库,Intel MKL,AMDACML,ATLAS,和GotoBLAS,进行性能比较。在Intel平台上比Intel MKL高出1.4%,比ATLAS高出3.3%,比GotoBLAS高出89.5%。在AMD平台上比ACML高出2.6%,比ATLAS高出5.9%,比GotoBLAS高出66.8%。相关成果已发表在SC 2013(CCF A类)。
三、异构处理器上稀疏矩阵向量乘SpMV优化算法框架yaSpMV
针对GPU提出了一种新的稀疏矩阵存储格式BCCOO,有效的减少了稀疏矩阵的存储开销。在BCCOO格式中,采用分块的方法,减少了索引向量的长度,同时采用一个Bit Flag向量,代替了原来的行索引向量,从而大大的减少了访存开销。为了提高访问相应向量的访存局部性,本文在BCCOO格式的基础上,提出了BCCOO+格式。BCCOO+格式先将原始输入矩阵竖直划分,然后再使用BCCOO格式来存储。同时,本文也尝试了对COO格式的列索引数组进行压缩。和原始的COO格式相比,在20个测试矩阵上,平均带宽消耗减少了40%以上。在BCCOO格式的基础上,设计了一种针对GPU上分段归约和分段Scan 的算法,基本上解决了GPU上SpMV的负载不均衡问题,同时解决了SpMV的两大难点,即负载不均衡和带宽消耗高的问题。
虽然之前对SpMV在众核平台优化的研究已经取得了很好的效果,但是负载不均衡和高带宽消耗始终是限制SpMV在众核平台取得高性能的瓶颈。本文提出的方法在20个实际应用中的矩阵上进行了测试,对绝大部分稀疏矩阵本文的方法都取得了性能提升。和最新的开源实现clSpMV 对比,在GTX480GPU 上性能提升最高达162%,平均提升40%。在GTX680 GPU 上,性能最高提升195%,平均提升70%。相对于CUSPARSE V5.0,本文的方法在GTX480 GPU上性能提升最高达150%,20个矩阵平均提高42%。在GTX680 GPU 上,最高性能提升229%,平均提升65%。和最新的开源实现clSpMV 对比,在GTX480GPU 上性能提升最高达162%,平均提升40%。相关工作发表在2014年PPoPP(CCF RANK A)上。
四、跨平台性能移植高性能FFT算法库OpenFFT
针对在FFT算法的实现和性能优化过程中存在的FFT蝶形种类繁多、实现复杂、性能优化困难的问题,提出了FFT蝶形计算的模板化表达方法以及基于模板的FFT高性能汇编代码自动生成框架,能够自动生成适应不同体系结构处理器的FFT蝶形高性能汇编代码,实现了基于硬件体系结构的性能优化;同时,针对FFT算法性能与应用场景密切相关,无法在编译阶段确定性能优化参数的问题,实现了针对FFT算法的运行时自适应性能调优框架,不仅能够根据不同输入情况自动选择最优分解策略,而且能够根据硬件架构的Cache组织方式,自动确定FFT蝶形网络遍历方法,实现了基于应用场景的性能自适应调优。
在此基础上,构建并实现了一个可跨平台性能移植的高性能FFT算法库:OpenFFT,不仅可以高效运行在Intel、AMD 处理器上,而且可以高效运行在飞腾、海光、鲲鹏等国产处理器上,在所有计算平台上都能够取得比当前State_of_the_Art实现更好的性能,相关成果发表在CCF A类学术会议SC2019和CCF A类学术期刊IEEE TPDS上。在应用落地方面,OpenFFT成功应用于大气环流模式IAP-AGCM、区域海洋耦合模式等多个大型科学计算应用程序中,有效提升了国产科学计算软件性能;同时,OpenFFT也在华为鲲鹏920处理器的基础计算软件生态建设中发挥重要作用,相关成果获得“华为优秀合作成果”奖。该项研究的价值:一方面,面对体系结构和应用场景的日益多样化和异构化,实现算法在不同体系结构和应用场景下的高性能和性能移植,一直是高性能计算领域的难点问题,提出的算法的模板化表达、基于模板的代码自动生成、运行时调优等方法对该问题的解决具有重要的价值和参考意义。另一方面,随着国产自主可控的顺利推进,基于国产处理器的算力中心建设如火如荼,然而我国的基础计算软件生态并不完善,与国外芯片差距巨大,已经成为限制国产处理器落地应用的重要因素,研究成果可为我国处理器基础计算软件生态的建设提供新的方法和思路,特别是可指导若干性能可移植的高性能基础计算软件研制,这对完善国产处理器的基础计算软件生态具有重要意义。
中研益企(北京)信息技术研究院有限公司(益企研究院)是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构,长期致力于数据中心与云计算基础设施领域的新技术和新产品研究,帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案,以及专业顾问、咨询等服务,降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》、《2021中国云数据中心考察报告》、《算力经济时代·2023新型算力中心调研报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台,为安谋科技(Arm China)极术社区合作伙伴。
看清科技,解读价值
扫描“视频号二维码”
获取更多的技术解析
领取专属 10元无门槛券
私享最新 技术干货