Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深入理解 CPU 和异构计算芯片 GPU/F10PGA/ASIC

深入理解 CPU 和异构计算芯片 GPU/F10PGA/ASIC

原创
作者头像
王玉伟
修改于 2017-06-19 11:10:48
修改于 2017-06-19 11:10:48
7.5K3
举报
文章被收录于专栏:王玉伟的专栏王玉伟的专栏

王玉伟,腾讯TEG架构平台部平台开发中心基础研发组,组长为专家工程师Austingao,专注于为数据中心提供高效的异构加速云解决方案。目前,FPGA已在腾讯海量图片处理以及检测领域已规模上线。

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。摩尔定律失效的今天,关注“新“成员(GPU\FPGA\ASIC)为数据中心带来的体系架构变革,为业务配上一台动力十足的发动机。

1 异构计算:WHY

明明CPU用的好好的,为什么我们要考虑异构计算芯片呢?

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。

历史上,受益于半导体技术的持续演进,计算机体系结构的吞吐量和系统性能不断提高,处理器的性能每18个月就能翻倍(众所周知的“摩尔定律”),使得处理器的性能可以满足应用软件的需求。但是,近几年半导体技术改进达到了物理极限,电路越来越复杂,每一个设计的开发成本高达数百万美元,数十亿美元才能形成新产品投产能力。2016年3月24日,英特尔宣布正式停用“Tick-Tock”处理器研发模式,未来研发周期将从两年周期向三年期转变。至此,摩尔定律对英特尔几近失效。

一方面处理器性能再无法按照摩尔定律进行增长,另一方面数据增长对计算性能要求超过了按“摩尔定律”增长的速度。处理器本身无法满足高性能计算(HPC:High Performance Compute)应用软件的性能需求,导致需求和性能之间出现了缺口(参见图1)。

一种解决方法是通过硬件加速,采用专用协处理器的异构计算方式来提升处理性能。

图1:计算需求和计算能力的缺口发展形式

2 异构计算:STANDARDS

通常我们在为业务提供解决方案的时候,部署平台会有四种选择 CPU、GPU、FPGA、ASIC。那有什么标准来评判计算平台的优劣呢?

图2:我是法官,标准我说了算

当今理想的协处理器应该是基于硬件的设计,具备三种基本能力。第一是设计能够提供专门的硬件加速实现各种应用中需要的关键处理功能。其次是协处理器设计在性能上非常灵活,使用流水线和并行结构,跟上算法更新以及性能的需求变化。最后,协处理器能够为主处理器和系统存储器提供宽带、低延迟接口。

除了硬件要求以外,理想的协处理器还应该满足 HPC 市场的“4P”要求:性能( performance )、效能( productivity )、功耗( power )和价格( price )。

HPC 市场对性能的最低要求是全面加速实现算法,而不仅仅是某一步骤,并能够加速实现整个应用软件。

效能需求来自最终用户。在现有的计算机系统中,协处理器必须安装起来很方便,提供简单的方法来配置系统,加速实现现有的应用软件。

HPC 市场的功耗需求来自计算系统安装和使用上的功耗限制。对于大部分用户,能够提供给计算机的空间有限。计算系统的功耗越小,那么可以采取更少的散热措施来保持计算机不会过热。因此,低功耗协处理器不但能够为计算系统提供更低的运转成本,而且还提高了计算系统的空间利用率。

价格因素在 HPC 市场上显得越来越重要。十几年前,某些应用软件对性能的需求超出了单个处理器能力范围,这促使人们采用专用体系结构,例如密集并行处理( MPP )和对称多处理( SMP )等。然而,这类系统要求使用定制处理器单元和专用数据通路,开发和编程都非常昂贵。

现在的 HPC 市场抛弃了如此昂贵的方法,而是采用性价比更高的集群计算方法。集群计算采用商用标准体系结构,例如 Intel 和 AMD;采用工业标准互联,例如万兆以太网和 InfiniBand ;采用标准程序语言,例如运行在低成本Linux操作系统上的 C 语言等。当今的协处理器设计必须能够平滑集成到商用集群计算环境中,其成本和在集群中加入另一个节点大致相当。

了解了基本的评判标准之后,我们以当今最火的深度学习为例,从芯片架构、计算性能、功耗、开发难度几个方面来对几种不同的芯片进行分析对比。

3.2 芯片计算性能

深度学习的学名又叫深层神经网络(Deep Neural Networks),是从人工神经网络(Artificial Neural Networks)模型发展而来。我们以深度学习作为切入点来分析各个芯片的性能。图3是神经网络的基本结构,模型中每一层的大量计算是上一层的输出结果和其对应的权重值这两个矩阵的乘法运算。

图3:神经网络基本结构

横向对比CPU,GPU,FPGA,ASIC计算能力,实际对比的是:

1.硬件芯片的乘加计算能力。

2.为什么有这样乘加计算能力?

3.是否可以充分发挥硬件芯片的乘加计算能力?

带着这三个问题,我们进行硬件芯片的计算能力对比。

相关阅读

深入理解CPU和异构计算芯片GPU/FPGA/ASIC (下)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
3 条评论
热度
最新
您好,我是公众号:加智(ID:aiorang)的小编,想要转载您的这篇文章,希望得到您的授权,谢谢
您好,我是公众号:加智(ID:aiorang)的小编,想要转载您的这篇文章,希望得到您的授权,谢谢
回复回复点赞举报
幽默的博主
幽默的博主
回复回复点赞举报
插图,也太有趣了吧
插图,也太有趣了吧
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
CCIX白皮书:面向异构计算的缓存一致性互联技术
CCIX™是一种缓存一致性的加速器互联标准,旨在解决摩尔定律降速下异构计算的性能与功耗问题。通过缓存一致性和共享虚拟内存机制,它实现了处理器与加速器间的数据自动同步,降低软件复杂度;基于 PCIe 分层架构扩展,支持最高25GT/s传输速率及端口聚合,提升带宽并降低时延。CCIX 可适配多种拓扑结构,简化异构系统设计,适用于机器学习、云计算等场景,由 CCIX 联盟推动建立开放标准,助力数据中心性能升级。
AIGC部落
2025/07/09
900
CCIX白皮书:面向异构计算的缓存一致性互联技术
FPGA异构计算芯片的特点
作者介绍:架构平台部四级专家,先后从事通讯设备的开发和存储设备的研发工作。目前致力于一体化的设计-硬件和软件的结合,以及OS多个层面综合考虑系统设计,找出最优路径的设计思想。 FPGA异构计算芯片的特点 1 异构计算:WHY 明明CPU用的好好的,为什么我们要考虑异构计算芯片呢? 随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已远远超出了传统CPU处理器的能力所及。历史上
腾讯技术工程官方号
2018/01/29
4.4K1
FPGA异构计算芯片的特点
深入理解 CPU 和异构计算芯片 GPU/FPGA/ASIC (下)
本文介绍了FPGA在深度学习中的重要性,以及各大公司如Google、Facebook、百度等是如何利用FPGA来提升其业务效率和性能的。具体包括:Google使用FPGA加速深度学习模型,Facebook在数据中心引入FPGA,以及百度大脑利用FPGA进行深度学习模型加速。
王玉伟
2017/03/23
21.4K3
深入理解 CPU 和异构计算芯片 GPU/FPGA/ASIC (下)
【TPU和GPU,谁将一统AI芯片】摩尔定律之后一万倍,10万+热文引爆激辩
【新智元导读】正当AlphaGo 与柯洁等一众中国顶尖围棋高手在乌镇激战正酣之际,计算机体系结构专家王逵在新智元专栏的文章(点击阅读《CPU和GPU双低效,摩尔定律之后一万倍 ——写于TPU版AlphaGo重出江湖之际》)在专家社群和文章评论区内中引发了热烈的讨论,获得近10万+的阅读量。深度学习的未来,GPU和TPU究竟谁会统治,一起来看看大家的讨论。 正当AlphaGo 与柯洁等一众中国顶尖围棋高手在乌镇激战正酣之际,计算机体系结构专家王逵在新智元专栏的文章(点击阅读《CPU和GPU双低效,摩尔定律之后
新智元
2018/03/28
1K0
第四代算力革命(三):面向未来十年的新一代计算架构
编者按: 新华社北京2022年2月17日电,记者了解到,国家发展改革委、中央网信办、工业和信息化部、国家能源局近日联合印发文件,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏启动建设国家算力枢纽节点,并规划了张家口集群等10个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。 当前,算力已成为全球战略竞争新焦点,是国民经济发展的重要引擎,全球各国的算力水平与经济发展水平呈现显著的正相关。在2020年全球算力中,美国占36%,中国占31%,欧洲
SDNLAB
2022/03/03
1.3K0
CPU关键技术演进路线
后摩尔定律时代,单靠制程工艺的提升带来的性能受益已经十分有限,Dennard Scaling规律约束,芯片功耗急剧上升,晶体管成本不降反升;单核的性能已经趋近极限,多核架构的性能提升亦在放缓。AIoT时代来临,下游算力需求呈现多样化及碎片化,通用处理器难以应对。
肉眼品世界
2022/06/15
7360
CPU关键技术演进路线
超异构计算:大算力芯片的未来
计算的问题应该能够:分解成可以同时解决的离散工作;随时执行多条程序指令;使用多个计算资源比使用单个计算资源在更短的时间内解决问题。
chaobowx
2022/12/16
1.3K0
超异构计算:大算力芯片的未来
异构计算面临的挑战和未来发展趋势
在过去的一年(2022年),软硬件融合公众号的很多文章,都围绕着“超异构计算”这个重要的主题展开。也和很多朋友交流超异构计算相关的话题,大家提到的最主要的一个问题是:超异构和异构的本质区别在哪里?
chaobowx
2023/02/28
2.2K0
异构计算面临的挑战和未来发展趋势
高性能网络 — SmartNIC、DPU演进与运行原理
Physical Interface(物理链路连接器)负责将双绞线网口(电口)或光模块(光口)或连接到网卡上。一个 Physical Interface 通常具有多个 Ethernet Ports。
通信行业搬砖工
2023/09/07
1.8K0
高性能网络 — SmartNIC、DPU演进与运行原理
超异构计算,NVIDIA已经在行动
最近在梳理一些巨头的超异构计算发展趋势,发现:Intel在做非常宏大的战略层面的布局,而NVIDIA则已经在执行层面全面行动。NVIDIA在云、网、边、端等复杂计算场景,基本上都有重量级的产品和非常清晰的迭代路线图。
chaobowx
2022/12/16
5710
超异构计算,NVIDIA已经在行动
异构计算综述
异构计算(Heterogeneous computing)技术从80年代中期产生,由于它能经济有效地获取高性能计算能力、可扩展性好、计算资源利用率高、发展潜力巨大,目前已成为并行/分布计算领域中的研究热点之一。本文主要介绍了CPU+GPU基础知识及其异构系统体系结构(CUDA)和基于OpenCL的异构系统,并且总结了两种结构的特点,从而对异构计算有了更深的理解。
碎碎思
2022/01/10
4K0
异构计算综述
深度学习的异构加速技术(一):AI 需要一个多大的“心脏”?
本文主要探讨了在深度学习领域,CPU和GPU作为两种主要的计算架构,在计算效率和硬件成本方面所存在的差异。作者详细分析了CPU和GPU在计算核心数量、内存带宽、能源效率、芯片面积等方面的不同,并指出GPU的内存带宽瓶颈和相对较低的计算效率是其主要的局限性。同时,作者还探讨了将深度学习模型部署到云端和嵌入式设备上所面临的挑战,并展望了未来可能的发展方向。
腾讯技术工程官方号
2017/11/08
5.8K0
深度学习的异构加速技术(一):AI 需要一个多大的“心脏”?
超异构计算,Intel的一盘大棋
软硬件融合逐步深化并体系化后,逐渐形成很多观点。比如超异构计算,比如开放生态,比如“软件定义一切,硬件加速一切”,比如完全可编程等等。当这些观点想去寻求共鸣的时候,发现Intel已经在做了很多相关的布局。
chaobowx
2022/12/16
7420
超异构计算,Intel的一盘大棋
处理器“三国鼎立”:从CPU、GPU到DPU
当2020年10月份,NVIDIA在其GTC 2020大会上大张旗鼓的宣传DPU之后,整个行业热了起来,大家都在问:什么是DPU?DPU到底能干什么?DPU和GPU有什么区别?号称数据中心三大处理器之一的DPU,“何德何能”与CPU、GPU并驾齐驱?
SDNLAB
2021/07/27
4.5K0
处理器“三国鼎立”:从CPU、GPU到DPU
观点 | 为什么 AI 芯片时代必然到来——从 TPU 开始的几十倍性能之旅
AI 科技评论按:ACM 通讯(ACM Communications)在线杂志近期刊登了一篇作者来自谷歌的文章,带领我们重新审视了近几十年的半导体发展历程,以及 AI 研究、应用人员们如今已经接受了的问题:专用处理器为什么好、为什么火起来。值得注意的是,这篇文章的作者之一正是谷歌 TPU 团队成员、UC 伯克利大学退休教授、2017 年图灵奖获得者 David Patterson。AI 科技评论全文编译如下。
AI科技评论
2018/10/25
9910
观点 | 为什么 AI 芯片时代必然到来——从 TPU 开始的几十倍性能之旅
沉吟至今,生而为云 :异构FPGA在云端一次算力的升华
本文介绍了异构计算在云计算领域的发展现状、技术挑战和应用前景,并分析了FPGA在云计算加速中的优势和挑战,同时探讨了FPGA在云服务中的具体应用案例。
TEG云端专业号
2017/07/03
2.3K0
沉吟至今,生而为云 :异构FPGA在云端一次算力的升华
基于FPGA的异构计算在多媒体中的应用
大家好,我是来自CTAccel的研发负责人周小鹏,我分享的题目是《基于FPGA的异构计算在多媒体中的应用》。FPGA从1984年被发明到现在已经35年了,现在的FPGA有足够的规模去做大规模计算。我们团队主要是研究它能否解决多媒体领域中的现有问题。
LiveVideoStack
2019/11/20
1K0
基于FPGA的异构计算在多媒体中的应用
国内首款 FPGA 云服务器,性能是通用 CPU 服务器 30 倍以上
本文介绍了FPGA在数据中心的技术创新,通过可编程逻辑、低功耗、硬件加速以及云化平台等特性,为数据中心带来降低成本、提高效率、加速创新、优化资源利用等价值。同时,文章还分析了FPGA在数据中心领域的应用和前景,并指出FPGA在加速数据中心、降低能耗、提高系统稳定性等方面具有广泛的应用价值。
薛梁
2017/01/23
6.6K0
国内首款 FPGA 云服务器,性能是通用 CPU 服务器 30 倍以上
异构计算系列文章(一):定义、场景及局限性
2020 开年,ZILLIZ 与 InfoQ 筹备了以异构计算为专题的一系列文章。此篇文章作为异构计算专题的开篇,整体性的介绍了异构计算的定义、场景与局限性。在后续的专题文章中,我们将深入不同的 AI 应用场景进一步解释异构计算的优势。
Zilliz RDS
2020/04/01
9110
异构计算系列文章(一):定义、场景及局限性
什么是异构计算架构?
异构计算架构是一种计算系统设计理念,它结合了使用不同类型指令集和体系架构的计算单元,例如 CPU、GPU、NPU、DSP、ASIC 和 FPGA,以实现高效的计算性能和能耗比。这种架构允许这些不同的计算单元共享一个统一的内存系统,但要求程序必须为每种不同的指令集分别编写,以充分利用每个计算单元的特点和优势。
叶庭云
2024/05/25
1.8K0
什么是异构计算架构?
推荐阅读
相关推荐
CCIX白皮书:面向异构计算的缓存一致性互联技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档