Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >业界| 芯片之争:CPU、GPU、DSP、NPU,到底哪个更适用于深度学习?

业界| 芯片之争:CPU、GPU、DSP、NPU,到底哪个更适用于深度学习?

作者头像
AI科技评论
发布于 2018-03-07 07:48:42
发布于 2018-03-07 07:48:42
4.2K0
举报
文章被收录于专栏:AI科技评论AI科技评论

编者按:为保证内容的专业性,本文已邀深度学习芯片领域专家把关审核过,作者铁流。

日前,Intel称将于2017年推出针对深度学习市场的CPU Knights Mill。据Intel宣传,Knights Mill 能充当主处理器,可以在不配备其它加速器或协处理器高效处理深度学习应用。可以说,继中国寒武纪和星光智能一号、IBM的真北、谷歌的 TPU,以及英伟达专门为人工智能定制的GPU之后,Intel也加入该领域的竞争。

那么,这多深度学习处理器都有什么特点,又有什么优势和劣势呢?

| CPU、GPU:用轿车运货

在英伟达开发出针对人工智能的定制GPU,并坚持DGX-1 系统之后,Intel也不甘落后,在收购深度学习创业公司 Nervana Systems之后,Intel也公布了用于深度学习的Xeon Phi家族新成员,在深度学习处理器领域开辟新战场。

在不久前,Intel还发布了一些Xeon Phi 的基准测试结果,其声称内容总结如下:

1、四片 Knights Landing Xeon Phi 芯片比四片 GPU要快 2.3 倍; 2、在多节点系统中, Xeon Phi 芯片的能比 GPU 更好地扩展38% ; 3、128 块 Xeon Phi 的服务器组成的系统要比单块 Xeon Phi 服务器快 50 倍,暗示着 Xeon Phi 服务器的扩展性相当好; 4、使用Intel优化版的 Caffe 深度学习框架时,Xeon Phi 芯片要比标准 Caffe 实现快 30 倍。

一言蔽之,Intel的众核芯片在深度学习上比英伟达的GPU更为高效

不过,英伟达也随之反击,声称这是Intel使用了其旧的基准测试结果,并表示:

1、如果英特尔使用更新一点的 Caffe AlexNet 实现结果的话,它就会发现四块上代英伟达 Maxwell GPU 实际上比四块英特尔 Xeon Phi 服务器集群快 30%。 2、另外,一旦英伟达的 GPU 从 28nm 的平面工艺转移到 16nm 的 FinFET 工艺上时,GPU的性能和效率还会有很大的提升。 3、对于深度学习,英伟达还强调更少的高性能节点无论如何都会比更多低性能节点好。并以其最新的 DGX-1为例,认为DGX-1比 21 个 Xeon Phi 服务器集群快一点,比四个 Xeon Phi 服务器集群快 5.3 倍。

笔者认为,Intel的众核芯片也在一定程度上吸取了GPU的优势,性能不俗,但短时间看还是GPU有优势。不过,无论是针对人工智能的众核芯片还是定制版的GPU,本质上都不是专用处理器,实际上是拿现有的、相对成熟的架构和技术成果去应对新生的人工智能,并没有发生革命性的技术突破。

其实,Intel和英伟达是在使用现有的比较成熟的技术去满足深度学习的需求,众核芯片和定制版GPU在本质上来说依旧是CPU和GPU,而并非专门针对深度学习的专业芯片,这就必然带来一些天生的不足。打一个比方,用众核芯片和GPU跑深度学习,就类似于用轿车去拉货,受轿车自身特点的限制,货物运输能力与真正大马力、高负载的货车有一定差距。同理,即便是因为技术相对更加成熟,Intel和英伟达的芯片在集成度和制造工艺上具有优势,但由于CPU、GPU并非针对深度学习的专业芯片,相对于专业芯片,其运行效率必然受到一定影响。

| DSP:和真正神经网络芯片有差距

6月20日,中星微“数字多媒体芯片技术”国家重点实验室在京宣布,中国首款嵌入式NPU(神经网络处理器)芯片诞生,目前已应用于全球首款嵌入式视频处理芯片“星光智能一号”。

媒体称,“星光智能一号蕴含了当前计算机领域最前沿的生物人脑神经网络仿生学创新技术,且对严重依赖国外进口产品的中国集成电路产业来说,也是实现‘弯道超车’的一次踊跃尝试。它标志着我国在神经网络处理器领域的研究和开发上取得了重大突破;使我国视频监控行业发展由模拟时代、数字时代跨入智能时代,在全球确立领先地位。”

不过,在经过仔细分析后,所谓“中国首款嵌入式神经网络处理器”很有可能是一款可以运行神经网络的DSP,而非真正意义的神经网络专用芯片

上图是星光智能一号发布的系统架构图。

共包含四个NPU核,每个NPU核包含4个内核,每个内核有两个流处理器(Dataflow Processor),每个流处理器具有8个长位宽或16位宽的SIMD运算单元。每个NPU核的峰值性能为38Gops(16位定点)或者76Gops(8位定点)。除了多核流处理器本身用于完成卷积运算外,星光智能一号集成了一个超长指令字(VLIW)处理器用于完成神经网络中的超越函数等运算。另有256KB的L2Cache以及DMA模块用于大块数据的搬移。

从其低位宽的定点运算器推断,星光智能一号仅可支持神经网络正向运算,无法支持神经网络的训练。从片上存储结构看,星光智能一号基于传统的片上缓存(Cache),而非像最近流行的神经芯片或FPGA方案一样使用便签式存储。因此,在技术上看星光智能一号是典型的“旧瓶装新酒”方案,将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非是“狭义的”神经网络专用处理器,如IBM的“真北”芯片。

因此,星光智能一号其实是DSP,而非NPU,能够适用于卷积神经网路(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络有可能就无能为力了。

换言之,星光智能一号暂时只面向机器视觉任务,而不能用于语音和自然语言类的问题。其实,这种用传统SIMD/DSP架构来适配神经网络的技术思想在国际上已有不少先例,甚至有成熟的产品,例如CEVA公司的XM4处理器、Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器等。

| NPU:为深度学习而生的专业芯片

从技术角度看,深度学习实际上是一类多层大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。

每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后,人工神经网络可通过习得的知识来解决特定的问题。

由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此,传统的处理器(包括x86和ARM芯片等)用于深度学习的处理效率不高,这时就必须另辟蹊径——突破经典的冯·诺伊曼结构

以中国的寒武纪为例,DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。

另外,神经网络中存储和处理是一体化的,都是通过突触权重来体现。 而冯·诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异。当用现有的基于冯·诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,因而影响效率。这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一。

用数字来说话,CPU、GPU与NPU相比,会有百倍以上的性能或能耗比差距——以寒武纪团队过去和Inria联合发表的DianNao论文为例——DianNao为单核处理器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02平方毫米mm。

在若干代表性神经网络上的实验结果表明——

DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级; DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。

| 结语

就现阶段而言,传统芯片厂商(如CPU、GPU和DSP)对于深度学习市场非常重视,因此利用他们巨大体量和市场推广、销售能力,大力推广用这些传统芯片来进行深度学习处理,其本质上也是对现有的技术进行微调,用传统SIMD架构来适配神经网络。

然而,由于传统CPU、GPU和DSP本质上并非以硬件神经元和突触为基本处理单元,相对于NPU在深度学习方面天生会有一定劣势,在芯片集成度和制造工艺水平相当的情况下,其表现必然逊色于NPU

正如前文所述,无论是再好的轿车要去拉货,也不可能和真正大马力、高负载的货车相比。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-08-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CPU、GPU、TPU、NPU等到底是什么?
NPU即神经网络处理器(Neural network Processing Unit)
Jasonangel
2021/05/28
5.4K0
业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC和DSP
选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciello简述了几类硬件设计,希望能为大家更快的运行神经网络提供洞见。 我喜欢深度学习... 深度学习最近取得的成功势不可挡:从图像分类和语音识别到图片标注、理解视觉场景、视频概述、语言翻译、绘画,甚至是生成图像、语音、声音和音乐! …而我想让它运行得飞快! 其成果令人震惊,因而需求就会增长。比如你是谷歌/ Facebook / Twitter 的工作人员
机器之心
2018/05/07
1.3K0
嵌入式 NPU 发展概况
NPU 作为一种主要采用 ASIC 技术的专用嵌入式神经网络芯片,使用 DSA (Domain Specific Architecture) 克服了 CPU、GPU 等通用处理器在深度学习等领域数据吞吐量、算力的限制,大幅提高端侧、嵌入式设备的处理性能。现今主要的 NPU 集中在推理芯片领域,使用 NPU 等技术的异构计算处理器使得图像数据的端侧处理、加强,主体追踪成为可能,也使得传统手机应用、嵌入式机器人领域、自动驾驶等走向大众化。NPU 的出现代表芯片从通用化逐渐开始走向领域专用芯片的异构混合计算。
uniartisan
2022/03/02
5.3K0
嵌入式 NPU 发展概况
AI技术趋势、人才概况都在这里了!清华发布最易懂的AI芯片研究报告【附下载】
2010 年以来, 由于大数据产业的发展, 数据量呈现爆炸性增长态势,而传统的计算架构又无法支撑深度学习的大规模并行计算需求, 于是研究界对 AI 芯片进行了新一轮的技术研发与应用研究。 AI 芯片是人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。
刘盼
2018/12/19
8010
AI技术趋势、人才概况都在这里了!清华发布最易懂的AI芯片研究报告【附下载】
重磅推荐:AI芯片产业生态梳理
AI芯片作为产业核心,也是技术要求和附加值最高的环节,在AI产业链中的产业价值和战略地位远远大于应用层创新。腾讯发布的《中美两国人工智能产业发展全面解读》报告显示,基础层的处理器/芯片企业数量来看,中国有14家,美国33家。本文将对这一领域产业生态做一个简单梳理。
辉哥
2018/08/10
1.1K0
重磅推荐:AI芯片产业生态梳理
【重磅】深度学习芯片陷入热战,英伟达怎样回击英特尔挑衅
【新智元导读】英特尔IDF前天召开,深度学习成为一大重点。不料,英伟达掐准时间,在IDF举行同时发表官方博文,指出英特尔在宣传其最新 Xeon Phi 处理器加速深度学习性能时使用过时的数据,有意误导消费者,没有给GPU性能一个公正的评价。两大芯片巨头针对深度学习,矛盾凸显。华为传感器应用实验室首席科学家丁险峰认为,加速深度学习的能力是当前考察服务器综合性能的关键指标和最大卖点,长远看英特尔更具优势。 前天,英特尔开发者大会 IDF 在旧金山召开。昨天的会议 Intel Analytics Summit 几
新智元
2018/03/23
7790
【重磅】深度学习芯片陷入热战,英伟达怎样回击英特尔挑衅
深度 | 英特尔刚刚推出的深度学习处理器 Knights Mil 强在哪里
【新智元导读】英特尔今天推出了深度学习处理器 Knights Mill,正式迈入了与英伟达GPU抗衡的战场。Knights Mill 能充当主处理器,可以直接接入RAM系统,这无疑会成为英特尔和英伟达
新智元
2018/03/23
9430
深度 | 英特尔刚刚推出的深度学习处理器 Knights Mil 强在哪里
业界 | 谷歌TPU之后还有高通,人工智能芯片竞赛已经展开
选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、李泽南 作为机器学习的领军人物,Yann LeCun(杨立昆)曾在 25 年前开发过一块名为 ANNA 的人工智能芯片。而现在,
机器之心
2018/05/07
8490
业界 | 谷歌TPU之后还有高通,人工智能芯片竞赛已经展开
【AI芯片格局最全分析】国内AI芯片百家争鸣,何以抗衡全球技术寡头
来源:中国科学院自动化研究所 作者:吴军宁 中科院自动化所集成中心 【新智元导读】本文分析了国内外AI芯片的格局和特点,作者认为,在AI芯片领域,国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有绝对的领先优势。而国内AI初创公司则又呈现百家争鸣、各自为政的纷乱局面;特别是每个初创企业的AI芯片都具有自己独特的体系结构和软件开发套件,既无法融入英伟达和谷歌建立的生态圈,又不具备与之抗衡的实力。 如果说 2016 年 3 月份 AlphaGo 与李世石的那场人机大战只在科技界和
新智元
2018/05/29
8100
【深度】AI 时代,谷歌 TPU 难以颠覆 GPU 市场优势
【新智元导读】智能时代芯片市场格局一变再变,谷歌推出 TPU 引发新一轮讨论,谁将领跑芯片市场?看几个典型产品:TPU 仅供谷歌内部使用;IBM TrueNorth 离商用还有距离;中国的寒武纪是国际首个深度学习专用处理器芯片,市场表现值得期待;概率芯片以微小计算精度为代价实现能耗降低,是芯片市场一匹黑马;FPGA 凭其性价比有望占领市场;目前 GPU 用户覆盖率最广。 智能时代就要到来,芯片市场格局一变再变。两个典型例子:引领处理器市场 40 多年的英特尔 2015 年底收购完 Altera,今年 4 月
新智元
2018/03/22
1.1K0
【深度】AI 时代,谷歌 TPU 难以颠覆 GPU 市场优势
业界 | 英特尔深度学习产品综述:如何占领人工智能市场
机器之心原创 作者:Haojin Yang 参与:Jake Zhao、侯韵楚、黄小天 2017 年 2 月 9 日,机器之心技术分析师应邀参加了在 SAP 创新中心召开的英特尔创新研讨会。英特尔数据中心组(Data Center Group , DCG)的成员对目前深度学习及其人工智能产品的发展做了有关介绍。根据本次研讨会的内容,我们可以预测 CPU 硬件生产商(如英特尔)在下一场计算浪潮来袭时的发展趋势或战略,尤其是人工智能的相关方面。 简介 2017 年第一季度,英伟达数据中心收入同比增长 63%,总体
机器之心
2018/05/08
6550
业界 | 英特尔深度学习产品综述:如何占领人工智能市场
解读主流的人工智能芯片有什么不同?
 在全球规模最大的2018北美消费电子产品展上,参展的科技企业超过4000家,包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的人工智能芯片产品和战略,作为本届展会的最
机器人网
2018/04/18
1.1K0
解读主流的人工智能芯片有什么不同?
AI芯片发展的前世今生
现代电子产品和设备在诸如通信 、娱乐 、安全和 医疗保健等许多方面改善了我们的生活质量 ,这主要是因为现代微电子技术的发展极大地改变了人们的日常工作和互动方式。在过去几十年中 ,摩尔定 律一直是通过不断缩小芯片上的器件特征尺寸来提高计算能力 ,带来了电子产品诸如更高速度 、更低成本和更小功耗等优势。Gordon Moore 最初的观察是 芯片中的晶体管数量大约每 2 年增加 1 倍 ,David House 进一步预测 ,由于更多更快的晶体管 ,芯片性能将每 18 个月翻一番。虽然 Gordon Moore 的预测已经成功超过 50 年 ,但是今天的硅 CMOS 技术正在 接近其尺寸的基本物理极限,摩尔定律的延续性已经变得越来越具有挑战性。
AI科技大本营
2020/02/20
1.1K0
AI芯片发展的前世今生
从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局
选自Blogspot 作者:Matt Hurd 机器之心编译 参与:Panda 在如今深度学习大爆发的时代,相关的硬件平台也在百花齐放,既有英伟达和谷歌这样的科技巨头,也有地平线机器人和 Graphc
机器之心
2018/05/09
1.4K0
全球首款AI芯片_全球AI五强
你一定听说过CPU、GPU,但是TPU、VPU、NPU、XPU…等等其他字母开头的“xPU”呢?
全栈程序员站长
2022/11/17
1.7K0
全球首款AI芯片_全球AI五强
AI芯片到底是个神马 | 解读技术 | AI基础 | 算力必备
AI技术有三大要素:算法、算力、数据。由于AI技术的应用,对各种硬件设备的算力要求大幅提高,AI芯片应运而生,目前AI芯片发展的重点是针对神经网络等架构实现高速运算的核心硬件,即算力提高阶段。可能未来AI技术成熟之后,AI芯片可以实现集算法与算力于一体的超脑能力。
用户7623498
2020/08/04
6380
AI芯片到底是个神马 | 解读技术 | AI基础 | 算力必备
【了不起的芯片2】盘点40+公司的深度学习处理器
【新智元导读】本文列举并介绍了现有的几乎全部深度学习处理器,是值得收藏的超全资料。 Nvidia GPU 英伟达最新的 GPU NVIDIA TESLA V100 单精度浮点性能达到15 TFlops,在新的 Tensor core 架构达到 120 TFlops,是FP16乘法或FP32累加,或适应ML。 英伟达将8个board包装在他们的 DGX-1 for 960 Tensor TFlops Nvidia Volta - 架构看点 这篇文章对 Volta 架构做了一些分析 SoC 英伟达提供 NVID
新智元
2018/03/22
1K0
人工智能芯片是什么?有什么用?
2018年1月9日,全球规模最大的2018北美消费电子产品展在美国拉斯维加斯拉开帷幕。本次参展的科技企业超过4000家,包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的人工智能芯片产品和战略,作为本届展会的最大看点,人工智能芯片产品无疑受到了最为广泛的关注。
人工智能的秘密
2018/01/15
2.5K0
英特尔AI产品事业部CTO专访:谷歌TPU表明纯GPU不是最佳架构
【新智元导读】去年,英特尔以 4 亿美元收购深度学习芯片研发公司 Nervana,将其作为公司深度学习的核心,并围绕Nervana 在今年年初成立统一的人工智能部门。日前,该部门负责人 Amir 接受新智元专访,针对英伟达GPU和谷歌的TPU谈到了他对目前AI芯片市场格局的看法和相关技术发展态势。他认为,深度学习模型在某种程度上可能朝着暴力计算发展。深度学习将向两大方向发展:一是越来越强的计算力,一是整合异构计算。谷歌 TPU 和 TensorFlow 的优势只是暂时的,英特尔正在开发我们认为比 TPU 第
新智元
2018/03/27
6860
英特尔AI产品事业部CTO专访:谷歌TPU表明纯GPU不是最佳架构
业界 | 英特尔推出神经形态测试芯片Loihi:可自学习
选自Forbes 机器之心编译 参与:刘晓坤 英特尔正开始尝试用所谓的「神经形态芯片」模拟真实大脑的运作方式。 英特尔Loihi神经形态测试芯片 芯片巨头英特尔的研究实验室开发出一种新型芯片,即 In
机器之心
2018/05/10
5840
推荐阅读
相关推荐
CPU、GPU、TPU、NPU等到底是什么?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档