Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MIT警示“深度学习过度依赖算力”,研究三年算法不如用10倍GPU

MIT警示“深度学习过度依赖算力”,研究三年算法不如用10倍GPU

作者头像
AI科技评论
发布于 2020-07-18 14:31:00
发布于 2020-07-18 14:31:00
1.9K0
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 蒋宝尚、青暮

编辑 | 丛 末

目前深度学习的繁荣过度依赖算力的提升,在后摩尔定律时代可能遭遇发展瓶颈,在算法改进上还需多多努力。

根据外媒Venturebeat报道,麻省理工学院联合安德伍德国际学院和巴西利亚大学的研究人员进行了一项“深度学习算力”的研究。

在研究中,为了了解深度学习性能与计算之间的联系,研究人员分析了Arxiv以及其他包含基准测试来源的1058篇论文。论文领域包括图像分类、目标检测、问答、命名实体识别和机器翻译等。

得出的结论是:训练模型的进步取决于算力的大幅提高,具体来说,计算能力提高10倍相当于三年的算法改进。

而这算力提高的背后,其实现目标所隐含的计算需求——硬件、环境和金钱成本将无法承受。

图注:模型指标的线性增长和计算代价的指数增长相关。
图注:模型指标的线性增长和计算代价的指数增长相关。

1

为什么说“深度学习过度依赖算力”?

他们得出这个结论的根据,是在1058篇论文中所统计的两个信息:

1、在给定的深度学习模型中,单次传播(即权重调整)所需的浮点操作数。

2、硬件负担,或用于训练模型的硬件的计算能力,计算方式为处理器数量乘以计算速率和时间。(研究人员承认,尽管这是一种不精确的计算方法,但在他们分析的论文中,对这种计算方式的报告比其他基准要广泛。)

为了更清楚的说明“单次传播所需的浮点操作数”和“硬件负担”这两个指标,作者在合著的研究报告中,举了ImageNet的例子。

作者说,通过分析这些论文,目标检测、命名实体识别和机器翻译尤其显示出硬件负担的大幅增加,而结果的改善却相对较小。在流行的开源ImageNet基准测试中,计算能力贡献了图像分类准确率的43%。

另外,即使是最乐观的计算,要降低ImageNet上的图像分类错误率,也需要进行10^5次以上的计算。

深度学习需要的硬件负担和计算次数自然涉及巨额资金花费。据Synced的一篇报告估计,华盛顿大学的Grover假新闻检测模型在大约两周的时间内训练费用为25,000美元。OpenAI花费了高达1200万美元来训练其GPT-3语言模型,而Google估计花费了6912美元来训练BERT,这是一种双向Transformer模型,重新定义了11种自然语言处理任务的SOTA。

在去年6月的马萨诸塞州大学阿默斯特分校的另一份报告中指出,训练和搜索某种模型所需的电量涉及大约626,000磅的二氧化碳排放量。这相当于美国普通汽车使用寿命内将近五倍的排放量。

当然,研究人员也同时指出,在算法水平上进行深度学习改进已经成为提升算力性能的重要方向。他们提到了硬件加速器,例如Google的TPU、FPGAASIC,以及通过网络压缩和加速技术来降低计算复杂性的尝试。他们还提到了神经架构搜索和元学习,这些方法使用优化来搜索在某一类问题上具有良好性能的架构。

OpenAI的一项研究表明,自2012年以来,将AI模型训练到ImageNet图像分类中相同性能所需的计算量每16个月减少一半。Google的Transformer架构超越了seq2seq,在seq2seq推出三年后,计算量减少了61倍。DeepMind的AlphaZero可以从头开始学习如何掌握国际象棋、将棋和围棋游戏,与一年前该系统的前身AlphaGoZero相比,其计算量减少了八倍。

计算能力的爆发结束了“AI的冬天”,并为各种任务的计算性能树立了新的基准。但是,深度学习对计算能力的巨大需求限制了它改善性能的程度,特别是在硬件性能改善的步伐变得缓慢的时代。研究人员说:“这些计算限制的可能影响迫使机器学习转向比深度学习更高效的技术。”

2

深度学习会被算力锁死么?顶层设计仍有希望

论文地址:https://science.sciencemag.org/content/368/6495/eaam9744

关于深度学习是否达到了计算能力上限这件事情,之前就有过讨论,例如MIT、英伟达、微软研究者合著的一篇 Science 论文便从软件、算法、硬件架构三个维度分析了算力的发展趋势。

在Science这篇论文中,作者给过去算力的提升归纳了两个原因:一个是“底部”的发展,即计算机部件的小型化,其受摩尔定律制约;另一个是“顶部”的发展,是上面提到的软件、算法、硬件架构的统称。

在文章中,作者提到,在后摩尔定律时代,提升计算性能的方法,虽然“底部”已经没有太多提升的空间,但“顶部”还有机会。

在软件层面,可以通过性能工程(performance engineering)提高软件的效率,改变传统软件的开发策略,尽可能缩短软件运行时间,而不是缩短软件开发时间。另外,性能工程还可以根据硬件的情况进行软件定制,如利用并行处理器和矢量单元。

在算法层面,在已有算法上的改进是不均匀的,而且具有偶然性,大量算法进展可能来源于新的问题领域、可扩展性问题、根据硬件定制算法。

另外,在今年的5月份,OpenAI针对AI算法在过去数年中性能的提升做了一个详细的分析。他们发现,自2012年以来,在 ImageNet 分类上训练具有相同性能的神经网络,所需要的计算量,每16个月降低一半。与2012年相比,现在将神经网络训练到 AlexNet 的性能,所需的计算量仅为原来的1/44(相比之下,摩尔定律仅降低为1/11)。

显然,算法上的进步相比服从摩尔定理的硬件的进步,能产生更多的效益。

在硬件层面,由于摩尔定律的制约,显然需要改进的是硬件的架构,主要问题就是如何简化处理器和利用应用程序的并行性。通过简化处理器,可以将复杂的处理核替换为晶体管数量需求更少的简单处理核。由此释放出的晶体管预算可重新分配到其他用途上,比如增加并行运行的处理核的数量,这将大幅提升可利用并行性问题的效率。

简化的另一种形式是领域专门化(domain specialization),即针对特定应用程序定制硬件。这种专门化允许考虑领域的特点,自定义简化硬件结构,具有极强的针对性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MIT发出「算力」警告:深度学习正在逼近计算极限
近日,MIT却发出警告:深度学习正在接近计算极限,必须转变现有技术「大幅」提高计算效率。
新智元
2020/07/21
4360
MIT警告深度学习正逼近算力极限,突破瓶颈会让人类成为上帝?
摩尔定律提出的时候,人们从来没有想到过芯片的算力会有到达极限的一天,至少从来没有想到芯片算力极限会这么快到来。
新智元
2020/07/23
1.3K0
MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事
深度学习需要大量数据和算力,这二者的发展是促进这一次人工智能浪潮的重要因素。但是,近期 MIT 的一项研究认为,深度学习正在逼近算力极限。
机器之心
2020/07/24
4620
MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事
错误率减半需要超过500倍算力!深度学习的未来,光靠烧钱能行吗?
那一年,时任康奈尔大学航空实验室研究心理学家与项目工程师的 Frank Rosenblatt 受到大脑神经元互连的启发,设计出了第一个人工神经网络,并将其称为一项"模式识别设备"。
AI科技评论
2021/10/11
4010
错误率减半需要超过500倍算力!深度学习的未来,光靠烧钱能行吗?
MIT研究人员警告:深度学习正在接近计算极限
深度学习要实现持续的进步,将需要“戏剧性的”提高更有计算效率的方法,要么通过改变现有技术,要么通过新的、尚未发现的方法。
代码医生工作室
2020/08/04
3570
MIT研究人员警告:深度学习正在接近计算极限
超摩尔定律!OpenAI官宣AI算法效率每16个月翻一番
OpenAI今天宣布将开始追踪机器学习模型的效率,并对AI算法演进的情况进行定量追踪,结果显示算法改进效率吊打摩尔定律。
新智元
2020/05/19
4590
超摩尔定律!OpenAI官宣AI算法效率每16个月翻一番
AI算法效率每14月翻番,OpenAI:长江后浪推前浪
在人工智能领域里,因为研究人员的努力,顶尖算法的效率提升速度超过了芯片中摩尔定律的速度。
机器之心
2020/05/19
3300
AI算法效率每14月翻番,OpenAI:长江后浪推前浪
深度学习的收益正在逐步递减
深度学习带动了人工智能发展的新历程。2013 年 4 月,《麻省理工学院技术评论》杂志将深度学习列为 2013 年十大突破性技术之首。一大批初创公司乘着深度学习的风潮涌现,使得人工智能领域热闹非凡。现在,深度学习一时风光无两。但是,深度学习有没有它自己的局限性?它的未来会怎么样?
深度学习与Python
2021/11/10
3440
深度学习的收益正在逐步递减
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
深度学习如今应用领域愈发广泛。从语言翻译、预测蛋白质的折叠结构、以及到下围棋、写作文,几乎无处不在。
新智元
2021/10/12
4060
大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了
近日,来自MIT FutureTech的研究人员发表了一项关于大模型能力增长速度的研究,
新智元
2024/03/25
1710
大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了
AI算法效率每16个月提速一倍,算力革命超越摩尔定律
近日,OpenAI针对AI算法在过去数年中性能的提升做了一个详细的分析。他们发现,自2012年以来,在 ImageNet 分类上训练具有相同性能的神经网络,所需要的计算量,每16个月降低一倍。与2012年相比,现在将神经网络训练到 AlexNet 的性能,所需的计算量仅为原来的1/44(相比之下,摩尔定律仅降低为1/11)。
AI科技评论
2020/05/14
8900
AI算法效率每16个月提速一倍,算力革命超越摩尔定律
5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?
---- 新智元报道   来源:网络 编辑:David 洁茹mm 【新智元导读】近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿!关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。 前不久,微软和英伟达推出包含5300亿参数的语言模型MT-NLG,这是一种基于transformer的模型,被誉为「世界上最强,最大的语言生成模型」。 不过,这真的是一件值得欢欣鼓舞的事情吗? 大脑的深度学习 研究人员估计,人类大脑平均包含860亿个神经元
新智元
2023/05/22
4210
5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?
Jürgen Schmidhuber眼中的深度学习十年,以及下一个十年展望
2020年是充满科幻的一年,曾经我们畅想飞行汽车、智能洗碗机器人以及能自动写代码的程序,然而这一切都没有发生。
大数据文摘
2020/02/26
5510
MIT新研究:过去80年,算法效率提升到底有多快?
提起算法,它有点像计算机的父母,它会告诉计算机如何理解信息,而计算机反过来可以从算法中获得有用的东西。
新智元
2021/10/12
3290
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
几天前,Anthropic一名25岁的高管在博客上发文,表示自己已经准备好了3年后退休,让AI取代自己的工作。
新智元
2024/06/17
2580
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
TPU的起源,Jeff Dean综述后摩尔定律时代的ML硬件与算法
过去十年我们见证了机器学习的显著进步,特别是基于深度学习的神经网络。机器学习社区也一直在尝试构建新模型,用于完成具有挑战性的工作,包括使用强化学习,通过和环境进行交互的方式完成难度较大的任务,如下围棋、玩电子游戏等。
机器之心
2019/11/21
4980
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
---- 新智元报道   编辑:LRS 【新智元导读】AI模型所需算力每100天就要翻一倍,远超摩尔定律的18-24个月,智能计算能破局这种算力困境吗? 人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。 但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。 最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇
新智元
2023/02/24
3230
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
ARK Invest最新报告 :AI训练成本下降了100倍,但训练最先进AI模型的成本惊人
方舟投资(ARK Invest)近日发布了一篇分析报告显示,AI训练成本的提高速度是摩尔定律(Moore’s law)的50倍。摩尔定律是指计算机硬件性能每两年提升一倍。
新智元
2020/06/09
9910
ARK Invest最新报告 :AI训练成本下降了100倍,但训练最先进AI模型的成本惊人
深度学习之初识深度学习[下]
深度学习从数据中进行学习时有两个基本特征: 第一,通过渐进的、逐层的方式形成越来越复杂的表示; 第二,对中间这些渐进的表示共同进行学习,每一层的变化都需要同时考虑上下两层的需要。
李小白是一只喵
2020/04/23
1K0
深度学习之初识深度学习[下]
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
今年 1 月,谷歌人工智能负责人 Jeff Dean(当时还是谷歌大脑负责人)与 2017 年图灵奖得主、体系结构巨擘 David Patterson(当时获奖结果尚未公布)联合发表了题为《计算机体系结构黄金时代:赋能机器学习革命》的文章。文章指出,机器学习算法正在革命性地着手解决人类社会最为巨大的一些挑战,因此,不难想象,在不远的将来,无论是数据中心还是终端设备,都将会出现专用于机器学习计算的硬件。这样的硬件会具有什么特性?在文章中,作者列出了一系列硬件设计者需要考虑到的关键问题,这些问题对深度学习研究者也十分具有启发性。
机器之心
2018/07/26
4140
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
推荐阅读
MIT发出「算力」警告:深度学习正在逼近计算极限
4360
MIT警告深度学习正逼近算力极限,突破瓶颈会让人类成为上帝?
1.3K0
MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事
4620
错误率减半需要超过500倍算力!深度学习的未来,光靠烧钱能行吗?
4010
MIT研究人员警告:深度学习正在接近计算极限
3570
超摩尔定律!OpenAI官宣AI算法效率每16个月翻一番
4590
AI算法效率每14月翻番,OpenAI:长江后浪推前浪
3300
深度学习的收益正在逐步递减
3440
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
4060
大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了
1710
AI算法效率每16个月提速一倍,算力革命超越摩尔定律
8900
5300亿!巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?
4210
Jürgen Schmidhuber眼中的深度学习十年,以及下一个十年展望
5510
MIT新研究:过去80年,算法效率提升到底有多快?
3290
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
2580
TPU的起源,Jeff Dean综述后摩尔定律时代的ML硬件与算法
4980
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
3230
ARK Invest最新报告 :AI训练成本下降了100倍,但训练最先进AI模型的成本惊人
9910
深度学习之初识深度学习[下]
1K0
Jeff Dean与David Patterson:不思考体系结构的深度学习研究者不是好工程师
4140
相关推荐
MIT发出「算力」警告:深度学习正在逼近计算极限
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档