Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >错误率减半需要超过500倍算力!深度学习的未来,光靠烧钱能行吗

错误率减半需要超过500倍算力!深度学习的未来,光靠烧钱能行吗

作者头像
大数据文摘
发布于 2021-10-12 03:22:18
发布于 2021-10-12 03:22:18
3750
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘授权转载自AI科技评论

编译:陈彩娴

深度学习的诞生,可以追溯到1958年。

那一年,时任康奈尔大学航空实验室研究心理学家与项目工程师的 Frank Rosenblatt 受到大脑神经元互连的启发,设计出了第一个人工神经网络,并将其称为一项"模式识别设备"。

这项设备完成后,被嫁接在庞大的 IBM 704 计算机中,经过50次试验,能够自动区分标志在左边或右边的卡片。这使 Frank Rosenblatt 倍感惊喜,他写道:

"能够创造出一台具有人类品质的机器,一向是科幻小说的热门题材,而我们即将见着这样一台能够感知、并在没有任何人工控制的情况下识别周围环境的机器的诞生。"

图注:感知机的运作原理

不过,与此同时,Frank Rosenblatt 也深知,当时的计算机能力无法满足神经网络的运算需求。在他的开创性工作中,他曾感叹:"随着神经网络中的连接数量不断增加……传统数字计算机的负载将会越来越重。"

图注:Frank Rosenblatt。2004年,IEEE特地成立了"IEEE Frank Rosenblatt Award",以表纪念

所幸,经过数十年的发展,在摩尔定律与其他计算机硬件的改进加持下,计算机的计算能力有了质的飞跃,每秒可执行的计算量增加了1000万倍,人工神经网络才有了进一步发展的空间。

得益于计算机的强大算力,神经网络拥有了更多的连接与神经元,也具备了更大的、对复杂现象建模的能力。这时,人工神经网络新增了额外的神经元层,也就是我们熟知的"深度学习"。

如今,深度学习已被广泛应用于语言翻译、预测蛋白质折叠、分析医学扫描与下围棋等任务。神经网络在这些应用中的成功,使深度学习一项默默无名的技术,成为了如今计算机科学领域的领头羊。

但是,今天的神经网络/深度学习似乎又遇到了与数十年前一致的发展瓶颈:计算能力的限制。近日,IEEE Spectrum 发表了一篇论文,对深度学习的发展未来进行了一番探讨。

为什么算力会成为当今深度学习的瓶颈?可能的应对方法是什么?如果实在无法解决计算资源的限制,深度学习应该何去何从?

算力:福兮,祸之所倚

深度学习被誉为现代人工智能的主流。早期,人工智能系统是基于规则,应用逻辑与专业知识来推理出结果;接着,人工智能系统是依靠学习来设置可调参数,但参数量通常有限。

今天的神经网络也学习参数值,但这些参数是计算机模型的一部分:如果参数足够大,它们会成为通用的函数逼近器,可以拟合任何类型的数据。这种灵活性使得深度学习能被应用于不同领域。

神经网络的灵活性来源于(研究人员)将众多输入馈送到模型中,然后网络再以多种方式将它们组合起来。这意味着,神经网络的输出是来自于复杂公式的应用,而非简单的公式。也就是说,神经网络的计算量会很大,对计算机的算力要求也极高。

比方说,Noisy Student(一个图像识别系统)在将图像的像素值转换为图像中的物体概率时,它是通过具有 4.8 亿个参数的神经网络来实现。要确定如此大规模参数的值的训练更是让人瞠目结舌:因为这个训练的过程仅用了 120 万张标记的图像。如果联想到高中代数,我们会希望得到更多的等式,而非未知数。但在深度学习方法中,未知数的确定才是解决问题的关键。

深度学习模型是过度参数化的,也就是说,它们的参数量比可用于训练的数据点还要多。一般来说,过度参数也会导致过度拟合,这时,模型不仅仅会学习通用的趋势,还会学习训练数据的随机变幻。为了避免过度拟合,深度学习的方法是将参数随机初始化,然后使用随机梯度下降方法来迭代调整参数集,以更好地拟合数据。实验证明,这个方法能确保已学习的模型具有良好的泛化能力。

深度学习模型的成功在机器翻译中可见一斑。数十年来,人们一直使用计算机软件进行文本翻译,从语言 A 转换为语言 B。早期的机器翻译方法采用的是语言学专家设计的规则。但是,随着一项语言的可用文本数据越来越多,统计方法,比如最大熵、隐马尔可夫模型与条件随机场等方法,也逐渐应用在机器翻译中。

最初,每种方法对不同语言的有效性由数据的可用性和语言的语法特性决定。例如,在翻译乌尔都语、阿拉伯语和马来语等语言时,基于规则的方法要优于统计方法。但现在,所有这些方法都已被深度学习超越。凡是深度学习已触及的领域,几乎都展示了这项机器学习方法的优越性。

一方面,深度学习有很强的灵活性;但另一方面,这种灵活性是基于巨大的计算成本的。

如下图显示,根据已有研究,到2025年,为识别 ImageNet 数据集中的目标物体而设计的最佳深度学习系统的错误水平应该降低到仅 5%:

但是,训练这样一个系统所需的计算资源和能耗却是巨大的,排放的二氧化碳大约与纽约市一个月所产生的二氧化碳一样多:

计算成本的提升,主要有两方面的原因:1)要通过因素 k 来提高性能,至少需要 k 的 2 次方、甚至更多的数据点来训练模型;2)过度参数化现象。一旦考虑到过度参数化的现象,改进模型的总计算成本至少为 k 的 4 次方。这个指数中的小小的“4”非常昂贵:10 倍的改进,就至少需要增加 10,000 倍计算量。

如果要在灵活性与计算需求之间取一个平衡点,请考虑一个这样的场景:你试图通过患者的 X 射线预测 TA 是否患有癌症。进一步假设,只有你在 X 射线中测量 100 个细节(即“变量”或“特征”),你才能找到正确的答案。

这时,问题的挑战就变成了:我们无法提前判断哪些变量是重要的,与此同时,我们又要在大量的候选变量中做选择。

基于专家知识的系统在解决这个问题时,是让有放射科与肿瘤学知识背景的人来标明他们认为重要的变量,然后让系统只检查这些变量。而灵活的深度学习方法则是测试尽可能多的变量,然后让系统自行判断哪些变量是重要的,这就需要更多的数据,而且也会产生更高的计算成本。

已经由专家事先确认重要变量的模型能够快速学习最适合这些变量的值,并且只需少量的计算——这也是专家方法(符号主义)早期如此流行的原因。但是,如果专家没有正确标明应包含在模型中的所有变量,模型的学习能力就会停滞。

相比之下,像深度学习这样的灵活模型虽然效率更低,且需要更多的计算来达到专家模型的性能,但通过足够的计算(与数据),灵活模型的表现却可以胜过专家模型。

显然,如果你使用更多的计算能力来构建更大的模型,并使用更多数据训练模型,那么你就可以提升深度学习的性能。但是,这种计算负担会变得多昂贵?成本是否会高到阻碍进展?这些问题仍有待探讨。

深度学习的计算消耗

为了更具体回答这些问题,来自MIT、韩国延世大学与巴西利亚大学的研究团队(以下简称“该团队”)合作,从1000多篇研究深度学习的论文中搜集数据,并就深度学习在图像分类上的应用进行了详细探讨。

论文地址:

https://arxiv.org/pdf/2007.05558.pdf

在过去的几年,为了减少图像分类的错误,计算负担也随之增大。比如,2012 年,AlexNet 模型首次展示了在图形处理单元 (GPU) 上训练深度学习系统的能力:仅仅 AlexNet 的训练就使用了两个 GPU、进行了五到六天的训练。到了 2018 年,NASNet-A 将 AlexNet 的错误率降低了一半,但这一性能的提升代价是增加了 1000 多倍的计算。

从理论上讲,为了提升模型的性能,计算机的算力至少要满足模型提升的 4 次方。但实际情况是,算力至少要提升至 9 次方。这 9 次方意味着,要将错误率减半,你可能需要 500 倍以上的计算资源。

这是一个毁灭性的代价。不过,情况也未必那么糟糕:现实与理想的算力需求差距,也许意味着还有未被发现的算法改进能大幅提升深度学习的效率。

该团队指出,摩尔定律和其他硬件的进步极大地提高了芯片的性能。这是否意味着计算需求的升级无关紧要?很不幸,答案是否定的。AlexNet 和 NASNet-A 所使用的计算资源相差了 1000,但只有 6 倍的改进是来自硬件的改进;其余则要依靠更多的处理器,或更长的运行时间,这也就产生了更高的计算成本。

通过估计图像识别的计算成本与性能曲线后,该团队估计了需要多少计算才能在未来达到更出色的性能基准。他们估计的结果是,降低 5% 的错误率需要 10190 亿次浮点运算。

2019年,马萨诸塞大学阿默斯特分校的团队发表了“Energy and Policy Considerations for Deep Learning in NLP”的研究工作,便首次揭示了计算负担背后的经济代价与环境代价,在当时引起了巨大轰动。

论文地址:

https://arxiv.org/pdf/1906.02243.pdf

此前,DeepMind也曾披露,在训练下围棋的深度学习系统时花了大约 3500 万美元。Open AI 在训练 GPT-3时,也耗资超过400万美元。后来,DeepMind在设计一个系统来玩星际争霸 2 时,就特地避免尝试多种方法来构建一个重要的组建,因为训练成本实在太高了。

除了科技企业,其他机构也开始将深度学习的计算费用考虑在内。一家大型的欧洲连锁超市最近便放弃了一个基于深度学习的系统。该系统能显着提高超市预测要购买哪些产品的能力,但公司高管放弃了这一尝试,因为他们认为训练和运行系统的成本太高。

面对不断上升的经济和环境成本,深度学习的研究者需要找到一个完美的方法,既能提高性能,又不会导致计算需求激增。否则,深度学习的发展很可能就此止步。

现有的解决方法

针对这个问题,深度学习领域的研究学者也在不断努力,希望能解决这个问题。

现有的策略之一,是使用专为高效深度学习计算而设计的处理器。这种方法在过去十年中被广泛使用,因为 CPU 已让位于 GPU,且在某种情况下,CPU 已让位于现场可编程门阵列和为特定应用设计的 IC(包括谷歌的TPU)。

从根本上说,这些方法都牺牲了计算平台的通用性来提高专门处理一类问题的效率。但是,这种专业化也面临着收益递减的问题。因此,要获取长期收益将需要采用完全不同的硬件框架——比如,可能是基于模拟、神经形态、光子或量子系统的硬件。但到目前为止,这些硬件框架都还没有产生太大的影响。

另一种减少计算负担的方法是生成在执行时规模更小的神经网络。这种策略会降低每次的使用成本,但通常会增加训练成本。使用成本与训练成本,哪一个更重要,要取决于具体情况。对于广泛使用的模型,运行成本在投资总额中的占比最高。至于其他模型,例如那些经常需要重新训练的模型,训练成本可能是主要的。在任何一种情况下,总成本都必须大于训练成本。因此,如果训练成本太高,那么总成本也会很高。

也就是说,第二种策略(减少神经网络规模)的挑战是:它们并没有充分降低训练成本。比如,有一种方法是允许训练大规模网络、但代价是在训练过程中会降低复杂性,还有一种方法是训练一个大规模网络、然后"修剪"掉不必要的连接。但是,第二种方法是通过跨多个模型进行优化来找到尽可能高效的架构,也就是所谓的“神经架构搜索”。虽然每一种方法都可以为神经网络的运行带来明显提升,但对训练的作用都不大,不足以解决我们在数据中看到的问题。但是,在大部分情况下,它们都会增加训练的成本。

有一种可以降低训练成本的新兴技术,叫做“元学习”。元学习的观点是系统同时学习各种各样的数据,然后应用于多个领域。比如,元学习不是搭建单独的系统来识别图像中的狗、猫和汽车,而是训练一个系统来识别图像中的所有物体,包括狗、猫和汽车,且可以多次使用。

但是,MIT 的研究科学家 Andrei Barbu 与他的合作者在2019年发表了一项工作(“Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models”),揭示了元学习的难度。他们发现,即使原始数据与应用场景之间存在极小差距,也会严重降低模型(Objectnet)的性能。他们的工作证明,当前的图像识别系统在很大程度上取决于物体是以特定的角度拍摄,还是以特定的姿势拍摄。所以,即使是识别不同姿势拍摄的相同物体,也会导致系统的准确度几乎减半。

UC Berkeley 的副教授 Benjamin Recht 等人在“Do imagenet classifiers generalize to imagenet?”(2019)中也明确地说明了这一点:即使使用专门构建的新数据集来模仿原始训练数据,模型的性能也会下降 10% 以上。如果数据的微小变化会导致性能的大幅下降,那么整个元学习系统所需的数据可能会非常庞大。因此,元学习的前景也暂时未能实现。

还有一种也许能摆脱深度学习计算限制的策略是转向其他可能尚未发现或未被重视的机器学习类型。如前所述,基于专家的洞察力所构建的机器学习系统在计算上可以更高效,但如果这些专家无法区分所有影响因素,那么专家模型的性能也无法达到与深度学习系统相同的高度。与此同时,研究人员也在开发神经符号方法与其他技术,以将专家知识、推理与神经网络中的灵活性结合起来。

不过,这些努力都仍在进行中。

正如 Frank Rosenblatt 在神经网络诞生之初所面临的难题一样,如今,深度学习也受到了可用计算工具的限制。面对计算提升所可能带来的经济和环境负担,我们的出路只有:要么调整深度学习的方式,要么直面深度学习停滞的未来。

相形之下,显然调整深度学习更可取。如能找到一种方法,使深度学习更高效,或使计算机硬件更强大,那么我们就能继续使用这些灵活性更高的深度学习模型。如果不能突破计算瓶颈,也许我们又要重返符号主义时代,依靠专家知识来确定模型需要学习的内容了。

参考链接:

1.https://spectrum.ieee.org/deep-learning-computational-cost

2.https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon

3.https://www.yuzeh.com/data/agz-cost.html

4.https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii

5.https://spectrum.ieee.org/open-ais-powerful-text-generating-tool-is-ready-for-business

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
深度学习如今应用领域愈发广泛。从语言翻译、预测蛋白质的折叠结构、以及到下围棋、写作文,几乎无处不在。
新智元
2021/10/12
4120
深度学习的收益正在逐步递减
深度学习带动了人工智能发展的新历程。2013 年 4 月,《麻省理工学院技术评论》杂志将深度学习列为 2013 年十大突破性技术之首。一大批初创公司乘着深度学习的风潮涌现,使得人工智能领域热闹非凡。现在,深度学习一时风光无两。但是,深度学习有没有它自己的局限性?它的未来会怎么样?
深度学习与Python
2021/11/10
3520
深度学习的收益正在逐步递减
MIT发出「算力」警告:深度学习正在逼近计算极限
近日,MIT却发出警告:深度学习正在接近计算极限,必须转变现有技术「大幅」提高计算效率。
新智元
2020/07/21
4420
深度学习500问——Chapter03:深度学习基础(1)
神经网络类型众多,其中最为重要的是多层感知机。为了详细地描述神经网络。我们先从最简单的神经网络说起。
JOYCE_Leo16
2024/03/19
1280
深度学习500问——Chapter03:深度学习基础(1)
MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事
深度学习需要大量数据和算力,这二者的发展是促进这一次人工智能浪潮的重要因素。但是,近期 MIT 的一项研究认为,深度学习正在逼近算力极限。
机器之心
2020/07/24
4640
MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事
深度学习简史(一)
1958年,Frank Rosenblatt 提出了感知机(注:有的资料认为是 1957 年提出的,本文以 Frank Rosenblatt 的文章《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》发表时间为准),这是一种非常简单的机器,后来成为今天智能机的核心和起源。感知机是一个非常简单的二元分类器,它可以判断输入的图像是否属于给定的类别。为了实现这一点,它使用单位阶跃函数作为激活函数。
老齐
2022/07/06
1K0
深度学习简史(一)
大模型为什么是深度学习的未来?
当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快AI产业化进程,降低AI应用门槛。
液冷服务器
2023/02/16
2.8K0
大模型为什么是深度学习的未来?
2023了,学习深度学习框架哪个比较好?
都2023年,才来回答这个问题,自然毫无悬念地选择PyTorch,TensorFlow在大模型这一波浪潮中没有起死回生,有点惋惜,现在GLM、GPT、LLaMA等各种大模型都是基于PyTorch框架构建。这个事情已经水落石出。
ZOMI酱
2023/07/18
1.3K0
2023了,学习深度学习框架哪个比较好?
对深度学习概念的基础理解与认识
人工神经网络(Artificial Neural Networks,简写为ANNs)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
芯动大师
2024/09/07
1300
对深度学习概念的基础理解与认识
【深度学习】深度学习趋势与框架
2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起很大的反响。的确,过去一年的时间里,深度学习正在改变越来越多的人工智能领域。Google DeepMind 工程师 Jack Rae 预测说,过去被视为对于中型到大型数据集来说最佳的预测算法的那些模型(比如说提升决策树(Boosted Decision Trees)和随机森林)将会变得无人问津。 深度学习,或者更宽泛地说——使用联结主义架构的机器
陆勤_数据人网
2018/02/27
1.3K0
深度学习的兴起:从NN到DNN | 小白深度学习入门
1943年,神经生理学家和神经元解剖学家 Warren McCulloch 和数学家 Walter Pitts 提出了神经元的数学描述和结构,并且证明了只要有足够的简单神经元,在它们互相连接并同步运行的情况下,可以模拟任何计算函数。
叶锦鲤
2019/10/14
2.7K0
MIT警示“深度学习过度依赖算力”,研究三年算法不如用10倍GPU
目前深度学习的繁荣过度依赖算力的提升,在后摩尔定律时代可能遭遇发展瓶颈,在算法改进上还需多多努力。
AI科技评论
2020/07/18
1.9K0
MIT警示“深度学习过度依赖算力”,研究三年算法不如用10倍GPU
深度学习进化编年大事记
安妮 编译自 Import.io官方博客 量子位出品 | 公众号 QbitAI 本文作者Andrew Fogg,可视化网页抓取网站Import.io的联合创始人。这篇文章阐明了人工智能、机器学习与深度
量子位
2018/03/28
1.3K0
深度学习进化编年大事记
计算化学的深度学习
人工神经网络的兴衰在计算机科学和计算化学的科学文献中都有详细记载。然而近二十年后,我们现在看到了对深度学习兴趣的复兴,这是一种基于多层神经网络的机器学习算法。在过去的几年里,我们看到了深度学习在许多领域的变革性影响,尤其是在语音识别和计算机视觉领域,在这些领域的大多数专家从业人员现在经常避开之前建立的有利于深度的模型学习模型。在这篇综述中,我们对深层神经网络理论及其独特性质进行了介绍性概述,将它们与化学信息学中使用的传统机器学习算法区分开来。通过概述深度神经网络的各种新兴应用,我们强调它的普遍性和广泛的适用性,以应对该领域的各种挑战,包括定量结构活性关系,虚拟筛选,蛋白质结构预测,量子化学,材料设计和财产预测。在回顾深度神经网络的表现时,我们观察到在不同的研究课题中,针对非神经网络最先进的模型的一致表现优异,而基于深度神经网络的模型通常超出了各自任务的“玻璃天花板”预期。加上用于训练深度神经网络的GPU加速计算的成熟度以及用于训练这些网络的化学数据的指数增长,我们预计深度学习算法将成为计算化学的宝贵工具。
DrugAI
2021/01/29
7760
药物设计的深度学习
过去的十年中,深度学习(deeplearning, DL)方法已经非常成功并广泛用于开发几乎每个领域的人工智能(AI)。与传统的机器学习(machine learning, ML)算法相比,DL方法在小分子药物发现和开发方面还有很长的路要走。对于DL研究的推广和应用,例如小分子药物研究和开发,还有很多工作要做。本综述主要讨论了监督学习和非监督学习等几种最强大和主流的体系结构,包括卷积神经网络(CNN)、递归神经网络(RNN)和深度自动编码器网络(DAENs),总结了小分子药物设计中的大部分代表性应用;并简要介绍了如何在这些应用程序中使用DL方法。还强调了关于DL方法利弊的讨论以及我们需要解决的主要挑战。
DrugAI
2021/01/29
9850
深度学习的历史和趋势
引言: 本文是黄文辉同学的第4篇文章,前面三篇分别是: SparkStreaming窗口操作 sqoop数据导入总结 SparkStreaming入门 最近AI领域真的很热,国际国内,大小巨头都投入巨
大数据和云计算技术
2018/03/08
1.8K0
深度学习的历史和趋势
深度学习(deep learning)发展史
源 | 小象 本文节选自人民邮电出版社最新出版的 AI 圣经《深度学习DEEP LEARNING[1]》。《深度学习DEEP LEARNING[2]》英文版由美国麻省理工学院 MIT 出版社于 2016 年 12 月推出,一经出版就风靡全球。《深度学习DEEP LEARNING[3]》的一大特点是介绍深度学习算法的本质,脱离具体代码实现给出算法背后的逻辑,不写代码的人也完全可以看。 由深度学习领域三位前沿、权威的专家 Ian Goodfellow、Yoshua Bengio 和 Aaron Courvill
昱良
2018/04/08
1.1K0
深度学习(deep learning)发展史
深度学习(一)基础:神经网络、训练过程与激活函数(1/10)
深度学习作为机器学习的一个子领域,近年来在人工智能的发展中扮演了举足轻重的角色。它通过模仿人脑的神经网络结构,使得计算机能够从数据中学习复杂的模式和特征,从而在图像识别、自然语言处理、游戏等领域取得了突破性的进展。
正在走向自律
2024/12/18
8000
深度学习(一)基础:神经网络、训练过程与激活函数(1/10)
一文搞懂深度学习:神经网络基础部分
本文将从神经网络定义、深度学习定义、深度学习历史、基础神经网络来简单介绍神经网络的基础部分。
JOYCE_Leo16
2024/04/25
3.8K0
一文搞懂深度学习:神经网络基础部分
深度学习和深度强化学习的特征提取网络
标题:Backbones-Review:Feature Extraction Networks for Deep Learning and Deep Reinforcement Learning Approaches
一点人工一点智能
2023/06/06
1.4K0
深度学习和深度强化学习的特征提取网络
推荐阅读
相关推荐
连谷歌都喊贵!让ImageNet识别错误率降到5%,要花1000亿美元
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档