Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >干货 | 杜克大学博士生温伟:云雾深度学习

干货 | 杜克大学博士生温伟:云雾深度学习

作者头像
AI科技评论
发布于 2018-07-26 10:25:43
发布于 2018-07-26 10:25:43
1.2K0
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:如今,基于深度学习的 AI 系统日趋产业化,如何有效地在云端和雾端进行落地成为一个核心问题。相对于传统机器学习,深度学习无论是训练还是部署都对计算和通信等提出了很大的挑战。在云端(如 Google Cloud、Amazon AWS、Microsoft Azure、Facebook Big Basin),深度神经网络的训练依赖于分布式系统,其可扩展性受限于通信带宽。 在雾端(Fog Computing,如移动手机的 Face ID、无人机、去中心化自动驾驶系统等),便携设备的计算等资源有限,深度神经网络的高效部署依赖于模型压缩与加速技术,以完成轻量级部署。

近期,在 GAIR 大讲堂上,来自杜克大学四年级博士生温伟同学分享了云雾深度学习一些最新进展。

温伟,杜克大学四年级博士生,导师是 Hai Helen Li 教授和 Yiran Chen 教授。主要研究方向是机器学习、分布式深度学习、模型压缩与加速、神经形态计算芯片等。其研究工作曾在 NIPS、ICCV、ICLR、CVPR、DAC 等发表,是 ASP-DAC 2017 最佳论文获得者,也是 DAC 2015 和 DAC 2016 最佳论文提名者。温伟是 Microsoft Research、HP Labs 和 Facebook Research 的实习生。

分享主题:

云雾深度学习:RNN 隐藏结构稀疏化和超低精度梯度下降法

分享提纲:

1.云端与雾端 AI 部署的挑战。

2.雾端加速 [ICLR 2018]:结构化稀疏递归神经网络,以提高推理速度。

3.云端优化 [NIPS 2017 oral]:三元化随机梯度下降方法,以降低通信带宽。

分享内容:

我想先介绍一下云端和雾端深度学习的一些挑战,然后针对这些挑战介绍我们的解决方案。方案涉及两个比较重要的方面,一是在雾端部署了神经网络之后如何让他进行高效推演, 二是如何在云端和雾端加速训练。

先来说第一个部分即云雾深度学习大背景和相关挑战。大家很熟悉云计算的概念,云计算就是把数据、计算、服务全部放在中心的服务器上,边缘设备通过网络去访问就可以了。雾计算是个比较新的概念,它和云计算的方式是相反的,所有的数据、计算不再依赖于第三方服务器,而是利用本地设备(手机、平板、电脑)进行协同计算。

云端目前落地的产品有谷歌的 TPU 云,微软、亚马逊、脸书等也有自己的云服务。

在雾端的 AI 落地产品有 iphone X 的人脸识别,无人机等。

那么 AI 在云雾端的落地有什么具体的挑战吗?第一是大量服务器协同计算时的通信瓶颈。

第二个挑战是在雾端的小型终端设备上处理数据有实时性要求。如何在计算量很大、计算能力相对较弱的情况下达到实时性的要求也是一个亟待解决的问题。

针对这些挑战,我们研究了如何在雾端部署又小又快还不影响识别性能的网络。 我着重介绍一下我们在结构化的稀疏神经网络方面相关的工作,还有加速训练方面的相关工作。

首先介绍结构化的稀疏神经网络,在此之前先讲解一下什么是稀疏卷积网络。稀疏卷积网络就是利用学习的方法对原网络进行连接剪枝之后得到的网络。稀疏卷积网络可以明显减少「理论上」的计算量。。

但稀疏卷积网络也存在明显的问题。我们在 AlexNet 上做的实验显示这种方法存在低效计算的问题,加速并不明显,有时甚至会变慢。我们分析这问题的出现是因为剪枝后的网络没有结构化,随机的稀疏数据分布导致了计算时的稀疏存储访问,而现有硬件体系结构是针对密集数据高效定制的,这种随机稀疏性打破了对现有计算硬件的友好性。

非结构化稀疏在 CPU 和 RNN 上同样存在类似问题,但结构化稀疏可以解决这个问题。

讲了非结构化的稀疏卷积网络,那么什么是结构化的稀疏神经网络?结构化的稀疏神经网络并不是一个一个的删去原网络的连接,而是一组一组的删除。

由上可见如何对权重进行分组决定了我们可以得到哪种结构化的稀疏卷积网络。

在递归神经网络里面我们也可以进行分组来得到我们想要的结构化的稀疏网络。

再具体方法方面,我们使用 Group Lasso 来得到结构化的稀疏网络。

上图中的 SSL 方法可以一组一组去掉连接,我接下来解释一下为什么能办到。

然后我们再讲一下怎么在 LSTM 中应用它。

我们希望通过 SSL 的方法对蓝色部分进行稀疏化,实际就是让 LSTM 的隐藏结构变小。

最后我们看一下 LSTM 最后稀疏化的结果。

除了在传统的 LSTM 上测试,我们还在 Recurrent Highway Networks 上也进行了实验。

我们的方法听起来很复杂,其实实现起来很简单,这是我们在 TensorFlow 上的代码。

我为这部分做一个小结,我们的方法在很多的数据集、网络、应用上已经证明是可行的。如果是做 AI 硬件相关我建议先找到合适的结构化稀疏,再用 SSL 去学习该结构化稀疏。

推演部分讲完了,接下来讲如何在训练部分提升速度。前面已经提到处理器进行协同计算时会遇到通信瓶颈,我们就讲怎么解除这样的瓶颈,在此之前先介绍下背景—分布式深度学习。

分布式深度学习就是把训练数据分给不同的设备,训练完再汇总同步,但问题是处理器增加后,通信和同步的压力会使处理速度降低。由于在深度神经网络训练中的通信是梯度的通信,我们可以用量化的方法来处理,我们的量化方法叫 TernGrad 。

然后这是 TensorFlow 上 TernGrad 的代码。

我们看一下 TernGrad 的实验效果,首先是 AlexNet。

然后这是在 AlexNet 上的收敛曲线。

再看在 GoogLeNet 上的实验效果,实际上因为所有超参都是 Google 针对浮点 SGD 调好了的,我们直接用,所以有些精度损失,但平均小于 2%。如果我们有时间针对 TernGrad 调参,精度差异会减小。

还有我们加速的表格,总的来说机器越多,带宽越小,全连接层越多则加速越多。

最后总结一下我今天的分享。一是AI系统已经在云端和雾端开始部署,二是我们使用 TernGrad 减少梯度通信,三是提出结构化的稀疏去压缩模型,使其云雾端推演得更快。我们还有更多的工作,大家有兴趣可以直接去我们的网站上看我们相关的工作。网站链接:http://www.pittnuts.com/#Publications

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
浅说深度学习
在机器学习中,我们(1)读取数据,(2)训练模型,(3)使用模型对新数据做预测。训练可以看作是当模型拿到新数据的时候、逐步学习一个的过程。在每一步,模型做出预测并且得到准确度的反馈。反馈的形式即是某种衡量标准(比如与正确解的距离)下的误差,再被用于修正预测误差。
IT阅读排行榜
2018/08/16
3280
浅说深度学习
深度 | 清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(下)
基于神经网络的人工智能近年取得了突破性进展,正在深刻改变人类的生产和生活方式,是世界各国争相发展的战略制高点。 神经网络作为实现人工智能任务的有效算法之一,已经在各种应用场景获得广泛的应用。从云端到移动端,不同应用场景也对神经网络的计算能力提出了不同的需求。 神经网络的广泛应用离不开核心计算芯片。目前的主流通用计算平台包括 CPU 和 GPU,存在着能效较低的问题(能效即能量效率,是性能与功耗的比值)。为了获得更高的能效,我们需要设计一种专用的神经网络计算芯片来满足要求。国际IT巨头,如英特尔、谷歌、IBM
AI科技评论
2018/03/13
2K0
深度 | 清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(下)
从感知机到Transformer,一文概述深度学习简史
选自getrevue.co 作者:Jean de Dieu Nyandwi 机器之心编译 机器之心编辑部 这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。 1958 年:感知机的兴起 1958 年,弗兰克 · 罗森布拉特发明了感知机,这是一种非常简单的机器模型,后来成为当今智能机器的核心和起源。 感知机是一个非常简单的二元分类器,可以确定给定的输入图像是否属于给定的类。为了实现这一点,它使用了单位阶跃激活函数。使用单位阶跃激活函数,如果输入大于 0,则输出为 1,否则为 0。 下图是感知机的算法
机器之心
2022/05/25
1.1K0
从感知机到Transformer,一文概述深度学习简史
视频 | 机器之心线上分享第三期:深度神经网络-随机三元化梯度下降和结构化稀疏
上周,机器之心 NIPS 2017 线上分享邀请到了杜克大学温伟。温伟博士分享了两种不同的方法 TernGrad 与 SSL。这篇文章对温伟博士的分享做了回顾,同时也编译介绍了这两篇相关论文。 温伟博
机器之心
2018/05/09
6120
视频 | 机器之心线上分享第三期:深度神经网络-随机三元化梯度下降和结构化稀疏
关于深度学习的框架、特征和挑战
在嵌入式系统上的深度学习 随着人工智能 (AI) 几乎延伸至我们生活的方方面面,主要挑战之一是将这种智能应用到小型、低功耗设备上。这需要嵌入式平台,能够处理高性能和极低功率的极深度神经式网络 (NN)。然而,这仍不足够。机器学习开发商需要一个快速和自动化方式,在这些嵌入式平台上转换、优化和执行预先训练好的网络。 在这一系列发布的内容中,我们将回顾当前框架以及它们对嵌入式系统构成的挑战,并演示处理这些挑战的解决方案。这些发布的内容会指导你在几分钟之内完成这个任务,而不是耗时数月进行手动发布和优化。 深度学习框
智能算法
2018/04/02
8700
关于深度学习的框架、特征和挑战
学界 | 杜克大学NIPS 2017 Oral论文:分布式深度学习训练算法TernGrad
机器之心报道 作者:吴欣 为了提高分布式深度学习的速度和效率,杜克大学「进化智能研究中心」陈怡然和李海教授的博士生温伟提出了 TernGrad 分布式训练算法,并与 Hewlett Packard Labs(慧与研究院)徐聪和内华达大学的颜枫教授合作,在大规模分布式深度学习中进行了有效的验证。该工作可以将浮点型的学习梯度(gradients)随机量化到三元值(0 和±1)。理论上,可以把梯度通信量至少减少为原来的 1/20。 日前 NIPS 2017 放出了接收论文,杜克大学的此项工作(TernGrad:
机器之心
2018/05/08
1.2K0
学界 | 杜克大学NIPS 2017 Oral论文:分布式深度学习训练算法TernGrad
5种小型设备上深度学习推理的高效算法
【导读】文中为AI实践者和研究者们介绍了5种高效模型推断算法,希望这篇文章能够帮助大家更清楚地认识到,在我们所使用的深度学习库的背后,有多少优化正在被应用,从而在像移动电话等小型边缘设备上实现越来越多的实际应用。
AI科技大本营
2019/11/27
9180
5种小型设备上深度学习推理的高效算法
【TensorFlow实战——笔记】第2章:TensorFlow和其他深度学习框架的对比
可以看到各大主流框架基本都支持Python,目前Python在科学计算和数据挖掘领域可以说是独领风骚。虽然有来自R、Julia等语言的竞争压力,但是Python的各种库实在是太完善了,Web开发、数据可视化、数据预处理、数据库连接,爬虫等无所不能,有一个完美的生态环境。仅在数据挖掘工具链上,Python就有Numpy、SciPy、Pandas、Scikit-learn、XGBoost等组件,做数据采集和预处理都非常方便,并且之后的模型训练阶段可以和TensorFlow等基于Python的深度学习框架完美衔接。
石瞳禅
2018/09/18
7790
【TensorFlow实战——笔记】第2章:TensorFlow和其他深度学习框架的对比
Yann LeCun:未来的AI芯片应该这样做
2019 ISSCC 大会近日在美国旧金山开幕,Facebook 首席 AI 科学家 Yann LeCun 在会上发表了主题演讲「深度学习硬件:过去、现在和未来」,介绍了深度学习研究的发展将如何影响未来硬件架构。
机器之心
2019/03/06
5190
Yann LeCun:未来的AI芯片应该这样做
深度学习的57个名词解释及相关论文资料
一、激活函数(AcTIvaTIon FuncTIon) 为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。常用的函数有sigmoid
企鹅号小编
2017/12/27
2.1K0
深度学习的57个名词解释及相关论文资料
【CVPR演讲】LeCun 谈深度学习技术局限及发展(157PPT)
【新智元导读】Facebook AI 实验室负责人Yann LeCun 在 CVPR2015 演讲,提到了深度学习在计算机视觉领域的应用及局限,比如缺乏理论、缺少论证、缺乏无监督学习,当然也提到了基于
新智元
2018/03/26
1.2K0
【CVPR演讲】LeCun 谈深度学习技术局限及发展(157PPT)
2023了,学习深度学习框架哪个比较好?
都2023年,才来回答这个问题,自然毫无悬念地选择PyTorch,TensorFlow在大模型这一波浪潮中没有起死回生,有点惋惜,现在GLM、GPT、LLaMA等各种大模型都是基于PyTorch框架构建。这个事情已经水落石出。
ZOMI酱
2023/07/18
1.2K0
2023了,学习深度学习框架哪个比较好?
深度学习简史(一)
1958年,Frank Rosenblatt 提出了感知机(注:有的资料认为是 1957 年提出的,本文以 Frank Rosenblatt 的文章《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》发表时间为准),这是一种非常简单的机器,后来成为今天智能机的核心和起源。感知机是一个非常简单的二元分类器,它可以判断输入的图像是否属于给定的类别。为了实现这一点,它使用单位阶跃函数作为激活函数。
老齐
2022/07/06
9960
深度学习简史(一)
主流的深度学习模型有哪些?
作者:阿萨姆 | 普华永道 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 深度学习大热以后各种模型层出不穷,很多朋友都在问到底什么是DNN、CNN和RNN,这么多个网络到底有什么不同,作用各是什么? 趁着回答《深度学习的主要分类是什么呀?这些网络cnn dbn dnm rnn是怎样的关系?》这个问题的机会,我也想介绍一下主流的神经网络模型。因为格式问题和传播原因,我把原回答内容在这篇文章中再次向大家介绍。 在更详细的介绍各种网络前,首先说明: 大部分神经网络都可以用深度(depth)和连接结构(c
量子位
2018/03/26
2.7K0
主流的深度学习模型有哪些?
2017年历史文章汇总|深度学习
作者:叶 虎 编辑:祝鑫泉 写在最前面 为了方便各位童鞋们阅读与学习,这里对2017年深度学习方面的历史文章按照类别进行汇总,主要分为深度学习基础,计算机视觉,以及自然语言处理三个类别。 1 深度学习基础 深度学习入门 入门|详解机器学习中的梯度消失、爆炸原因及其解决方法 深度学习必备---用Keras和直方图均衡化---数据增强 Batchnorm原理详解 AI从业者搞懂---这10种深度学习方法---老婆孩子热炕头 一步步教你理解LSTM 应用TF-Slim快速实现迁移学习 一文看懂常用的梯度
朱晓霞
2018/07/20
5720
入门 | 献给新手的深度学习综述
论文:Recent Advances in Deep Learning: An Overview
机器之心
2018/08/21
5950
入门 | 献给新手的深度学习综述
全面!深度学习时间序列分类的综述!
时间序列分析中的时间序列分类(TSC)是关键任务之一,具有广泛的应用,如人体活动识别和系统监测等。近年来,深度学习在TSC领域逐渐受到关注,具有自动从原始时间序列数据中学习并抽取有意义特征的能力。
算法进阶
2024/05/02
3.2K0
全面!深度学习时间序列分类的综述!
学界丨基准测评当前最先进的 5 大深度学习开源框架
AI 科技评论按:本文转自微信公众号 医AI (med-ai), 来源:arXiv.org,论文作者:Shaohuai Shi, Qiang Wang, Pengfei Xu, Xiaowen Chu,译者:吴博, Elaine, Melody 在 2016 年推出深度学习工具评测的褚晓文团队,赶在猴年最后一天,在 arXiv.org 上发布了最新的评测版本。这份评测的初版,通过国内AI自媒体的传播,在国内业界影响很大。在学术界,其反响更是非同一般。褚晓文教授在1月5日的朋友圈说David Patterso
AI科技评论
2018/03/09
1.2K0
学界丨基准测评当前最先进的 5 大深度学习开源框架
深度学习时代的图模型,清华发文综述图网络
他们将现有方法分为三个大类:半监督方法,包括图神经网络和图卷积网络;无监督方法,包括图自编码器;近期新的研究方法,包括图循环神经网络和图强化学习。然后按照这些方法的发展史对它们进行系统概述。该研究还分析了这些方法的区别,以及如何合成不同的架构。最后,该研究简单列举了这些方法的应用范围,并讨论了潜在方向。
机器之心
2019/01/02
9530
深度学习500问——Chapter17:模型压缩及移动端部署(1)
模型压缩是指利用数据集对已经训练好的深度模型进行精简,进而得到一个轻量且准确率相当的网络,压缩后的网络具有更小的结构和更少的参数,可以有效降低计算和存储开销,便于部署再受限的硬件环境中。
JOYCE_Leo16
2024/10/01
1790
深度学习500问——Chapter17:模型压缩及移动端部署(1)
推荐阅读
相关推荐
浅说深度学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档