AI 科技评论按:卷积神经网络则是深度学习最具代表性的模型,在计算机视觉和自然语言翻译等领域有着极其广泛的应用。随着精度以及复杂度的逐步提升,卷积网络的推理效率问题越来越明显的成为制约其在实际应用中的瓶颈。
黄高博士,现为美国康奈尔大学计算机系博士后,主要研究领域为深度神经网络的结构设计与优化算法,以及深度学习在计算机视觉与自然语言理解中的应用;获得北京航空航天大学学士学位,清华大学控制科学与工程博士学位。其博士论文被评为中国自动化学会优秀博士学位论文以及清华大学优秀博士论文一等奖。目前已发表学术论文20余篇,其中一篇被中国科学技术信息研究所评选为2015年全国百篇最具国际影响学术论文;一篇获得国际计算机视觉顶级会议CVPR的最佳论文奖。
分享提纲
1.探究卷积神经网络中的冗余性,并介绍如何通过改进网络结构减少冗余计算量;
2.通过引入动态预测方法,提升网络的推理效率;
3.介绍一种新的剪枝方法及卷积结构,训练面向移动端的轻量卷积网络;
分享开始
大家好我是黄高,现在在康奈尔大学做博士后,今天非常感谢雷锋网邀请做本场gair大讲堂,今天给大家介绍怎么设计高效的卷积神经网络。
Deep Learning 是现在非常火的一个话题,不管是在学术界还是工业界。现在 Deep Learning 有越来越多的应用,也有很多有意思的研究问题。对于深度学习而言最为核心的算法就是卷积神经网络,最近几年卷积神经网络的研究发展非常迅速。
这里我列举了几个比较有代表性的卷积神经网络。
AlexNet 2012 年第一次将卷积神经网络用到大规模图片分类上超越了以前传统的视觉方法。
然后到 15 年左右 VGG 和 Inception 提出以后,在 ImageNet 又有很大的提升,在分类问题上取得突破之后又会拓展到图像分割、定位等。
15 年 ResNet 的问世让我们第一次能够在大规模问题上用端对端训练上百层的网络。
10年-15年错误率的演化
深度学习现在其实有很多可以研究的问题,当我们把模型用到现实中就会有很多效率问题我在今天的报告里面主要强调的是效率。
今天介绍我们组近一两年做的三个工作,从不同方面来提升卷积神经网络的效率。
1.DENSENET(CVPR 2017 最佳论文)
这个工作提出一种比其他网络模型可以以更小的网络大小及计算量达到泛化的效果。
2.Multi-scale DenseNet
能否折中精度与效率?
现实世界中的的图片样本有难易的区别。能否用小而快的网络预测简单的样本,大而准的网络预测难的样本?这样既能加快简单样本的预测,又能不牺牲难的样本的预测精度。
自适应评价的单纯猜想
以上方法给较难识别的图片增加了额外的计算量,更好方法是我们假设一个很深的网络,在这个深的网络中接很多所谓的出口(在中间这些特征直接做分类)。评估的方法还是如上图所图所示,可以使特征产生很好的复用。
但它存在以下挑战
为了应对挑战我们设计了以下网络
演示过程如下所示
在 ImageNet 和 CIFAR-100 上的结果如下
3.CONDENSNET:移动端的网络设计
有很多在 GPU 上和手机端效率是不一样的,这个问题可能工业界更关心。针对这个应用我们想到了 DenseNet 去做,为了减少冗余,我们希望借助 Group Convolution 的。
值得一提的是,对于 ResNet 而言,Group Convolution 被证明是有效的,但是在 DenseNet 里结果网络变差了。
所以我们提出了所谓的LearnedGroup Convolution,传统的Group Convolution 的分组是指定好的,而这个是在学习过程中训练如何分组。
训练结果如下
DenseNet到 CondeseNet 的网络结构如下所示
做该网络还有以下两个变化
这是数据集的一个效果图,横轴是计算量,纵轴是测试误差。
以下是在 ImageNet 的结果
以上三个方法代码都已经开源,感兴趣的可以在 GitHub 上找。
领取专属 10元无门槛券
私享最新 技术干货