【新智元导读】这里是近5年100篇被引用次数最多的深度学习论文,覆盖了优化/训练方法、无监督/生成模型、卷积网络模型和图像分割/目标检测等十大子领域。重要的论文能够超越其应用领域让人获益。新智元在每个领域都选择了一篇论文重点介绍,这将是你纵览深度学习研究绝好的开始。
这里是100篇被引用次数最多的深度学习论文,从海量的相关论文中脱颖而出。无论其应用领域是什么,都值得一读,而在其各自的领域,它们是必读之作。
此前已经有一些很棒的深度学习论文的榜单了,比如说Deep Vision和Awesome Recurrent Neural Networks。而在我们这份list诞生之后,另一份面对深度学习初学者的榜单Deep Learning Papers Reading Roadmap也问世并得到了许多深度学习研究者的喜爱。
虽然这份Roadmap List囊括了许多重要的深度学习论文,对我来说还是有些太多了。正如我在导读中所说,我相信重要的论文能够超越其应用领域,让我们获益。因此,作为纵览深度学习研究的开始,我向大家推荐这100篇深度学习论文。
收录标准:
引用次数标准:
比起某一应用领域内的论文,我们更倾向于选择适用于多个研究领域的开创性深度学习论文。基于此,有些达到了收录标准的论文可能没有被收入,而有些论文则相反。这取决于论文的影响力以及其对其他研究的适用性,等等。
目录
理解/概括/传递
优化/训练方法
无监督/生成模型
卷积网络模型
图像分割/目标检测
图像/视频/其他
递归神经网络模型
自然语言处理
语音/其他领域
强化学习
2016年的更多论文
(100篇之外)
新论文:最近6个月以内的
老论文:2012年以前的
HW/SW/数据集:技术报告
专著/调查报告/回顾
附录:
未收录的其他优秀论文
理解/概括/传递
在神经网络中提取知识
Distilling the knowledge in a neural network (2015)
作者 G. Hinton et al.
摘要:一个很简单的能改善几乎所有机器学习算法表现的办法,就是训练许多基于相同数据集的模型,并取这些模型的预测平均值。问题是,使用全部模型来进行预测是个笨办法,且允许大量用户部署的计算成本过于昂贵,特别是当个体模型是大规模神经网络时。Caruana和他的合作者已经论证,有可能将一个集合中的知识压缩到一个单独模型中,部署起来也容易得多,而且我们使用了不同压缩技巧进一步扩展了这一方法。在MNIST上,我们取得了一些令人吃惊的成功,并展示了可以显著改善一个重度使用商业系统的声学模型,方法就是将集合中的知识概括进一个单独模型。我们也介绍了一个新型集合,由一个或更多的全模型以及许多学会了区分识别细粒度类别(全模型做不到)的专家模型组成,可以对这些专家模型进行快速、并行训练。
深度神经网络容易被骗:高信度预测无法识别的图片
Deep neural networks are easily fooled: High confidence predictions for unrecognizable images (2015)
作者A. Nguyen et al.
深度神经网络特征的可迁移性如何?
How transferable are features in deep neural networks? (2014)
作者J. Yosinski et al.
卷积神经网络现成的一些特性,对识别来说是令人惊奇的起点
CNN features off-the-Shelf: An astounding baseline for recognition (2014)
作者 A. Razavian et al.
使用卷积神经网络学习和迁移中层图像表征
Learning and transferring mid-Level image representations using convolutional neural networks (2014)
作者M. Oquab et al.
卷积网络的可视化和理解
Visualizing and understanding convolutional networks (2014)
作者 M. Zeiler and R. Fergus
DeCAF:一个应用于通用视觉识别的深度卷积激活特征
Decaf: A deep convolutional activation feature for generic visual recognition (2014)
作者 J. Donahue et al.
优化/训练方法
Batch normalization算法:通过减少内部协变量转化加速深度网络的训练
Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015)
作者S. Loffe and C. Szegedy
摘要:训练深层神经网络由于在训练期间每个层的输入的分布改变而变得复杂,因为先前层的参数发生了改变。由于要求较低的学习速率和仔细的参数初始化,它减慢了训练,并且使得训练具有饱和非线性的模型变得非常困难。我们将这种现象称为内部协变量移位(internal covariate shift ),并通过归一化层输入(normalizing layer in- puts
)来解决问题。我们的方法将归一化作为模型架构的一部分,并对每个训练迷你批次(each training mini-batch)执行归一化,从而强化其强度。批量正规化允许我们使用高得多的学习速率,并且不用太考虑初始化的问题。 作为一个调节器,在某些情况下,它也消除了对dropout的需要。应用于最先进的图像分类模型,批量归一化在减少了14倍的训练步骤的情况下实现了相同的精度,并且以显著的余量击败原始模型。凭借一个批量归一化网络的集合,我们改进了ImageNet分类已发布的最好结果:达到4.9%的Top5验证错误(以及4.8%的测试误差),超过人类评估者的准确性。
深度探入纠正器:在 Imagenet 分类中超过人类表现
Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015)
作者 K. He et al.
Dropout:一个预防神经网络过拟合的简单方式
Dropout: A simple way to prevent neural networks from overfitting (2014)
作者N. Srivastava et al.
Adam:一个随机优化的方法
Adam: A method for stochastic optimization (2014)
作者 D. Kingma and J. Ba
通过预防特征检测器的互相适应改善神经网络
Improving neural networks by preventing co-adaptation of feature detectors (2012)
作者G. Hinton et al.
超参数最优化的随机搜索
Random search for hyper-parameter optimization (2012) 作者J. Bergstra and Y. Bengio
无监督/生成模型
像素循环神经网络
Pixel recurrent neural networks (2016)
作者 A. Oord et al.
训练GANs的改善性技巧
Improved techniques for training GANs (2016)
作者T. Salimans et al.
摘要:近年来,利用卷积网络(CNN)的监督学习已经在计算机视觉应用中被广泛采用。 相比之下,使用CNN的无监督学习得到的关注较少。 在这项工作中,我们希望帮助弥合CNN的监督学习和无监督学习的成功之间的差距。 我们引入一类称为深层卷积生成对抗网络(DCGAN)的CNN,它们具有某些架构约束,已显示出它们是无监督学习的强有力的候选者。 对各种图像数据集的训练,我们展示了令人信服的证据,表明我们的深层卷积对抗组件从发生器和鉴别器中的对象到场景里面都学习了表征层次。此外,我们使用学习到的特性去完成新任务 – 这显示了它们像一般图像表征一样具有适用性。
使用深度卷积生成对抗网络进行无监督表征学习
Unsupervised representation learning with deep convolutional generative adversarial networks (2015)
作者A. Radford et al.
DRAW:一个用于图像生成的循环神经网络
DRAW: A recurrent neural network for image generation (2015)
作者K. Gregor et al.
生成对抗网络
Generative adversarial nets (2014)
作者I. Goodfellow et al.
自编码变量贝叶斯
Auto-encoding variational Bayes (2013)
作者D. Kingma and M. Welling
用大规模无监督学习构建高水平特征
Building high-level features using large scale unsupervised learning (2013)
作者Q. Le et al.
卷积网络模型
再思考计算机视觉的Inception结构
Rethinking the inception architecture for computer vision (2016)
作者C. Szegedy et al.
摘要:对于多种任务来说,卷及网络处于最先进的计算机视觉解决方案的核心。自2014年以来,超深度卷积网络开始成为主流,在各种benchmark中产生了巨大的收获。虽然对大多数任务来说,增加的模型大小和计算成本往往转化为直接增益(只要提供足够的标记数据用于训练),计算效率和低参数计数仍然是各种用例的有利因素,例如移动视觉和大数据场景。在这里,我们将探讨通过适当的因式分解卷积和积极正则化的方式,尽可能有效地利用增加的算力来扩大网络规模。我们在ILSVRC 2012分类挑战验证集上的benchmark了我们的方法,展示了相对于现有技术的实质性增益:每次推理使用50亿multiply-adds的计算成本及使用少于2500万个参数,每单帧错位率为21.2%top-1和5.6%top-5。综合使用4种模型和multi-crop 评估的综合,我们在验证集上报告3.5%的top-5错误和17.3%的top-1错误,以及正式测试集上3.6%的top-5 错误。
Inception-v4, inception-resnet以及残差连接对学习的影响
Inception-v4, inception-resnet and the impact of residual connections on learning (2016)
作者C. Szegedy et al.
在深度残差网络中识别映射
Identity Mappings in Deep Residual Networks (2016)
作者K. He et al.
图像识别中的深度残差学习
Deep residual learning for image recognition (2016)
作者K. He et al.
深入卷积网络
Going deeper with convolutions (2015)
作者C. Szegedy et al.
大规模图像识别的超深度卷积网络
Very deep convolutional networks for large-scale image recognition (2014)
作者K. Simonyan and A. Zisserman
用于视觉识别的深度卷积网络的空间金字塔池化
Spatial pyramid pooling in deep convolutional networks for visual recognition (2014)
作者K. He et al.
细节魔鬼的回归:深挖卷积网络
Return of the devil in the details: delving deep into convolutional nets (2014)
作者K. Chatfield et al.
OverFeat:使用卷积网络融合识别、本地化和检测
OverFeat: Integrated recognition, localization and detection using convolutional networks (2013)
作者P. Sermanet et al.
Maxout网络
Maxout networks (2013)
作者I. Goodfellow et al.
深度网络架构
Network in network (2013)
作者M. Lin et al.
使用深度卷积神经网络进行ImageNet 分类
ImageNet classification with deep convolutional neural networks (2012)
作者A. Krizhevsky et al.
图像分割/目标检测
你只看一次:统一、实时的目标检测
You only look once: Unified, real-time object detection (2016)
作者J. Redmon et al.
用于物体精准检测和分割的基于区域的卷积网络
Region-based convolutional networks for accurate object detection and segmentation (2016)
作者R. Girshick et al.
用于语义分割的饱和卷积网络
Fully convolutional networks for semantic segmentation (2015)
作者J. Long et al.
更快速的 R-CNN网络:使用区域建议网络的实时物体检测
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (2015)
作者S. Ren et al.
快速R-CNN网络
Fast R-CNN (2015)
作者R. Girshick
对精确的物体检测和语义切割更为丰富的特征分层
Rich feature hierarchies for accurate object detection and semantic segmentation (2014)
作者R. Girshick et al.
使用深度卷积网络和完全连接的CRF进行语义图像分割
Semantic image segmentation with deep convolutional nets and fully connected CRFs
作者L. Chen et al.
用于场景标注的层级特征学习
Learning hierarchical features for scene labeling (2013)
作者C. Farabet et al.
图像/视频/其他
利用深度卷积网络的图像超分辨率
Image Super-Resolution Using Deep Convolutional Networks (2016)
作者C. Dong et al.
摘要:我们提出了一种用于单图像超分辨率(SR)的深度学习方法。 我们的方法直接学习低/高分辨率图像之间的端对端映射。 该映射被表示为以低分辨率图像作为输入并输出高分辨率图像的深度卷积神经网络(CNN)。 我们进一步表明,传统的基于稀疏编码的SR方法也可以看作是一个深层卷积网络。 但不同于传统的分别处理每个组件方法,我们的方法联合优化了所有层。 我们的深度CNN具有轻量的结构,但展示了最先进的恢复能力,并实现实际在线使用的高速度。 我们探索不同的网络结构和参数设置,以实现性能和速度之间的权衡。此外,我们扩展我们的网络,以同时处理三个color channels,并显示了更好的整体重建质量。
基于DNN的艺术风格生成算法
A neural algorithm of artistic style (2015)
作者 L. Gatys et al.
可生成图像说明的深度视觉-语义校准模型
Deep visual-semantic alignments for generating image descriptions (2015)
作者A. Karpathy and L. Fei-Fei
显示、注意以及说明:带有视觉注意模型的神经图像说明生成
Show, attend and tell: Neural image caption generation with visual attention (2015)
作者K. Xu et al.
显示和说明:一个神经图像说明生成器
Show and tell: A neural image caption generator (2015)
作者O. Vinyals et al.
用于视觉识别和描述的长期循环卷积网络
Long-term recurrent convolutional networks for visual recognition and description (2015)
作者J. Donahue et al.
VQA:视觉问答
VQA: Visual question answering (2015)
作者S. Antol et al.
DeepFace:在面部验证任务中接近人类表现
DeepFace: Closing the gap to human-level performance in face verification (2014)
作者Y. Taigman et al.
利用卷积神经网络进行大规模视频分类
Large-scale video classification with convolutional neural networks (2014)
作者A. Karpathy et al.
DeepPose:利用深度神经网络评估人类姿势
DeepPose: Human pose estimation via deep neural networks (2014)
作者A. Toshev and C. Szegedy
用于视频中动作识别的双流卷积网络
Two-stream convolutional networks for action recognition in videos (2014)
作者K. Simonyan et al.
用于人类动作识别的3D 卷积神经网络
3D convolutional neural networks for human action recognition (2013)
作者S. Ji et al.
递归神经网络模型
递归神经网络的条件随机场
Conditional random fields as recurrent neural networks (2015)
作者S. Zheng and S. Jayasumana.
记忆网络
Memory networks (2014)
作者J. Weston et al.
神经网络图灵机
Neural turing machines (2014)
作者A. Graves et al.
递归神经网络生成序列
Generating sequences with recurrent neural networks (2013)
作者A. Graves.
自然语言处理
应用于神经网络机器翻译的无显式分割字符级解码器
A character-level decoder without explicit segmentation for neural machine translation (2016)
作者J. Chung et al.
探索语言建模的局限性
Exploring the limits of language modeling (2016)
作者R. Jozefowicz et al.
教机器阅读和理解
Teaching machines to read and comprehend (2015)
作者 K. Hermann et al.
摘要:教机器阅读自然语言文档仍然是一个难以应付的挑战。对于看到的文档内容,我们可以测试机器阅读系统回答相关问题的能力,但是到目前为止,对于这种类型的评估仍缺少大规模的训练和测试数据集。在这项工作中,我们定义了一种新的方法来解决这个瓶颈,并提供了大规模的监督阅读理解数据。 这允许我们开发一类基于attention的深层神经网络,凭借最少的语言结构的先验知识来学习阅读真实文档和回答复杂的问题 。
attended-based神经网络机器翻译有效策略
Effective approaches to attention-based neural machine translation (2015)
作者 M. Luong et al.
通过共同学习对齐和翻译实现神经机器翻译
Neural machine translation by jointly learning to align and translate (2014)
作者 D. Bahdanau et al.
利用神经网络进行序列到序列的学习
Sequence to sequence learning with neural networks (2014)
作者I. Sutskever et al.
用 RNN 编码——解码器学习短语表征,实现统计机器翻译
Learning phrase representations using RNN encoder-decoder for statistical machine translation (2014)
作者K. Cho et al.
一个为句子建模的卷积神经网络
A convolutional neural network for modelling sentences (2014)
作者 N. Kalchbrenner et al.
用于句子分类的卷积神经网络
Convolutional neural networks for sentence classification (2014)
作者Y. Kim
Glove: 用于词表征的全局向量
Glove: Global vectors for word representation (2014)
作者 J. Pennington et al.
句子和文档的分布式表示
Distributed representations of sentences and documents (2014)
作者Q. Le and T. Mikolov
词、短语及其合成性的分布式表征
Distributed representations of words and phrases and their compositionality (2013)
作者T. Mikolov et al.
有效评估词在向量空间中的表征
Efficient estimation of word representations in vector space (2013)
作者T. Mikolov et al.
基于情感树库应用于情感组合研究的递归深度网络模型
Recursive deep models for semantic compositionality over a sentiment treebank (2013)
作者R. Socher et al.
语音/其他领域
端到端attention-based大规模词表语音识别
End-to-end attention-based large vocabulary speech recognition (2016)
作者 D. Bahdanau et al.
Deep speech 2:中英文端到端语音识别
Deep speech 2: End-to-end speech recognition in English and Mandarin (2015)
作者 D. Amodei et al.
使用深度循环网络进行语音识别
Speech recognition with deep recurrent neural networks (2013)
作者A. Graves
用于语音识别中声学建模的深度神经网络:四个研究小组的观点分享
Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups (2012)
作者G. Hinton et al.
摘要:大多数当前的语音识别系统都使用隐马尔科夫模型(HMMs)来解决语音中的时间变化问题,用混合高斯模型(GMMs)来评价每一个HMM拟合声音输入表示帧或者小窗口帧系数的效果。存在一种替代评价方法是使用前馈神经网络来将多个帧系数作为输入,将HMM状态的后验概率作为输出。深度神经网络有很多隐藏层,通过新的方法进行训练,在很多语音识别任务上都比GMM模型更加出众,有时甚至会好非常多。本文将会做一个综述,分别对四家研究机构在最近语音识别的声学建模领域取得的成功进行介绍。
基于上下文预训练的深度神经网络在大规模词表语音识别中的应用
Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition (2012)
作者G. Dahl et al.
使用深度置信网络进行声学建模
Acoustic modeling using deep belief networks (2012)
作者A. Mohamed et al.
强化学习
深度视觉运动策略的端到端训练
End-to-end training of deep visuomotor policies (2016),
作者S. Levine et al.
利用深度学习和大规模数据搜集,学习眼手协调的机器人抓取
Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection (2016)
作者 S. Levine et al.
深度强化学习的异步方法
Asynchronous methods for deep reinforcement learning (2016)
作者V. Mnih et al.
使用双Q学习的深度强化学习
Deep Reinforcement Learning with Double Q-Learning (2016)
作者 H. Hasselt et al.
通过深度神经网络和树搜索来掌控围棋游戏
Mastering the game of Go with deep neural networks and tree search (2016)
作者 D. Silver et al.
摘要:围棋被视为人工智能挑战经典游戏中最难的一个,因为其巨大的搜索空间和对位置和移动的评价难度。本文提出了一种新方法使用“值网络”来评价位置,用“策略网络”来选择移动。这些深度神经网络是从人类专家棋局中进行有监督学习,然后在从自对弈中进行强化学习。如果不考虑前向搜索的话,当前最好的神经网路模型是蒙特卡洛树搜索,这种方法通过进行上千局的自对弈来进行仿真。我们也介绍了一种新点的搜索算法,将蒙特卡洛仿真与值网络和策略网络进行了综合。使用这种搜索算法,我们的项目AlphaGo有99.8%的胜率,并且以5:0的比分打败了来自欧洲的人类冠军。这也是计算机第一次在真实围棋比赛中击败人类专业选手,将10年后的目标提前完成了。
采用深度强化学习进行持续控制
Continuous control with deep reinforcement learning (2015)
作者T. Lillicrap et al.
通过深度强化学习实现人类水平控制
Human-level control through deep reinforcement learning (2015)
作者V. Mnih et al.
侦测机器人抓取的深度学习
Deep learning for detecting robotic grasps (2015)
作者 I. Lenz et al.
用强化学习玩atari游戏
Playing atari with deep reinforcement learning (2013)
作者V. Mnih et al.
理解/概括/传递2016年的更多论文
100篇之外
新论文:最近6个月以内的
老论文:2012年以前的
HW/SW/数据集:技术报告
专著/调查报告/综述
附录:未收录的其他优秀论文
由于微信字数限制,要浏览 2015 年(含)前的论文,请访问:https://github.com/terryum/awesome-deep-learning-papers/blob/master/README.md