机器之心原创
作者:蒋思源、路雪
在过去的一年中,从 AAAI 到 NIPS 很多学术顶会都在关注人工智能和机器学习,而它们的参会情况与论文提交情况很大程度上都体现了这个领域的活跃程度。在本文中,机器之心概览了 2017 年人工智能顶会的参会情况、论文提交与接受情况、华人力量和获奖论文情况,我们希望读者能从这些观察中获得一些今年的趋势与研究主题。
文本主要分为两部分,第一部分是 2017 年顶会的概览,包括今年该领域 10 个顶会的论文提交与接受情况和它们的华人力量。第二部分重点关注这些顶会的获奖论文情况,我们将这些获奖论文主要分为计算机视觉、自然语言处理、学习过程和数据问题等 6 大主题,并从这些主题简要概述对应研究论文的观点与发现。
顶会论文概览
顶会论文的提交与接收
AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿数量均超过 2000,接收的论文数量均超过 600。ICLR 2017 是举办以来的第五届,去年的论文录用率接近 30%,今年达到了 40%。KDD 论文录用率 18.9%,是上图十项会议中论文录用率最低的会议。(数量统计误差 ±5)
下面我们简要介绍这些会议及其今年接收论文的情况。
1. 综合性会议
2. 计算机视觉领域会议
3. 自然语言处理领域会议
4. 深度学习领域会议
ICLR 是深度学习领域的盛会,每年举办一次。2013 年,深度学习巨头 Yoshua Bengio、Yann LeCun 主持举办了第一届 ICLR 大会。经过几年的发展,在深度学习火热的今天,ICLR 已经成为人工智能领域不可错过的盛会之一。ICLR 会议涉及的相关主题有:
ICLR 2017 收到了 507 篇论文,其中 196 篇论文被大会接收,录用率 38.7%。今年的论文评审结果也已出炉,提交论文的数量为 491 篇,而被接受的情况为:15 篇 oral(3%),183 篇 poster(37.3%),录用率为 40%。
5. 数据挖掘领域会议
KDD 是国际数据挖掘领域的顶级会议。据统计,KDD 2017 共收到 1144 篇论文投递,收录 216 篇,录用率 18.9%。
顶会中的华人力量
在计算机视觉领域的顶会中,到处都能见到华人的身影,很多参会的学者都会惊喜地发现 CVPR 接收论文名单有非常多的华人署名。而 ICCV 2017 同样将最佳论文和最佳学生论文都授予了何凯明等人。如下是计算机视觉获奖论文的华人作者情况(不完全统计):
在自然语言处理领域中,最大的亮点可能是 ACL 2017 有 5 篇国内论文入选杰出论文,分别来自北京大学、复旦大学、清华大学和中科院自动化所。以下是详细情况(不完全统计):
ACL 2017 最佳演示论文《Hafez: an interactive poetry generation system》共同一作 Xing Shi(史兴)本科毕业于清华大学,现于南加州大学读博。以下五篇 ACL 2017 杰出论文皆来自国内:
EMNLP 2017 最佳长论文《Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints》作者 Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez 和 Kai-Wei Chang,其中来自弗吉尼亚大学的赵洁玉、王天露、张凯崴均为华人。一作赵洁玉 UCLA 二年级在读博士生,师从 Kai-Wei Chang(张凯崴)教授。主要研究领域为自然语言处理与机器学习。此前,在北京航空航天大学获得计算机本科及硕士学位,并在弗吉尼亚大学完成博士一年级的学习,现就读于 UCLA 计算机专业。
在综合性顶会和深度学习顶会中,也常有华人的论文获奖。其中值得注意的是 ICLR 2017 关于重新思考泛化的最佳论文,该论文非常有影响力,且一作也是华人。
获奖论文分析
我们统计了 2017 年人工智能顶会的获奖论文数,并在简要地筛选后,统计了这些获奖论文的关注领域与关键词等比较有意思的信息。如下展示了大会获奖论文的分布情况,2017 年获奖论文不精确统计大约有 56 篇,其中包括了经典论文奖或其它年份发表的论文。
AAAI 2017 的奖项除了一篇最佳论文与一篇最佳学生论文外,还有另外 10 大奖项,包括经典论文奖、应用开发奖等 7 大获奖论文。但我们只会分析两篇最佳论文的主题与关键词。今年 AAAI 其它获奖论文的主题很有意思,例如经典论文主要开创了粒子滤波的应用,它为机器人定位提供了有效和可扩展的方法,而应用奖论文更是关注在线人才招聘和物理材料的合成与表征。除了论文奖项外,中国香港科技大学林方真教授因为对知识表达、非单调逻辑和行为理论等领域的重大贡献而获得 AAAI Fellow。
其它顶会的论文情况也和 AAAI 类似,我们将去除历年的经典论文和其它年份的论文。例如在今年 ICML 的经典论文中,2007 年的研究者关注结合 UCT 在线知识与离线知识以构建强大的 9*9 围棋系统,但近来深度强化学习和自我对抗策略等技术已经在围棋游戏中取得了很重要的成果,所以这一类的主题我们并不会深入探讨。
值得注意的是,很多顶会的经典论文都出现了支持向量机相关的主题。例如 ICML 经典论文 Pegasos: Primal Estimated sub-GrAdient SOlver for SVM 提出了一个简单有效的随机子梯度下降算法,用于解决支持向量机(SVM)提出的优化问题。KDD 的经典论文 Training Linear SVMs in Linear Time 提出了一种训练线性 SVM 的截平面算法,该算法经证明对于分类问题而言训练时间只需 O(sn),有序回归问题的训练时间为 O(sn log(n)),其中 s 为非零特征数,n 为训练样本数。而刚刚结束的 NIPS 也发布了关于 SVM 的经典论文 Random Features for Large-Scale Kernel Machines 提出了一种把输入数据映射到随机的低维特征空间中,然后再使用现有的快速线性化算法的方法。
此外,KDD 主要是数据挖掘领域与知识发现方面的顶会,所以虽然它与人工智能有很大的联系,但我们并没有将其纳入研究主题的统计。今年的 KDD 从主题上来看主要关注于时序数据与图算法,且接受的应用类论文占据了 40% 左右。该会议的最佳论文探讨了如何学习更简单的结构化表征方法,它结合众包与循环神经网络从产品描述中抽取向量表征,并且这些学到的向量能比传统信息检索方法更精确与快速地找到类比信息。除此之外,该会议的最佳应用论文关注于防御安卓恶意软件,它通过分析 API 之间的不同关系以创建更高层级的语义信息,因而检测出恶意软件的攻击者。今年 KDD 大会确实有非常多的见解与创意,不过限于我们的主题与关注点,后文并没有统计与分析 KDD 相关的信息。
因此,在今年顶会 56 篇获奖论文中,我们以下讨论了 32 篇获奖论文的主题与关键词等信息。
研究主题的分布
我们首先根据这 32 篇获奖论文分析了 AAAI、ICLR、ICCV 和 NIPS 等顶会(除去 KDD)的获奖研究主题。其中我们将这些获奖论文的主题分为 6 种,它们之间可能会有交叉,例如可能有论文使用强化学习的方法研究自然语言处理相关的问题。值得注意的是,学习过程这一主题描述的是最优化方法、模型拟合或模型验证等问题,数据问题描述的是新型数据集、数据隐私和数据偏见等相关的问题。以下展示了今年部分顶会获奖论文的主题分布:
在这些获奖论文的主题中,讨论地最多的是计算机视觉与自然语言处理。这两个任务也是目前非常流行的研究领域,从 CVPR 和 ICCV 专注于计算机视觉领域,ACL 和 EMNLP 专注于自然语言处理领域就可见一斑。对于其它如 AAAI、ICML 和 IJCAI 等综合性会议,它们关注地更多的是学习过程与数据问题。此外,强化学习和迁移学习等前沿话题在各大会议的获奖论文中也常提到。
1.计算机视觉
对于计算机视觉领域来说,贡献最大的当然是 CVPR 与 ICCV,其它如 IJCAI 等也有相关主题的获奖论文。这些获奖论文具体研究的方向主要有目标检测、图像标注、图像生成、语义分割、卷积神经网络架构等方面。今年唯一以研究卷积架构为主题的获奖论文是康奈尔与清华大学联合完成的 Densely Connected Convolutional Networks,他们发现如果卷积神经网络在接近输入层和输出层的层级中包含较短的连接,那么 CNN 就能在训练上显著地变得更深、更精确和拥有更高的效率。据此,他们提出了密集卷积网络(DenseNet),这种卷积神经网络以前馈的方式将每一层与其他层相连接起来。这篇论文的评价非常高,很多研究者认为 DenseNet 在 ResNet 基础上提出了更优秀的密集型连接方式,这种连接不仅能使得特征更加稳健,同时还能产生更快的收敛速度。虽然有学者指出 DenseNet 的内存占用太大,训练成本很高,但也有研究者测试表明在推断时它所需要的内存要比 ResNet 少。以下展示了 DenseNet 的基本架构:
除了卷积架构外,语义分割或目标实例分割最有影响力之一的获奖论文就是何凯明等研究者提出来的 Mask R-CNN,它是一种简单、灵活和高效的通用目标分割框架。Mask R-CNN 是基于 Faster R-CNN 的扩展,它在用于边界框识别的分支上添加了一个并行的分支用于预测目标的掩码。因此这种方法不仅能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码。值得注意的是,何凯明是该最佳论文的第一作者,同时是今年最佳学生论文的作者之一,若加上 CVPR 2009、CVPR 2016 两篇最佳论文,那么他已有四篇获计算机视觉顶会的最佳论文。
Mask R-CNN 框架
在计算机视觉研究主题中,今年获奖论文讨论得比较多的可能就是目标检测。在 YOLO9000: Better, Faster, Stronger 论文中,作者提出了 YOLOv2 和 YOLO9000 检测系统。YOLOv2 能大大改善 YOLO 模型,并且以非常高的 FPS 获得更好的结果,而 YOLO9000 这一网络结构可以实时地检测超过 9000 种物体分类,这主要可以归因于 WordTree 混合了目标检测数据集与目标识别数据集,因此通过联合训练能实现非常好的效果。而在 Focal Loss for Dense Object Detection 论文中,研究者提出的全新 Focal Loss 方法,它集中于稀疏、困难样本中的训练,避免了训练过程中可能出现的大量负面因素。他们表明使用 Focal Loss 进行训练的 RetinaNet 可以在目标检测任务上达到一步检测器的速度,同时准确性高于业内最佳的两步检测器。
图像生成其实也是今年获奖论文比较关注的主题,例如苹果公司的 Learning from Simulated and Unsupervised Images through Adversarial Training 提出了模拟加非监督学习方法在使用合成图像方面展现出了显著的提升效果。而另一篇 Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering 提出了一种条理化的标签解纠缠的生成对抗网络(TDGAN),该 TDGAN 通过指定多个场景属性(如视角、照明和表现等)从单张图片重新渲染出感兴趣目标的新图片。若给定一张输入图像,解纠缠网络会抽取解开的、可解释性的表征,然后这些表征再投入到生成网络以生成图片。
2.自然语言处理
自然语言处理是除计算机视觉外另一个非常受关注的研究领域,甚至今年以 NLP 为主题的获奖论文比计算机视觉还要多。基本上,ACL 和 EMNLP 是对这一领域贡献非常大的顶会,今年该领域的获奖论文关注的也非常广,主要有机器翻译、语音语域、分词模型、语言的生成模型和其它一些 NLP 数据相关的问题。值得注意的是,自然语言处理领域和计算机视觉领域一样有很多引人注目的应用,最突出的就是神经机器翻译。虽然去年神经机器翻译就已经有了很大的发展,但今年很多研究者真正从编码器-解码器架构、注意力机制、强化学习方法甚至是 LSTM 与 GRU 的结构来提升神经机器翻译的性能。除此之外,自然语言处理其它很多方面都有非常大的进步,下面我们将简介今年顶会有关自然语言处理的获奖论文。
今年 NLP 获奖论文有很多关注于偏语言学的问题,例如在论文 Probabilistic Typology: Deep Generative Models of Vowel Inventories 中,研究者介绍了一系列深度随机点过程,并将他们与之前的计算性的、基于模拟的方法相对比。该论文提出了首个针对音韵类型学中基础问题的概率性方法,它希望通过深度神经网络的学习方法来对元音空间构建一个可训练的概率型生成分布,从而来研究语言类型学中的元音的分散性和聚焦性问题。此外,该论文的研究者在 ACL 大会演讲结束时表明 NLP 工具应该是进行科学研究的手段,而不止是工程任务,这也正是该论文将深度学习与传统 NLP 研究相结合的一次尝试。除此之外,The Role of Prosody and Speech Register in Word Segmentation: A Computational Modelling Perspective 探讨了在分词任务中语音语域和韵律学的作用,他们发现语域之间的区别要小于以前的,并且韵律学边界信息帮助成年人指向的语音要比婴幼儿指向的语音更多一些。
今年以 NLP 为主题的获奖论文还有另一个非常有意思的话题,论文 Hafez: an Interactive Poetry Generation System 提出了一种自动诗歌生成系统,它将循环神经网络(RNN)与一个有限态接收器(FSA)进行整合,因此可以在给定任意话题的情况下生成十四行诗。Hafez 还能让用户调整各种不同风格的配置,从而对已生成的诗歌进行修改和润色。
NLP 获奖论文除了以上研究型成果,还有一部分是因为在数据上或工具上有重要成果而获得了奖项。数据集、数据偏见或语料库等问题将在后一部分详细讨论,因为除了 NLP 中的数据问题,其它如图像标注等问题在大会获奖论文中也有讨论。另一项哈佛大学 NLP 组开源的神经机器翻译工具则体现了工程方向的研究成果。在论文 OpenNMT : Open-Source Toolkit for Neural Machine Translation 中,研究者介绍了一种用于神经机器翻译的开源工具包。该工具包以效率、模块化、可延展性作为优先考虑因素,从而在模型架构、特征表征、开源形态中支持 NMT 研究,哈佛 NLP 组在官网上表示该系统已经达到生产可用的水平。
OpenNMT 可以像主要的翻译服务提供商的已投入生产的系统那样使用。该系统简单易用,易于扩展,同时也能维持效率和当前最佳的翻译准确度。其特性包括:
3.学习过程
在我们的分类中,学习过程其实是一个很广的研究领域,它可以包括最优化方法、训练过程或方法、最大似然估计或其它构建损失函数的方法以及泛化问题与黑箱问题等话题。当然,一般学习过程指的是训练或最优化过程,但我们这里不妨将这个概念推广到一般机器学习模型所共有的问题,例如我们思考的黑箱问题、随机扰动或新型验证方法等适用于一般机器学习模型的研究主题。这一部分确实最近越来越受到研究者的关注,很多论文在讨论是否有更优的梯度下降方法、更好的模型解释或更美的参数估计方法,这一倾向也表现在今年顶会获奖论文的研究主题中。我们一共将 7 篇获奖论文归到这一类中,它们讨论了机器学习模型的各个方面,非常值得各位读者详细了解。
其实最近 ICLR 2018 评分排第二的论文就详细研究了最优化方法,在 ON THE CONVERGENCE OF ADAM AND BEYOND 论文中,研究者发现 MSPROP、ADAM、ADADELTA 和 NADAM 等方法都是基于使用前面迭代所产生梯度平方的指数滑动平均值,它们在对该滑动平均值取平方根后用于缩放当前梯度以更新权重。该论文表示些算法因为使用了指数滑动平均操作而有时并不能收敛到最优解(或非凸条件下的临界点)。因此研究者提出了一种 ADAM 算法的新变体,它通过赋予这些算法对前面梯度的「长期记忆」能力而解决收敛问题。在 NIPS 2017 的最佳论文 Variance-based Regularization with Convex Objectives 中,研究者探讨了一种风险最小化和随机优化的方法,该方法可以为方差提供一个凸属性的替代项,并允许在逼近和估计误差间实现近似最优与高效计算间的权衡。他们证明了该过程具有最优性保证(ertificates of optimality),并通过逼近和最优估计误差间良好的权衡在更一般的设定下比经验风险最小化方法有更快的收敛率。因此,前一篇论文表明了 Adam 等算法的局限性而提出改进方法,后一篇论文直接提出一种能提升标准经验风险最小化在许多分类问题测试上的性能的方法。
ADAM和AMSGRAD 在简单一维合成案例中的性能对比
最优化方法是标准的学习过程,但泛化与黑箱等问题与学习过程也有很大的关系。例如如何在训练过程中控制模型不产生过拟合,或理解模型的超参数与所学习到的参数等问题都是值得我们关注的话题。在 Understanding deep learning requires rethinking generalization 论文中,作者表明传统的泛化思考是将小的泛化误差归结为模型族的特性,或是与训练过程中的正则化技术有关。但这些传统的方法并不能解释大型神经网络在实践中泛化良好的原因,因此作者通过理论构建与实证研究表明只要参数的数量超过了数据点的数量,那么简单的 2 层深度的神经网络就已经有完美的有限样本表达能力。同样在 Understanding Black-box Predictions via Influence Functions 论文中,研究者使用了稳健性统计的经典技术影响函数,它可以通过学习算法追踪模型的预测并返回训练数据,因此我们能确定最影响给定预测的训练数据点。他们表示即使在理论失效的非凸和不可微模型下,影响函数的近似依然能提供有价值的信息来理解黑箱模型的预测结果。
4.数据问题
今年各大学术会议确实非常关注数据相关的问题,例如数据偏见、数据隐私和大数据集等。这一类主题大致可以分为两部分,即新型数据集、语料库、知识库,或者是数据本身存在的特性与问题。其实今年已经提出了好几个数据集,我们可能比较熟悉旨在替代 MNIST 的 fashion-MNIST 数据集,还有 Facebook 构建的用于星际争霸人工智能研究的新一代数据集 STARDATA,这些强大的数据集都推动了深度学习与机器学习向前发展。此外,苹果和微软等大公司对数据隐私问题做出了进一步的思考。例如微软今年推出了 PrivTree,它利用差分隐私算法保护位置隐私,而苹果的差分隐私算法从数学角度严格定义了隐私,他们的想法即仔细校准的噪声可以隐藏用户数据。今年 IJCAI 和 EMNLP 等顶会也都有以数据为主题的获奖论文。
对于获奖数据集与知识库等内容,在 A Corpus of Natural Language for Visual Reasoning 论文中,研究者提出了一种新的视觉推理语言数据集,包含对合成图像进行自然描述(3962 条语句)的 92244 对样本。该数据集证明,大多语言学现象都需要视觉和集合论(set-theoretic)推理,因此它在未来的研究当中将是极具竞争力的。YAGO 知识库的扩展 YAGO2 中,研究者表明它从维基百科、GeoNames 和 WordNet 中自动构建而成,涵盖了 980 万实体的 4.47 亿事实。人类评估已经确认其中 95% 的事实属实。
Alane Suhr 等人提出的视觉推理语言数据集。
对于数据偏见与数据隐私,Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints 论文研究了与多标签目标分类和视觉语义角色标注相关联的数据和模型。他们发现这些任务的数据集包含严重的性别偏见,且在这些数据集上训练的模型放大了这些偏见。例如,在训练集中,做饭涉及到女性的概率要比男性高 33%,而训练后的模型在测试集上将这一概率放大到了 68%。因此研究者建议可以注入用于校准现有结构化预测模型的语料库级约束,并基于拉格朗日松弛设计一种算法以进行群体推断。此外,谷歌大脑等研究员在论文 Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data 表示模型中可能会无意中隐含一些训练数据,因此通过仔细分析就能揭露一些敏感性信息。为了解决这个问题,研究者提出了教师集成的私有聚合(PATE),该方法通过黑箱的方式组合多个由互斥数据集训练的模型。因为这些模型都依赖于敏感性数据,所以它们并不会公开,但是它们还是可以作为「学生」模型的「教师」。因此,即使攻击者可以访问学生与检查内部运行工作,但他并不能直接访问到单一教师的基础参数或数据。
5.其它问题
其实今年的学术会议的获奖论文还有很多关注于强化学习与应用方面。在强化学习方面,The Option-Critic Architecture 论文表明时间抽象(temporal abstraction)是强化学习中对学习和规划进行扩展的关键,他们为 option 推导出策略梯度定理,并提出了一种新型 option-critic 架构,它能同时学习内部策略和 option 终止条件而不需要提供任何额外的奖励或子目标。而在应用方面,Making Neural Programming Architectures Generalize via Recursion 提出了使用一种使用递归来增强神经架构的方法,他们在一个神经编程器-解释器框架中实现了这种递归,且该框架可用于四种任务:小学加法、冒泡排序、拓扑排序和快速排序。该论文的研究者最后表明我们有必要结合使用递归这样的概念,来使神经架构能稳健地学习程序语义。
结语
今年的机器学习领域,尤其是深度学习方法非常引人注目,这一点从顶会的提交论文与参会人数就能体现出来。例如在 NIPS 2017 的第一天,长滩会展中心门口的注册排队长龙「长到可以让你看几篇论文」。所有这些知名的顶会都表明着这个时代刚刚好,很多想法、很多可能都能通过研究与探讨得到实现。最后祝各位读者在新的一年里都能实现各自的想法,为蓬勃的人工智能领域与机器学习社区留下一些印记。机器之心在 2018 也将继续并深入地观察学术会议,我们将展现这个蓬勃领域最可爱的一面。