雷锋网这里介绍后者。值得一提的是,这两篇文章也是国内学者在NMI期刊上首次的发表。
这篇文章提出了两个极为有意思且深刻的概念:
正交权重修改(orthogonalweights modification,OWM)算法;
情境依赖处理(context-dependent processing,CDP)模块。
其思想极为精妙,或对 DNN 有重大改进。我们一起来看!
1、何为智能?
在讲解这篇论文的核心内容之前,需要我们先思考一个问题,即:何为"智能"?想必每个人都会有自己的一个定义。
图灵奖得主Allen Newell和诺贝尔奖得主Herbert A. Simon曾经联合撰文将智能定义为"适应环境变化,实现自身目的"。DeepMind的联合创始人之一Shane Legg总结了数十种智能的定义,提出智能的通用衡量指标应该是在不同的环境中实现特定目的的能力。从这些定义可见,个体对复杂、动态环境的高适应性是智能的重要标志;根据对环境变化的适应能力来评估智能水平也是不同领域学者较为统一的共识。
人类大脑显然是高环境适应性的典范。人不仅可以在新的环境中不断吸收新的知识,而且可以根据不同的环境灵活调整自己的行为。在此方面,目前广泛使用的深度神经网络(deep neural networks,DNN)与大脑相比则存在着很大的差距。
目前DNN的优点是可以建立输入输出之间非常复杂的映射关系,用于识别、分类和预测。但是一旦学习阶段结束,它所能做的操作就固化了,既难以方便的学习新的映射,也不能对实际环境中存在情境信息(比如自身状态,环境变化、任务变化等)做出灵活的响应,难以满足复杂多变的需求,即缺少情境依赖学习(contextual-dependent learning)的能力。此外传统的DNN也受到“灾难性遗忘"问题的困扰,难以在学习新知识的同时保留旧知识,即缺少连续学习(continual learning)的能力。这两方面能力的缺失是制约当前DNN发展出高水平智能的重要瓶颈。
余山等人这个工作的初衷正是对于上述DNN的能力局限提出的改进方案。OWM算法从本质上来说是一个非常古老的算法 (甚至可以追溯到高斯的时代),即RLS算法,它具有缓解“灾难遗忘”的能力。余山等人在论文中研究了RLS算法的机制并对此加以改进从而得到OWM算法。而CDP模块则是受人脑中前额叶的作用及其连接模式的启发。前额叶接受众多的感觉输入,然后根据情境信息选择与当前任务最为相关的信息用于控制行为。CDP模块也正是这样设计的。
2、OWM算法
OWM算法的核心思想很简单,正如其名“正交权重修改”,在学习新任务时,只在旧任务输入空间正交的方向上修改神经网络权重。如此,权重增量几乎不与以往任务的输入发生作用,从而保证了网络在新任务训练过程中搜索到的解,仍处在以往任务的解空间中。数学上,OWM通过正交投影算子P与误差反传算法得到的权重增量作用来实现其目的,即最终的权重增量,这里k为系数。
图1:OWM算法原理示意图。(a): 在权重更新时,OWM算法只保留传统BP算法计算的权重增量中与历史任务输入空间正交的部分。(b): 在新任务中,OWM算法将神经网络对解的搜索范围约束在旧任务的解空间中。
OWM算法实现了对网络中已有知识的有效保护,并可以与现有梯度反传算法完全兼容,在连续学习测试任务中表现出了良好的性能。
图2:在连续学习MNIST手写体数字0-9的任务中,随着任务数目的增加,OWM算法的优势也愈加明显。同时,任务的学习顺序会对个别任务产生影响。如先学数字4和7,会显著提升数字9的识别正确率。
在连续学习的标准任务disjoint MNIST与shuffled MNIST任务中,OWM算法的表现超过了同类的其他算法。并且,随着学习的任务数目增加,OWM算法的性能优势会进一步加大。
图3:OWM算法在ImageNet和中文手写体汉字识别的连续学习任务上体现出优良的性能
利用OWM算法,神经网络可以连续学习识别ImageNet的1000类图片和3755个中文手写体汉字(每个任务仅训练一类图片或一个汉字)。
图4:OWM实现汉字识别的小样本连续学习
值得一提的是,算法具有优良的小样本学习能力,以手写体汉字识别为例,基于预训练的特征提取器,系统可以从仅仅数个正样本中就能连续的学习新的汉字。
3、CDP模块
CDP模块则是受前额叶皮层启发提出的。前额叶是大脑中负责认知控制的核心皮层。其同时接收感官输入和情境信号,并选择与当前任务最相关的感官信号指导输出响应。受此启发,作者引入了类似的处理架构—CDP模块。
图5:类前额叶的CDP模块的结构设计。左上角是其工作原理示意图。
它包括两个子模块:1、编码子模块,其负责将情境信息编码为适当的控制信号;2、“旋转”子模块,其利用编码模块的控制信号处理任务输入(由于其功能上相当于将特征向量在高维空间上进行了旋转,故称为“旋转”子模块)。
若将CDP模块与OWM算法联合使用,神经网络只需要一个分类器,就可以连续学习40种不同的脸部特征的识别任务。
图6:同一个分类器对于同样的输入,连续学习40种不同人脸属性的分类任务(蓝色数据点),正确率与用40个分类器的系统(橙色线)几乎一致。
并且,当不同的提示信号出现时,其对相应的特征做出判断,效果与引入40个分类器的情况相当。
通过OWM算法有效克服灾难性遗忘,通过CDP模块实现单个网络基于情境信号的多任务学习,二者结合便有望让智能体通过连续不断的学习去适应复杂多变的环境,从而逐步逼近更高水平的智能。
4、发表
人们或许还记得,Nature的这个子刊Machine Intelligence在去年4月份曾遭到了几乎整个AI社区人们的反对,包括Jeff Dean、Ian Goodfellow、Yann LeCun、Yoshua Bengio等一众AI大牛的签名联合抵制,因为他们认为机器学习社区历来有开放访问的传统,而 NMI采取付费阅读的形式是开历史的倒车。
NMI杂志对此采取了多种方式做出了回应,包括在论文的页面上直接显示 arXiv 网址,提供免费的全文浏览链接,并鼓励作者通过包括社交媒体在内的多种渠道提供给公众。
2019年1 月份,NMI正式上线。从已经发表的论文看, NMI接收的论文有关于机器学习理论与方法的研究,有人工智能应用于其它领域的研究,也有人工智能的发展对于社会、伦理等方面影响的研究。NMI每月一期,发表研究文章数量只有2-4篇。这样的发文量使得其文章比较容易被同行注意到,因此相比于传统的各种顶会和期刊,它是一个可见度较高的平台。另外作为一个新杂志,NMI比较注重交叉学科的研究,杂志除主编以外的三位编辑都具有神经科学背景,这与传统的顶会、期刊也完全不同。
据余山介绍,他们之所以选择投递NMI,也正是出于此种考虑,因为他们的工作本质上是受到脑启发的研究,所以NMI是一个合适的平台。论文从投稿到接收大约花了半年时间。
不过这并不是OWM算法和CDP模块的首次曝光。事实上,这个工作从2017年底便已开始,并于2018年国际大学生类脑计算大赛中获得30万奖金的创新特等奖。
自动化所获奖代表
(左起:余山、曾冠雄、陈阳)
之后他们又经过一系列的改进和完善,包括对算法性能的理论分析,以及对于CDP模块的进一步优化设计等,最终才发表在NMI。
余山介绍说,这个工作的共同的第一作者是曾冠雄和陈阳。前者今年六月份刚刚硕士毕业;而后者参与该项工作时还是博士后,现已经成为自动化所的助理研究员。在该项工作中,曾冠雄负责了所有的程序实现,并提出了CDP模块的计算方法和理论解析。陈阳则对OWM算法的机理做了深入的理论分析,也为其他几个关键问题的解决做出了贡献。另一作者是博士生崔波,也参与了其中一些分析和计算工作。而余山作为指导老师,自谦道“我主要的作用是提出类脑的思路,然后在遇到瓶颈和困难的时候给大家打气。”
欲更加详细了解OWM和CDP的精妙,可参见
雷锋网注:本文参考“余山课题组在类人连续学习及情境依赖学习方面取得重要进展”
领取专属 10元无门槛券
私享最新 技术干货