【新智元导读】新智元以前也译介过 Carlos E. Perez 关于深度学习的文章。这次我们要介绍的是他最新制作的“深度学习路线图”。
Perez 发现,他跟踪研究深度学习好几年,发现还没有人制作过一个地图将事情的发展脉络梳理出来。于是,他很快自己动手做了一份。
需要指出的是,这只是一份非常初级的地图,有很多关键概念和思想都没有纳入进来。不过,就像 Perez 自己说的那样,这只是个开始,希望有更多人站出来继续扩充这份地图。
据 Perez 介绍,他的这份地图里,无监督学习的部分来自苹果 AI 负责人、CMU 教授 Russ Salakhutdinov 的演讲。强化学习的部分则来自 OpenAI 研究科学家、伯克利教授 Pieter Abbeel 的演讲。
深度学习发展日新月异,地图中标记出来的概念还有很多的衍生,这次尚未没有收录。此外,图中已有概念之间的关系也没有全部标出,例如,卷积神经网络(CNN)可以用于值迭代(Value Iteration),对抗生成网络(GAN)和变分自编码器(VAE)也可以使用深度学习框架。
金字塔的顶部:元学习、模块化深度学习、市场调节
首先,在更高级的层面,Perez 认为存在这样的关系:
元学习(Meta Learning)、模块化的深度学习(Modular Deep Learning)和由市场所驱动的调整(Market Driven Coordination)三者之间,彼此相互影响。
这一点很好理解,模块化的深度学习类似算法,新智元在《2016 年深度学习三大趋势》一文里报道过,Gartner 分析认为,算法将形成一个全球性的交易市场,世界各地的研究人员、工程师都能在这个市场上创造、分享乃至合成大规模的新算法。届时,算法也将变得像集装箱一样,能够任意组和扩展,从而搭建适用于不同应用的架构。就像当年的 App 经济,算法经济也将催生出全新一代的专业技术初创企业,并且革新机器与机器之间的交互方式——当然,这些都离不开市场的调节。
而元学习(Meta Learning)也就是让机器学会学习(learning to learn)。元学习的发展会影响深度学习的发展(反之亦然),同时也与应用需求密切相关。
在上个月谷歌大脑负责人 Jeff Dean 在 UCSB 做了题为《通过大规模深度学习构建智能系统》的演讲,其中就提到谷歌大脑最近的一个研究热点是自主机器学习,也即让机器学会学习。Jeff Dean 表示,目前人工智能领域解决问题所需的就是机器学习技术、计算和数据,我们能否减少对这种技术本身的需求呢?他认为是可能的。“自动机器学习”这个方向正是他来到的谷歌大脑团队正在积极探索的、最有希望的领域之一。”
接下来,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习,而强化学习(Reinforcement Learning)则是由市场调节驱动的。
下面就是 Carlos E. Perez 根据他的理解画出的深度学习路线图。
图上文字太小看不清?
没关系,下面我们来看局部图:
监督学习→优化算法
从模块化深度学习发展出来的第一部分就是监督学习(Supervised Learning),而在监督学习中会用到各种优化算法(Optimization Algorithm),优化算法有很多,最常见的一个就是随机梯度下降(SGD),其他还有二阶算法、不含梯度的算法。
值得注意的是,Perez 将“自主学习”(Learning to Learn)也算作优化算法的一种——当然,机器/神经系统自我完善也算是优化吧。
监督学习→目标函数
依然是从模块化深度学习出来到监督学习,监督学习的另一个分支是各种目标函数(Objective Function),包括 EMD、KL 散度和基于能量的模型(Energy Based Model)。
监督学习→各种层
在路线图中,由监督学习延伸出去的还有“层”(Layer)这个概念,层又分为:卷积层(CNN)、自回归层(Autoregressive layer)、全连接层(MLP),以及带有记忆的层(Layers with Memory),典型的就是长短时记忆(LSTM)模型。
再往下分(在图中应该是往上走),PixelCNN 看名字也知道是属于 CNN 的,PixelRNN 则是属于 RNN 的。而 RNN 循环神经网络(或者叫递归神经网络),是一种自回归的模型。
无监督学习→概率模型→显示密度模型
接下来,我们来看 Perez 关于无监督学习和强化学习的梳理。
首先是无监督学习,正如上文所说,在 Perez 的路线图中,无监督学习(Unsupervised Learning)属于元学习(Meta-Learning)。
无监督学习分为概率模型(Probabilistic Model)和非概率模型(Non-Probabilistic Model)。稀疏编码、自编码器和 K-means 都属于非概率模型。
而在概率模型中衍生出了两条分支:显式密度模型(Explicitly Density Model)和隐性密度模型(Implicit Density Model),现在大火的生成对抗网络(GAN)就属于后者。
显式密度模型又分为易解模型(Tractable Model)和难解模型(Non-Tractable Model)。NADE、PixelRNN 都属于可解模型。而玻尔兹曼机(BMV)、变分自编码器(VAE)则属于难解模型。
强化学习→策略优化 & 动态编程
最后来看强化学习(Reinforcement Learning),也即通过试错、单纯地通过奖励或者惩罚完成的学习范式。DeepMind 创新性地将强化学习和深度学习融合起来,创造出的 AlphaGio 惊艳了世界,DeepMind 后来相继研发出的智能体也都在许多困难领域实现人类级别的表现。
在 Perez 的路线图中,强化学习有两大分支,策略优化(Policy Optimization)和动态编程(Dynamic Programming)。
而策略优化又分为无导数优化方法(Derivative Free Optimization)和策略梯度方法(Policy Gradients)。
动态编程则衍生出值迭代(Value Iteration),再到 Q-Learning。3 年前,DeepMind 推出了第一个获得大范围成功的深度增强学习算法,内含的核心概念是使用深度神经网络代表 Q-Nerwork,并且训练这一 Q-Nework,让其预测总体的奖励。最重要的是,DeepMind 当时解决稳定性的问题,为 50 个不同的 Atari 游戏分别训练了不同的、不含任何先验知识的 DQN 智能体,结果 DQN 在近一半的游戏中都达到了人类的水平。这也成了 DeepMind 2015 年发表在 Nature 的论文。
动态编程的另一条分支是策略迭代(Policy Iteration)。
值得注意,策略梯度和策略迭代最后都能推导出 Actor Critic 方法。
进击的深度学习
深度学习还在不断发展,不断有新的模型和架构产生。就像最开始说的,这份路线图只是草图,需要更多的人来完善——不仅仅是图,还有深度学习本身。