2014年的一天,我观看了一部关于霍金先生的传记电影《万物理论》。《万物理论》严格来讲,是一部有着传记外壳的爱情电影。片中小雀斑的精湛演技给人留下相当深的印象。由于我博士阶段的研究方向和人工智能应用相关,因此这部电影也为我带来了很多故事之外的思考:人工智能是否有也它的“万物理论”在其中?如果有,那么它与物理学的联系又是什么?
万物理论-剧照
最近一年,我常常会在朋友圈中看到一些有意思的分享:诸如“负基础入门深度学习”,又诸如“人工智能算出党员思想:智慧红云开启党建新模式”。在这个人工智能“全民嗑药”的年代,你要问我智能背后的万物理论是什么,恐怕没有人能搞得清楚,也更没有人有兴趣搞清楚。
但有一点是可以确定的:如果没有空气动力学,人类可以造出热气球或风筝,但却永远无法乘坐飞机在天空中飞翔。
(一)
2016年9月,我年有幸在慕尼黑的德意志博物馆看到了19世纪的蒸汽机,当我站在这个200多年前巨大的机械怪物面前,感到震撼。那一刻我突然明白了为什么人们喜欢用“蒸汽朋克”来形容一些黑科技,或一些边缘化的艺术风格,虽然这些东西和“蒸汽”本身并没有什么关系。
蒸汽朋克艺术
在早期对热机的研究中,人们一直都在从各个方面努力提升热机的工作效率——设计更合理的气缸连杆机构、采用更高效的热源、尽可能降低摩擦等能量损耗等等。这些努力恰恰与今天人们在人工智能各项竞赛中疯狂“打榜”的行为类似——人们总是热衷于设计更深的网络结构、更高效的训练算法或者更强悍的硬件计算平台。
目前,深度学习已成为人工智能领域最成功的一类方法。深度学习网络虽然表面上有着庞大的模型容量,巨量的网络参数以及复杂的网络结构,其本质却依然延续经典的统计机器学习的基本范式:即独立同分布假设条件下的参数估计与统计推断。说得直白些,就是用统计学的方法,从数据中“学习”知识。如果说得再直白些,那就是“找规律”。我们老祖宗讲的“神农尝百草”说的也是类似的事情,这都是再“肤浅”不过的道理。
后来,克劳修斯在研究热机问题时提出一个非常重要的物理学概念:Entropy,即热量的微分与温度的比值。我国的物理化学家胡刚复将其译为“熵”,即热温之比。熵描述了系统的能量中还有多少还可以用来做功,决定了热机工作效率的理论上限,这对热机的设计有着极为重要的意义。
(二)
从2015年起,我开始相信自然界中的一切“智能行为”和“智能现象”背后一定存在某种普适性的或支配性的规律在其中,就如同麦克斯韦方程支配着经典电磁场体系下的规律、牛顿定理支配着宏观低速惯性系的物体运动规律。
这种“智能行为”或“智能现象”也许不受限于“某项应用或任务”、甚至也不受限于“某个生物个体”——这就如同种群的迁徙、生命的进化、蚁群的行为、分形甚至是光的传播等等行为在自然界中普遍存在,却令人着迷。
Mandelbrot分形集
2017年我开始相信,如果智能背后的“万物理论”确实存在,那么很可能将会和熵有关。
在统计机器学习中,熵已经扮演了非常重要的角色。一个机器学习模型M在“学习”的过程中,本质上是从外界吸收负熵来提升对环境E的认识。机器学习中负熵流的获取方法多种多样。对于分类问题,最经典的方式是通过极小化交叉熵(cross-entropy)来实现。神经网络中的反向传播算法,传播的既是误差,也是负熵流。
统计力学告诉我们,要想让计算机或一个机器学习模型从数据中获取一个bit的信息量,至少需要让环境的熵增加kln2 J/K作为补偿,也就是说,在温度T下计算机至少要消耗kTln2 J的能量——消耗掉的要么是电能,要么是机械能,要么则是化学能,这是能耗的下限,不受模型或计算条件限制。也就是说,即便是量子计算机,甚至是《三体》中秦始皇创造的超级计算机,都不可能跨越这个物理学鸿沟。现在不可能,10年之后不可能,1000年以后也同样不可能。
左:Rosenblatt与感知机,右:矿场
事实上在关于智能的本质这一问题上,不少人也有着类似的思考。哈佛大学的lexander Wissner-Gross等人曾于2013年在Physical Review Letters上发表过一篇文章,提出了“因果熵力(Causal Entropy)”这一概念,讨论了智能起源的一种可能性,并试图将智能描述为一种热力学过程。
论文指出,系统在因果熵力的作用之下,可以朝着最大化未来选择方案去演化,表现出一些独立于具体任务的“智能”的行为,比如直立行走、使用工具以及社会合作等。
这是一项十分具有煽动性的研究,Alexander等人也因此受到了一些批判,一些学者认为最大化未来选择方案并不是智能行为的充分必要条件。例如,在足球场上,最大化未来选择方案只会让双方球员停留在场地中央,放弃进攻机会,这显然并不是我们所期待的比赛。
Causal Entropy - Prl2013
(三)
那么,是否存在另一种可能的定义方式呢?
也许,“智能行为”应该是某个Learner“自身状态”与“周围环境”共同作用的结果——“在极大化自身状态可能性的同时,通过外界作用向环境中注入尽可能多的负熵。”
智能另一种定义方式
从这个角度出发,我们便可以从另一个角度对机器学习中很多概念进行重新“审视”。
在判别式机器学习模型中,损失函数中的误差项可以理解为Learner与环境的交互作用。在此基础上,人们还常常习惯于在损失函数中添加一个平方正则化项来增加模型泛化能力(如Ridge Regression,SVM等),从概率机器学习的角度来讲,这可以解释为模型在高斯先验分布下的极大后验表示;而从更本质的角度来讲,假设高斯先验分布的原因可以解释为模型等方差条件下高斯分布熵最大——这也是极大化模型自身状态的一种体现。
重新审视判别式模型的基本范式
机器学习中有一大类算法,叫做极大熵算法,即当我们对一个系统一无所知时,最好的猜测办法是假设模型为等概率分布,也就是让模型的熵取到最大。事实上,从更一般性的角度来讲,物理学中很多现象都是极大熵在其中起作用:
——对于0重力场下的平衡态气体而言,分子运动的规律服从的是高斯分布(麦克斯韦分布),这是因为平均动能一定的前提下,高斯分布的熵最大;
——对于电梯里的人,人们更倾向于在狭小的空间内尽可能分散开来;
——当我扔一个筛子并问你我扔到1的概率是多少时,你会毫不犹豫地回答1/6;
……
写在最后
如果你现在再问我“智能”背后的万物理论是什么,我的答案是依然是“不知道”。但我已经有理由相信,智能一定是一种宏观世界中的基本的物理现象,也就是说,在某些特定规律支配下,是否一定会产生智能行为。
在这个问题上,我们都不会停止思考。但相信在不久的将来,我们一定会找到答案。
注:笔者水平有限,在某些问题上的认识还不够成熟,敬请拍砖。
如果你对此感兴趣,或者也有一些自己的认识,欢迎加入仰望星空沙龙。
加微信群,请先加群主微信
领取专属 10元无门槛券
私享最新 技术干货