前段时间读了李开复的《人工智能》,对于有关什么是AI,李开复给出了五种定义,我更加认可第四种:
AI 就是会学习的计算机程序
AI终究还是程序,而程序能干什么,干的怎么样是取决于不同的算法的。
算法 Algorithm,是AI的第一个要素。
这一轮的人工智能的复兴离不开“机器学习”,尤其是“深度学习”。接下来,让我们看看,计算机程序是怎么“学习”的。
计算机程序要成为AI,首先需要经历一个“学习”的过程,这个学习,就是用“训练数据集”来训练计算机程序,通过“训练”,计算机程序就会总结出数据中的规律和特征,这个过程被称为“建模”,计算机总结出的规律被称为“模型”。当拥有了不同的“模型”,计算机程序就可以下棋、看病、开车、认脸了。
为了让计算机学的更好,需要大量的“训练数据集”,这不就是“大数据”么?因此,这一轮的人工智能复兴,和大数据是紧密关联的。
大数据Big Data,是AI的第二个要素。
关于“深度学习”,李开复用一个可以“识字”的“水管网络”来进行类比:
可以看到这个水管网络除了“入口”和“出口”以外,在中间有很多层,所以相对于只有单层的网络还说,这样的网络被称为“深度”网络。在每一层,都有许多个可以控制水流流向与流量的调节阀。不同类型的任务需要水管以不同类型的方式进行安装和连接。
当计算机看到一张写有“田”子的图片时,就将组成这张图片的所有数字(在计算机里,图片的每个颜色点都是用“0”和“1”组成的数字来表示)全都变成信息的水流,从入口灌进水管网络。 我们在水管网络的每个出口都插一块字牌,对应计算机“认识”的每个汉字。
因为这时计算机输入的是“田”字,等水流过整个水管网络,计算机就会跑到管道出口看看是不是“田”字对应的出口的水流最多,如果是这样,就说明这个管道网络符合要求。如果不是,呵呵,计算机就要忙乎好一阵子了,计算机需要调节每一个水管阀门,就是为了让“田”字对应的水管流出的水最多。
下一步,学习“申”字,计算机就再重复下以上的过程,只不过这一次再调节每一层水管阀门的时候还不能影响“田”字识别的结果。 需要处理的问题越复杂,阀门越多,调节阀门所需要的计算能力也越大。 所以,深度学习需要大量的计算能力。这种能力,被称为计算力。
计算力,capacity of Calculation,是AI的最后一个要素。
对于绝大多数组织来说(巨头或纯科研组织除外),A(算法)基本上是公开的,C(计算力)可以随时在各种“云”买到,那么决定生死的就只有B(大数据)了。