来源:2018 中国图灵大会
演讲人:朱珑(依图科技联合创始人、CEO)
主题为“引领人工智能,创造无限可能”的2018年中国图灵大会在上海召开,于1966年由国际计算机协会(ACM)设立的“图灵奖”,当之无愧是计算机界最负盛名、最崇高的奖项,因而有“计算机界的诺贝尔奖”之称。今年的中国图灵大会,更是汇聚了学界、业界的“最强大脑”,嘉宾阵容可谓豪华。在5月19日的论坛上,依图CEO朱珑博士给大家带来了一场深刻而又发人深省的关于AI时代的演讲。
在美国学习工作了十年之后,2012年的朱珑回国创立依图,也成为这一代AI创业的典型代表。他的履历上来看有几段重要的经历,第一段是在UCLA的博士时期做统计建模和统计学计算,师从艾伦·尤尔,艾伦的博士导师正是著名的理论物理学家霍金;然后在MIT的AI Lab做计算机视觉建模相关领域的博士后研究员;最后一段则是回国前,在深度学习爆发之前的NYU的Yann Lecun实验室做研究员。
在2012年之前,很少有人会说自己是做AI的,只会说做统计建模、统计学习这些具体的方向。但从2016年AlphaGo登上《自然》杂志,到美国著名的《经济学人》杂志多期报道,AI频繁登上世界最著名的杂志成为封面主题,如今已经进入了一个言必称AI的时代。与AI相关的各种言论,关于机器学习、图像识别、无人车、健康医药等等都逐步成为热点。而朱珑一直关注的是未来到底AI能发生一些什么?
没有权威的时代让AI正变得真假难辨
在朱珑的演讲中,他提到目前AI跟过去比较重大的区别:因为AI发展太快,现在技术处于一个很难辨别真假、好坏的时代。以深度学习为代表新的AI技术,因为过去参与的人和实践不多,全球性研究的大规模以及长时间的积累并不够。因为太“热”,使得各方都热衷参与到AI的讨论,交流甚至宣传当中,AI的观点就变得非常多,这客观上使得很多专家真正有见地的意见和其他的言论很难区分开来,这不仅是中国,在美国也是同样。
另外一个则是:技术到了一个没有权威的时代。过去不管是从计算机视觉,还是整个人工智能领域,最好的实验室几乎能够垄断预测全球百分之七八十的进展,但是现在AI无论是在美国,还是在中国或欧洲,大家的发展是比较跳跃性的,在一两个实验室非常难预测主流到底在关注什么。这是整个时代的特点。
朱珑的背景是跨越学术界和工业界的创业典型,经历了中国2012年到2018年这五、 六年非常特殊的阶段,正如他在演讲中提到的,过去中国没有成熟的科技创业的情景和市场机制。过去,政府、投资者、媒体这三者可以频繁交流,在2012年之前,学术界不像今天这样经常会被政府或一流基金邀请交流。美国则因为市场成熟,这些人经常会在一起交流,甚至都是朋友。中国这几年开始,各种背景的人在一起交流的越来越多,这是新的形态。
技术突破打开了工业界应用的突破
技术上,2015年,机器识别人脸的水平正式超过人类。人脸识别中机器比人强,最简单基础应用就是1:1的比对,证明你就是你,大家熟知的是2017年iPhone推出的刷脸开机;其次是1:N,是通过任一设备里捕捉到的人脸,从一个省(亿级)或一个国家的人像库(十亿级)里来回答你是谁,这对识别性能的要求提升了一个量级,是千倍万倍地增长。这意味着识别技术的突破,打开了工业界中的产品的突破。
2012年之前,可以认为人脸识别技术几乎没有什么发展,2017年人脸识别最高水平可识别规模在20亿人,大概比2016年可识别千万提高两百倍,比2015年提高了数万倍。那未来的发展到底是什么样?会不会再10倍、100倍甚至万倍地发展?
大家现在也有个讨论,技术是不是发展到了瓶颈?各项算法之间有没有区别?随着AI热潮的涌现,各家AI公司都会频繁参加一些业界的比赛以证明自己的算法实力,以人脸识别算法为例,可以看到各AI公司在LFW等类似的计算机视觉比赛中都取得99.xx%的成绩。于是人们会问:AI算法是否已经趋同了?如果算法精度差别不大(只有几个百分点),是否意味着创业公司的技术已经同质化了,没有技术创业的核心竞争力了呢?
但实际上,这是典型的认知误区。我们在朱珑的演讲中看到了一张表,可能更准确的回答了这个问题,这是中国某省1亿人像库的情况下,真实的刑侦案件的破案环境的性能测试对比的表,参与方是知名的几大人脸识别公司:
我们可以这样理解这张图:必须对应场景来谈算法精度。不同场景的算法精度不具备任何可比性,甚至不代表有相关性。换句话说在简单场景下算法精度高,不代表在复杂的高难度场景下有更大的概率可以把算法精度做高,就比如在小学生的考试中拿满分,不见得可以在大学的考试中也拿满分。因为很多学术界的比赛使用的都是公开数据集,数据集内多是互联网照片,类似于难度小的开卷考试,大家很容易把测试成绩刷到比较高。但在实际的应用中则会遇到各种高难度场景,包括变形、昏暗、逆光、强光、光照不均、低清、运动模糊、遮挡、跨年龄段比对等,在这种情况下各家的差距迅速拉开了,第二名和第一名的错误率都会相差几倍以上,远未到趋同的程度。
第二,这些实战中的技术差距体现在具体产品或应用上,不是简单的好用和一般好用的差距,而是可用和不可用的差距。实战中是要以最高效率解决实际问题为目的的。在一个1亿级别人像系统中进行1:N的静态比对时,错误率相差几倍,就导致使用者做事效率下降几倍,那么自然而然,即使他使用的是一个多算法平台,他也只会倾向于使用第一名的算法。
AI帮助探索人类智慧的边界
AI除了在产业界的实际应用外,更能够帮助我们理解人类的智慧、人类智慧的边界。
我们以前是没办法了解人类自己识别能力的规模和精度,到底是什么程度?过去没法做这个科学实验,1万人还是10万人你辨别不出来。而机器在大规模的情况下,很轻易地识别1亿人、10亿人,甚至更多的时候,机器识别就相当于提供了一把尺子,根据相似度比例筛选出来给人去测,可以在有效的时间里面,测出一个人自己“看”这个世界的能力。
这是人类第一次有一个非常稳定且强大的机器,有识别能力看到人和机器智能差别到什么程度。依图曾做过一个实验,在几千万量级的身份数据库上,一个人把他女朋友生活照输入进去,在机器输出相似度前十的照片中,他是非常难辨别哪张是他的女朋友。过去机器认识生人的能力比人强,但是今天机器识别熟人脸的能力也超越人了。
今天机器是有了高性能的,比人类大很多倍的这种识别能力,能够帮助我们回答这些更有趣的问题:在13亿中国人中有多少人跟你长的一模一样?一模一样我们可以先定义为自己的妈妈辨别不出来谁是谁。经过依图的实验,结果是,每1亿人当中有一个人跟你长的一样,所以全中国差不多12个人跟你长的一模一样的。
这个意味着什么? 1亿人当中有一个人跟你长的像,这又意味着什么?
人类进化过程中,视觉识别能力在各大感官中的比重越来越大,也可能是人类穿衣服,嗅觉识别家庭成员的能力在哺乳动物中比较低下,主要是看人脸来辨别同类。选择压力驱使人类的脸之间的区分度需要尽量的大,这样保证家庭成员的稳定性得到保障。
而人作为社群动物,需要和大量同类打交道,脸部识别错误的代价是失去整个基因组的遗传继承。对应的编码人脸形状的基因数量需要很大,目前知道有一条染色体的一大块用于编码脸部特征。一亿分之一的识别度是一个具有巨大社会学意义的统计数值,背后更多的生物学意义需要更近一步探讨。与之对应的一个未经实验证实的观察是,动物的脸部特征区分度不像人类这么大。比如猫和狗,光看脸,我们很不容易区分出来。
脸部信息对于身份的确认是非常重要的,人类如果不具备辨别能力,出门回来之后你认不出你的小孩、老婆,就会出现社会的骚乱,所以说人脸识别对基因的进化有非常巨大的影响。
---------------
1950年图灵发表《计算机器与智能》,提出著名的“图灵测试”,成为人工智能的思想起源,而在2018年的图灵大会中,依图朱珑博士的演讲也给我们打开了认知人工智能现状和未来的一扇窗户,在嘈杂的言论中给我们更多的启发和思考。期待听到更多这样的演讲。