【新智元导读】人工智能又一次战胜了人类!这次是在《最强大脑》。吴恩达率队的百度人工智能在人脸识别跨年龄识别任务中以 3:2 的比分惊险击败《最强大脑》名人堂轮值主席、世界记忆大师王峰。节目中,植入了百度大脑的机器人“小度”在全国观众的见证下与王峰进行两轮PK,并以微弱优势胜出。百度取胜背后都使用了哪些人工智能技术?技术的实现过程是怎么样的?现场比赛都有哪些幕后故事?新智元专访了百度 IDL 实验室主任林元庆,带来最新鲜、最全面的技术解密。
Master的余热还未散尽,在中国,另一场人与机器的“人机大战”结果也新鲜出炉——百度的人工智能“小度”在脑力竞赛类电视节目《最强大脑》中将“世界记忆大师”王峰挑落马下。
本场比赛实况于2017年1月6日晚间在江苏卫视播出,在这场被称为“中国电视史上首次人机对战”的比赛中,百度代表人工智能“小度”首战告捷:在跨年龄识别的任务上以3:2的比分险胜最强大脑代表王峰。
近年来,在国内大火的《最强大脑》造就了一批真正的“最强大脑”——鬼才之眼王昱珩,迷宫行者鲍橒等等,但是要知道,这次的被挑战者是这些“最强大脑”的队长——王峰,一个拥有数个世界冠军头衔,多次获得世界脑力锦标赛总冠军的天才。
根据百度的介绍,这次比赛前,双方签的协议中就明确规定,输赢全凭实力,赛前制定的规则是节目只有一次录制机会,无论谁输谁赢,都要照实公开。百度深度学习实验室主任(IDL)林元庆表示赛前团队并没有十足的把握,因为挑战的难度之大,已经超出了数据可提供的范围。
节目中,可以看到,站在台上的百度首席科学家吴恩达(Andrew Ng)表情并不轻松,对于在人工智能领域投入重金、并且把AI作为公司发展重要战略方向的百度来说,如果输掉比赛,将面临比较尴尬的境地。
2014-2016 百度、FB、IBM、微软、谷歌 研发投入数据
部分数据来源:stock.10jqka
现场灯光亮起,植入了“百度大脑”的“小度机器人”走进《最强大脑》录制现场。兵临城下,或许是惧怕AI 的“超能力”,人类的代表——《最强大脑》名人堂的选手们却开始临阵推脱了,迟迟没有人敢于接受“小度”的挑战,现场气氛一度有些冷场。评委 Dr.魏 在节目中评论说,这是出于“对未知的恐惧”。
反观站在台上的“小度”,则是一脸淡然。不过,台上的吴恩达和台下的团队成员,内心并不轻松。最终,在一番纠结后,《最强大脑》派出王峰应战。
这场人机对决比拼的是人脸识别中的跨年龄识别任务,共分两轮:
第一轮需要识别两个对象,第一个对象的识别,王峰和“小度”都已经答对了。第二个对象的识别,现场出现了一个意外状况:
百度人工智能的代表“小度”为一个对象给出了两个匹配答案。这让现场的嘉宾颇感意外。后来发现,原来是识别对象群组中有一对双胞胎,“小度”在识别之后,给出了两个相似度非常接近的答案,一个是72.98%,另一个是72.99%,最后吴恩达现场选择72.99%的照片,匹配正确。但是,也正是在这一识别任务上,从未失利的王峰出错,导致最后输掉比赛。
所以,第一轮的比赛,小度拿下1分,王峰0分。
第二轮比赛,双方都成功识别出照片中的人,均拿下2分。
最后双方比分定格在3:2 ,小度胜出。
Master 和“小度”相继战胜人类
前几日,DeepMind 的围棋程序 Master 在线上连胜60名围棋高手,引起轰动。而今夜,百度的“小度”机器人也击败了人类的“最强大脑”。
谈到 Master 与这次参加《最强大脑》的“小度”的区别,林元庆说,棋类游戏,包括此前的“深蓝”和现在的 AlphaGo,从本质上来说,都还是有限空间搜索的问题,但是,识别不是,识别包括了一些模糊推理的能力。
吴恩达在比赛中也提到:“今天,我们基于强大的数据分析,很容易识别两张近期的照片。但是对于识别整容、化浓妆或者有十几年跨度的照片,我们并没有大量的数据可以分析。所以这是人脸识别技术的世界性挑战,也是今天比赛中最大的难点之一。全世界棋类比赛中顶级的选手很少,但是人脸识别能力每个人都具备。这次人机大战,是顶级的人脸识别选手和擅长棋类游戏的人工智能比拼,很公平。”
在被媒体追问这次比赛的“意义”时,林元庆说,他们的初衷是希望能在《最强大脑》上,与人类的脑力高手进行一个对标(Benchmark),以便了解所做研究的水平究竟处于哪一个阶段。
他提到了人机大战的一个重要意义——对标。最清晰的一个事实是,不管是 AlphaGo、Master 还是小度,这些人机对战都让人们对机器能干什么有了一个更加清晰的认知,同时也给了人更多的想象空间。
《最强大脑》评委之一 Dr.魏说:“机器赢了就机器赢了,这是科技发展的必然结果。这天迟早会到来,只是来的早和晚的事情。人工智能在面孔识别上超过人类应该是2012年,就说人脸识别超过了人类的平均水平,是里程碑事件。那现在,百度大脑超越的人类中出类拔萃的一群人。可以说在这个专业方向上,人工智能的准确率已经达到很高的水准,下一步应该是提高运算的效率和能耗。人工智能的一个个问题,一个一个地解决,将来还得拼接成一个通用机器人出来。但是这个其实很困难,这个是研究的热点。关键是从认知科学上厘清人脑是怎么学习的,人是怎么学习到新的技能的。因为机器也是在学习,就是智力最关键点。智能的核心,实际上是学习能力,如果再加一句的话是适应能力,适应环境的任何改变。这个能力其实人是非常擅长的,要不然我们也不会在这个星球上处于霸主地位,因为我们会学习,会适应。”
两场对战的结果也契合了赫拉利在《未来简史》中的预言:人类迎来第二次认知革命,人工智能和算法终将战胜人类。
从技术角度来看机器的人脸识别
参加比赛的《最强大脑》选手王峰介绍说,他在识别人脸的过程中,会先观察照片上的人脸特征,然后记住这些特征,再进行匹配。林元庆说,机器识别人脸的过程也是如此,四五年之前,可研发人员会凭借人类的经验为机器设计一些特征,从数据里面提取这些特征训练,最后得出规律,训练一个模型。但是最近我们用的深度学习的方法,机器可以自己去学习什么样的特征是有用的,从海量的数据里面学到共性。 这是深度学习强大的地方。
林元庆对新智元介绍说:“我们现在用的还是深度学习的方法,这里面设计的深度学习的算法,做了深度学习的框架,我们会把人脸分成七个部位,在这七个部位上学习哪些特征是非常重要的,不是人来挑选的,是人自动学习的,我们会收集这些数据,收集完之后告诉机器这个人小时候长这样,这个人大了长这样,让机器自己去学,哪一些特征是非常重要的特征。”
通常情况下人脸识别主要步骤:
以比赛为例,现场小度识别蜜蜂少女成员的原理流程图
具体分解如下:
Step 1 人脸检测
根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸,即在一副图像或一序列图像(比如视频)中判断是否有人脸,若有则返回人脸的大小、位置等信息。
来源:王映辉《人脸识别——原理、方法与技术》
Step 2 人脸图像预处理
系统获取的原始图像由于受到各种条件的限制和随机干扰,往往不能直接使用,必须在图像处理的早期阶段对它进行灰度校正、噪声过滤等图像预处理。人脸图像的预处理主要包括人脸对准,人脸图像的增强,以及归一化等工作。人脸对准是为了得到人脸位置端正的人脸图像。图像增强是为了改善人脸图像的质量,不仅在视觉上更加清晰,而且使图像更利于计算机的处理与识别。归一化工作的目标是取得尺寸一致,灰度取值范围相同的标准化人脸图像。
人脸图像的预处理
Step 3 人脸图像特征提取
人脸特征提取就是针对人脸的某些特征进行的。人脸特征提取,也称人脸表征,它是对人脸进行特征建模的过程。
Step 4 人脸图像匹配与识别
人脸识别就是将待识别的人脸特征与已得到的人脸特征模板进行比较,根据相似程度对人脸的身份信息进行判断。这一过程又分为两类:
本次比赛的一个重要特点是识别跨年龄人物的人脸。影响人脸识别的因素有很多,其中影响人脸检测的因素有:光照、人脸姿态、遮挡程度;影响特征提取的因素有:光照、表情、遮挡、年龄、模糊是影响人脸识别精度的关键因素。而在跨年龄人脸检测中影响因素更多。
一般而言,在跨年龄阶段人脸识别中,类内变化通常会大于类间变化,这造成了人脸识别的巨大困难。同时,跨年龄的训练数据难以收集。没有足够多的数据,基于深度学习的神经网络很难学习到跨年龄的类内和类间变化。
根据百度 IDL实验室主任林元庆的介绍, 对于第一点,百度IDL的人脸团队选择用度量学习的方法。即通过学习一个非线性投影函数,把图像空间投影到特征空间中。在这个特征空间里,跨年龄的同一个人的两张人脸的距离会比不同人的相似年龄的两张人脸的距离要小。
针对第二点,考虑到跨年龄人脸的稀缺性。我们用一个用大规模人脸数据训练好的模型作为底座,然后用跨年龄数据对它做更新。这样不容易过拟合。
他说:“将这两点结合起来做端到端的训练,可以大幅度提升跨年龄识别的识别率。”
根据林元庆的介绍,针对人脸识别,百度建立了一个包含 200万人、2亿数据的图片库,比ImageNet大很多。下图是百度人脸训练集与 ImageNet 图片数量的一个可视化对比:
林元庆介绍,在内部数据集上,截止到2016年9月,百度的人脸识别技术已经可以做到2.3%的错误率。
人和机器PK人脸识别,有可比性吗?
在目前的人工智能技术水平下,人和机器比人脸识别,有可比性吗?
我们都知道,机器擅长数据处理和计算,而人类在直觉上会更有优势。节目中的人脸识别任务,涉及面部特征识别、记忆、匹配等。如果把这些任务进行拆分,单个环节来说,人肯定不是计算机的对手。但是综合起来,在跨年龄的人脸识别中,童年的“脸”和成年后的“脸”可能会存在较大差异,所以识别难度不小。要想正确地完成识别,会涉及到“模糊推理”,在这一点上,人类目前较机器还是有优势的。
这场比赛,百度首席科学家吴恩达全程督战,他在节目开场时介绍说:“人类大脑从上百万年前开始就拥有了人脸识别的能力,而机器没有直觉,也并没有久远的进化历史,只能靠分析数据来学习。”
百度IDL主任林元庆说,此番派出“小度”参赛,其实整个团队也没有绝对胜算,比赛中他非常紧张。
根据参赛团队的介绍,现场比赛中有三大难点:
1.识别对象和场景复杂,难度大
识别对象蜜蜂少女队人员众多且每个人在赛场上化妆表演, 不排除有微整形、戴美瞳等因素干扰。此外,挑选的童年照都在0—4岁范围内,与现在成年少女队的年龄跨度比较大,并且,第二回合样本容量大,30 张集体照大约需要在1000-2000个人脸中找到对应的人,年龄跨度也覆盖在80、90后等年龄层中。同时,比赛现场有实时照片传输、现场摄影机捕捉人脸图像晃动、灯光干扰等因素都会影响人工智能的识别准确率。
2.人脸识别技术本身难点
计算机只认识0和1,所以它必须通过无数次的学习来找到人类直觉的规律并将它转变成0和1存储在脑子里,从而模拟人类通过直觉思考的过程。
人脸识别技术研究的困难,不同于普通的图像识别。就人的脸部特征而言,每个人的脸部结构都是相似的,这对于利用人脸区分人类个体不利,还有一些特殊情况,比如双胞胎甚至多胞胎。其次就是表情、光照条件、整容等外因影响。不同的表情、角度观察,光照条件的影响,人脸遮盖物,如口罩、墨镜、头发、胡须,甚至是整容、P图等行为,都增加了人脸识别的难度。
3.双胞胎识别技术
人脸识别是在脸部骨骼上取尽可能多的点,通过计算机把这些点分别与自己已经存储的脸比较,有差别就判断出来了。为什么双胞胎会不容易识别?就是骨骼太相似,导致差别特别细微,所以取的面部骨骼点不够多的话是识别不出来的。
应用:人脸识别1对1到1对N
林元庆对新智元表示,百度的人脸识别技术与其他公司的最大不同在于,现在百度已经研发出1对N的系统。具体来说,之前市场上的系统是1比1的,比如说银行的应用里面,你要提交身份证和人脸的信息,系统会拿身份证照片比对一下是不是同一个人,一张比一张,一比一的比对,市场上基本是这个系统。而公安抓逃犯的系统是1比N的,不过精度不会做的特别高,只是用机器筛一遍,还是需要人去看的。1比N很难做到非常高的精度。
林元庆说:“我们这个系统第一次能够做到很高的精度,目前在百度在自己内部的大楼闸机中已经开始应用。目前的系统里大概是一万人,机器能很精确的识别一万里面的每一个人。我们现在是万人级别,同时还能做到非常高的精度,这个绝对是国内首创,也是我们下面会重点来推的方向。”
乌镇景区目前已经采纳了这一系统。接下来在安防、罪犯识别、打拐等方面都会有应用。
人工智能的发展现在面临的一大难题就是落地的问题,如何找到合适的场景将技术转化,全行业目前都在探索。百度喊出了“科技为生活”的口号,也切实在探索 AI 落地的场景,但是,这一难题不是轻易就能解决的。技术如果一直悬在高空难以落地,对于一个公司来说,所要承受的压力也会非常大。在《最强大脑》上炫完技术后,百度的人工智能会在2017年迎来怎样的发展?还有待观察。