最近在几个中文网站都看到类似的文章下着耸动的标题”人脸辨识系统是否有种族、性别歧视?”故事源自于纽约时报的一篇文章以及其所引用麻省理工学院最近发表的某篇论文。大意是说经过实测三家公司(Microsoft, IBM, 以及国内的Face++)的人脸辨识API(应用程序接口), 发现在深肤色的人种上,辨识效果奇差,甚至错误率达到35%。
基于好奇,我把两篇出处文章都找出来看了一下。其实这里的「人脸辨识」只是人脸的性别属性侦测(男或是女),并非较复杂的人脸辨识系统。
这三家公司的在线系统,应该都是使用卷积神经网络(CNN; 深度学习网络针对影像的特别结构)的作法,我们实验室内部也有一套系统,在数十种人脸属性(例如:性别、种族、年龄区间,戴眼镜、墨镜等)的辨识上,正确率已经相当的高了,尤其是高画质的正脸相片。
我的猜测单纯是训练数据的问题,因为深色肌肤的女性数据本来就是少数,所以当初训练评测的时候,并没有特别被注意。而且这类别也可能不是公司产品重视的标的族群。
过去一段期间协助几个产品上线,每个产品都有它想解决的标的、客群、应用情境,数据绝对是训练深度学习网络重要的关键,公司内部得再花时间以及经费来额外收集数据协助产品落地,不可能单用网络上学术界常使用的数据集。所以,训练数据的累积,绝对是智能技术公司的珍贵资产。
当然,如何以最低成本收集所需的训练数据,这在学术界或是Internet公司都是行之有年的研究以及工程策略上的问题。在视觉辨识使用的训练数据,一般而言都是利用社群媒体(例如:Flickr、Instagram、YouTube等)上大量的(免费)照片、视频、文字等,下载之后,利用人工(可以自行雇用或是利用Amazon Mechanical Turk)来标注。
当然也可以利用算法自动清理后作为训练的样本。为省下昂贵的人工标注,我们在2013年曾尝试过几种自动收集过滤的方式,作为人脸属性侦测器的训练数据。在这个工作当中,我们还真的发现地域性必须考量进来,所以照片的GPS位置也是个考量因素,因为多样性(Diversity)是训练数据的重要特质。这也刚好可以解决文前所提的深肤色女性辨识效果不好的问题!
关注DIGITIMES,产业资讯一手掌握
领取专属 10元无门槛券
私享最新 技术干货