人脸识别中,随着深度学习模型参数量的增大,所需要训练数据的人工标注量也越来越多。然而人工标注的错误难以避免,当人工标注的可靠性不如模型本身的时候,数据标注所带来的增益会远远低于标注本身耗费的劳动量。此时,需要使用一种合理的方式来利用无标注数据。
该问题与“半监督学习”任务相似,但在人脸识别这类数据量和类别数量都很大的任务中,则存在显著的不同之处:
首先,真实情况下,无标注数据的来源通常没有限制,因此光照、姿态、遮挡等会有很大的差异,这种情况下基于单模型的半监督方法会产生较大偏差。
其次,传统的半监督学习通常假设无标注数据的标签集合和已标注数据的标签集合是完全重合的,从而标签可以在无标注数据上进行传播。
然而,在人脸识别任务中,由于无标注数据来源无限制,因此无法保证获取的无标注数据的标签在已标注数据中出现过。这些差异使得传统的半监督学习无法直接运用在这个问题上。
本文工作不仅突破了这些限制,还证明了无标注数据可以达到和有标注数据相接近的效果。作者用 9% 的有标注数据和 91% 的无标注数据,在 MegaFace 上达到了 78.18% 的准确性,接近使用了 100% 的有标注数据的结果 78.52%。
《Consensus-Driven Propagation in Massive Unlabeled D ata for Face Recognition》论文地址:http://cn.arxiv.org/abs/1809.01407
【今日机器学习概念】
Have a Great Definition
-THE END-
领取专属 10元无门槛券
私享最新 技术干货