本文介绍的是CVPR2020 Oral论文《Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels》,作者来自商汤搜索与决策团队与中科院自动化所。
作者 | 商 汤
编辑 | 丛 末
论文地址:https://arxiv.org/pdf/2005.08455.pdf
1
导语
在CVPR 2020上,商汤搜索与决策团队与中科院自动化所合作,针对超大规模多标签目标检测任务,提出了有效的解决方案。该工作以真实世界中的通用检测任务为背景,分析了主要面临的痛点,在损失函数和采样方法上提出了创新,有效地改善了痛点并在量化指标上有显著提升。
2
背景及分析
在深度学习中,数据始终是至关重要的因素之一。随着硬件与算法的发展,在学术界和工业界,对数据规模的需求也越来越强。然而在大规模数据的场景下,出现了许多新的挑战,也使得算法的边界将产生新的定义。
本文以Open Images数据库为例来模拟真实世界下的超大规模检测,该数据库拥有170万训练图片,1240万框图并包含500个目标类别。在该场景下,我们分析了主要面临的痛点问题:
图1
1、显式多标签问题
与传统的单标签目标检测不同,真实世界下的物体往往具有多种标签类别,以图1(a,b)为例,目标可同时具有多种并列的标签类别,也可同时具有父子继承关系的多标签类别。
2、隐式多标签问题
超大规模数据由于其规模,往往采用机器辅助人工的手段进行标注,在训练数据中会频繁出现漏标和混标的情况。以图1(c,d)为例,部分目标会出现缺失子类标签的情况,另一些易混淆类别的目标会随机性地互标。
3、类别的长尾效应
在学术集中,训练数据的类别一般位置在较均衡的分布,然而在实际应用中,类别的分布呈现出严重的长尾效应。
3
多标签问题的解决方案
面对显示和隐式的多标签问题,检测中常用的softmax将导致多标签之间产生响应值的竞争。这种竞争不仅使得多标签的预测概率明显降低,还会导致训练过程中优化目标的方向错误。
反传梯度为:
其中表示目标的类别响应,代表该目标的positive标签个数,为positive标签集合,表示每个类别的二分标签。
针对以上观察,本文提出了concurrent-softmax,在训练和测试过程中,根据目标的多标签和类别的隐性依赖关系输出每种类别的概率值。该算法有效地解决了训练过程中的多标签优化难点,并改善了预测过程中多标签的竞争问题。
反传梯度为:
其中表示在训练数据中统计的类别相对于类别的共存概率分布。
表1展示了concurrent-softmax与传统loss的结果对比,表2展示了concurrent-softmax在训练和测试时的效果。
表1
表2
4
长尾效应的解决方案
长尾效应的主要痛点主要在于部分类别出现频率过高,部分类别出现频率极低,天然采样方法从而导致检测器对稀少类欠拟合。典型的解决方案是均匀采样法,即每种类别图片的采样频率一致,然而此举将导致对稀少类的严重过拟合,且高频类别中大量的训练数据无法被采样到,导致高频类的训练也不充分。本文提出了混合采样和混合训练法以渐进式地逐步改善以上两个问题。
首先,我们以天然采样为基础,设计了混合采样方式,其中天然采样方式下的单类采样频率为:
均匀采样频率为:
混合采样频率则设计为:
其中表示某类别图片数量,表示平滑参数,定义如下:
该采样方式能有效的增加稀少类的采样频率并缓解过拟合。表3展示了混合采样方式在性能上的明显提升,图2 分别展示了不同平滑稀疏下采样方式对高频和低频类的单类精度影响。
表3
图2
其次,我们采用混合训练方式,即用天然采样方法预训练模型,并采用混合采样方式微调模型,保证了高频类的每个样本都被采样过,保证了对高频类的充分学习。表4展示了我们的方法最终的性能表现。
表4
5
结语
该文章对真实场景下的大规模多标签目标检测问题做了较为全面的分析,并提出了有效可靠的解决方案,为未来类似场景下研究提供了一定的经验和思路。