目标检测是计算机视觉的基础任务之一,目的是给图像中的目标对象定位和分类。当前主流的目标检测算法都是基于封闭世界假设,即假设所有需要检测的类别在训练集中都有标注。但是实际应用中,目标检测系统面临的视觉世界是开放和动态的,随时会出现未知类别的目标。因此,构建对未知类别目标更加稳健的开放世界目标检测模型,既能持续检测已知类别,又能将未知类别归类为“unknown”,成为一个重要的研究课题。
现有的开放世界目标检测方法虽然可以同时检测已知和未知类别目标,但是它们在检测未知类别目标时存在明显的不足。具体来说,现有方法中生成检测框的方式通常依赖于仅有有限已知类别标注的训练数据,因此这些框对已知类别目标具有偏置,很难覆盖未知类别目标的位置。这样一来,未知类别目标往往被错误地归类为背景,导致未知类别的检测召回率很低。例如在Pascal VOC和MS-COCO数据集上,现有方法中未知类别目标的召回率通常在5%左右,与背景混淆严重。这成为现有开放世界目标检测方法的一个显著弱点。
本文RandBox方法的核心设计动机,是通过随机框移除训练数据中的已知类别偏差,来探索更多可能包含未知对象的区域。具体而言,RandBox的训练过程中使用的是在每次迭代中独立随机生成的提议框,而不是现有方法中依赖已知类别训练数据的提议框生成机制。随机框的产生是与训练数据和已知类别无关的,因此可以有效避免提议框对已知类别的偏置。与现有方法相比,RandBox方法的特别之处在于:
而为什么提出的方法可以解决提到的不足之处?首先,使用随机框可以有效消除训练数据对已知类别的偏置,随机框的位置分布反映了所有可能的目标位置,而不仅仅局限于已知类别目标的分布。这样可以大幅增加覆盖未知类别实例的可能性。另外,新的匹配机制可以更准确地评估每个框包含未知类别目标的概率,避免像现有方法那样错误地将未知目标框归类为背景。这样可以更可靠地识别出未知类别实例。
本文提出的RandBox开放世界目标检测器是该领域中的一项原创性贡献。具体来说,论文作者根据对现有方法存在问题的分析,提出了一个新的视角,即从消除训练数据偏差的角度来建立对未知类别更加稳健的检测模型。基于这一视角,作者设计了在训练过程中使用随机框以及配套的匹配机制。通过构建不依赖于有限已知类别数据的检测流程,RandBox可以更充分地覆盖未知类别实例,并可以更精确地评估各框包含未知类别目标的可能性。在多个数据集上的大量实验验证了RandBox的有效性,取得了state-of-the-art的开放世界检测性能。这不仅推进了该特定任务的技术发展,更意味着开放世界目标检测可以通过消除偏差来实现对未知类别的检测能力增强和对已知类别的泛化能力提升这一互利双赢。因此,本文为构建对未知目标更加智能和稳健的计算机视觉系统提供了 SIGNIFICANT 的新思路和范例。论文的原创性思想为相关技术在应对复杂动态环境时的进一步演进提供了有力支持。
首先回顾下一些基础的概念。现有的开放世界目标检测方法主要基于两种检测器框架:两阶段的Faster R-CNN和端到端的DETR。这两种检测器的主要差别在于提议框(proposals)的生成方式。Faster R-CNN使用基于已知类别训练的数据集预训练的区域提议网络(RPN)来生成proposals;DETR使用transformer decoder直接在图像特征上生成proposals。当前方法将检测器生成的predictions如何分为Known-FG、Unknown-FG和BG三部分。Known-FG通过计算proposals与ground truth的匹配度分数进行选取,像Faster R-CNN使用IoU,DETR使用考虑类别概率的bipartite matching。Unknown-FG由未匹配的proposals中分数最高的几个组成。BG为其余未匹配的proposals。来看现有方法的训练目标,包括Known-FG上的类别交叉熵损失和边界框回归损失,以及Unknown-FG和BG上的类别交叉熵loss
Known-FG即检测器匹配到的与ground truth相对应的predictions。论文公式(1)给出了Known-FG上的损失为分类loss
和回归loss
的加和:
其中
通常使用交叉熵损失或focal loss,
是平衡权重,
使用smooth L1损失。
和
分别是ground truth的类别和边界框。
和
是预测结果。
Unknown-FG是未匹配的predictions中分数最高的几个。BG是其余未匹配的predictions。由于两者都没有ground truth的边界框,因此只计算分类loss
:
在训练时,RandBox为每张图像随机生成500个框作为检测proposals。具体而言,每个框的4个坐标(中心点x、y和高宽)都是从标准正态分布中随机采样得到,然后进行截断和缩放到[0,1]范围内。测试时移除随机性,使用预定义的1万个框。
Known-FG使用动态K匹配器获得。即每个ground truth框与topk个proposals匹配,topk动态选择为与其IoU最大的proposals数。
Unknown-FG选择分数最高的topk个proposals组成。关键是提出了新的匹配分数计算方式:
即对每个类别(含“unknown”)计算sigmoid值并求和。这可以评估proposal包含前景目标的可能性,不会错误地将未知目标框归为BG。
分析实验结果,我们可以得到如下结论:
论文进行了详尽的消融实验来验证RandBox方法的有效性。实验结果表明,RandBox的显著效果确实源自其两大创新组件的结合,即随机框和新的匹配机制。具体而言,仅使用随机框或匹配机制都可以部分提升指标,但两者的集成可以产生更强的协同效应,各指标获得了大幅度提升。这证明随机框的区域探索和新的匹配机制对unknown对象的精确识别都是必不可少的。在随机框的生成策略上,使用更多的框更佳,高斯分布与均匀分布效果相近。在推理阶段,扩大检测框的数量范围也可以进一步增强已知类别和未知类别的召回率。综上,消融实验充分验证了论文提出的RandBox方法中的创新设计均发挥了关键作用,各组件相互协同,使RandBox相比于现有方法取得了显著进步。
本文提出的RandBox开放世界目标检测器具有以下几个突出优势。首先,RandBox使用随机生成的proposals,可以有效消除训练数据中的已知类别偏差,通过随机性探索更广阔的样本空间,从而可以更充分地覆盖未知类别的潜在目标区域。其次,RandBox设计了新的匹配机制来评估proposal包含未知目标的概率,避免了将未知目标框错误地归类为背景的问题。再次,RandBox不仅可以显著提升未知类别的检测召回率,还可以减少模型对有限已知类别的过度拟合,最终取得了开放世界检测任务上分类、定位指标全面提升的卓越效果。最后,RandBox算法设计精巧、训练和部署高效,论文内容丰富充分,多组实验验证了RandBox的优异性能。综上,RandBox是一种高效、实用的开放世界检测技术,为构建更加智能和健壮的计算机视觉系统提供了宝贵借鉴。
尽管RandBox在开放世界目标检测任务上取得了显著进步,但作为一项初步探索研究,该方法还存在一定的局限性。具体来说,RandBox的随机框生成策略相对简单,可能无法完全适应未知类别目标的多样分布。另外,匹配机制基于特征迁移的假设也存在一定脆弱性。从计算效率上看,RandBox的训练过程由于频繁生成随机框会增加计算量。从算法比较上看,论文还缺乏与更多基于transformer的检测器的对比。从方法拓展性上看,当未知类别量进一步增长时,RandBox的稳定性仍有待验证。此外,围绕随机框的理论分析还有进一步严密化的必要。
本文提出了RandBox算法,用于开放世界目标检测任务。关键创新是使用随机生成的框作为检测proposals,以及设计新的匹配机制。随机框可以有效消除训练数据的已知类别偏差,配合新的匹配机制可以更准确地评估proposal包含未知类别目标的概率。在Pascal VOC和MS-COCO数据集上,RandBox实现了state-of-the-art的开放世界检测性能,同时显著提高了已知和未知类别的检测准确率。消融实验进一步验证了RandBox的设计改进都发挥了重要作用。总体而言,RandBox为构建对未知目标更加稳健的开放世界检测模型提供了有效范例。未来研究可扩展RandBox处理更多类别、探索更先进的随机框生成策略等。
本文分享自 GiantPandaCV 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!