前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >弗吉尼亚大学、加州理工学院从单个RGB图像中检测和定位3D空间中的物体 !

弗吉尼亚大学、加州理工学院从单个RGB图像中检测和定位3D空间中的物体 !

作者头像
AIGC 先锋科技
发布2025-01-16 15:25:23
发布2025-01-16 15:25:23
950
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

在这项工作中,作者首次研究了开放词汇单目3D目标检测,这是一个新任务,旨在从单个RGB图像中检测和定位3D空间中的物体,而不受限于预定义的类别集合。 作者正式化这个问题,建立 Baseline 方法,并引入了一种无类别方法,利用开放词汇2D检测器并将2D边界框提升到3D空间。 作者的方法将2D中物体的识别和定位与估计3D边界框的任务解耦,从而可以在未见类别的情况下实现泛化。此外,作者提出了一种目标感知的评估协议,以解决现有数据集中存在的矛盾,提高模型性能评估的可靠性。 在Omni3D数据集上的广泛实验表明,所提出的方法在零样本3D检测对于新目标类别是有效的,验证了其强大的泛化能力。 作者的方法和评估协议有助于开发能够在实际环境中有效运行的开放词汇目标检测模型。

1 Introduction

识别单张图像中的物体一直是一个长期存在的计算机视觉任务,在机器人学和AR/VR等领域有广泛应用。在过去的几十年里,二维目标检测——在二维图像平面上识别和定位物体——在深度学习技术的进步 和大型标注数据集的推动下取得了显著的进步。然而,仅识别固定的一组物体是有限的,因为实际环境中物体的多样性极大;仅在二维空间中检测物体对于大多数实际任务也是不足够的,因为世界及其物体存在于三维空间。

为应对这些挑战,近期的一项研究专注于开放词汇2D目标检测(图1b),以识别出固定类别之外的物体。另一项研究探索了单目3D检测任务[5, 37, 47, 53](图1c),将检测能力从2D扩展到3D空间。尽管在这两个领域进行了大量研究,但这两个领域的交叉——开放词汇单目3D检测,称为OVMono3D(图1d)——仍然 largely 未得到探索。

在这项工作中,作者旨在填补这一空白。OVMono3D任务涉及在度量3D空间中检测和定位任何类别的物体,包括在训练过程中未见过的全新类别。作者在这项任务中确定了两个主要挑战:

首先,缺乏一个明确定义的任务设置和标准化评估协议,这使得一致的模型评估变得复杂;

其次,标注详细3D边界框的标签数据稀缺且质量有限,这需要大量的人力(图2和图3)。

为了应对这些挑战,作者首先提出了一个正式的任务定义和一个简单的协议,以减轻评估中标注问题的影响(例如,缺失标签)(见第3节)。作者的评估指标使得可以直接在不完备的3D标注下进行性能评估,这对于在实际场景中高效评估检测系统特别有用,因为在标注每个目标时既不切实际又容易出错。

在OVMono3D中,一个独特的挑战是缺乏大规模的具有高质量标注的3D数据集(图2)。因此,作者采用了一种将物体识别和定位任务与估计其3D边界框的任务解耦的方法。作者首先考虑了一个简单的无训练方法,该方法通过几何原理将来自现成的开放式词汇2D检测器[12, 32]的2D检测从现货解耦到3D,称为OVMono3D-GEO(图4a)。尽管在一般情况下,这种方法简单且有效,但作者发现它对物体遮挡缺乏鲁棒性。

为了应对这个问题,作者然后引入了一种数据驱动的方法,即OVMono3D-LIFT,该方法可以将2D检测提升到3D(见图4b)。作者对该方法的设计空间进行了全面的探索,包括网络 Backbone 、2D基础检测器和数据集大小等选择。作者的实验表明,OVMono3D-LIFT在检测3D中的新物体方面达到了最先进的性能,并在野外图像上展示了强大的泛化能力(见图7)。

作者总结了作者的贡献如下:

  1. 作者对开放词汇单目3D目标检测进行了首次全面研究,正式定义了该任务和评价指标,并广泛探索了几个 Baseline 方法的设计空间。
  2. 提出的OVMono3D-LIFT有效地将2D识别和定位任务与3D空间估计任务解耦,相比其他基准方法实现了优越的性能。
  3. 作者对设计选择进行了深入分析,并在野外图像上的单目3D检测中展示了作者方法的有效性。

2 Related Work

开放词汇2D目标检测的目标是在固定预定义类别之外识别和定位2D图像中的物体。利用大规模2D数据集,这一领域取得了显著的进展。一些方法使用预训练的视觉语言模型[24, 41],利用冻结的文本特征来检测新类别。其他方法在广泛的检测、定位和描述数据上进行预训练,以对区域-文本特征对齐。例如,Grounding DINO[32]结合了基于地面的预训练以及跨模态特征融合,而YOLO-World[12]使用区域-文本对比损失和重新参数化来提高准确性和效率。然而,这样的大规模标注在3D检测中成本高昂;因此,作者研究了将现有开放词汇2D检测器适配到3D检测的方法。

开放词汇3D目标检测。该任务旨在从3D中识别任何类别的目标,包括在训练过程中未见过的目标。以前的研究主要专注于以3D点云为输入的3D检测任务。[33] 首次提出一个使用ImageNet1K图像 Level 的分类监督的开放词汇3D检测器。[34] 利用一个预训练的2D检测器的2D边界框来构建目标的局部定位的伪3D标签。[58] 利用各种2D基础模型来增强3D开放词汇检测的性能。最近,OV-Uni3DETR [54] 提出一个同时支持点云和图像的多模态开放词汇3D检测器。相比之下,作者的工作专注于只需要RGB图像作为输入的单目3D检测任务,不假设在训练或推理阶段有点云数据可用。

单目3D目标检测指的是利用从单视图像中推导出的3D边界框来识别和定位场景中的物体。早期研究主要针对户外或室内环境,专注于特定应用,如城市区域自动驾驶和房间布局估计。Omni3D数据集的发布使得Cube R-CNN [5]成为首个实现单目3D目标检测统一的数据集,允许检测器在多种场景类型上有效应用,显著提高了其泛化能力。

随后的UniMODE [30]引入了第一个成功的基于BEV的单目3D目标检测器,能够在室内和室外环境运行,展示了在不同环境中的灵活性。然而,大多数方法都存在局限性,即使是像Cube R-CNN [5]和UniMODE [30]这样的高级模型也受到封闭词汇的限制,限制了它们识别或检测在训练过程中未包括的物体类别的能力。为了解决这个限制,作者的工作重点是探索单目开放词汇3D检测的潜力。

3 Open Vocabulary Monocular 3D Detection

Task Definition

正式地,给定输入图像 和一个文本 Prompt ,其中 包含来自开放词汇集 中的所有可能类别名称。该任务的目标是预测一组目标 ,其中:

表示目标 的预测类别标签。

是摄像坐标系中的 3D 边界框参数,定义在度量空间中。

词汇集C被分为两个子集:_基础类别_ C_base,在训练过程中可见,以及_新类别_C_novel,在训练过程中未见,仅在推理过程中评估。模型被训练用于预测 C_base中的物体3D边界框,并泛化到C_novel,无需额外微调。

Evaluation Metrics

标准度量。基于交并比的IoU的AP3D(平均精确率)是闭合词汇3D目标检测任务中广泛使用的标准度量方法[5, 30]。然而,直接将传统评估协议应用于OVMono3D存在挑战,因为3D数据集标注中存在以下常见问题:

缺失标注:综合3D标注通常由于成本高昂而不切实际。图2(a)展示了Omni3D [5]中这一问题的一个示例。

命名歧义: 在标注过程中,目标可能会使用不同的约定或策略进行 Token (例如,表格与桌子)。标准的开放式词汇2D检测方法通常会 Prompt 具有可能类别的详尽列表的2D检测器,这可能导致具有与数据集标注不匹配的类名的正确预测,尤其是在定义模糊或重叠的类别的情况下,如图2(b)所示。

针对这些问题,作者提出了一种定制的评估方法,该方法只考虑每个图像中具有真实标注实例的类别。具体来说,作者不是为2D检测器提供一个可能的类别的完整列表,而是只 Prompt 它每个图像标注中存在的类别名称。由于人类标注员通常在一个图像中为同一类别 Token 所有实例,具有真实标注的类别很可能是完全标注的。

作者的目标感知评估通过只关注真实标注中的类别,防止了缺失标注对指标的负面影响。同时,它还排除了可能会分散二维检测器注意力的无关类别。如图2(c)所示,通过关注相关类别,这种方法可以减轻缺失标注的影响,减少类别歧义,从而使模型对3D检测能力的评估更加准确。

4 Methodology

作者的方法基于两个最先进的框架:单目3D检测的Cube R-CNN [5]和面向开放词汇(OV)2D检测的Grounding DINO [32]。在本节中,作者首先简要介绍这两个框架;然后介绍作者为解决OVMono3D提出的两个拟议方法。

Preliminaries

Cube R-CNN[5] 是一种最先进的单目3D检测模型,它从大规模3D数据集(即Omni3D)中进行训练。它扩展了Faster R-CNN[44],并引入了一个3D立方体头。使用2D区域 Proposal 作为输入,立方体头使用ROI池化器提取局部图像特征,然后使用MLP预测3D边界框。每个3D边界框 由其几何参数定义:

位置: , 物体在度量空间中的质心坐标。

_方向性_:用连续的6D注中心旋转 [69]。

立方体CNN的训练目标是:

其中, 包括来自2D检测Head [44] 的分类和边界框回归损失, 是3D立方头带来的损失,而表示不确定性分数。3D损失 包括每个3D属性 [50] 的解耦损失:

在AI学术论文中,变量组表示2D中心位移、深度、尺寸和旋转的变量集合。每个解耦损失通过在构建预测3D边界框时,用真实值替代其他预测变量,将特定组的错误与其他预测变量的预测值分离。整体损失使用Chamfer Loss比较预测的3D边界框与真实值:

地平线DINO[32]是OV 2D检测领域的领先框架,它将基于Transformer的DINO检测器[59]与地面预训练相结合。由于其卓越的性能和强大的零样本泛化能力,作者将预训练的地平线DINO作为作者方法中的默认OV 2D检测模型。在5.2节中,作者将提供关于不同基础2D检测模型对作者方法的影响的消融研究。

OVMono3D-GEO: Geometric 2D Unprojection

为了从单张图像中执行OV 3D检测,一种简单的方法是使用几何原理将2D检测解算到3D。具体来说,给定输入图像,文本 Prompt ,以及由OV 2D检测器[32]预测的2D边界框及其类别标签,该方法的过程如下。

对于每个检测到的物体,使用分割模型(e.g., SAM [26])获取实例分割 Mask ,深度估计模型(e.g., Depth Pro [4])生成深度图。使用相机内参矩阵将中的像素投影到3D空间,形成点云。在这里,和表示图像中的像素坐标,每个3D点被计算为:

为了估计3D边界框参数 ,主成分分析(PCA)确定 的方向 ,维度 和质心 。DBSCAN [14] 用于去除噪声 Mask 和深度预测的异常值,提高鲁棒性。

几何方法从2D检测中重构3D边界框,而不依赖学习的3D属性,为评估OV 3D目标检测模型提供了一个非学习基础的基准。其准确性取决于D和Si的质量,并且对遮挡敏感,可能导致重构的边界框不完整和准确性降低。

OVMono3D-LIFT: Class-Agnostic 2D Lifting

鉴于几何基础方法的局限性,作者提出利用单目3D标注构建数据驱动模型。如图2所示,3D标注远远少于2D标注。为解决这个问题,作者利用现成的2D数据驱动先验来提高3D性能。具体而言,作者引入了OVMono3D-LIFT,将OV单目3D检测分为两个阶段:(1)使用现成的OV 2D检测器在2D中识别和定位物体,以及(2)无类别地将2D边界框提升到3D立方体。

给定一张图像I,一个文本 Prompt T,以及由OV 2D检测器[32]预测的2D边界框类别标签,OVMono3D-LIFT采用一个预训练的视觉Transformer(ViT-B/14) Backbone 网络来提取图像特征图,其中是特征维度。一个简单的特征金字塔(SFP)[29]模块生成三个具有缩放因子0.5,1和2的特征图,形成一个多级分层的金字塔。预测的2D边界框被用作感兴趣区域(ROI)池化的区域,提取大小为的局部物体特征。这些特征被输入到立方头中,如第4.1节所述,以预测3D属性。与[5]不同,作者的属性预测头是无类的,而他们的方法使用特定类别的层和每类平均大小统计,这限制了一般化到开放词汇。训练目标与Cube R-CNN相同,如第4.1节所述。

Baseline 方法。一种数据驱动的替代方法是直接将OV 2D检测器扩展到3D。具体而言,作者使用Grounding DINO[32]的最终解码层输出特征作为目标表示,然后通过MLP进行3D属性的预测。尽管这种方法很简单,但它并没有利用预训练图像编码器(DINOv2[38])。因此,作者将它用作基准进行比较。

作者评估了该方法的两种变体:

(1) G-DINO-3D (FZ),其中只有额外的MLP是可训练的,其他参数保持不变, (2) G-DINO-3D (FT),作者在微调所有网络参数。

两种变体都初始化使用Grounding DINO的预训练权重,并遵循与Cube R-CNN中概述的训练目标相同,如第4.1节所述。

5 Experiments

Experimental Setup

数据集。实验采用Omni3D [5] 数据集,这是公开可用的针对单目3D目标检测的最大的跨室内和室外场景的数据集。Omni3D 经过重用和组合自六个已建立的来源,包括 SUN RGB-D [51],ARK-itScenes [2],Objectron [1],HyperSim [45],nuScenes [6] 和 KITTI [15]。它包含大量的234k图像,300万个 Token 的3D边界框,涵盖98个独特的物体类别。

在训练过程中,作者使用在50个类别Cube R-CNN [5]上进行训练的50个类别作为模型训练的基础类别。在评估时,作者从剩下的类别中选择22个类别作为新类别。这些类别是根据两个标准选择的:测试实例的数量和类别命名的精确度。为了便于详细评估零样本泛化能力,作者进一步根据目标可见性将这些类别划分为_容易_和_困难_子集。容易的类别包括_面板、打印机、绘画、微波炉、托盘、讲台、手推车和电车,而其余类别组成了困难子集。

作者报告了Omni3D中所有50个基础类别和22个新类别的平均AP3D,以及在不同IoU3D阈值(范围为[0.05,0.10,...,0.50])下的评估结果。除特别说明外,所有评估均遵循作者目标感知的评估协议(见第3.2节)。

除了标准IoU指标外,作者还报告了归一化匈牙利距离(NHD)[3],它提供了更精确的评价。NHD使用匈牙利匹配算法计算预测立方体角与真实地面2D边界框之间的归一化距离。因此,对于具有不同2D输入的多种方法,其NHD值不直接可比。为了分离不同预测属性对整体3D边界框预测的错误贡献,作者报告了分离的NHD(位置(XY)、深度、尺寸和姿态)。对于每个属性,作者计算一个使用该属性预测值的分离3D边界框的NHD,同时设置其他属性为真实值,并与真实立方体进行比较。

实现细节。作者的实现基于PyTorch3D [43]和Detectron2 [56]。作者使用DINOv2 [38]作为图像特征编码器,在训练过程中冻结所有参数。所有实验均在四块NVIDIA A100 GPU上进行。模型在116k步长下进行训练,批量大小为64。作者使用0.012的初始学习率,在训练时间的60%和80%时,学习率衰减为原来的十分之一。在训练期间,应用包括随机水平翻转和缩放在内的图像增强。

Model Performance

图5展示了在Omni3D测试集上的定性结果。与Cube R-CNN [5]相比,OVMono3D-LIFT不仅检测到基础类别中的目标,还检测到在训练时间内未见过的全新类别。

新类别性能.Tab.1显示,OVMono3D-LIFT在 novel 类别上明显优于 Baseline 方法。OVMono3D-GEO由于对遮挡和 metric 深度图估计的不准确性表现出较低性能。G-DINO-3D (FZ) 冻结了 2D 检测参数,导致目标特征不适合 3D 检测。相反,G-DINO-3D (FT) 调整了模型,降低了其原始 OV 检测能力,因为单目 3D 检测缺乏 2D 中的广泛检测和定位标注。因此,这些方法是次优的。相比之下,OVMono3D-LIFT 有效地利用了 2D 数据驱动的先验知识,包括 OV 2D 检测器和自监督 2D 特征,通过将 OVMono3D 任务分解为 OV 2D 检测和 2D 到 3D 解投影。这种方法减轻了 3D 中低质量且稀少的标注问题,从而取得了优越的性能。

基础类别性能.表2 对比了 OVMono3D-LIFT 与 Cube R-CNN 在基础类别上的表现,使用了不同的 2D 边界框输入。当使用 OV 2D 检测器的预测作为输入时,由于 OV 2D 检测器在 Omni3D 测试集上的零样本性能较低,OVMono3D-LIFT 表现较低。相比之下,当使用 Cube R-CNN 的 2D 预测时,OVMono3D-LIFT 实现了与 Cube R-CNN 可比的表现。值得注意的是,Cube R-CNN 利用了每个类别的高斯先验分布来表示物体尺寸和深度,突显了 OVMono3D-LIFT 在不依赖此类先验的情况下实现优越性能的优势。此外,作者还提供了使用真实 2D 输入的结果作为参考。

Analysis

评估协议.表.3显示,作者的目标感知评估在基类和新型类别设置下都导致了指标的增加。即使是原始Cube R-CNN,作者的方法在AP2D和AP3D上都取得了改进,表明其在消除缺失标注的不利影响方面具有有效性。在新型类别上,作者的目标感知评估显示了显著的指标值收益。这种改进尤为重要,因为新型类别通常较为罕见且尺寸较小,当模型在 Prompt 大量可能类别时,它们更难被检测到。

解耦度指标。表4展示了不同属性预测的整体和解耦度NHD。对于这两种方法,目标深度预测始终对总体预测产生最大错误。这表明目标深度估计是作者任务的主要 Bottleneck 。此外,OVMono3D-GEO中的大小和姿态预测误差更大,这表明基于几何的方法对这些预测无效。这强调了开发基于学习的方法的必要性。

2D Bounding Box Input.表5评估了2D检测器对2D和3D检测性能的影响,针对新类别进行测试。作者测试了两种最先进的2D检测器:YOLO-World [12]和Grounding DINO [32],同时与真实2D边界框作为参考。

预训练 Backbone 网络选择。表6显示了预训练特征提取器对新颖类别3D检测性能的影响。DINOv2在所有评估指标上实现了最佳性能。这一结果强调了DINOv2的表示对3D检测任务的有效性。作者的发现与最近的研究一致,表明DINOv2在理解深度、多视图对应和相对姿态[17, 27, 62]方面具有强大的零样本学习能力,证明了DINOv2的特征非常适合这项任务。

训练数据扩展定律。图6显示了作者的模型在训练数据规模下的AP3D得分。这强调了在开放词汇单目3D目标检测任务中数据集规模的重要性,并表明作者的模型可能通过更丰富的训练数据实现更好的性能。

合成数据是否有助于提升性能?表7展示了合成数据对OVMono3D-LIFT性能的影响。当合成数据与真实数据同时纳入时,在检测已见类别物体时,性能略微提升1 AP3D点,而对新类别性能基本无影响。这些发现表明,尽管合成数据可以在封闭词汇3D目标检测任务中提升模型性能,但对检测未见物体的好处微乎其微,从而限制了其在开放词汇3D目标检测场景中的实用性。

Zero-Shot Generalization Performance

图7展示了作者在COCO [31]中的野外图像上进行的OVMono3D-LIFT预测。作者使用内在参数,,来可视化预测结果,其中是输入图像分辨率。结果表明,作者的预测的2D投影与物体很好地对齐,而且它们的顶部视角与视觉场景布局非常匹配。即使在完全超出分布类别如大象和苹果的情况下,作者的方法也能产生有前途的结果。这表明作者的模型在现实世界图像上展示了零样本泛化能力。

6 Discussion

作者研究了OVMono3D,即使用单张图像识别和定位任何类别3D物体的一个未充分探索的任务。作者识别出了独特的挑战,特别是数据稀缺和标准评估指标的局限性。

作者提出了一些简单而有效的方法,包括基于几何的OVMono3D-GEO和基于学习的OVMono3D-LIFT,这两种方法都将2D检测与3D边界框预测分离开来。

这样的设计使得可以充分利用预先在大规模数据集上训练的开源2D检测器。作者的分析指出了框架中的关键组件,包括预训练图像编码器、基础2D检测器和数据集缩放的影响。作者还进一步展示了作者的方法在野外图像上的零样本泛化能力。

作者的发现表明,数据集规模和准确的深度感知仍然是这个任务的主要 Bottleneck 。

一个有前途的方向可能是开发无监督学习,以利用大量无标签图像的丰富性。作者希望这项工作能激发未来对这个任务的研究,以推动其进步。

参考文献

[0]. Open Vocabulary Monocular 3D Object Detection.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Open Vocabulary Monocular 3D Detection
    • Task Definition
    • Evaluation Metrics
  • 4 Methodology
    • Preliminaries
    • OVMono3D-GEO: Geometric 2D Unprojection
    • OVMono3D-LIFT: Class-Agnostic 2D Lifting
  • 5 Experiments
    • Experimental Setup
    • Model Performance
    • Analysis
    • Zero-Shot Generalization Performance
  • 6 Discussion
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档