浙大提出 PD-TPE | 用于3D视觉定位任务，特征提取和上下文感知，刷新 SOTA ！

AIGC 先锋科技

发布于 2024-07-31 16:52:07

740

发布于 2024-07-31 16:52:07

文章被收录于专栏：AIGC 先锋科技

浙大提出 PD-TPE | 用于3D视觉定位任务，特征提取和上下文感知，刷新 SOTA ！

三维视觉定位旨在通过自由形式的自然语言描述在3D点云场景中定位目标目标。大多数先前的工作需要编码器-解码器同时跨模态对齐目标目标的属性信息及其与周围环境的关系信息。这导致 Query 的注意力分散，可能过度关注与输入语言描述无关的点。为了缓解这些问题，作者提出了PD-TPE，一个具有双分支解码器的视觉-语言模型。两个分支并行执行 Proposal 特征解码和周围布局感知。由于它们的注意力图不受彼此影响， Query 专注于与每个分支具体目标相关的标记。特别是，作者设计了一种新颖的文本引导位置编码方法，该方法在两个分支之间有所不同。在主分支中，先验依赖于标记与预测的3D框之间的相对位置，这引导模型更加关注靠近目标的标记；在周围分支中，它由视觉特征与文本特征之间的相似性引导，使得 Query 关注能够提供有效布局信息的标记。大量实验证明，作者在两个广泛采用的3D视觉定位数据集ScanRefer和NR3D上分别超越了现有技术水平，提高了1.8%和2.2%。

Introduction

多模态学习是提高人工智能对现实世界理解和感知的关键，其中最基本且重要的模态是视觉和语言。视觉定位（Visual Grounding，VG）作为一种新兴的视觉-语言任务，要求模型识别并定位自然语言描述的场景中的物体。尽管2D图像的视觉定位已经取得了显著成果，但3D点云的稀疏和复杂结构，结合由3D空间上下文引入的语言多样性，为3D视觉定位带来了重大挑战。

在3D单模态目标检测任务取得显著进展的基础上，3D视觉定位任务的主要目标是解决“分类正确但定位错误”的问题，即让模型更好地理解3D场景的空间布局。一些模型[23, 24]试图处理视觉标记，以更好地感知场景中检测到的物体之间的空间关系。其他一些模型[19, 20, 21]则专注于处理自然语言描述，使用文本解耦和参照顺序意识等技术来实现位置和语义上的跨模态对齐。

图1：串行网络架构（a）与作者的并行网络架构（b）的比较。在场景中展示的定位结果中，黄色代表真实框，红色是定位错误的框，绿色是定位成功的框。不同类型的PE作为注意力图的指导。

然而，现有方法主要面临两个未解决的问题。一方面，物体本身的特征（如形状和颜色）与捕获的空间关系特征耦合在一起。前者要求编码器-解码器更多地关注预测框附近的点，而后者要求注意力图更多地关注与目标物体形成有效空间关系的标记。例如，如图1（a）所示，耦合的特征导致注意力图在注意力分布上分散，导致模型定位到同一类别但位置不同的物体。另一方面，视觉和语言模态的信息未能相互理解。在生成注意力图时，现有方法很难直接识别哪些视觉标记与文本中描述的目标周围布局相关，导致定位到错误的物体。

为了解决这些问题，作者引入了一个先进的框架，名为PD-TPE。作者采用双分支解码器并行执行 Proposal 特征解码和周围布局感知，使解码器能够平等地关注 Query Proposal 本身的特征及其与3D场景中其他物体的关系。对于文本特征，句子中语义解耦的组件将文本标记分为主要目标描述和周围布局描述，分别服务于主分支和周围分支。对于视觉特征，作者设计了一种新颖的文本引导的相对位置编码方法，该方法在两个分支之间有所不同。在主分支中，作者基于每个视觉标记相对于 Query 预测的3D框的相对位置计算位置编码，从而为模型关注目标物体本身提供清晰的信息。在周围分支中，作者使用视觉和文本特征之间的相似性来主导编码过程，引导 Query 关注与文本信息中提到的空间布局相关的标记，如图1（b）所示。

作者的主要贡献可以总结如下：

(a)作者设计了一个具有两个分支的并行解码器，每个分支持有不同的注意力图，分别关注目标物体和周围布局；

(b)作者为解码器的两个分支提出了文本引导的位置编码方法，该方法充分利用多模态输入来指导模块关注携带有效信息的标记；

(c)广泛的实验表明，作者的PD-TPE在ScanRefer和Nr3D基准上都取得了新的最佳性能。

Related Works

3D Vision-Language Tasks

视觉和语言模态是机器理解和交互三维现实世界的两个最为关键和基础的部分，它们催生了各种3D视觉-语言任务。3D密集标注（3DDC）[3, 2, 13]要求模型在复杂的3D场景中准确地定位所有目标，并为它们生成描述性标注。Transformer 3D视觉定位（3DVG）[3, 2, 14]接收3D点云和语言描述作为输入，生成相应的边界框以定位目标目标。3D问答（3DQA）[13, 14]为模型提供来自3D场景的视觉信息，目标是回答关于3D场景的给定文本问题。上述所有任务主要关注视觉和语言特征的对齐，包括目标的属性特征（如颜色和形状），以及目标目标与其周围环境之间的关系。在这项工作中，作者专注于3D视觉定位任务（3DVG），尝试让机器同时理解3D点云和自然语言模态的输入。

3D Visual Grounding

先前的研究可以根据整体模型结构分为两阶段方法和单阶段方法。两阶段方法[3, 14, 15, 16]首先独立解析语言输入并执行3D点云目标检测。在第二阶段，将提取的视觉 Proposal 和语言 Query 的特征进行融合，从而有助于定位最佳匹配的目标。早期的作品中[1, 16]，广泛采用基于图的方法来表示和处理检测 Proposal 之间的空间关系，实现在3D场景中的定位。近期研究[14, 15, 16, 17]采用 Transformer （transformers）[18]作为关键模块，通过交叉注意力机制完成模态对齐和特征抽象。

单阶段方法[13, 16]的提出是因为在两阶段方法中，预训练阶段被错误忽视的目标在融合阶段无法被学习或纠正。[13]通过自上而下的语言指导和自下而上的目标性指导，将参照性语句在点云中进行定位。[16]在语言指导下逐步选择关键点，并通过目标导向挖掘模块直接定位目标目标。[15]明确地将句子中的文本属性解耦，并通过位置和语义特征实现在语言和点云之间的密集对齐。这些方法取得了令人印象深刻的结果，但它们的局限性在于，同时学习目标目标及其周围布局的特征会使注意力图的计算变得复杂。为此，作者设计了一个带有并行解码器的单阶段模型，采用位置编码方法来指导注意力图的生成，并完成精确的定位。

Methodology

Problem Formulation

三维视觉定位的目标是根据给定的自然语言描述，在三维点云场景中准确地对目标进行定位。在这个任务中，作者的模型接收一个输入点云，表示为，它代表了一个室内三维场景。这里，是点的数量，是每个点的三维坐标，而是每个点的附加特征，其中3个维度用于定位（XYZ），另外3个维度用于颜色（RGB）。文本输入表示为，其长度为。输出是一组框，它表示对个相应目标的估计，包括框中心的3个维度（XYZ）和框大小的3个维度（长度-宽度-高度）。

Framework Setup

本文框架的结构如图2所示。本节将详细阐述每个模块。

输入模态标记化。输入文本和3D点云通过预训练的RoBERTa（Liu等人，2019）和PointNet++（Qi等人，2017）进行编码，生成文本标记和视觉标记，其中是视觉和文本特征的空间维度，是视觉标记的数量。此外，可选地使用GroupFree（Liu等人，2021）检测器根据Wu等人（2023）检测3D边界框，这些边界框随后被编码为框标记。同时，文本输入根据Wu等人（2023）分解为五个语义组件，使用Schuster等人（2015）；Wu等人（2019）提供的现成工具。

视觉-文本交叉编码器。作者采用BUTD-DETR（Jain等人，2022）的交叉编码器模块进行视觉和文本特征的互调。两个交叉注意力的分支分别将一种特征调制作为 Query ，另一种特征调制作为键和值。该模块的输出表示为文本特征和视觉特征。然后，作者根据预测的置信度分数从中选择前K个目标候选点，这些定义为，其中表示所选 Query Proposal 特征的数量。

具有主分支和周边分支的并行解码器。作者设计了一个具有两个并行分支的解码器，一个用于提取 Query Proposal 的主要特征，另一个用于感知每个 Proposal 周围的周边环境布局。具体来说， Query Proposal 特征首先通过一个自注意力层，并作为每个分支中交叉注意力层的 Query 。

对于文本特征，作者根据分解的五个语义组件将文本分为主要特征和周边特征。例如，在“在厨房的桌子旁放置了一把深棕色木制和皮革椅子。”中，主目标——“椅子”和属性——“深棕色木制和皮革”是主要特征，而其他部分辅助目标、代词和关系是周边特征。它们将分别作为两个分支中文本交叉注意力层的键和值。

视觉特征在两个分支中作为视觉跨注意力层的关键和值。受Shen等人（2024年）的启发，作者为每个分支设计了不同的新型位置编码方法，这些方法将在位置编码部分详细描述。

最终，每个分支中的视觉引导和文本引导特征首先融合在一起，然后生成自两个分支的特征进行融合。Query Proposal 特征更新为，其中表示解码器的第层。

特征和边框的预测头。遵循Wu等人（2023年）的方法，每一层的 Query Proposal 特征被投射到位置和目标语义特征，用于损失计算，其中和分别表示两种类型特征的维度。采用Liu等人（2021年）的边框预测头生成边界框。

注意力图的相对位置编码。位置编码（PE）可以有效地细化注意力图，这对于理解3D场景中标记的上下文信息至关重要。对于3D视觉定位任务，作者更新了解码器中注意力图的计算方法如下：

其中和分别表示 Query 特征和关键-值特征，表示位置编码的结果。

作者编码视觉标记和粗略检测到的目标目标之间的相对位置，使用预定义的表进行网格采样以减少内存开销：

其中，(\mathrm{F}(\cdot)) 是一个非线性函数，而 (\Delta\mathcal{E} \in \mathbb{R}^{K \times N \times 3}) 是计算得到的相对位置。关于这一部分的详细解释，请参阅[2]。

Box-surface Relative Positioning Method.

为了表示个标记和个框之间的相对位置，作者找到每个标记最近的框表面上的点，并使用三维偏移量表示为，如图3所示。

对于一个由中心和大小表示的框，以及一个在框外的位置坐标为的标记，如图3(c)所示，标记的相对坐标可以表示为。框表面上某点的相对坐标可以表示为，因此与之间的距离为：

其中。由于相对位置的对称性，作者只需要考虑三维正半轴方向，这对应于整个相对坐标系的。问题变为找到以下方程的最小值：

极值在临界点处获得，这意味着：

因此，三维偏移量可以表示为：

where and .

The tuples are calculated as follows:

,
,
, where ranges from 0 to , and ranges from 0 to .

When , the token is located inside the box as shown in Fig.3(d). The relative coordinate can be expressed as . Considering only the positive area, the minimum relative distance can be defined as:

The three-dimensional offset for tokens inside the boxes is represented as:

Here, . The offset is taken as the negative of the distance because positive and negative distances indicate different relative positions of the tokens.

与直接使用标记与框中心之间的偏移量作为相对位置（如图3(b)所示）相比，作者的框面相对定位方法结合了相对距离信息和框的形状信息。与[2]提出的顶点相对定位方法（如图3(a)所示）相比，作者的方法在每个跨注意力层的编码过程中只需进行一次，从而更加节省时间和内存。有关详细的消融实验，请参考实验部分。

Text-guided PE for Surrounding Branch.

为了使周边分支专注于包含有效布局信息的视觉标记，作者针对这一任务提出了一种文本引导的方法，以在位置编码后细化注意力图。具体来说，作者在上添加一个偏置，并更新方程式1，设计如下：

其中表示一个非线性函数。是作为视觉交叉注意力键-值特征的视觉特征，是解耦文本中的周边特征，是周边组件的长度。

如图4所示，作者使用视觉特征与周边文本特征的点积来计算它们之间的相似度，表示在个文本组件中的最大相似度。如果一个视觉标记与特定组件相关联，这表明该标记能够提供有效的周边布局信息，从而增强其在注意力图中的对应值；否则，注意力图中的值将会被削弱。

Training Objectives

密集对齐损失由密集位置对齐损失和密集语义对齐损失组成，如下所示：

有关更多实现细节，请参阅文献[21]。

Experiments

Experiment settings

数据集与评价指标。作者在两个常用的数据集上进行实验，分别是ScanRefer[13]和Nr3D[1]。这两个数据集均源自ScanNet [15]中的3D场景，其中包含1201个室内3D场景用于训练，312个用于验证。ScanRefer提供了51,583个人工标注的自然语言描述，涉及800个3D场景中的11,046个目标，官方将其划分为一个包含36,665个样本的训练集和一个包含9,508个样本的测试集。Nr3D包含41,503个语言标注，描述了707个室内场景中的76个目标类别。

对于ScanRefer，作者采用Acc@mIoU作为评价指标，其中m分别设置为0.25和0.5。该指标表示预测边界框与 GT 边界框的交并比(IoU)大于m的比例。作者还提供了两个子集（唯一和多个样本）的结果，其中“唯一”意味着语言描述中只提到了目标目标的一个类别，“多个”则涉及更多干扰候选者。对于Nr3D，实验在Acc@0.25IoU下进行评估。根据是否存在超过2个干扰物，将“简单”和“困难”子集进行划分。根据提供的视角，设置视图相关和视图独立子集。

如表实验（b）所示结果。考虑到顶点相对位置编码带来的较大延迟，作者优先采用Box-surface位置编码方法。

位置编码对不同解码器结构的影响。作者针对解码器结构进行了消融研究，并在表4中展示了结果。将实验（a）与（c）进行比较，作者的设计将解码器的串行结构改为双分支并行结构，使得Acc@0.5IoU从42.26%提升到43.33%（+1.07%），这证明允许解码器平等关注 Query Proposal 本身及其周围布局的特征可以使接地更准确。实验（b）和（d）分别基于实验（a）和（c）的解码器结构，在注意力图上增加了Box-surface相对位置编码。评估结果分别超越其参照实验+2.48%和+1.68%的Acc@0.5IoU。在实验（e）中，作者在解码器的周围分支的位置编码上添加了文本引导的偏置。这帮助周围分支更关注具有有效布局信息的视觉标记，从而将评估结果提升到45.65%的Acc@0.5IoU。

实验（a）是作者的 Baseline ，在400个训练周期中通常在70个周期左右收敛。作者的PD-TPE可以在约50个周期内收敛，并获得更高的评估结果。作者还为两种方法都设置了60个周期的实验。如实验（c）和（d）所示，作者的PD-TPE达到了与实验（b）相当的结果，而EDA仅达到39.72%的Acc@0.5IoU。这一结果表明，作者的方法可以通过较短的训练周期实现高精度的3D视觉定位。

Visualization

在图5中，作者展示了ScanRefer数据集中4个场景的视觉化结果。红色、蓝色和绿色的框分别代表 GT 框、由EDA[23]生成的排名第一的预测框以及由作者提出的PD-TPE生成的框。其他浅蓝色框根据文本信息与上下文目标相关联。这些结果证明了作者方法在理解文本中的上下文信息以推理所指目标目标方面的有效性。一方面，它能充分感知目标本身的特征，避免在提取有效特征（如颜色和形状）时的错误（例如，图5（a）将描述中的黑白显示器识别为白色显示器），以及在目标类别识别上的错误（例如，图5（d）将outman识别为brendn）。另一方面，它能有效地理解目标 Proposal 周围的上下文布局，从而正确地定位所描述的目标（例如，图5（b）（c））。