TPAMI 2024 | 逐点监督下的噪声标注建模

小白学视觉

发布于 2024-09-18 13:53:42

590

发布于 2024-09-18 13:53:42

文章被收录于专栏：深度学习和计算机视觉

题目：Modeling Noisy Annotations for Point-Wise Supervision

点级监督下的噪声标注建模

作者：Jia Wan; Qiangqiang Wu; Antoni B. Cha

摘要

在计算机视觉任务中，如人群计数和人体姿态估计，广泛采用了逐点监督。在实践中，点注释中的噪声可能会显著影响算法的性能和鲁棒性。在本文中，我们研究了逐点监督中注释噪声的影响，并为不同任务提出了一系列鲁棒的损失函数。特别是，点注释噪声包括空间位移噪声、遗漏点噪声和重复点噪声。空间位移噪声是最常见的一种，存在于人群计数、姿态估计、视觉跟踪等场景中，而遗漏点和重复点噪声通常出现在密集注释中，如人群计数。在本文中，我们首先通过将真实位置建模为随机变量，将注释点视为真实位置的噪声观测，来考虑位移噪声。中间表示（由点注释生成的平滑热图）的概率密度函数被推导出来，并使用负对数似然作为损失函数，以自然地模拟中间表示中的位移不确定性。遗漏和重复噪声进一步通过经验方式建模，假设噪声以高概率出现在高密度区域。我们将该方法应用于人群计数、人体姿态估计和视觉跟踪，为这些任务提出了鲁棒的损失函数，并在广泛使用的数据集上实现了优越的性能和鲁棒性。

关键词

噪声点注释，人群计数，对象计数，跟踪，姿态估计，深度学习

I. 引言

点注释在计算机视觉任务中得到了广泛的应用，例如人群计数[1]、[2]和人体姿态估计[3]、[4]。在人群计数中，一个坐标被注释来大致指示图像中一个人的位置。尽管我们更关心图像中的总人数而不是他们的精确位置，但粗略的位置为人群的分布提供了重要信息。然后，模型被训练用来预测给定图像中的总数，通常是通过预测基于点注释的中间表示（人群密度图）[5]。在人体姿态估计中，人体关节通过一组点来注释，模型被训练用来定位这些关节。然后，可以根据检测到的关节位置推断出人体姿态[4]。对于其他应用，如视觉跟踪和目标检测，一个对象由位置和尺度表示。因此，对象/部分的位置在计算机视觉中扮演中心角色。

不幸的是，由于多种原因，如遮挡和人为标记错误，对象/部分的位置是模糊的。因此，点注释中通常存在噪声，这可能会显著影响算法的性能和鲁棒性。在人群计数中，一个图像中可能需要注释成千上万的人，这使得在标记过程中容易出错。此外，人群中的人彼此遮挡，这使得在标记过程中定位一个人变得更加困难。因此，注释噪声在所有人群计数数据集中都很常见。在人体姿态估计中，注释噪声主要来自关节的定义和衣物的遮挡（例如，宽松的衣物会遮蔽实际的关节位置）。对于视觉跟踪和目标检测，对象的中心位置通常由边界框的中心定义。然而，这并不总是准确的，因为对象的形状会变化。

由于位置的定义和注释是模糊和嘈杂的，典型的方法预测一个中间结果而不是直接注释坐标，这为神经网络提供了更好的监督。在这些方法中，首先通过将点图与单位球/高斯核卷积，生成中间表示，从而得到密度图或热图。然后，模型被学习来预测中间表示，它是更平滑、更容易预测的。用于训练模型的典型损失函数是均方误差（MSE），它假设密度/热中间图中每像素的噪声是各向同性的高斯噪声。然而，这种假设是错误的，因为中间图中的像素由于卷积操作而相关。因此，传统损失函数受到假设的每像素噪声与实际注释噪声不匹配问题的困扰。首先，模型很容易在没有适当表示注释噪声的情况下过拟合。其次，在存在大量注释噪声的情况下，模型倾向于预测平滑的图，这不适合定位。

为了解决这个问题，我们首先提出显式地模拟点位移噪声，并推导出中间表示的分布。通过使用负对数似然作为损失函数，注释噪声的不确定性在训练过程中得到了有效的考虑。特别是，真实位置被视为一个随机变量，注释被视为真实位置的噪声观测。通过假设空间注释噪声为高斯分布，推导出中间表示像素的概率密度函数（pdf），但缺乏封闭形式的解。因此，我们通过推导出中间表示中像素的均值、方差和协方差，将pdf近似为多元高斯分布。为了降低计算成本，提出了协方差矩阵的低秩近似。一旦获得了中间表示的pdf，就使用负对数似然作为损失函数，它分解为加权MSE项和相关项。加权MSE项对不确定区域的关注较少，不确定性与注释点的k最近距离相关。受此观察的启发，我们进一步通过结合加权像素和加点点损失函数来模拟遗漏点和重复点噪声，其中权重由注释点的k最近距离决定。加点点损失假设一个人的周围密度之和是一个分布。如果一个区域中遗漏了几个点，那么该区域的像素预测和点预测应该更大。提出的损失函数有效地模拟了点注释中的三种噪声类型。

本文的贡献总结如下：（1）我们提出将真实的真值点位置建模为随机变量，并将点注释视为真实位置的噪声观测。在训练过程中有效地考虑了空间噪声的不确定性，提高了算法的鲁棒性。（2）我们推导出一个基于参数的鲁棒损失函数，它是流行的MSE的概括，用于模拟空间位移噪声。自然地考虑了中间表示中像素之间的相关性。（3）我们进一步基于对基于参数的鲁棒损失的分析，通过经验鲁棒损失函数对遗漏点和重复点噪声进行建模。（4）我们分析了在不同噪声水平下，所提出的损失函数对不同任务的有效性。与传统损失函数相比，当从噪声注释中学习时，所提出的鲁棒损失显著提高了性能。

我们工作的初步版本出现在我们的会议论文[1]中。主要区别在于三个方面。首先，我们引入了一个新的模型来模拟遗漏点和重复点噪声，它与[1]中的位移噪声模型一起工作。其次，我们提出了一种新的损失函数的经验近似，以提高其效率。最后，我们包括了在视觉跟踪和人体姿态估计上的新实验，以及具有遗漏/重复噪声的人群计数。

本文的其余部分组织如下。相关工作在第二节中回顾。然后，在第三节中描述了所提出的方法。之后，在第四节中展示了实验结果并进行了讨论，我们在第五节中总结了本文。

III. METHODOLOGY

在本节中，我们首先回顾了生成中间表示的传统方法。然后，我们提出了对点注释中位移噪声的参数化建模，并提出了一种有效的近似方法以便于实际训练。最后，基于经验方法对遗漏点和重复点噪声进行了建模。

A. Intermediate Representation Generation

通常，点注释在训练期间不直接用作真实的标注，因为它们是嘈杂的并且容易过拟合。通过将点图与高斯核卷积，生成了一个中间表示（即，一个平滑的热图），这相当于在每个注释点放置一个高斯核。给定一个输入图像，有个注释点，其中每个点指示图像中一个人的位置。在2D位置处的值在相应的中间表示中定义为：

其中是高斯核的方差带宽，是具有均值和协方差矩阵的多元高斯的概率密度函数。图像中所有位置的值形成一个中间表示。这种表示通常在人群计数[5]中被称为密度图，或在人体姿态估计[3]和视觉跟踪[56]中被称为热图或响应图。

生成中间表示后，学习一个回归器来从输入图像预测，使用L2损失函数，其中是在的输出位置评估的中间图。这种传统的框架在图1中由橙色和绿色箭头表示。一个标准结果[71]表明L2损失假设观察和底层函数输出之间的独立同分布高斯噪声，这在这里是错误的，因为观察噪声（在中间表示中）是通过非线性变换从注释的不确定性中引入的，如(1)所示。

B. Modeling Shift Noise

我们考虑注释作为图像中人的真实位置的噪声观测，如图1所示。让第个人的真实位置是一个随机变量(r.v.)，其中，且是空间注释噪声，我们假设是独立同分布的多元高斯噪声，，其中是高斯的方差。然后，可以使用真实位置生成中间表示。具体来说，在位置处，密度值为：

其中表示每个单独注释的项，且是第个注释位置和之间的差异。由于是一个随机变量，位置处的密度值也是一个随机变量。

设是图像中的个位置，且是它们对应的密度值随机变量。然后向量化的密度图是一个多元r.v.，其各个条目来自(2)。注意，密度值通过空间卷积操作相关联，因此相邻位置的值是相关的。

由于多元r.v.复杂，我们首先推导其边缘分布和的有效高斯近似。然后，我们提出使用多元高斯来近似的联合分布。

的概率分布：我们现在考虑的边缘，它对应于位置处的概率密度函数。首先，的概率密度函数可以通过将r.v.通过定义在(2)中的非线性变换传递来推导。单个项包括一系列变换：平方L2范数、负指数和缩放。注意，具有非零均值的多元高斯随机变量的平方L2范数是一个非中心分布。然后，通过应用随机变量变换的公式（见补充材料中的推导），得到的密度，如在线可用的补充材料中所述。

的概率密度函数为：

其中表示高斯核的最大值，，且表示第一类0阶修正贝塞尔函数。是非中心随机变量的非中心参数，它依赖于。其次，由于我们假设每个注释的噪声是独立的，因此得到的单个项也是独立的随机变量。因此，的概率密度函数是各个单独项的概率密度函数的卷积：

其中是卷积运算。不幸的是，这个卷积无法以封闭形式计算。

的高斯近似：由于(4)无法处理，我们使用高斯分布来近似的分布，，其中和是位置处分布的均值和方差。的均值计算如下（见补充材料中的详细推导），如在线可用的补充材料中所述。

其中表示单个项的均值，且

图2(a)-(c)显示了三个注释点和两个空间位置的的边缘分布的示例。

我们使用高斯近似，因为它是可处理的，并且可以从的一阶和二阶矩估计。中心极限定理的扩展证明，独立非同分布r.v.的和收敛于高斯。如图2(c)所示，随着注释数量的增加，分布趋向于高斯。我们还尝试了伽马分布进行近似，但结果更差（在UCF-QNRF上的MAE为89.7，而高斯近似为85.8）。

为了进一步证明高斯近似在高密度区域的适用性，我们进行了模拟实验。首先，我们随机选择训练集中的一张图像及其对应的GT点图，并为每个位置从生成样本。然后，我们在每个位置的样本上运行D'Agostino和Pearson的正态性检验[72]。图3（左）显示了一个示例密度图和相应的区域，其中正态性检验表明呈高斯分布。1 图3（右）显示了正态分布位置百分比与平均密度值箱数的直方图。超过80%的平均密度值超过0.31的位置符合高斯分布。由于这些位置最影响密度图和计数，因此在这些区域使用高斯近似是更好的选择。使用伽马分布可能会更好地拟合稀疏区域（计数小的区域），但以牺牲拟合较大密度的重要区域为代价。

的联合概率高斯近似：前面推导了每个空间位置的独立近似。接下来，我们通过多元高斯近似来考虑位置之间的相关性，即的联合概率。

设，其中，是图像中的空间位置，让是第个注释和像素位置之间的差异。根据(2)，像素位置处的密度值为：

这里上标()表示在位置处评估/条件化。注意，是所有中相同的r.v.。

我们提出对的分布在高斯近似，即，其中是均值向量，是协方差矩阵。根据前面的推导，中的条目是，可以用(5)计算。协方差矩阵的对角线是，由(6)计算。协方差项推导如下（见补充材料中的推导），如在线可用的补充材料中所述。

其中

图2(d)显示了两个空间位置的的联合分布及其高斯近似的示例，而图4（顶部）显示了小图像上的一个示例。

给定从图像的注释计算得到的()，负对数似然函数被用作监督预测的密度图回归器的损失函数，

注意，中的条目来自(5)，相当于用方差带宽生成的密度图，即空间噪声方差和原始方差带宽的和。因此，(11)中的损失是标准L2（MSE）损失的概括，但现在通过协方差矩阵考虑了像素位置之间的相关性。如(8)和(9)所示，即使没有空间噪声，即，这种相关性仍然存在，因为像素通过空间卷积操作相关联。

协方差矩阵的低秩近似：在计算和存储上对于大图像来说并不高效。然而，在中，如果空间位置远离注释，大多数列或行的非对角元素接近零。因此，可以通过使用具有显著协方差值的行/列来近似，如补充材料中完整的推导所述，如在线可用的补充材料中所述。

设是用于近似协方差矩阵的空间位置的索引集。对的近似仅使用对应于的非对角元素，

其中是对角矩阵，是一个置换矩阵，其第列是，且选定的非对角元素是

使用矩阵求逆引理，我们得到近似逆协方差矩阵，

其中，。最后，使用近似协方差矩阵的近似损失函数是使用近似协方差矩阵的负对数似然函数，

其中。由于是对角的，(16)中的第一项相当于的负对数边缘的总和（即，一个对角协方差矩阵）。第二项是基于选定的条目的相关性项。使用低秩近似对一个训练样本的存储/计算复杂度为，相比之下，全协方差矩阵的复杂度为。

点式正则化：我们进一步使用点式正则化，受Ma等人[73]的启发，以鼓励预测的密度图接近每个注释的总和为1。对于第个注释点，我们首先定义点式密度为预测密度图中“分配”给第个注释的总密度。具体来说，是所有密度值的加权和，权重是后验概率，即位置被“分配”给第个注释的概率：

其中是预测密度图的第个条目。每个注释的总密度应为1，因此点式正则化器定义为。

然而，这个正则化器假设注释中没有遗漏点或重复点噪声。因此，我们通过明确考虑由遗漏和重复注释引起的噪声，进一步改进了正则化。

C. Missing and Duplicate Noise

在这一部分，我们通过假设每个注释的密度为一个随机变量而不是一个，来考虑遗漏和重复注释。我们的模型基于对人群场景的两个假设：1) 遗漏噪声：由于遗漏注释的人通常被旁边的现有人部分遮挡，我们假设遗漏的注释将出现在现有注释旁边；2) 重复噪声：每个注释都有可能是重复注释。在这些假设下，我们推导出每个点式预测的分布，该分布是根据(17)生成的密度图。最后，负对数似然被用作点式密度的预测密度图的损失函数。

的概率分布：我们假设每个注释都可能是重复注释，并且它旁边的一个人可能遗漏了。如果第个注释是重复注释，并且其位置没有预测密度，则由于在计算(17)时，这部分密度将被分配给这个重复的第个注释，因此附近第个注释的点式密度将减少。类似地，如果第个注释附近有遗漏注释并且在那里预测了密度，那么由于额外预测的密度将被分配给它，附近第个注释的点式密度将增加。图5中显示了可视化。

因此，我们定义第个点式密度为：

其中是第个注释的遗漏或重复注释对第个注释引起的密度波动。我们定义，其中是第个和第个注释之间的关联。是一个指示随机变量，取值为{1, 0, -1}，分别表示第个注释附近有遗漏注释、是正确注释或重复注释。的概率分布为：

这里是遗漏或重复注释的概率，也在实验中用作遗漏或重复噪声水平。

的近似：为了理解我们遗漏/重复注释噪声模型的影响，我们首先使用采样来分析的分布。如图6所示，该分布可以用拉普拉斯分布很好地建模。

的均值为：

因为，其方差（见补充材料中的推导）为：

注意我们假设注释彼此独立。使用这些统计数据，拉普拉斯分布的参数是均值和多样性。最后，的负对数似然被用作预测密度图的点式密度的损失函数：

D. Empirical Approximation

使用(22)中的近似点分布的一个问题是，低密度区域的点的方差接近0，这导致损失不稳定。通常的做法是向方差中添加一个小值以计算稳定性。然而，仍然存在其他问题。首先，计算(16)和(22)中的方差和多样性是耗时的。其次，背景区域的权重仍然太大（即使在用条件化后），这阻碍了高密度区域的学习。为了解决这些问题，我们提出了一种经验损失函数，直接将最近邻距离映射到归一化的像素和点权重。具体来说，我们定义像素和点损失函数为：

其中元素平方和绝对值被应用。向量和是像素和点权重，用于近似(16)中的逆方差（精度）和(22)中的逆多样性。注意，这里没有考虑协方差项。

为了提高效率，我们学习一个函数，直接将最近邻距离映射到像素和点权重()。具体来说，我们首先使用训练样本计算像素的平均最近邻距离和相应的权重（逆方差或逆多样性）。然后，使用一个函数来近似最近邻距离和权重之间的关系。我们使用sigmoid函数，因为它更好地拟合了采样结果，如图7所示。在图8中，我们可视化了不同噪声水平下学习到的权重函数。随着噪声水平的增加，学习到的函数变得更加陡峭——更多的注释将被分配低权重，因为数据集的不确定性增加了。

总计数损失：我们进一步包括一个对总数不敏感的损失，以考虑遗漏和重复注释。特别是，如果误差在假定的注释噪声内，则总损失为0，

其中是真实的人数。

最终损失函数是像素、点和计数损失的组合，

其中是平衡超参数。

IV. EXPERIMENTS

在本节中，我们评估了所提出方法在不同噪声水平下对三个任务：人群计数、视觉跟踪和人体姿态估计的性能。在人群计数中，我们考虑了位移噪声、遗漏噪声和重复噪声。在视觉跟踪和人体姿态估计中，我们仅考虑位移噪声，因为遗漏和重复噪声很少出现在它们的注释中。

A. Crowd Counting

我们首先考虑人群计数任务，其中注释可能包含位移、遗漏或重复噪声。

实验设置

数据集：我们使用ShanghaiTech [5]、UCF-QNRF [74]、JHU-CROWD++ [75] 和 NWPU Crowd [76] 作为人群计数的数据集。
评价指标：使用平均绝对误差（MAE）和均方根误差（MSE）作为评价指标。

其中和分别是预测和真实的计数，是图像的数量。

训练：测试了三种计数网络：VGG19 [73]、CSRNet [77] 和 MCNN [5]。VGG19 和 CSRNet 在 ImageNet 上预训练，而 MCNN 从头开始训练。实现遵循各自论文，我们替换了训练中的损失函数。我们训练了两个版本的所提出的损失：仅考虑位移噪声 [1]，记为“Ours (shift)”；考虑位移、遗漏和重复噪声，记为“Ours (full)”。为了比较，我们还使用标准 L2 损失（即 MSE）、贝叶斯损失 [73]（BL）和广义损失 [21]（GeneralizedLoss, GL）进行了训练。网络使用 Adam 优化器 [78] 训练，学习率为。权重衰减为，所有实验训练了 500 个周期，除了 MCNN。由于 MCNN 是从头开始训练的，我们使用了更大的学习率（）和更多的训练周期（1000）。位移噪声和遗漏/重复噪声分别设置为 8 和 0.05。我们根据图 11 所示的消融实验将、和设置为 1。较大的效果更好，因为锐利的密度图（小）会增强注释噪声的效果。小的和不起作用，因为像素和点监督为密度布局提供了重要信息。此外，大的和也不适合，因为总数损失需要确保总数准确。

对位移噪声的鲁棒性

我们首先在 UCF-QNRF [74] 上评估不同损失函数对位移噪声的鲁棒性。通过随机移动注释位置 {4, 8, 16, 32, 64} 像素生成噪声数据集。然后，我们使用不同的损失函数在噪声数据集上训练计数网络。性能如图 10(a) 所示。首先，所有损失函数的性能随着噪声水平的增加而显著下降，这表明注释位移噪声的影响。其次，所提出的损失函数对注释噪声更加鲁棒，尤其是对于较大的噪声水平。最后，图 9（前两行）显示了使用不同损失函数学习得到的密度图。所提出的损失函数可以纠正位移噪声。相比之下，GL 和 BL 可能会完全错过一个人，因为预测过于自信，而我们的预测更准确。

最后，我们注意到 GL 的性能优于 Ours (shift)，即我们损失的仅位移版本，而比我们的完整模型表现更差。注意，GL 可以处理位移噪声、重复注释和遗漏注释，因为其不平衡的最优传输框架可以使用其点式和像素损失忽略或虚构一些注释。相比之下，Ours (shift) 只处理位移噪声。因此，GL 在某些情况下可能比 Ours (shift) 有优势，因为数据集中存在一些固有的遗漏/重复噪声。然而，一旦我们额外模拟了遗漏/重复噪声，我们的方法表现更好。

对遗漏/重复噪声的鲁棒性

接下来，我们评估不同损失函数对遗漏/重复噪声的鲁棒性。为了生成遗漏和重复噪声，我们随机移除注释点或在当前注释附近添加额外点，概率为。实验结果如图 10(b) 和 (c) 所示。首先，如果我们只模拟位移噪声（参见图 10(b) 中的 “Ours (shift)”），我们的方法的性能是有限的。其次，考虑遗漏噪声的完整模型比其他损失函数更鲁棒。第三，BL 在处理遗漏噪声方面比 GL 好，而 GL 在处理重复噪声方面比 BL 好，因此它们只对一种类型的遗漏/重复噪声表现良好。相比之下，我们的完整模型在两种类型的噪声上都表现一致。最后，模拟重复噪声的改进有限，如图 10(c) 所示。我们认为原因是重复注释更有可能出现在高密度区域，而根据位移噪声模型，这些区域的像素权重较低。因此，模拟位移噪声也有助于解决重复噪声问题。如图 9 所示，比较方法由于噪声 GT 而倾向于低估或高估计数，而所提出的方法对遗漏和重复噪声更鲁棒。

消融研究

接下来，我们进行了一系列消融研究，以研究各种组件的有效性。

损失组件的影响：我们首先研究了所提出损失函数中不同组件在 UCF-QNRF [74] 上的有效性。如表 I 所示，计数损失是最重要的，因为如果我们移除这个组件，性能会显著下降。由于不确定区域的训练权重较低，计数损失需要确保总数预测准确。此外，点式损失对计数也有用，因为它确保了预测围绕头部区域的总和为 1。像素损失较不重要，因为密度布局对总数的影响较小。

位移噪声和遗漏/重复噪声参数的影响：由于噪声水平未知，我们在原始 UCF-QNRF 数据集上进行了不同假设噪声水平参数的实验。具体来说，我们首先根据不同的位移噪声和遗漏/重复噪声参数计算权重映射函数，如图 8 所示。然后，不同的函数用于计算像素和点权重进行比较，实验结果如图 12 所示。我们发现，如果假设的噪声水平太小，性能有限，这证实了原始数据集是嘈杂的。具体来说，从 MAE 结果来看，我们可以推断数据集中的位移噪声约为 8 像素，重复/遗漏注释的概率约为 0.05。

不同噪声类型的影响：我们进行了一个实验来验证模拟位移噪声和遗漏/重复噪声在 UCF-QNRF 上的有效性。注意，遗漏噪声和重复噪声是一起建模的，所有实验都重复了 5 次。结果如表 II 所示。首先，无论是模拟位移噪声还是遗漏/重复噪声，性能都有所提高，这证明了噪声建模的有效性。其次，模拟位移噪声的改进比模拟遗漏/重复噪声更显著，表明位移噪声的影响更大。最后，将所有三种噪声一起建模（我们的模型）带来了最大的改进。

混合位移噪声水平：为了更好地模拟真实情况，我们通过在生成过程中随机选择 0-64 像素之间的噪声水平，进行了基于混合位移噪声水平的实验。结果如表 III 所示。首先，Ours (shift) 的性能优于比较方法，这证实了模拟位移噪声的有效性。其次，我们的完整模型甚至比 Ours (shift) 更好，因为数据集中仍然存在遗漏/重复噪声。

不同计数模型的比较：为了评估所提出的损失函数的有效性，我们将 L2、BL 和 GL 与不同计数模型进行了比较。结果如表 IV 所示。用所提出的损失训练的模型通常比其他损失函数更好，这证明了噪声建模是一个重要因素。

我们还在 UCF-QNRF 上使用不同的损失函数对方法进行了 5 次重复试验的比较，实验结果如表 V 所示。所提出的方法在 MAE 上取得了最好的性能，且标准差较小，这证明了我们损失的有效性。

为了进一步提高性能，我们将提出的损失函数应用于最近提出的基于Transformer的模型MAN [26]，结果在表VIII中显示为“我们的（完整）+ MAN”。在三个大规模数据集上，我们的损失函数提高了MAN的性能，优于传统的基于VGG19的模型。因此，我们的损失适用于最先进的基于变压器的模型。请注意，在我们的MAN复制中，补丁大小设置为2048。

结合GL：我们接下来考虑将我们提出的方法与广义损失相结合的实验。特别地，我们直接将点和像素方向的损失改变为在（23）和（24）中定义的加权像素和点方向的损失。如表VI所示，通过将我们的权重与广义损失合并，可以进一步提高性能。

与最先进方法的比较

训练速度：为了证明经验近似的有效性，我们比较了不同损失函数的训练时间。特别是以VGG_（19）为骨架，其分子量为512 ×512。结果如图13所示。首先，参数建模（“Ours（shift）”）是最耗时的，因为要计算协方差矩阵。第二，在GL中计算输运矩阵也是耗时的，但是可以通过Sinkhorn迭代来加速。所以GL的速度还是比“Ours（shift）"快。最后，本文提出的基于经验近似的方法与L2和BL算法的计算速度相当，证明了该方法的有效性

5）与最先进方法的比较：

最后，我们将使用我们损失函数训练的 VGG19 骨干网络与最先进的模型进行了比较，结果如表 VII 所示。首先，通过模拟注释噪声，我们的方法比使用相同骨干网络的 BL 取得了更好的性能。这证实了模拟注释噪声的有效性。其次，我们提出的方法在大多数数据集上都取得了最好的 MAE，包括三个最大规模的数据集：NWPU-Crowd、JHU-CROWD+ 和 UCF-QNRF。我们还与 UCF-QNRF 上的一种不确定性方法 [79] 进行了比较，我们的方法取得了更好的性能。最后，当模拟遗漏和重复噪声时，性能比仅模拟位移噪声时有所提高（Ours full 与 Ours shift 相比）。DSSINet [80] 在较小的 ShanghaiTech A 数据集上比我们的方法更好，因为它使用了多尺度图像提取特征。同样，MBTTBF [81] 通过融合多级特征在 ShanghaiTech B 上取得了更好的性能。然而，这些方法并不适用于大规模数据集。注意，我们使用的是 VGG19 作为骨干网络，它没有进行任何特殊的多尺度特征提取操作。

最后，我们注意到我们的 MSE 性能不如其他方法，因为我们的模型在人数超过 5000 的图像上犯了更多错误，如表 VIII 所示。由于所提出的方法假设高密度区域有更多的噪声，并降低了这些区域的权重，因此对正常图像的拟合比对极端计数（异常值）图像的拟合更好。此外，由于我们模拟了遗漏注释噪声，一些具有假人群场景的具有挑战性的难负样本图像将会被过度计数。对于其他场景类型，我们提出的方法在 MAE 和 MSE 方面都取得了最佳性能。

B. Visual Tracking

在本节中，我们将所提出的损失应用于视觉对象跟踪，其中通常使用 MSE 损失来监督模型从预测的目标响应图中学习。

设置

数据集：对于视觉跟踪任务，我们使用广泛使用的 OTB [37] 跟踪数据集来评估所提出方法的性能。OTB 数据集包含 100 个具有各种属性（例如，遮挡、旋转、光照变化、背景簇和快速运动）的挑战性视频序列，可以有效证明我们方法的有效性。
评价指标：按照 OTB [37] 的做法，我们使用精确度和成功率指标进行评估。精确度是中心误差相对于真实值小于预定义距离阈值的帧的百分比。成功定义为与真实边界框的重叠比率大于重叠阈值的帧的百分比。报告了距离精确度阈值（DPR）20 像素和成功率图（AUC）下的面积。
训练和推理：我们使用 DiMP18 [55] 作为我们的基线跟踪器，因为 DiMP18 使用标准 MSE 损失作为目标分类损失，这可以在不进行进一步修改的情况下直接用我们提出的损失（23）替换。我们使用 GOT-10K [86] 数据集来训练 DiMP18 基线和我们的变体。为了公平比较，我们使用 [55] 中描述的相同训练设置。在线跟踪阶段，我们使用 DiMP18 [55] 中使用的相同在线更新策略，以便更好地比较。我们还使用视频第一帧中的真值边界框来初始化我们的跟踪器，这与 DiMP18 相同。这样，实验将更好地证明我们的方法即使使用带噪声的注释数据集，也能学习到更鲁棒的离线跟踪模型。

对噪声的鲁棒性

图 14 显示了跟踪器性能与空间噪声水平的关系。我们的方法在不同噪声水平下都比基线更好。当空间注释噪声增加时，我们方法的改进更加显著，这表明我们提出的损失可以更有效地处理噪声注释，而标准 MSE 损失则不能。另一个有趣的现象是，即使没有添加噪声（即噪声 = 0），我们方法的性能仍然比基线在 DPR 和 AUC 指标上更好。这主要是因为训练数据集 GOT-10K 自然包含噪声注释，我们的方法在原始 GOT-10K 数据集上训练得更有效。

我们还在图 15 中可视化了不同噪声水平下带有不同损失函数的分类图和预测边界框（用红色框表示）。视频帧右上角显示目标中心位置的分类得分（用红色十字表示）。使用我们损失函数离线训练的 DiMP 跟踪器对在线干扰物更加鲁棒，并避免了一些跟踪失败，即使在较大的添加空间噪声水平下也是如此。此外，当空间注释噪声增加时，我们的方法仍然能够准确预测目标中心位置并具有高分类得分（例如，当噪声 = 40 时，cs = 0.42）。

C. Human Pose Estimation

在本节中，我们将所提出的损失应用于人体姿态估计（HPE），其中通常使用 L2 损失来监督模型从姿态关节热图中学习。

设置

数据集：MPII [88] 和 CrowdPose [89] 用于评估所提出方法在人体姿态估计上的性能。MPII 包含大约 25k 图像和 40k 人。为了证明所提出方法在密集人群中的有效性，我们进一步在 CrowdPose 上应用了该方法，它根据图像中重叠关节的比例分为 3 个人群级别：简单（0–0.1）、中等（0.1–0.8）和困难（0.8–1）。
评价指标：按照以前的工作 [88]、[89]，我们使用基于头部大小的百分比正确关键点（PCKh）评估 MPII，以及评估 CrowdPose 的平均精度（AP）。
训练：我们的基线网络是 HRNet-W32 [3] 用于 MPII 数据集，以及更高 HRNet-W48+ [90] 用于 CrowdPose。在训练期间，我们直接用我们提出的损失（23）替换 MSE 损失，其余训练细节遵循基线 [3]、[90]。使用 Adam 优化器 [78] 进行优化，基础学习率设置为。模型训练了 210 个周期，在 170 和 200 周期时降低了学习率。

对位移噪声的鲁棒性

我们现在评估所提出损失对位移噪声的鲁棒性。与人群计数类似，通过随机移动注释点 {2, 4, 8, 16} 像素生成噪声数据集。实验结果如图 16 所示。首先，我们损失函数的性能与传统方法几乎相同。我们认为原因是与人群计数相比，HPE 中的注释噪声较少，因为注释数量较少，且通常忽略了被遮挡的关节。其次，随着噪声水平的提高，所提出方法的改进变得更加显著，这证实了该方法的鲁棒性。最后，当使用更准确的定位标准时（例如，使用头部大小的 10% 计算 PCKh），改进变得更加显著。这表明我们方法的定位比传统 L2 损失更准确。如图 17 所示，我们损失函数生成的热图比 L2 损失更清晰，这进一步证实了所提出损失对位移噪声的鲁棒性。

与最先进方法的比较

我们在 CrowdPose 数据集上的拥挤图像上评估了所提出的方法，并将其与最先进方法进行了比较。如表 IX 所示，所提出的方法取得了最好的性能。特别是，所提出的方法使用了相同的骨干网络，但比基线方法 HigherHRNet [90] 更优越。最后，在中等和拥挤图像上的改进比在较少遮挡的简单图像上更大。这表明了所提出方法处理具有挑战性的噪声场景的潜力。

V. CONCLUSION

在本文中，我们研究了点注释中的三种不同类型噪声：位移噪声、遗漏点噪声和重复点噪声。为了模拟更普遍的位移噪声，我们提出了将真实位置建模为随机变量，并推导出了真实地图的分布。为了模拟在密集注释中的遗漏点和重复点噪声，我们进一步推导出了点式密度的分布。然后，负对数似然被用作损失函数，这等价于加权的 L2/L1 损失。最后，为了加速训练过程，我们提出了损失函数中权重的经验近似。我们将所提出的损失函数应用于人群计数、跟踪和人体姿态估计。实验结果表明，所提出的方法对不同类型和水平的噪声更加鲁棒。未来的工作将集中在将噪声建模原理应用于推导其他结构化真值注释的鲁棒损失函数。例如，我们的鲁棒损失框架可以应用于在噪声注释条件下回归边界框注释，例如在半监督或自监督学习中，伪注释是噪声的（类似于 [56]）。