Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SEEM 让你释放双手 | 对 SAM 进行升级,解决数据标注耗时耗力且繁琐的问题!

SEEM 让你释放双手 | 对 SAM 进行升级,解决数据标注耗时耗力且繁琐的问题!

作者头像
AIGC 先锋科技
发布于 2024-07-08 05:01:41
发布于 2024-07-08 05:01:41
3070
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

现有的群体计数模型需要大量的训练数据,而这些数据的标注过程耗时且繁琐。为了解决这个问题,作者提出了一种简单而有效的人群计数方法,通过采用一种名为“Segment-Everything-Everywhere Model(SEEM)”的模型——这是对“Segmentation Anything Model(SAM)”的一种改进,来为训练人群计数模型生成伪标签。然而,作者的初步调查发现,SEEM在密集人群场景中的性能有限,这主要是因为在行人高密度区域遗漏了许多人。 为了克服这一限制,作者提出了一个自适应分辨率的SEEM来处理人群场景中的尺度变化、遮挡和行人重叠问题。 同时,作者基于高斯混合模型引入了一种鲁棒的位置定位方法,用于预测预测行人 Mask 中的 Head 位置。在给定了 Mask 和点伪标签的情况下,作者提出了一种鲁棒损失函数,该函数旨在根据SEEM的预测排除不确定区域,从而增强计数网络的训练过程。最后,作者提出了一种迭代生成伪标签的方法。这种方法旨在通过识别高密度区域中更多微小的行人来提高分割 Mask 的质量,这些行人在第一次伪标签阶段经常被遗漏。 总的来说,作者提出的方法在无需监督的人群计数中实现了最佳性能,同时与一些经典的完全监督方法相比也毫不逊色。这使得它成为一种非常高效且多功能的群体计数工具,特别是在没有标签数据可用的情况下。

1 Introduction

人群计数在各个应用领域中扮演着至关重要的角色,从城市规划、公共安全到活动管理和零售[5]。它有助于设计高效的公共空间,优化活动期间的人群控制,以及管理商店内的顾客流量。此外,它还助于创建能够适应人口密度变化的响应式基础设施。这项技术在理解和管理不同情境下的人群动态方面至关重要。

先进的群体计数系统,采用如卷积神经网络(CNNs)[24]和Transformers[21]的深度学习方法,取得了卓越的成就。

性能。然而,这些方法通常需要大量的标注数据用于训练。人群计数数据集的规模相对较小,因为对密集人群图像中的每个人进行标注是一项耗时的工作。因此,对于能够在不依赖手动标注的情况下适应新数据集的无监督方法的需求日益增长。

为了应对这一挑战,作者引入了一种健壮的无监督方法,该方法利用分割任何模型(SAM)[16]生成伪标签。然而,SAM无法预测语义标签。因此,作者采用了分割一切无处不在模型(SEEM)[48]来预测行人 Mask 。作者的研究发现,直接使用SEEM并不有效,因为它经常由于遮挡和重叠而遗漏行人(见图1中的1024x1024图像),这是由于在其训练数据中密集人群图像的有限可用性所致。为了解决这个问题,作者提出了一个自适应分辨率的SEEM(AdaSEEM),根据需要可以放大高密度区域。如图1所示,这种改进使得可以在拥挤区域对较小的人进行更精确的分割。此外,作者还提出了一种健壮的 Head 定位方法,通过将 Mask 分布建模为高斯混合模型(GMM),准确估计 Head 位置,这使得可以生成更有效的点伪标签。

作者使用生成的 Mask 和点伪标签来训练一个计数回归网络。为了有效地利用这两种类型的伪标签,作者提出了一个由两部分组成的鲁棒损失函数:个体损失和背景损失,在训练过程中排除了不确定区域。个体损失确保了 Mask 内的总密度接近1,并且它还鼓励密度在 Head 伪标签周围收敛。这种方法提高了人群计数的准确性,同时也确保了在分割区域内的精确定位。相比之下,背景损失则是为了预测所有背景区域为零值,从而有效地减少非拥挤区域的假阳性预测。

最后,为了提升性能,作者采用了一种迭代的方法来生成伪 Mask ,使用训练有素的计数网络得到的点预测作为AdaSEEM的提示。这有助于在高密度区域识别缺失的个体。一旦创建这些新的 Mask ,它们将与前一阶段的 Mask 融合,以生成更全面、更准确的伪标签集。随后,作者采用相同的方法在这些更新后的 Mask 内估计 Head 点伪标签。有了这些精细化的 Mask 和 Head 位置,作者继续训练计数网络,从而在人口密集的场景中提高它们的准确性和可靠性。

总之,本文有四个主要贡献:

作者提出了一种新颖的方法,用于为无监督人群计数生成 Mask 和点伪标签。这涉及到使用分割任何事物模型(SAM),并通过自适应分辨率策略以及一种稳健的定位 Head 点机制来进行增强。

为了利用 Mask 和点伪标签,作者开发了一个健壮的损失函数,在训练过程中策略性地排除不确定区域,并确保每个 Mask 内的密度为1。这个函数在准确计数和定位拥挤场景中的个体方面起着至关重要的作用。

作者提出了一种用于生成伪 Mask 的迭代方法。该方法通过利用来自当前训练计数网络的点提示来细化 Mask 预测,从而允许识别之前在密集区域中遗漏的个体。

作者的方法显著优于现有的无监督人群计数方法,取得了很大的改进。其性能在一些经典的全监督方法面前也颇具竞争力,即便是在大规模数据集上也是如此。

2 Related Works

在本节中,作者简要回顾有监督、半监督和无监督的人群计数算法。

Supervised Methods

传统的人群计数算法依赖于个体检测[7],这并不适用于高密度图像,因为遮挡问题。为了提高计数性能,已经提出了直接回归方法,这些方法利用低级特征[5],包括纹理[4]和颜色[12]。然而,这些方法的有效性仍然受到尺度变化和场景变化等因素的限制。

近期的人群计数研究主要集中在深度学习上,通过大量标注数据的训练,取得了显著的改进[47]。网络结构[1, 8]的创新和各种损失函数[40]的发展提高了性能和鲁棒性。Kang和Chan[15]引入了图像金字塔的使用来处理尺度变化。进一步的增强包括利用上下文信息[31, 44]和发展跨场景的人群计数方法以提高泛化能力[46]。Wang等人[41]提出了使用合成数据集,而其他研究者探索了使用相关性信息来增强泛化能力[36, 43]。在损失函数设计方面的创新方法,例如提出可学习的密度图以增强监督[34, 37]。在训练过程中直接使用点标注已显示出计数和定位的改进[23, 26, 33, 40],并发展了稳健的损失函数来处理标注噪声[35, 39]。最近,基于Transformer的方法在人群计数和定位方面均显示出卓越的性能[19, 21]。

然而,监督学习方法需要大量的标注图像,由于标注过程耗时,这些图像可能难以获取,例如,一些训练图像可能包含数百甚至数千人。相比之下,作者提出的不监督学习方法在不使用任何标注人群图像的情况下,获得了与某些监督学习方法相当的结果。

Semi-Supervised And Unsupervised Methods

为了减轻大规模标注工作的负担,在人群计数领域已经提出了几种创新的方法[42]。Change Loy等人[6]建议使用 未标注 的视频,从而减少对完全标记数据集的依赖。Meng等人[27]引入了一种方法来模拟空间不确定性,提高了半监督计数的有效性。部分标注训练模型的概念也已被探索[45],为完全监督方法提供了一种实用的替代方案。此外,在[17]中提出了一种监督不确定性估计策略,为解决标注挑战提供了新的方法。另外,最优传输最小化[22]的使用也被 Proposal 用于半监督设置中的人群定位,进一步促进了人群计数领域中更高效、劳动强度更低的方法的发展。

对无监督人群计数方法的研究,特别是在高密度场景下的探索仍然有限。大多数现有研究倾向于集中在低密度图像上。[2]中提出了一种基于分布匹配的新型自监督方法。此外,[20]通过采用视觉-语言模型引入了一种创新的方法,用于零样本人群计数。尽管这些无监督方法表现出相当好的性能,但在高密度场景中的有效性仍然不是最佳的。相比之下,作者提出的方法即使在复杂的高密度环境下也能达到与某些监督方法相媲美的性能水平,从而为传统监督方法提供了一种可行的替代方案,后者需要大量的标注数据。

3 Method

在本文中,作者介绍了一种新颖的健壮性无监督人群计数方法,该方法利用了分割任何模型(SAM)的能力。作者的方法包括几个关键步骤。首先,作者提出了一个自适应推理策略来利用SAM,这使能够在各种人群场景中更精确地分割个体,尤其是较小尺寸的个体。然后,作者引入了一种健壮的方法,用于在预测的个体 Mask 内定位 Head 位置。这一步对于获得更精确计数的点伪标注至关重要。利用生成的 Mask 和点伪标签,作者训练了一个计数网络。作者的训练过程的特点是排除了不确定区域的健壮损失函数,从而提高了模型的精确性和可靠性。最后,作者提出了一种生成伪标签的迭代过程。这个过程基于计数网络的预测,旨在不断提高伪标签的质量。作者提出方法的总体工作流程在图2中展示。

Adaptive Resolution SAM

SAM最初是为了通用分割任务而设计的,并在数百万张图像上进行训练,这使得它能够在各种场景下进行泛化。然而,SAM的一个关键局限性在于它无法为其识别的片段分配特定的物体类别。为了克服这一点,作者选择了一个修改版的SAM,即“无处不在的分割模型”(SEEM)[48]。SEEM由于使用了语义标签进行训练,因此擅长为每个 Mask 提供语义标签,这增强了它在分割任务中的实用性。尽管SEEM具备这样的能力,但在检测拥挤图像中的小个体时仍面临挑战。这一限制主要源于其训练数据集中密集人群图像的相对比例较小[16]。为了解决这个具体问题,作者引入了自适应分辨率的SEEM(表示为AdaSEEM)。这种策略旨在提高模型在识别高密度人群场景中小型个体的性能,从而增强SEEM在复杂人群计数场景中生成 Mask 伪标签的整体有效性和适用性。

在作者的方法中,最初将SEEM应用于原始图像以获得分割结果。这些结果分为三个不同类别:非人(背景)区域、不确定区域和单个行人 Mask ,如图2所示。非人背景区域是带有非人标签的片段,而不确定区域包含不属于任何片段的像素。在初始分割之后,作者将图像裁剪成较小的块,并评估每个块中不确定区域的比例。如果一个块的不确定区域比例超过预定义的阈值

,作者就会放大这个块,将其分辨率加倍,并重新应用SEEM。非极大值抑制(NMS)用于合并来自不同迭代次数的片段。这个过程是迭代的,一直持续到所有块中不确定区域的比例低于阈值。通过迭代放大并重新在不确定性高的块上应用SEEM,作者显著提高了分割的准确性,尤其是在密集人群场景中检测较小个体时。这种自适应方法确保了分割结果既精确又可靠,作为人群计数的伪标签,提高了它们的有效性。

Robust Localization for Point Pseudo-labels

人群计数方法通常需要点标注来进行训练。因此,作者提出了一种算法,用于预测每个由AdaSEEM生成的个人人像面具中的 Head 位置。作者的方法从初始面具生成健壮的面具分布开始。将预测的初始面具表示为

。作者在

中随机采样

个点,并使用它们作为SEEM生成新面具的提示,表示为

。然后,作者通过计算预测面具的平均值来得到软面具分布:

。这个平均过程有助于平滑初始面具预测中的噪声和不一致性。

受到经典密度图生成方法[47]的启发,作者随后使用具有两个成分的高斯混合模型(Gaussian Mixture Model, GMM)来建模软 Mask 分布

。模型表示如下:

其中

分别代表混合模型中每个高斯分布的均值和方差。

作者使用期望最大化(EM)算法将软 Mask 分布

拟合到高斯混合模型(GMM)(详见补充材料)。最后一步是选择具有较小垂直坐标(高度)的高斯分量的均值

作为 Head 位置。这种方法有效地利用了GMM的统计特性来精确确定 Head 位置,从而适应分割过程中的可变性和噪声。

Counter Training

计数网络是通过生成的 Mask 和点伪标签进行训练的。对于一个输入图像

,相应的伪标签包括背景 Mask

,不确定 Mask

,个体 Mask

,以及 Head 位置

,其中

是图像中标注的人数。

作者提出的针对预测密度图

的损失函数包括两个部分:背景损失和个体损失,其中在不确定区域的预测被忽略。背景损失是在背景(非人)区域定义的,在这些区域,预测值应接近0。其公式如下:

在哪里,

表示对两个矢量化矩阵执行逐元素的点积。

个体的损失由以下公式给出:

在公式中,

是一个指数距离矩阵,其中的第

个元素

表示 Head 位置

与密度值位置

之间的指数距离。

表示逐元素的乘积。

第二个术语鼓励密度向 Head 收敛。关于这一点的更多细节,请参考[38]。

最终的损失函数是(2)中背景损失和(3)中个体损失的组合:

其中

是一个加权超参数。

Iterative Pseudo-label Generation

作者提出的方法的一个关键优势是它能够通过预测密度图来预测人群中的全局计数以及每个个体的精确位置(相比之下,[20] 只预测了计数)。这个功能使得可以进一步细化伪标签,特别是在寻找高密度区域中遗漏的个体时。

该过程首先使用预训练的计数网络预测个体的位置。特别是,高于阈值的局部最大值是潜在的人体定位,遵循[38]的方法。这些预测的位置随后被用作点提示,通过SEEM生成新的 Mask 。为了确保高召回率,作者使用多个点来生成更多 Mask ,并通过非最大值抑制(NMS)合并重复的 Mask 。在后续步骤中,这些新生成的 Mask 与上一轮迭代中的 Mask 使用NMS进行合并。这种迭代策略在高密度区域特别有效,它能够揭示在早期迭代中可能被遗漏的个体。

这种方法的视觉展示在图3中,它显示了该策略在检测人口密集区域中更多个体时的有效性。整个算法总结在算法1中。

算法1 基于鲁棒AdaSEEM的无监督人群计数

4 Experiments

在本节中,作者首先介绍实验设置。然后,作者将提出的方法与SOTA方法进行比较。

ods。最终,在消融研究中评估了所提方法的不同组件。

Experimental Settings

数据集: 作者在JHU-CROWD数据集[32],UCF-QNRF[13],以及ShanghaiTech[47]数据集上评估了所提出的方法。JHU-CROWD数据集是一个全面的大规模数据集,包含4,371张图片。它被分为三个子集:2,722张用于训练,500张用于验证,1,600张用于测试。UCF-QNRF数据集包括1,535张图片,其中1,201张用于训练,334张用于测试。ShanghaiTech数据集被分为两部分:ShanghaiTech A部分共有782张图片,其中482张用于训练,300张用于测试;ShanghaiTech B部分包括1,116张图片,716张用于训练,400张用于测试。

训练细节: 在作者的实验中,作者采用了来自[38]的计数网络架构,该架构基于VGG Backbone 网络[18]。网络使用Adam优化器进行训练,学习率为1e-5。在所有实验中,作者保持批大小为1,以确保训练条件的一致性。模型总共接受100个周期的训练,这足以让模型对数据集特性进行学习和适应。作为一种无监督的方法,在训练过程中作者没有使用人群标注,而是从训练图像中生成伪标签。

在作者的损失函数中,参数

在优化性能方面起着关键作用。根据图6和图7中的消融研究,这些参数分别设置为100和0.01。在AdaSEEM中的阈值

根据图10所示的实验结果设置为0.3。

指标:遵循先前的工作[38],作者使用MAE(平均绝对误差)和MSE(均方误差)作为评估计数性能的指标:

其中

分别代表预测的数量和真实数量,

是图像的数量。

Comparison with State-of-the-art Methods

为了评估作者提出方法的有效性,作者通过与最先进的无监督和监督方法进行比较来进行彻底的评估。这种比较的结果详细列于表1中。首先,作者的方法在MAE和MSE方面优于其他无监督方法,并且改进的幅度是显著的。这强调了作者方法在解决无监督计数固有的挑战方面的有效性。其次,比较还显示,作者方法的第二阶段在所有数据集上的表现都要优于第一阶段。这种改进验证了作者迭代伪标签生成策略的有效性。通过细化伪标签,模型能够获得更准确和可靠的计数结果。

作者在表1中将提出的方法与跨领域方法进行了比较,这些方法在源数据集上训练并在目标数据集上进行测试,在大多数情况下取得了更优越的性能。最后,提出的方法也与一些经典的监督学习方法进行了有利比较。然而,在处理密集拥挤的数据集方面,仍有很大的改进空间。

作者的无监督方法能够有效地从图像中预测密度图,如图5所示,这使得作者可以在不需要人工标签的情况下精确预测人的位置。这种能力也使得作者的迭代伪标签生成方法得以应用,从而提高了 Mask 质量和整体性能。

Ablation Study

自适应分辨率SAM 作者进行了计数实验以评估AdaSEEM的有效性,结果展示在表2中。研究发现,单独使用SEEM的效果最不明显,这表明直接使用SEEM并不是最佳选择,因为在高密度区域会遗漏许多小个体。然而,在实施了所提出的自适应分辨率策略后,性能有了显著的提升,特别是在高密度数据集UCF-QNRF上。在图4中,作者也可以观察到在使用AdaSEEM时,高密度图像的显著改善。这种改进强调了自适应分辨率策略在精确分割高密度区域内小个体方面的有效性。这种方法的有效性在图3(a, b)中进一步得到确认,与基础模型相比,使用AdaSEEM能够分割出更多的个体。这些发现共同强调了自适应分辨率策略在提升SEEM在复杂人群计数场景中的分割能力方面的重要性。

鲁棒定位 如图11所示,一种直接定位 Head 位置的方法是假设 Head 高度与 Mask 总高度的比例保持不变。为了验证作者提出的GMM拟合方法的有效性,作者将其与使用各种比例的这种朴素方法进行了比较。这种比较的结果展示在图8中。

实验证明,在不同比例下,高斯混合模型(GMM)拟合方法始终优于朴素方法。GMM拟合方法的优势在于其能够以数据驱动的方式学习行人 Mask 的动态形状。与依赖于关于 Head 高度比例的固定且任意的假设的朴素方法不同,GMM拟合方法能够适应人群中介于不同形状和大小的个体。这种灵活性使得 Head 位置定位更加准确和可靠,特别是在多样且不可预测的群体场景中。

迭代伪标签生成 为了提高 Mask 质量,作者引入了一种迭代伪标签生成方法,利用训练好的人数计数网络。首先,作者预测训练图像中的单个位置,将高于阈值的局部最大值视为潜在的人体定位,依照[38]的方法。这些预测的位置随后被用作SEEM分割的提示,有效地定位密集区域中的新行人。如图3所示,这种方法检测到更多的人,通过 Mask 数量的增加可以得到证明。表2中的性能比较显示了迭代伪标签生成方法(通过比较“AdaSEEM”和“AdaSEEM + 阶段1”)的显著改进。此外,使用这些精细化 Mask 的新训练计数网络比前一个阶段的性能更优,证实了这种方法的有效性(作者的阶段2训练)。

为了确定最优的迭代次数,作者在上海科技大学A数据集上进行了实验,结果如图9所示。研究发现,在第三个阶段达到峰值性能,之后性能趋于收敛。因此,在后续实验中,作者选择了三个阶段。

损失超参数 图6和图7展示了不同损失超参数

的消融研究。图10展示了

的消融研究。

定位性能 作者进一步在UCF-QNRF数据集上评估了所提方法的人群定位性能。作者提出的无监督方法的性能与现有监督方法进行了基准对比,填补了空白,因为此前没有可比较的无监督人群定位方法。尽管在训练过程中没有手动标注,但作者的方法显示出值得称赞的精确度,超过了表3中显示的几个监督方法。作者方法的召回率低于监督方法,但通过第二阶段训练可以显著提高,这证实了更多未被检测到的人被检测并伪标注了。虽然所提方法的整体定位性能仍然有限,且落后于最先进的监督方法,但考虑到缺乏手动标签,这些结果仍然是很有希望的。

5 Limitation

作者提出的方法当前的局限性在于生成伪标签的时间密集型迭代过程,因为它需要分割所有预测的点位置,而这一过程的持续时间会随着数据集的人口密度增加而增加。为了最大化召回率,作者预测了大量的位置,随后使用非极大值抑制(NMS)来合并重叠的 Mask ,这进一步增加了计算时间。未来的工作将重点开发一种更有效的伪标签生成技术,以提升训练效率。

6 Conclusion

在作者的研究中,作者引入了一种健壮的无监督人群计数方法,其性能优于先前的无监督方法,并且可以与一些监督方法相媲美。作者的方法包括一个自适应分辨率的SEEM,用于生成更优质的分割 Mask 作为密集区域的伪标签,以及一个健壮的定位方法。

作者提出了一种利用从多个 Mask 样本生成的软 Mask 上的高斯混合模型(GMM)拟合的计数技术,以及一种用新型损失函数训练的计数网络,该损失函数排除了不确定区域。此外,作者提出了一种迭代方法,通过使用训练有素的计数器的预测来增强伪标签,以找到尚未被伪标记的个体。未来的工作将旨在提高训练效率并改善定位性能。

参考

[1].Robust Unsupervised Crowd Counting and Localization.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
TPAMI 2024 | 逐点监督下的噪声标注建模
在计算机视觉任务中,如人群计数和人体姿态估计,广泛采用了逐点监督。在实践中,点注释中的噪声可能会显著影响算法的性能和鲁棒性。在本文中,我们研究了逐点监督中注释噪声的影响,并为不同任务提出了一系列鲁棒的损失函数。特别是,点注释噪声包括空间位移噪声、遗漏点噪声和重复点噪声。空间位移噪声是最常见的一种,存在于人群计数、姿态估计、视觉跟踪等场景中,而遗漏点和重复点噪声通常出现在密集注释中,如人群计数。在本文中,我们首先通过将真实位置建模为随机变量,将注释点视为真实位置的噪声观测,来考虑位移噪声。中间表示(由点注释生成的平滑热图)的概率密度函数被推导出来,并使用负对数似然作为损失函数,以自然地模拟中间表示中的位移不确定性。遗漏和重复噪声进一步通过经验方式建模,假设噪声以高概率出现在高密度区域。我们将该方法应用于人群计数、人体姿态估计和视觉跟踪,为这些任务提出了鲁棒的损失函数,并在广泛使用的数据集上实现了优越的性能和鲁棒性。
小白学视觉
2024/09/18
1310
TPAMI 2024 | 逐点监督下的噪声标注建模
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
大语言模型(LLMs)的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中,Segment Anything Model(SAM)是最先进的图像分割基础模型。
机器之心
2024/04/12
2350
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
使用即时学习方法展示了SAM对下游医学分割任务的泛化能力。结果显示,仅使用大约5个输入点就显著提高了分割精度。
集智书童公众号
2023/09/04
1.4K0
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
清华/上海AI Lab/东南大学/武大联合提出 POINTOBB-V2 迈向更简单、更快速、更强劲的目标检测 !
定向目标检测对于准确 Token 小而密集的目标至关重要,尤其是在远程感测图像、零售分析和场景文本检测等场景中,定向边界框(OBBs)能够提供精确的标注。然而,标注OBBs的工作量较大且成本较高。因此,近年来出现了许多弱监督方法,包括水平边界框监督和点监督。
未来先知
2024/11/25
3120
清华/上海AI Lab/东南大学/武大联合提出 POINTOBB-V2 迈向更简单、更快速、更强劲的目标检测 !
SAMTooth:利用 SAM 实现稀疏监督下的牙齿点云细分 !
准确地从口腔扫描仪(IOS)的网格数据中提取3D牙点的牙齿分割在许多正畸应用中起着关键作用,包括详细分析牙齿形态学、治疗计划、个性化装置设计等。然而,现有的牙齿点云分割模型 主要依赖于大量的标注数据集进行训练,这涉及到牙点云标注的劳动密集型任务。例如,一个有经验的牙科医生手动标注半个下颌大约需要15到30分钟 [30]。这种耗时过程对建立大规模、高质量标注数据集极具挑战性并且降低了诊断系统的泛化性 。
未来先知
2024/09/11
3100
SAMTooth:利用 SAM 实现稀疏监督下的牙齿点云细分 !
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
生成预训练Transformer(Generative Pre-trained Transformer,GPT)系列模型的成功表明,如果在大规模数据上进行训练,大型语言模型在零样本和非可视域中的少量快照任务上的性能与最新技术相当。
集智书童公众号
2023/09/04
9620
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路!
医学图像分割的目标是从医学图像(如器官和病变)中识别特定的解剖结构,这是为提供可靠的体积和形状信息并协助许多临床应用(如疾病诊断和定量分析)提供基础和重要的一步。尽管基于深度学习的方法在医学图像分割任务上表现出色,但大多数这些方法都需要相对大量的优质标注数据进行训练,而获取大规模的仔细 Token 数据集是不切实际的,尤其是在医学成像领域,只有专家能够提供可靠和准确的分割标注。此外,常用的医学成像模式如CT和MRI是3D体积图像,这进一步增加了手动标注的工作量,与2D图像相比,专家需要逐层从体积切片进行分割。
集智书童公众号
2024/01/03
2K0
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路!
SAMReg 基于多类分割的通用图像配准解决方案 !
定分和配准都是医学影像分析中的基本任务,广泛应用于临床实践。传统上,定分任务需要一个输入图像,并寻找一个或多个感兴趣区域(ROIs)。定分通常用二进制 Mask 或ROI边界表示,而配准任务需要两张图像作为输入,输出一个空间上对齐的结果。这种空间变换可以表示为密集位移场(DDF)或其他参数函数(如刚性、仿射和控制点基曲线)。
未来先知
2024/11/11
3920
SAMReg 基于多类分割的通用图像配准解决方案 !
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
SAM和CLIP在各种视觉任务中取得了显著的进展,展示了在分割和识别方面令人瞩目的泛化能力。SAM特别之处在于,它使用了一个庞大的带有Mask标签的数据集进行训练,使得它可以通过交互式Prompt对广泛的下游任务进行高度适应。另一方面,CLIP通过训练数十亿个文本-图像对,获得了前所未有的在零样本视觉识别方面的能力。这导致了大量研究探索将CLIP扩展到开放词汇任务,例如检测和分割。
集智书童公众号
2024/01/10
3.5K0
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%。此次ICCV 2021接收的论文分为检测、分割、跟踪、视觉定位、底层图像处理、图像视频检索、三维视觉等多个方向。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。
优图实验室
2021/08/02
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
值得注意的是,所提出的该方法在Cityscapes测试数据集上实现了51.8%的“mIoU”,展示了其在驾驶场景数据集上的强大WSSS Baseline 的潜力。在CamVid和WildDash2上的实验结果表明,作者的方法在各种数据集上具有有效性,即使数据集较小或具有视觉挑战性条件。 代码:https://github.com/k0u-id/CARB
集智书童公众号
2024/04/12
9230
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
弱监督三维点云语义分割研究综述
作者:Jingyi Wang, Yu Liu, Hanlin Tan, Maojun Zhang
一点人工一点智能
2023/11/15
6450
弱监督三维点云语义分割研究综述
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
在深度学习时代,目标检测取得了显著的进展,但高度依赖昂贵的人工标注。因此,半监督学习越来越受到研究兴趣的青睐,它利用 未标注 数据来提高检测器性能,而不只是依赖标注。
集智书童公众号
2023/12/19
1.5K0
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
在遥感和(RS)社区中,早期的视觉定位任务[26, 37]特指在卫星图像和相关文本 Query 的基础上,给出特定物体的水平边界框(HBBs)的位置。随着RS数据集[12, 25, 34]的日益丰富,研究行人开始使用定向边界框(OBBs)[9]或分割 Mask [36]来更准确地描绘所指物体。RS视觉定位使得人类能够以更直观的方式与计算机进行互动,这在提高智能RS解释系统的效率方面具有巨大的潜力[29]。
AIGC 先锋科技
2025/01/07
2290
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
随着生成式AI的快速发展,大语言模型(LLM) 成为研究和应用的关注焦点。它们在理解和生成文本方面展现出强大的能力,推动了机器学习和人类机交互的演变。
未来先知
2024/09/30
5290
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
在深度学习近期发展的推动下,图像分类和目标检测领域已取得显著进展。大量数据集的可用性有助于加速这些进步。然而,为大规模数据集标注仍然是瓶颈,特别是对于2D和3D目标检测。半监督方法(SSA)已提出以解决此问题。与监督方法不同,这些方法仅需要有限数量的标注数据进行训练,其余数据未标注。
AIGC 先锋科技
2024/07/08
3690
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
CVPR 2020丨ADSCNet: 自纠正自适应膨胀率计数网络解读
编者按:在CVPR 2020上,商汤团队提出的自纠正自适应膨胀率计数网络,针对计数任务中点标注位置不一致和透视现象造成巨大的尺度变化的问题提出了有效的网络设计和监督方法。在监督方式方面,ADSCNet利用网络学习的结果来纠正不一致的人工标注从而更有效的训练;在网络设计方面,ADSCNet提出自适应膨胀率的卷积结构,不同位置采用不同的膨胀率来适应尺度的变化。ADSCNet在四个公开数据集上均有显著的提升。
马上科普尚尚
2020/07/17
6800
CVPR 2020丨ADSCNet: 自纠正自适应膨胀率计数网络解读
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
在前面的几个章节中,我们介绍了几种基于不同半监督假设的模型优化方案,包括Mean Teacher等一致性正则约束,FGM等对抗训练,min Entropy等最小熵原则,以及Mixup等增强方案。虽然出发点不同但上述优化方案都从不同的方向服务于半监督的3个假设,让我们重新回顾下(哈哈自己抄袭自己):
风雨中的小七
2023/01/11
3.5K0
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
【综述笔记】一些弱监督语义分割论文
这里的弱监督信息为image-level的类别信息,即没有像素级的语义分割标签,而仅有图像级的类别标签,即知道每张图里有哪些类别。
公众号机器学习与AI生成创作
2020/04/28
1.8K0
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
https://arxiv.org/pdf/2403.09281v1 CLIP(Contrastive Language-Image Pretraining,对比语言-图像预训练)模型在识别问题中表现出了卓越的性能,如零样本图像分类和对象检测。然而,由于其固有的挑战——即将计数(一项回归任务)转化为识别任务,CLIP在计数方面的能力仍然研究不足。在本文中,我们研究了CLIP在计数方面的潜力,特别是聚焦于人群规模估计。现有的基于分类的人群计数方法遇到了包括不恰当的离散化策略在内的问题,这些问题阻碍了CLIP的应用并导致性能次优。为了解决这些挑战,我们提出了增强的分块分类(Enhanced Blockwise Classification,EBC)框架。与以往方法不同,EBC依赖于整数值的箱(bins),这有助于学习稳健的决策边界。在我们的与模型无关的EBC框架内,我们引入了CLIPEBC,这是第一个能够生成密度图的完全基于CLIP的人群计数模型。通过对不同人群计数数据集的综合评估,我们方法的先进性能得到了证明。特别是,EBC可以使现有模型的性能提升高达76.9%。此外,我们的CLIP-EBC模型超越了当前的人群计数方法,在上海科技大学A部分和B部分数据集上分别实现了55.0和6.3的平均绝对误差。代码将公开提供。
AI浩
2024/10/22
3320
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
推荐阅读
TPAMI 2024 | 逐点监督下的噪声标注建模
1310
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
2350
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
1.4K0
清华/上海AI Lab/东南大学/武大联合提出 POINTOBB-V2 迈向更简单、更快速、更强劲的目标检测 !
3120
SAMTooth:利用 SAM 实现稀疏监督下的牙齿点云细分 !
3100
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
9620
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路!
2K0
SAMReg 基于多类分割的通用图像配准解决方案 !
3920
SAM究极进化版开源 | SAM与CLIP互相学习,带来最强Open-Vocabulary SAM,万物皆可
3.5K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
1.1K0
韩国高研院优化CLIP | 通过全局-局部训练方案解决CLIP中小目标丢失和Mask噪声问题
9230
弱监督三维点云语义分割研究综述
6450
Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点
1.5K0
RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 !
2290
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
5290
ReliableStudent | 减轻噪声伪标签的半监督3D目标检测方法,超越 KITTI 3D目标检测在点云水平!
3690
CVPR 2020丨ADSCNet: 自纠正自适应膨胀率计数网络解读
6800
小样本利器5. 半监督集各家所长:MixMatch,MixText,UDA,FixMatch
3.5K0
【综述笔记】一些弱监督语义分割论文
1.8K0
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
3320
相关推荐
TPAMI 2024 | 逐点监督下的噪声标注建模
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档