前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不需要特定标注数据,还能轻松部署,这技术如若问世便可让计算机视觉界洗牌

不需要特定标注数据,还能轻松部署,这技术如若问世便可让计算机视觉界洗牌

作者头像
数据猿
发布2024-06-19 19:45:28
940
发布2024-06-19 19:45:28
举报
文章被收录于专栏:数据猿数据猿
大数据产业创新服务媒体

——聚焦数据 · 改变商业


导语:

1.介绍MASA的各种特点

2.通过论文,以技术的角度解释MASA的实现原理

3.对比其他方法和MASA的区别

4.MASA目前的问题所在

在计算机视觉领域,想要识别和追踪某一个物体,就必须要对其进行标注。而在2024年6月,一项名为MASA的技术点燃了整个计算机视觉圈子,它无需依赖特定领域的标注数据,能够在多样化的领域中实现对任何物体的匹配。

MASA的全称叫做Matching Anything by Segmenting Anything,翻译过来是通过切割万物来追踪万物。在多个具有挑战性的多目标跟踪(MOT)和视频目标分割(MOTS)基准测试的广泛测试表明,MASA仅使用未标记的静态图像,其性能就可以超越使用完全注释的领域内视频序列训练的最先进方法,实现了零样本关联。在这个基础上,MASA还能通过联合训练策略,不仅学习了对象的先验知识,还提高了跟踪特征的泛化能力。

MASA在视频中追踪多个目标

MASA在视频中追踪多个目通俗来说,MASA就好像是班里的天才学生,它学习的时间比其他同学要少,也不需要任何课外补习班,考试成绩却永远是第一名,哪怕是没有见过的题目,依然能够给出正确的答案。

MASA是怎么来的?

在理解MASA之前,需要先理解什么是“切割万物”。这是一个用来进行图像分割的模型,叫做SAM(Segment Anything Model,切割万物模型)。它能够对图像中的各种物体进行精细的检测和分割。这个模型由三个主要模块组成:首先是图像编码器,它使用基于ViT(Vision Transformer)的重型骨干网络来提取图像特征;其次是提示编码器,用于处理来自交互式点、框或掩码提示的位置信息;最后是掩码解码器,这是一个基于Transformer的解码器,它接收图像嵌入和提示令牌,以生成最终的掩码预测。

MASA的整体运行流程

SAM采用密集采样的规则网格作为点锚,并为每个点提示生成掩码预测。整个流程包括使用贪婪的基于框的非极大值抑制(NMS)、三步过滤和对掩码的重度后处理。整个过程在论文中被称作是“SAM的万物模式”(SAM's everything mode)。这种模式使得SAM能够对输入图像中的所有潜在对象进行详尽的探索和分割,从而输出大量的掩码提案。

将SAM的输出视为密集的对象区域提案,并学习从庞大的图像集合中匹配这些区域。接着,对这些对象区域提案应用不同的几何变换,如旋转、缩放、翻转等,以模拟视频中对象的外观变化。这样做可以自动获得像素级别的对应关系,为后续的实例级对应关系学习提供数据支持。通过对比学习公式,学习区分相同实例和不同实例的判别性嵌入空间。这一步骤是通过最大化正样本的相似度和最小化负样本的相似度来实现的。

接下来轮到MASA适配器(MASA Adapter)登场了,在计算机视觉和深度学习领域,适配器可能被用来将一个预训练的模型适配到特定的任务或数据集上。而MASA适配器,它被设计为一种通用组件,可以与现有的开放世界分割和检测基础模型(如SAM、Detic、Grounding-DINO等)结合使用。MASA适配器的作用是提升这些模型的跟踪能力,使它们能够跟踪检测到的任何对象。它通过转换这些模型冻结的特征来实现这一点,以便学习更具判别性的实例外观表示。

在训练过程中,MASA方法还包括一个多任务训练管道,该管道同时执行SAM检测知识的蒸馏和实例相似性学习,以提高跟踪特征的泛化能力,进而显著提升SAM的“万物模式”的效率。在推理阶段,MASA适配器与对象检测器结合使用,检测器负责预测边界框,而MASA适配器则利用这些边界框作为提示,提取相应的跟踪特征,以实现实例匹配。

MASA完整的训练过程

综上,MASA的原理是就像是一位经验丰富的侦探,它利用SAM这副“放大镜”来仔细查看图像中的每一个角落,找出所有的线索(即对象区域)。然后,这位侦探通过不断学习和比较这些线索的特点,锻炼出了敏锐的洞察力,即使在没有任何预先标记的案件档案(视频数据)的情况下,也能够追踪到罪犯(跟踪物体)。这样,无论是在熟悉的街道还是陌生的城市,MASA都能够凭借它的这项技能,成功地追踪到目标。

MASA到底好在哪了?

如果MASA能被应用到当下视频软件中,那么很有可能改写如今的局面。目前来看,企业做目标检测、追踪,主要是利用深度神经网络对图像进行编码和分析,以实现目标的检测和跟踪。常见的深度学习方法包括卷积神经网络(CNN)和生成对抗网络(GAN)。这些方法具有强大的特征学习和分类能力,但需要大量的标注数据进行训练,并且计算复杂度高。

除此之外,还有OpenTrack和Unicorn这两个方法。OpenTrack则以其在开放词汇MOT任务上的适应性而闻名,它能够使用来自LVIS的频繁和常见类别注释进行训练,并将罕见类别视为新类。Unicorn的方法在处理遮挡问题时表现出色,它通过图层次结构统一短期和长期跟踪,这在有遮挡的场景中尤其有用。

但是从推理、训练和性能上来看,MASA甩开其他方法一大截。而且MASA还有一个非常重要的特点,便于部署。

首先,作为一个不依赖于特定领域标注数据的解决方案,MASA可以在没有详尽标注的情况下跨不同领域进行对象跟踪,这大大减少了部署前所需的准备工作。其次,MASA适配器的设计允许它与现有的检测或分割模型结合使用,这意味着可以轻松地将MASA集成到现有的系统中。

可想而知,MASA不像其他的技术那样,只能活在实验室或者论文里,它从出生开始就是为了商业落地而准备的。

其实MASA还存在一些问题

MASA很好,不过它还可以更好。任何技术在落地的时候都需要考虑其商业价值,因此改进模型的鲁棒性和准确性,特别是在处理复杂场景和动态环境中的跟踪问题时,就是MASA在商业应用阶段最需要考虑的问题。多目标检测在实战中总能碰到诸如阴阳脸、遮挡、低分辨率、数据不平衡等等问题,MASA需要做出一些改进,以应对这些可能发生的问题。

同时,因为MASA是一个大模型,如果打算将MASA与一些实时应用进行结合,那就需要进一步优化计算效率,减少资源消耗。再加上模型端侧化的趋势,MASA可能需要考虑怎样部署在资源受限的环境中。在论文中,MASA仅支持一些生活中常见的事物。然而考虑到实际使用场景,比如生物识别、机器人导航、自动驾驶等,那还需要扩展模型的能力,以处理更多类型的对象。

还有一点,MASA应该加强与其他计算机视觉任务的融合,如目标检测、分割、姿态估计等,提供更全面的视觉理解和分析。以姿态估计为例,这是指识别图像中人体的各个部位及其位置,MASA目前并不具备这个能力。但是MASA可以通过提供有关物体形状和位置的详细信息,辅助姿态估计任务。

此外,如果想把MASA应用在医学、金融、法律、安全这些领域,那么还得探索模型的可解释性和透明度,增强客户对模型决策过程的信任。不过这点对于大模型来说,反而是最难的。

文:火焰翼人 / 数据猿 责编:凝视深空 / 数据猿

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据猿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档