首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >干货 | 快速端到端嵌入学习用于视频中的目标分割

干货 | 快速端到端嵌入学习用于视频中的目标分割

作者头像
计算机视觉研究院
发布于 2019-05-13 10:01:37
发布于 2019-05-13 10:01:37
1K0
举报

我们开始进入今天的主题,接下来主要和大家分享目标在视频中的实时分割技术,来,一起学习吧!

背景及动机

最近对于目标分割的技术,已经出现很多很多,但都比较复杂,严重依赖于第一帧的微调,而且与/或速度慢,因此实际应用特别有限。

在今天的分享中,新框架将FEELVOS(Fast End-to-End Embedding Learning for Video Object Segmentation)作为一种简单、快速、不依赖于微调的方法。

为了分割视频,FEELVOS对每一帧使用语义像素级嵌入和全局和局部匹配机制,将信息从第一帧和视频的前一帧传输到当前帧。与以前的工作相比,该嵌入仅用作卷积网络的内部指导,该技术新的动态分割头允许训练网络,包括嵌入,端到端的多目标分割任务的交叉熵损失。

最后,在不需要微调的Davis 2017验证集上实现了视频目标分割的新技术,其J&F值为69.1%。

新框架方法

今天提及的新框架,提出了一种用于半监督视频目标快速分割的FEELVOS算法。

FEELVOS使用单个卷积网络,每个视频帧只需要一次前向传输。有关FEELVOS的概述,请见如下整体框架图。

该体系结构使用DeepLabv 3+(去掉其输出层)作为主干,与原始图像相比,提取步长为4的特征。在此基础上,新框架增加了一个嵌入层,该层提取同一步长的嵌入特征向量。然后,通过全局匹配当前帧的嵌入向量和第一帧中属于该目标的嵌入向量来计算每个目标的距离图。

另外,通过将当前帧嵌入到前一个帧的嵌入向量进行局部匹配,从而为每个目标计算另一个距离图。

下面将更详细地描述全局匹配和局部匹配。最后,新框架结合了所有可用的线索,即全局匹配距离映射、局部匹配距离映射、来自前一帧的预测以及主干网络特征。

然后,将它们提供给一个动态分割头,该动态分割头为每个像素(步长为4)在第一帧中的所有目标上产生后验分布。整个系统在不需要嵌入直接损失的情况下,对多目标分割进行端到端的训练。在下面的部分中,我们将更详细地描述每个组件。

语义嵌入

对于每个像素,在学习的嵌入空间中提取一个语义嵌入向量。嵌入空间的思想是,属于同一目标实例(同一帧或不同帧)的像素将在嵌入空间中临近的,属于不同目标的像素将远离。

请注意,这不是显式强制的,因为新框架没有直接使用嵌入空间中的距离来生成像PML或VideoMatch中那样的分段,而是使用它们作为一个软提示,可以通过动态分割头进行细化。然而在实践中,嵌入实际上是这样的,因为这为动态分割头提供了一个强有力的线索,以进行最终的分割。

全局&局部匹配

类似于PML和VideoMatch,通过在学习的嵌入空间中考虑最近的邻域,将第一个视频帧的语义信息从具有基本真实度的第一个视频帧转移到要分割的当前帧。

如下图所示,全局匹配距离图的可视化(暗颜色表示小距离,亮颜色表示大距离)。可以看出,鸭是比较好捕获,但距离图是嘈杂的,并包含许多假阳性的小距离在水中。这是一个强烈的动机,不使用这些距离直接产生分段,而是作为一个输入的分割头部,可以从噪声的距离恢复。

在实际应用中,用一个大型矩阵乘积来计算全局匹配距离映射,由此得到当前帧到第一个帧之间的所有配对距离,然后应用对象极小化。

上图也给出了一个局部匹配距离图的可视化实例。请注意,与前一个帧掩码太远的所有像素都被分配了1的距离。由于前帧和当前帧之间的运动很小,局部匹配产生了非常清晰和准确的距离图。

动态分割头

动态分割头为了系统有效地处理可变数量的目标,新框架提出了一个动态分割头,对每个具有共享权重的目标进行动态实例化一次(见下图)。

每个目标都需要运行一次分割头,但是大多数计算都是在提取共享主干网络特征时进行的,这使得FEELVOS能够很好地扩展到多个目标。此外,能够训练端到端的多目标分割,甚至对可变数量的目标。这两个属性与许多最近的方法(如rgmp)形成了强烈的对比。

实验结果

Davis 2017验证集上的结果

Davis 2017验证集上的结果

时间

在两个数据集上的可视化结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频分割在移动端的算法进展综述
语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。
SIGAI学习与实践平台
2019/04/26
2.1K0
视频分割在移动端的算法进展综述
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
【导读】 近日,针对视频物体分割中缺乏训练样本和准确率较低的问题,来自美国南加州大学、谷歌公司的学者发表论文提出基于实例嵌入迁移的无监督视频物体分割方法。其通过迁移封装在基于图像的实例嵌入网络(instance embedding network)中的知识来实现。 实例嵌入网络为每个像素生成一个嵌入向量,可以识别属于同一个物体的所有像素。本文将在静态图像上训练的实例网络迁移到视频对象分割上,将嵌入向量与物体和光流特征结合,而无需模型再训练或在线微调。 所提出的方法优于DAVIS数据集和FBMS数据集中最先进
WZEARW
2018/04/13
1.7K0
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
MASA:匹配一切、分割一切、跟踪一切
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于稳健的实例关联学习,该方法能够在不同领域内的视频中匹配任何对象,而无需跟踪标签。MASA利用Segment Anything Model(SAM)丰富的对象分割结果,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案,并从庞大的图像集合中学习匹配这些区域。我们进一步设计了一个通用的MASA适配器,它可以与基础的分割或检测模型协同工作,并使它们能够跟踪任何检测到的对象。这些组合在复杂领域中表现出强大的零次学习跟踪能力。在多个具有挑战性的MOT和MOTS基准测试上的广泛测试表明,所提出的方法仅使用未标记的静态图像,在零次学习关联中,其性能甚至超过了使用完全标注的域内视频序列训练的最新方法。我们的代码已公开在github.com/siyuanliii/masa。
AI浩
2024/10/22
2660
MASA:匹配一切、分割一切、跟踪一切
迈向目标跟踪大统一:一个模型解决所有主流跟踪任务,8项基准出色
机器之心报道 机器之心编辑部 单目标跟踪、多目标跟踪、视频目标分割、多目标跟踪与分割这四个任务,现在一个架构就搞定了。 目标跟踪是计算机视觉中的一项基本任务,旨在建立帧间像素级或实例级对应关系,并输出 box 或掩码(mask)形式的轨迹。根据不同应用场景,目标跟踪主要分为四个独立的子任务:单目标跟踪(SOT)、多目标跟踪(MOT)、视频目标分割 (VOS) 、多目标跟踪与分割 (MOTS) 。 大多数目标跟踪方法仅针对其中一个或部分子任务。这种碎片化情况带来以下缺点:(1)跟踪算法过度专注于特定子任务,缺
机器之心
2022/07/26
9020
迈向目标跟踪大统一:一个模型解决所有主流跟踪任务,8项基准出色
入门 | 一文概览视频目标分割
选自Medium 机器之心编译 参与:刘晓坤、路雪 近日 Visualead 研究主管 Eddie Smolyansky 在 Midum 网站撰文介绍视频目标分割的基础知识,从视频目标分割问题简介、数
机器之心
2018/05/10
1.6K0
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
图像分割技术是计算机视觉领域的重要研究方向,也是该领域其他应用的一个重要前期步骤。近些年来,随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,尤其在场景物体分割、人体背景分割、三维重建等技术在无人驾驶、增强现实等城市数字化领域得到了广泛应用。 而近日,特斯联科技集团首席科学家邵岭博士及团队提出具有语义对齐的多级表征学习框架解决指定视频目标分割(Referring Video Object Segmentation, RVOS)中存在的问题,且相关研究成果(标题为: Multi-Level Repr
AI科技评论
2022/05/25
5680
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
机器之心专栏 机器之心编辑部 美图影像研究院(MT Lab)与新加坡国立大学提出高效的 MLP(多层感知机模型)视频主干网络,用于解决极具挑战性的视频时空建模问题。该方法仅用简单的全连接层来处理视频数据,提高效率的同时有效学习了视频中细粒度的特征,进而提升了视频主干网络框架的精度。此外,将此网络适配到图像域(图像分类分割),也取得了具有竞争力的结果。 论文链接:https://arxiv.org/abs/2111.12527 GitHub链接:https://github.com/MTLab/MorphM
机器之心
2022/08/25
4330
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
多目标检测:基于Yolo优化的多目标检测(附论文下载)
为了解决目标检测任务中小目标检测精度低、误检、漏检率高等问题,有研究者提出了一种基于YOLOv4卷积神经网络的多目标检测方法。 多目标检测作为目标检测领域的一个重要研究方向,一直受到研究人员的广泛关注。目前,在智能交通、智能辅助驾驶和视频监控等领域已经产生了深入的研究。
计算机视觉研究院
2023/08/24
1.2K0
多目标检测:基于Yolo优化的多目标检测(附论文下载)
视觉几何嵌入Transformer(VGGT):前馈神经网络直接估算多输入视图三维场景属性,多任务领先且适用于实时应用 !
作者提出了一种名为VGGT的前馈神经网络,该网络能够直接从场景的一张、几张或多张视图中推理出所有关键的三维属性,包括相机参数、点图、深度图和三维点轨迹。这种方法在三维计算机视觉领域向前迈进了一步,因为以往的模型通常局限于并专门针对单一任务。VGGT结构简单且高效,能够在不到一秒的时间内重建图像,并且仍然优于需要使用视觉几何优化技术进行后期处理的替代方法。网络在多个三维任务中达到了最先进的效果,包括相机参数估计、多视图深度估计、密集点云重建和三维点跟踪。此外,作者还展示了使用预训练的VGGT作为特征 Backbone 显著提升了下游任务的效果,例如非刚性点跟踪和前馈新型视角合成。代码和模型已在https://github.com/facebookresearch/vggt公开发布。
未来先知
2025/05/07
8580
视觉几何嵌入Transformer(VGGT):前馈神经网络直接估算多输入视图三维场景属性,多任务领先且适用于实时应用 !
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
在本文中,来自香港大学和字节跳动的研究者们提出了一种基于Transformer的参考视频目标分割新框架ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。ReferFormer在四个参考视频目标分割数据集上都取得了当前最优的性能。
Amusi
2022/04/18
7030
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
实例分割是计算机视觉中的基础问题之一。虽然静态图像中的实例分割已经有很多的研究,对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少。而真实世界中的摄像头所接收的,无论自动驾驶背景下车辆实时感知的周围场景,还是网络媒体中的长短视频,大多为视频流的信息而非纯图像信息,因而研究对视频建模的模型有着十分重要的意义。
美团无人配送
2021/07/01
1.5K0
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
多目标跟踪 | FairMOT:统一检测、重识别的多目标跟踪框架,全新Baseline
论文地址:https://arxiv.org/pdf/2004.01888v2.pdf
AI算法修炼营
2020/05/27
13.5K0
多目标跟踪 | FairMOT:统一检测、重识别的多目标跟踪框架,全新Baseline
DeepLab2:用于深度标记的TensorFlow库(2021)
[paper]DeepLab2: A TensorFlow Library for Deep Labeling [code]DeepLab2: A TensorFLow Library for Deep Labeling DeepLab2 是一个用于深度标注的 TensorFlow 库,旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。
全栈程序员站长
2022/07/30
8920
多目标检测:基于YoloV4优化的多目标检测
为了解决目标检测任务中小目标检测精度低、误检、漏检率高等问题,有研究者提出了一种基于YOLOv4卷积神经网络的多目标检测方法。 多目标检测作为目标检测领域的一个重要研究方向,一直受到研究人员的广泛关注。目前,在智能交通、智能辅助驾驶和视频监控等领域已经产生了深入的研究。
计算机视觉研究院
2022/01/26
1.2K0
多目标检测:基于YoloV4优化的多目标检测
VDO-SLAM :一种动态目标感知的视觉SLAM系统
(VDO-SLAM :A Visual Dynamic Object-aware SLAM System)
用户1150922
2020/09/11
1.9K0
VDO-SLAM :一种动态目标感知的视觉SLAM系统
IIAI CVPR 2019 跟踪、检测、分割论文荐读
CVPR (Conference on Computer Vision andPattern Recognition) 作为人工智能领域计算机视觉方向的最重要的学术会议,每年都会吸引全球最顶尖的学术机构和公司的大量投稿。
小草AI
2019/05/31
7970
自己觉得挺有意思的目标检测框架,分享给大家(源码论文都有)
计算机视觉研究院专栏 作者:Edison_G 最近“计算机视觉研究院”有一段时间没有分享最新技术,但是最近我看了一些之前的检测框架,发现有两个很有意思,不错的框架,接下来我给大家简单分析下,希望给大家带来创新的启示! 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文获取|回复”PRN“获取论文 检测是视觉的基底,不管你应用在什么领域,检测识别是最基础也是最重要的技术之一,就好比人类的眼睛,只要你看到了,才传输到大脑更新迭代学习,促使我们认识世界万物。所以,我们一定
计算机视觉研究院
2022/03/25
5020
ICCV 2023 | Pix2Video: 基于扩散模型的视频编辑
在大量图像集合上训练的图像扩散模型,在质量和多样性方面已经成为最通用的图像生成器模型。它们支持反演真实图像和条件(例如,文本)生成,使其在高质量图像编辑应用中非常受欢迎。本文研究如何使用这些预训练的图像模型进行文本引导的视频编辑。关键的挑战是在实现目标编辑的同时仍然保留源视频的内容。本文的方法通过两个简单的步骤来工作:首先,使用预训练的结构引导的(例如,深度)图像扩散模型在锚框上进行文本引导的编辑;然后,在关键步骤中,通过自注意力特征注入将变化逐步传播到未来帧,以适应扩散模型的核心去噪步骤。然后,通过调整框架的潜在编码来巩固这些变化,然后再继续这个过程。
用户1324186
2023/11/08
9190
ICCV 2023 | Pix2Video: 基于扩散模型的视频编辑
【深度学习】目标检测
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
杨丝儿
2022/03/01
3K0
【深度学习】目标检测
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
导语:本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文。
腾讯技术工程官方号
2019/06/24
1.4K0
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
推荐阅读
视频分割在移动端的算法进展综述
2.1K0
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
1.7K0
MASA:匹配一切、分割一切、跟踪一切
2660
迈向目标跟踪大统一:一个模型解决所有主流跟踪任务,8项基准出色
9020
入门 | 一文概览视频目标分割
1.6K0
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
5680
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
4330
多目标检测:基于Yolo优化的多目标检测(附论文下载)
1.2K0
视觉几何嵌入Transformer(VGGT):前馈神经网络直接估算多输入视图三维场景属性,多任务领先且适用于实时应用 !
8580
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
7030
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
1.5K0
多目标跟踪 | FairMOT:统一检测、重识别的多目标跟踪框架,全新Baseline
13.5K0
DeepLab2:用于深度标记的TensorFlow库(2021)
8920
多目标检测:基于YoloV4优化的多目标检测
1.2K0
VDO-SLAM :一种动态目标感知的视觉SLAM系统
1.9K0
IIAI CVPR 2019 跟踪、检测、分割论文荐读
7970
自己觉得挺有意思的目标检测框架,分享给大家(源码论文都有)
5020
ICCV 2023 | Pix2Video: 基于扩散模型的视频编辑
9190
【深度学习】目标检测
3K0
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
1.4K0
相关推荐
视频分割在移动端的算法进展综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档