Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR2021 双图层实例分割,大幅提升遮挡处理性能

CVPR2021 双图层实例分割,大幅提升遮挡处理性能

作者头像
CV君
发布于 2021-06-08 14:18:41
发布于 2021-06-08 14:18:41
1.9K0
举报

物体的互相遮挡在日常生活中普遍存在,严重的遮挡易带来易混淆的遮挡边界及非连续自然的物体形状,从而导致当前已有的检测及分割等的算法性能大幅下降。本文通过将图像建模为两个重叠图层,为网络引入物体间的遮挡与被遮挡关系,从而提出了一个轻量级的能有效处理遮挡的实例分割算法。

文 / 轩飞

编辑 / 贞霓

论文地址| https://arxiv.org/pdf/2103.12340.pdf

论文代码|https://github.com/lkeab/BCNet

01

摘要

由于物体的真实轮廓和遮挡边界之间通常没有区别,对高度重叠的对象进行分割是非常具有挑战性的。与之前的自顶向下的实例分割方法不同,本文提出遮挡感知下的双图层实例分割网络BCNet,将图像中的感兴趣区域(Region of Interest,RoI)建模为两个重叠图层,其中顶部图层检测遮挡对象,而底图层推理被部分遮挡的目标物体。双图层结构的显式建模自然地将遮挡和被遮挡物体的边界解耦,并在Mask预测的同时考虑遮挡关系的相互影响。作者在具有不同主干和网络层选择的One-stage和Two-stage目标检测器上验证了双层解耦的效果,显著改善了现有图像实例分割模型在处理复杂遮挡物体的表现,并在COCO和KINS数据集上均取得总体性能的大幅提升。

02

背景

实例分割(Instance Segmentation)是图像及视频场景理解的基础任务,该任务将物体检测与语义分割有机结合,不仅需要预测出输入图像的每一个像素点是否属于物体,还需将不同的物体所包含的像素点区分开。目前,实例分割技术已经大规模地应用在短视频编辑、视频会议、医学影像、自动驾驶等领域中, 下图展示了在自动驾驶场景下其对周边车辆的位置感知:

自动驾驶 - 车辆识别与感知

03

问题

以Mask R-CNN为代表的实例分割方法通常遵循先检测再分割(Detect-then-segment)的范例,即先获取感兴趣目标检测框,然后对区域内的像素进行Mask预测,在COCO数据集取得了领先性能并在工业界得到广泛应用。我们注意到大多数后续改进算法如PANet、HTC、BlendMask、CenterMask等均着重于设计更好的网络骨干(Backbone)、高低层特征的融合机制或级联结构(Cascade Structure),而忽视了掩膜预测分支(Mask Regression Head)的作用。同时,如图1所示的重叠人群,大面积的实例分割错误都是由于同一感兴趣区域(RoI)中包含的重叠物体混淆了不同物体的真实轮廓,特别是当遮挡和被遮挡目标都属于相同类别或纹理颜色相似。

图1 高度遮挡下的实例分割结果对比

04

成果

近日,香港科技大学联合快手对图像实例分割当下性能瓶颈进行了深入剖析,该研究通过将图像中感兴趣区域(RoI)建模为两个重叠图层(如图2示),并提出遮挡感知下的双图层实例分割网络BCNet,顶层GCN层检测遮挡对象,底层GCN层推理被部分遮挡的目标物体,通过显式建模自然地将遮挡和被遮挡物体的边界解耦,并在mask预测的同时考虑遮挡关系的相互影响,显著改善了现有实例分割模型在处理复杂遮挡物体时的表现,在COCO和KINS数据集上均取得领先性能。

图2 遮挡物和被遮挡物的双图层分解示意简图

05

意义

物体互相遮挡在日常生活中普遍存在,严重的遮挡会带来易混淆的遮挡边界及非连续自然的物体形状,从而导致当前已有的检测及分割等的算法的性能大幅下降。该研究系统提出了一个轻量级且能有效处理遮挡的实例分割算法,在工业界也具有极大意义。随着短视频作为主要信息传播媒介不断渗透进日常生活,在实际的物体分割应用场景中,分割的准确性直接影响着用户的使用体验和产品观感。因此,如何将实例分割技术应用在复杂的日常应用场景并保持高精度,此项研究给出了一个合理、有效的解决方案。

BCNet的结构框架

整个分割系统分为两个部分,物体检测部分和物体分割部分,算法流程如下图:

图3 BCNet的网络结构

  1. 输入单张图像,使用基于Faster R-CNN或者FCOS的物体检测算法预测感兴趣目标区域(RoI)候选框坐标(x,y,w,h),采用Resnet-50/101及特征金字塔作为基础网络(backbone)获取整张输入图片的特征。
  2. 使用RoI Align算法根据物体检测框位置,在整张图片特征图内准确抠取感兴趣目标区域的特征子图,并将其作为双图卷积神经网络的输入用于最终的物体分割。
  3. 实例分割网络BCNet由级联状的双图层神经网络组成:
  4. 第一个图层对感兴趣目标区域内遮挡物体(Occluder)的形状和外观进行显式建模,该层图卷积网络包含四层,即卷积层(卷积核大小3x3)、图卷积层(Non-local Layer)以及末尾的两个卷积(卷积核大小3x3)。第一个图卷积网络输入感兴趣目标区域特征,输出感兴趣目标框中遮挡物体的边界和掩膜。
  5. 第二个图层结合第一个图卷积网络(用于对遮挡物体建模)已经提取的遮挡物体信息(包括遮挡物的Boundary和Mask),具体做法是将步骤2中得到的感兴趣目标区域特征与经过第一个图卷积网络中最后一层卷积后的特征3a相加,得到新的特征,并将其作为第二个图卷积网络(用于被遮挡物分割)的输入。第二个图卷积网络与第一个图卷积网络结构相同,构成级联网络关系。该操作将遮挡与被遮挡关系同时考虑进来,能有效地区分遮挡物与被遮挡物的相邻物体边界,最终输出目标区域被遮挡目标物体(Occludee)的分割结果。
  6. 为了减少模型的参数量,我们使用非局部算子(Non-local Operator)操作进行图卷积层的实现,具体实现位于结构图左上位置,包含三个卷积核大小为1x1的卷积层以及Softmax算子,其将图像空间中像素点根据对应特征向量的相似度有效关联起来,实现输入目标区域特征的重新聚合,能较好解决同一个物体的像素点在空间上被遮挡截断导致不连续的问题。

BCNet与其他经典网络结构对比

我们的提出的复杂遮挡下的图像分割算法,基于已有的双阶段分割模型,将传统的单个的全卷积(Fully Convolution)掩膜预测分支网络替换成由双图层级联构成的图神经网络(Graph Convolutional Network)模型,在感兴趣目标区域(RoI)中,前图层建模输出遮挡物体(Occluder)的位置和形状,后图层在前图层基础上最终输出相应的被遮挡物体(Occludee)的Mask,从而让实例分割算法在遮挡情况下仍然能够保持高运行速度和服务器端的高速度。如下是BCNet与其它经典网络结构设计对比图:

图4 分割网络结构设计对比

实验和对比

作者在三个数据集包括COCO、COCOA以及KINS上对算法进行了验证,大量的定量实验结果(表1和表2,包含Modal Segmentation和Amodal Segmentation)表明BCNet在不过度增加网络参数和预测耗时的基础上,结合现有的One-stage和Two-stage物体检测器上均能取得较大的性能提升,优于CenterMask、BlendMask以及多阶段Cascade的HTC等现有算法,尤其是对于存在遮挡的物体。同时,表3证明双图层结构在两个完全的全卷积网络(pure FCN)图层中依然有效。

表1 在COCO-test-dev上的对比结果,

BCNet性能大幅优于BlendMask、CenterMask等网络

表2 在COCO-Val、COCOA和KINS数据集上的对比结果

表3 对双图层结构(bilayer structure)的有效性验证

另外,作者也提供了不同数据集下的可视化对比结果。对于COCO数据集,在图5和图6中可以看到即使在复杂的遮挡情况下,BCNet也能给出较为鲁棒的预测结果,而且通过分别可视化前图层和后图层对遮挡物和被遮挡物的Boundary和Mask的建模结果,使得BCNet的预测较以往算法具有更强的可解释性。图7和图8提供了对于Amodal Segmentation下的KINS和COCOA数据集的实例分割效果对比。

图5 基于FCOS检测器,COCO上CenterMask(第一行)和BCNet(第二行)的可视化结果对比。最下面一行显示了由两个GCN图层分别预测的遮挡物和被遮挡物的轮廓以及掩膜,从而使得BCNet的最终分割结果比以前的方法更具可解释性。

图6基于Faster R-CNN检测器,COCO上Mask Scoring R-CNN(第一行)和BCNet(第二行)的可视化结果对比

图7 KINS数据集上,ASN(第一行)和BCNet(第二行)的可视化结果(amodal)对比

图8 COCOA(左)及KINS(右)上的更多结果(amodal)对比

更多BCNet的实现和实验细节可参考论文和开源代码,图5到图8可视化部分基于的对比算法来源如下:

[1] Lee, Youngwan, and Jongyoul Park. "Centermask: Real-time anchor-free instance segmentation." In CVPR, 2020.

[2] Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn. In CVPR, 2019.

[3] Qi L, Jiang L, Liu S, et al. Amodal instance segmentation with kins dataset. In CVPR, 2019.

[4] Follmann, Patrick, et al. "Learning to see the invisible: End-to-end trainable amodal instance segmentation." In WACV, 2019.

欢迎加入

快手音视频技术团队由业界资深的专家组成,通过工程建设、算法优化,结合数据驱动、专业质量评测及产品化的手段为用户打造极致的体验。团队自2016年成立以来,已经建立起了业界领先的短视频+直播技术体系,支撑快手在国内、海外的数亿用户。

在这里你可以:

  • 接触世界最前沿的音视频技术
  • 在丰富的应用场景中大展身手
  • 和行业里最优秀的同学们并肩作战

我们期待你的加入!请发送简历到:

video-hr@kuaishou.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
让「盲人能摸象」:港中文博士用无监督学习去遮挡,论文一年多终于入选CVPR 2020
本文《Self-Supervised Scene De-occlusion》由香港中文大学和南洋理工大学团队合作完成,被接收为CVPR2020的oral presentation。
新智元
2020/04/21
1.1K0
让「盲人能摸象」:港中文博士用无监督学习去遮挡,论文一年多终于入选CVPR 2020
何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法
TensorMask 密集实例分割效果示例。左图:示例图;右图:局部放大。图中可以看到,不仅较大和较小的物体都得到了较为完善的勾画,物体之间相互遮挡的边缘也能够正确地处理。
AI研习社
2019/05/08
4950
何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法
干货 | 图像分割概述 & ENet 实例
https://s3-us-west-2.amazonaws.com/mlsurveys/54.pdf
AI科技评论
2019/10/31
7140
CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
机器之心专栏 作者:李易寒 研究者表示,这一工作有望让大规模的智能垃圾分类检查成为可能,提升垃圾分类回收的效率,减少环境污染。 近些年来,社会的发展带来了生活垃圾的爆发性增长,实行垃圾分类既可以减少对自然环境的破坏,同时对垃圾中的可回收资源进行回收再利用,也带来更大经济效益。垃圾分类的的检查工作是其中的重要一环,只有正确的分类才能提升回收效率和避免环境污染。传统的分类检查方法依赖于人工的翻阅。而现有的图像检查方法也需要打开垃圾袋并且把垃圾摊开。这些检查方法存在两大缺点: 翻开垃圾袋的过程比较繁琐,且对于接触
机器之心
2022/08/25
2090
CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
14篇论文入选CVPR!快手视觉研究成果精华总结
机器之心发布 机器之心编辑部 在正在进行的 CVPR 2021 上,快手有多篇论文被接收,涵盖三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域。 计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议上中稿最多的一次,研究成果数量的阶段性爆发标志着快手产学研合作从探索期逐步进入成熟期。 此次快手的中稿论文,涵盖了三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域,部分研究成
机器之心
2023/03/29
5780
14篇论文入选CVPR!快手视觉研究成果精华总结
CVPR 2020 论文大盘点-实例分割篇
本文盘点CVPR 2020 所有实例分割(Instance Segmentation)相关论文(语义分割在这里,不含全景分割、医学图像分割、交互式分割等,以上将会另行总结),总计18篇,对文献进行了分类汇总,希望对大家有帮助。
CV君
2020/06/28
9930
CVPR 2020 论文大盘点-实例分割篇
美团无人配送CVPR2020论文CenterMask解读
计算机视觉技术是实现自动驾驶的重要部分,美团无人配送团队长期在该领域进行着积极的探索。不久前,高精地图组提出的CenterMask图像实例分割算法被CVPR2020收录,本文将对该方法进行介绍。CVPR的全称是IEEE Conference on Computer Vision and Pattern Recognition,IEEE国际计算机视觉与模式识别会议,它和ICCV、ECCV并称为计算机视觉领域三大顶会。本届CVPR大会共收到6656篇投稿,接收1470篇,录用率为22%。
美团无人配送
2020/05/09
8440
美团无人配送CVPR2020论文CenterMask解读
实例分割最新最全面综述:从Mask R-CNN到BlendMask
实例分割(Instance Segmentation)是视觉经典四个任务中相对最难的一个,它既具备语义分割(Semantic Segmentation)的特点,需要做到像素层面上的分类,也具备目标检测(Object Detection)的一部分特点,即需要定位出不同实例,即使它们是同一种类。因此,实例分割的研究长期以来都有着两条线,分别是自下而上的基于语义分割的方法和自上而下的基于检测的方法,这两种方法都属于两阶段的方法,下面将分别简单介绍。
BBuf
2020/03/04
13.3K0
实例分割最新最全面综述:从Mask R-CNN到BlendMask
CVPR2020:Deep Snake 用于实时实例分割
1) 提出了一种基于学习的用于实时实例分割的蛇算法,介绍了用于轮廓学习的圆形卷积。
小白学视觉
2020/06/11
1.4K0
代码开源 | COCO-16 图像分割冠军:首个全卷积端到端实例分割模型
【新智元导读】清华大学与微软研究院合作,提出了一种新的架构 FCIS,是首个用于图像实例分割任务的全卷积、端到端的解决方案,该架构在 COCO 2016 图像分割竞赛中获得了第一名。论文现被 CVPR 2017 作为 spotlight paper 接收,代码也已开源:https://github.com/msracver/FCIS 继图像分类、物体检测之后,精确到像素级别的物体实例分割就成为更具挑战性和实用性的视觉识别任务。前两个任务在近年来取得了迅速的进展,已经有了不少优雅有效的方法。然而,实例分割任务
新智元
2018/03/28
2K0
代码开源 | COCO-16 图像分割冠军:首个全卷积端到端实例分割模型
CVPR2021佳作 | One-Shot都嫌多,Zero-Shot实例样本分割
实例分割(Instance Segmentation)是视觉经典四个任务中相对最难的一个,它既具备语义分割(Semantic Segmentation)的特点,需要做到像素层面上的分类,也具备目标检测(Object Detection)的一部分特点,即需要定位出不同实例,即使它们是同一种类。因此,实例分割的研究长期以来都有着两条线,分别是自下而上的基于语义分割的方法和自上而下的基于检测的方法,这两种方法都属于两阶段的方法,下面将分别简单介绍。
计算机视觉研究院
2021/07/09
1.1K0
[调研] 通用实例分割方法[通俗易懂]
文章提出two-stage、real-time的instance segmentation方法:1、得到初始的目标轮廓;2、轮廓迭代变形,以得到最终精准的目标边界;
全栈程序员站长
2022/09/23
1.1K0
[调研] 通用实例分割方法[通俗易懂]
PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN
机器视觉领域的核心问题之一就是目标检测(objectdetection),它的任务是找出图像当中所有感兴趣的目标(物体),确定其位置和大小。作为经典的目标检测框架FasterR-CNN,虽然是2015年的论文,但是它至今仍然是许多目标检测算法的基础,这在飞速发展的深度学习领域十分难得。而在FasterR-CNN的基础上改进的MaskR-CNN在2018年被提出,并斩获了ICCV2017年的最佳论文。Mask R-CNN可以应用到人体姿势识别,并且在实例分割、目标检测、人体关键点检测三个任务都取得了很好的效果。因此,百度深度学习框架PaddlePaddle开源了用于目标检测的RCNN模型,从而可以快速构建强大的应用,满足各种场景的应用,包括但不仅限于安防监控、医学图像识别、交通车辆检测、信号灯识别、食品检测等等。
用户1386409
2019/06/10
2.4K0
PaddlePaddle实战 | 经典目标检测方法Faster R-CNN和Mask R-CNN
14篇论文入选CVPR!快手视觉研究成果精华总结
计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议上中稿最多的一次,研究成果数量的阶段性爆发标志着快手产学研合作从探索期逐步进入成熟期。
公众号-arXiv每日学术速递
2021/07/02
7900
14篇论文入选CVPR!快手视觉研究成果精华总结
干货 | 实例分割的进阶三级跳:从 Mask R-CNN 到 Hybrid Task Cascade
AI 科技评论按:本文作者香港中文大学多媒体实验室在读博士陈恺,原载于知乎专栏,AI 科技评论已获授权。
AI科技评论
2019/05/08
1.2K0
干货 | 实例分割的进阶三级跳:从 Mask R-CNN 到 Hybrid Task Cascade
CVPR2021 | 基于transformer的视频实例分割网络VisTR
原文:End-to-End Video Instance Segmentation with Transformers
3D视觉工坊
2021/04/09
1.1K0
CVPR2021 | 基于transformer的视频实例分割网络VisTR
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
实例分割是计算机视觉中的基础问题之一。虽然静态图像中的实例分割已经有很多的研究,对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少。而真实世界中的摄像头所接收的,无论自动驾驶背景下车辆实时感知的周围场景,还是网络媒体中的长短视频,大多为视频流的信息而非纯图像信息,因而研究对视频建模的模型有着十分重要的意义。
美团无人配送
2021/07/01
1.5K0
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
CVPR2020最新实例分割论文
CVPR 2020共有18篇实例分割论文(9篇开源代码):1篇Oral(Deep Snake),含2D实例分割8篇(一阶段one-shot实例分割有好几篇),3D点云实例分割5篇,解决标注数据不足问题的非监督/半监督/小样本学习的实例分割各1篇,另外IBM研究了实例分割跟踪,还有1篇实例分割在生物图像中的应用,既高精度又兼顾速度。
机器学习AI算法工程
2020/11/03
1K0
CVPR2020最新实例分割论文
学界 | 万字长文详解腾讯优图 CVPR 2019 入选论文
AI 科技评论消息,CVPR 2019 即将于 6 月在美国长滩召开。今年有超过 5165 篇的大会论文投稿,最终录取 1299 篇。此次,腾讯公司有超过 58 篇论文被本届 CVPR 接收,其中腾讯优图实验室 25 篇、腾讯 AI Lab 33 篇,以下便是对腾讯优图实验室 25 篇被录用论文的详细介绍。
AI研习社
2019/05/08
1.3K0
学界 | 万字长文详解腾讯优图 CVPR 2019 入选论文
推荐阅读
相关推荐
让「盲人能摸象」:港中文博士用无监督学习去遮挡,论文一年多终于入选CVPR 2020
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档