前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视频目标检测与图像目标检测的区别

视频目标检测与图像目标检测的区别

作者头像
AI算法与图像处理
发布于 2021-10-27 08:10:57
发布于 2021-10-27 08:10:57
2.7K0
举报

前言 本文介绍了知乎上关于视频目标检测与图像目标检测的区别的几位大佬的回答。主要内容包括有视频目标检测与图像目标检测的区别、视频目标检测的研究进展、研究思路和方法。

作者:Naiyan Wang、炸炸、亦辰

https://www.zhihu.com/question/52185576/answer/155679253

编辑:CV技术指南

声明:仅做学术分享,侵删


作者:Naiyan Wang https://www.zhihu.com/question/52185576/answer/155679253

抽空来简答一下这个问题,恰好也是我们比较关注的一个方向。

简单来说,视频检测是比单张图片检测多了Temporal Context(时间上下文)的信息。不同方法想利用这些Context来解决的问题并不相同。一类方法是关注如何使用这部分信息来加速Video Detection。因为相邻帧之间存在大量冗余,如果可以通过一些廉价的办法来加速不损害性能,在实际应用中还是很有意义的。另一类方法是关注这部分信息可以有效减轻单帧图片检测中由于运动模糊,物体面积过小导致的困难,从而来提升性能。当然最理想的方法是能又快又好啦:)

当然,这里有一些很简单的baseline方法,例如直接使用tracking关联。这类方法其实并没有深入到模型本身,一般仅仅局限于后处理步骤,虽然也可以取得一定的结果提升,但是个人觉得并不是很优美。比较关注的是来自以下两个组的工作吧。

1.CUHK: Xiaogang Wang 这面我了解到的有三篇文章,最开始 (TPAMI Short)是通过Motion的信息以及多类之间的Correlation来对单帧图像detector的输出进行后处理,算是在前面提到的Baseline方法上的小改进。后续的文章(CVPR 16)在这个基础上,引入了一个Temporal CNN对每一个Tubelet进行rescore。这样通过Temporal的信息来重新评估每个proposal的置信度。最近的工作(CVPR17)将Proposal生成这个步骤,也从静态图片拿到了时序上来做。除此之外,对于每个Tubelet的分类,也采取了流行的LSTM。

2. MSRA: Jifeng Dai 相对来讲,这面的工作更干净,思路更清晰一些。个人来说更喜欢。这面的两个工作其实思想类似,但是恰好对应于前文提到的加速和性能提升两个目的。其核心都在于通过快速计算Optical Flow来捕捉视频中的Motion信息,然后通过这个Flow的信息使用Bilinear Sampling对之前的Feature Map进行Warp(也就是通过Optical Flow来预测当前帧的Feature Map)。有了这样的信息之后,如果我们想加速,那么可以直接使用预测的Feature Map来输出结果;如果想得到更好的结果,可以将预测的Feature Map和当前帧计算出来的Feature Map融合起来一起输出结果。值得一提的是,后者也是目前唯一一个End to End的Video Detection方法。

另外有一些零碎一些的工作,基本都是在后处理过程中,处理rescore detection的问题,例如Seq-NMS等等。

最后呢,想来抛砖引玉,提出一个我们观察到在Video Detection中的问题,我们也写了一篇paper来讲这个事情([1611.06467] On The Stability of Video Detection and Tracking) 也就是在Video Detection中的稳定性(Stability)的问题。见下面这个Video,其实两个Detector如果论准确性来讲,差别并不大,然而对于人眼来看,孰优孰劣一目了然。

视频链接:https://v.youku.com/v_show/id_XMjY5MTM4MTI5Mg==.html?spm=a2hzp.8253869.0.0&from=y1.7-2

这样的稳定性的问题,在实际的应用中其实也会带来很多困扰。例如在自动驾驶中,需要稳定的2D检测框来进行车辆距离和速度的估计。不稳定的检测都会极大影响后续任务的准确性。所以呢,我们在文章中首先提出了一个定量的指标来衡量这种稳定性,然后评测了几种简单的Baseline。我们还计算了这个Stability指标和常用的Accuracy指标之间的Correlation,发现其实这两种指标其实相关性并不大,也就是说分别捕捉到了Video Detection中两方面的一个质量。希望这个工作能给大家一些启发,在改进准确性之余,也考虑一下同等重要的稳定性如何改进。

综上,Video Detection这个问题,不管是从实用性而言,还是从学术研究的角度来说,都是很不错的题目。在RBG大神和Kaiming大神不断的工作下,Still Image Detection改进空间越来越少。与其拼命在Still Image下拼那么0.x个点的mAP,不如退一步,挖掘一些新的设定,会是一篇海阔天空 :-D


作者:炸炸 https://www.zhihu.com/question/52185576/answer/298921652

Naiyan Wang的答案非常棒,点出了核心的区别是:在Video-based Object Detection中,我们可以利用Temporal Context 消除帧率较高时的信息冗余,还有利用Temporal Context 来补充单帧图像中的信息不足, 从而实现更好更快的跟踪。还附带了两个对应的最时髦优美的视频检测算法,感觉受益匪浅。

在这里想从自己的角度解答一下两者的机理与区别。因为是前两年在做基于视频的目标检测和跟踪,所用的方法相对于现行的Long Short-Term Memory (LSTM)可能相对老套,但是我觉得题主该是新手,了解一下过去的经典还是有意义的,可以作为前期补充。

研究问题


无论是基于视频还是图像,我们研究的核心是目标检测问题,即在图像中(或视频的图像中)识别出目标,并且实现定位。

基于单帧图像的目标检测


在静态图像上实现目标检测,本身是一个滑窗+分类的过程,前者是帮助锁定目标可能存在的局部区域,后者则是通过分类器打分,判断锁定的区域是否有(是)我们要寻找的目标。研究的核心多集中于后者,选什么样的特征表示来描述你锁定的区域(HOG, C-SIFT, Haar, LBP, CNN, Deformable Part Models (DPM) and etc.),将这些特征输入到什么样的分类器(SVM,Adaboost and etc.)进行打分,判断是否是我们要找的目标。

尽管我们要检测的目标可能外形变化多端(由于品种,形变,光照,角度等等),通过大量数据训练CNN得到的特征表示还是能很好地帮助实现识别和判定的过程。但是有些极端情况下,如目标特别小,或者目标和背景太相似,或者在这一帧图像中因为模糊或者其他原因,目标确实扭曲的不成样子,CNN也会觉得力不从心,认不出来它原来是我们要找的目标呢。另外一种情况是拍摄场景混入了其他和目标外观很像的东西 (比如飞机和展翅大鸟),这时候也可能存在误判。

也就是在这几种情况下,我们可能无法凭借单帧的外观信息,完成对目标鲁棒的检测。

基于视频的目标检测


单帧不够,多帧来凑。在视频中目标往往具有运动特性,这些特性来源有目标本身的形变,目标本身的运动,以及相机的运动。所以引入多帧之后,我们不仅可以获得好多帧目标的外观信息,还能获得目标在帧间的运动信息。于是就有了以下的方法:

第一种:侧重于目标的运动信息

先基于motion segmentation 或是 background extraction(光流法和高斯分布等)实现对前景和背景的分离,也就是说我们借助运动信息挑出了很有可能是目标的区域;再考虑连续帧里目标的持续性(大小,颜色,轨迹的一致性),可以帮助删去一部分不合格的候选的目标区域;然后对挑出的区域打分做判断,还是利用外观信息(单帧里提到的)。

第二种:动静结合,即在第一种的基础上,加入目标的外观形变

有些目标在视频中会呈现幅度较大的,有一定规律的形变,比如行人和鸟。这时我们可以通过学习形变规律,总结出目标特殊的运动特征和行为范式,然后看待检测的目标是否满足这样的行为变化。常见的行为特征表示有3D descriptors,Markov-based shape dynamics, pose/primtive action-based histogram等等。这种综合目标静态和动态信息来判断是否是特定目标的方法,有些偏向action classification。

第三种:频域特征的利用

在基于视频的目标检测中,除了可以对目标空间和时间信息进行分析外,目标的频域信息在检测过程中也能发挥巨大的作用。比如,在鸟种检测中,我们可以通过分析翅膀扇动频率实现鸟种的判别。

值得注意的是这里基于视频的目标检测(video-based detection)存在两种情况,一种是你只想知道这个场景中有没有这种目标,如果有,它对应的场景位置是哪; 另一种是这个场景有没有这种目标,它在每一帧中的位置是哪。我们这里介绍的方法侧重的是后一种更复杂的。

Deep learning 是钱途无量的,也是横行霸道的。希望视觉特征建模也能继续发展,整个计算机视觉研究领域更加多元化,而非被机器学习边缘化。


作者:亦辰 https://www.zhihu.com/question/52185576/answer/413306776

看到上面这么多大佬的回答,我也来补充一些自己的认识。

首先,从概念上来讲,视频目标检测要解决的问题是对于视频中每一帧目标的正确识别和定位。那么和其他领域如图像目标检测、目标跟踪有什么区别呢?

1.与图像目标检测的区别


如Naiyan Wang 大佬所说,视频中多了时序上下文关系(Temporal Context)。充分利用好时序上下文关系,可以解决视频中连续帧之间的大量冗余的情况,提高检测速度;还可以提高检测质量,解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及奇异姿势等问题。

(图片来源于Flow-Guided Feature Aggregation for Video Object Detection)

2. 与目标跟踪的区别


目标跟踪通常可分为单目标跟踪和多目标跟踪两类,解决的任务和视频目标检测相同的点在于都需要对每帧图像中的目标精准定位,不同点在于目标跟踪不考虑目标的识别问题。

3. 视频目标检测进展情况


1. 与光流结合的方法

一直在follow MSRA的Jifeng Dai大佬的工作。

该工作的优势是利用了连续帧冗余信息减少了大量运算,检测速度很快。

FGFA(Flow Guided Feature Aggregation)出发点主要在于,提高特征质量,改善视频中存在的运动模糊,视频失焦等问题,其方法特点在于更好的融合前后帧的信息。借助于注意力模型的思想,计算当前帧与前后帧之间的每个空间位置余弦相似度作为自适应权重,使通过warp的特征图与当前帧越近的权重越大。

该工作由于对每帧都做了特征提取,计算开支很大,检测速度不高。优势是检测精度得到提升,ImageNet VID 任务冠军方案就使用了上述两种方法。

2. 与目标跟踪结合的方法

链接:https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1710.03958

3. 与RNN结合的方法

链接:[1712.06317] Video Object Detection with an Aligned Spatial-Temporal Memory (arxiv.org)

链接:[1607.04648] Context Matters: Refining Object Detection in Video with Recurrent Neural Networks (arxiv.org)

4. 其他融合方法

链接:[1712.05896] Impression Network for Video Object Detection (arxiv.org)

5. 非端到端方法

链接:[1604.02532v4] T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos (arxiv.org)

链接:[1602.08465v3] Seq-NMS for Video Object Detection (arxiv.org)

综上,当下视频目标检测研究相对于图像领域还不够火热。研究思路多是要么关注利用冗余信息提高检测速度,要么融合连续帧之间上下文信息提高检测质量。减少冗余,提高速度这方面工作不是很多。(也有可能文章看的还不够多,欢迎指正)而融合上下文信息可以考虑借助行为识别常用的3D卷积,RNN,注意力模型等方法。

----版权声明----

仅用于学术分享,若侵权请联系删除

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ECCV 2022 | PTSEFormer : 针对视频目标检测的渐进式时空增强模型
近年来出现了一种应用上下帧来提高检测的性能的研究趋势,即视频目标检测。现有的方法通常会融合时序特征以增强检测性能。然而,这些方法通常缺乏来自相邻帧的空间信息,并且存在特征融合不足的问题。
用户1324186
2022/11/07
2K0
ECCV 2022 | PTSEFormer : 针对视频目标检测的渐进式时空增强模型
【技术解析】基于光流的视频目标检测系列文章解读
技术解析是由美团点评无人配送部技术团队主笔,每期发布一篇无人配送领域相关技术解析或应用实例,本期为您带来的是基于光流的视频目标检测系列文章解读。
美团无人配送
2019/04/26
2.5K1
【技术解析】基于光流的视频目标检测系列文章解读
MMTracking 食用指南 | 视频目标检测(附AAAI2021论文解读)
本期我们提供 MMTracking 里视频目标检测(VID)任务的食用指南,以及 AAAI2021 论文《Temporal RoI Align for Video Object Recognition》的论文解读以及其在 MMTracking 下的实现细节。
OpenMMLab 官方账号
2022/01/18
2.5K1
MMTracking 食用指南 | 视频目标检测(附AAAI2021论文解读)
视频目标检测--Flow-Guided Feature Aggregation for Video Object Detection
Flow-Guided Feature Aggregation for Video Object Detection https://arxiv.org/abs/1703.10025 Our framework is principled, and on par with the best engineered systems winning the ImageNet VID challenges 2016
用户1148525
2019/05/26
9620
视频目标检测大盘点
视频目标识别是自主驾驶感知、监控、可穿戴设备和物联网等应用的一项重要任务。由于图像模糊、遮挡或不寻常的目标姿态,使用视频数据进行目标识别比使用静止图像更具挑战性。因为目标的外观可能在某些帧中恶化,通常使用其他帧的特征或检测来增强预测效果。解决这一问题的方法有很多: 如动态规划、跟踪、循环神经网络、有/无光流的特征聚合以跨帧传播高层特征。有些方法采用稀疏方式进行检测或特征聚合,从而大大提高推理速度。主流的多帧无光流特征聚合和 Seq-NMS 后处理结合精度最高,但速度较慢(GPU 上小于10 FPS)。在准确率和速度之间需要权衡: 通常更快的方法准确率较低。所以研究兼具准确率和速度的新方法仍然有很大潜力。
McGL
2020/11/17
1.7K0
视频目标检测大盘点
【干货】模仿人类的印象机制,商汤提出精确实时的视频目标检测方法
【导读】最近,针对视频目标检测中速度精度难以两全的问题,来自商汤科技(SenseTime)的学者发表论文提出一个新的概念——印象网络,其体现出了自然高效的特征聚合机制。本文的框架通过迭代吸收稀疏的关键帧特征来建立印象特征。印象特征一直沿着视频传播,有助于增强低质量帧的特征。这种印象机制能够将稀疏的关键帧进行远距离的特征融合,并且使融合的过程开销最小。所提出的方法在ImageNet VID上进行了评估,取得了非常好的效果并且具备实时性(20fps)。代码将开源。 论文:Impression Network
WZEARW
2018/04/12
1.2K0
【干货】模仿人类的印象机制,商汤提出精确实时的视频目标检测方法
一文带你了解机器人是如何通过视觉实现目标跟踪的!
视觉跟踪技术是计算机视觉领域(人工智能分支)的一个重要课题,有着重要的研究意义。在军事制导、视频监控、机器人视觉导航、人机交互、以及医疗诊断等许多方面有着广泛的应用前景。随着研究人员不断地深入研究,视觉目标跟踪在近十几年里有了突破性的进展,使得视觉跟踪算法不仅仅局限于传统的机器学习方法,更是结合了近些年人工智能热潮—深度学习(神经网络)和相关滤波器等方法。本文主要介绍以下几点:什么是视觉目标跟踪(单目标跟踪)、单目标跟踪的基本结构(框架),目标跟踪存在的挑战,目标跟踪经典相关方法及研究趋势等。
一点人工一点智能
2023/02/25
1.1K0
一文带你了解机器人是如何通过视觉实现目标跟踪的!
利用Transformer进行端到端的目标检测及跟踪(附源代码)
多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能力。
计算机视觉研究院
2023/08/24
6010
利用Transformer进行端到端的目标检测及跟踪(附源代码)
再夺计算机科技界奥运会ACM 冠军,深兰科技视频级别目标身份和动态方案解读
堪称世界计算机科技界奥运会的ACM又举办了ACM MM 2020大会,于10月12日至16日在美国西雅图举行,人工智能独角兽企业深兰科技DeepBlueAI团队战胜了来自三星、厦门大学等机构的团队,斩获了视频目标检测赛道的冠军。
AI产业研究中心
2022/05/02
4780
利用TRansformer进行端到端的目标检测及跟踪(附源代码)
多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能力。
计算机视觉研究院
2021/07/09
9960
OpenCV 入门教程:目标检测与跟踪概念
目标检测与跟踪是计算机视觉领域的重要任务,用于在图像或视频中自动检测和跟踪特定的目标。这项技术在人脸识别、行人检测、车辆跟踪等领域具有广泛应用。本文将以目标检测与跟踪概念为中心,为你介绍使用 OpenCV 进行目标检测和跟踪的基本原理、方法和实例。
小蓝枣
2023/07/11
1.8K0
用 YOLO v5+DeepSORT,打造实时多目标跟踪模型
内容概要:目标跟踪作为一个非常有前景的研究方向,常常因为场景复杂导致目标跟丢的情况发生。本文按照跟踪目标数量的差异,分别介绍了单目标跟踪及多目标跟踪。
HyperAI超神经
2021/08/25
1.6K0
【推荐】本周值得关注的将开源论文,包含分类、分割、人脸、目标检测、ReID等
以下总结的是本周新出的作者声称“将开源”的论文,包含显著目标检测、遥感影像分类、人脸识别、基于视频的人员重识别、跨分辨率人员重识别、医学图像分割、transformer 在视频目标检测的应用等共计 11 篇。其中有一篇刚刚开源。
CV君
2021/06/08
8460
【推荐】本周值得关注的将开源论文,包含分类、分割、人脸、目标检测、ReID等
IIAI CVPR 2019 跟踪、检测、分割论文荐读
CVPR (Conference on Computer Vision andPattern Recognition) 作为人工智能领域计算机视觉方向的最重要的学术会议,每年都会吸引全球最顶尖的学术机构和公司的大量投稿。
小草AI
2019/05/31
7820
【干货】计算机视觉视频理解领域的经典方法和最新成果
---- 新智元专栏 作者:张皓(南京大学) 【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 常用数据集 视频分类主要有两种数据集,剪辑过(trimmed)
新智元
2018/05/30
3.8K0
[计算机视觉论文速递] 2018-06-19 目标检测专场
这篇文章有 4篇论文速递,都是目标检测方向,包括行人检测、车辆检测、指纹检测和目标跟踪等。
Amusi
2018/07/24
4670
[计算机视觉论文速递] 2018-06-19 目标检测专场
最新3D目标检测文章汇总(包含ECCV20和ACMMM20)
3D目标检测在ECCV20的文章中呈现依旧火热的研究趋势,本文对目前笔者看到过的ECCV20和ACM MM20的3D目标检测文章做一个汇总,分类方法按照该方法是否在对应数据集上实验作为分类方法。
3D视觉工坊
2020/12/11
7050
基于深度学习的视觉目标跟踪方法
以前写过一个“自动驾驶中的目标跟踪”介绍,这次重点放在深度学习和摄像头数据方面吧。
小白学视觉
2021/12/17
1.6K0
基于深度学习的视觉目标跟踪方法
视频中的多目标跟踪【附PPT与视频资料】
目前视频多目标跟踪在智能安防、自动驾驶、医疗等领域都有非常多的应用前景,但同时也是计算机视觉中比较困难的一个问题。这主要是由于待跟踪的目标被遮挡造成的。本文主要介绍多目标跟踪目前的一些解决策略以及未来的发展趋势。
马上科普尚尚
2020/05/11
1.3K0
视频中的多目标跟踪【附PPT与视频资料】
目标检测指南
目标检测 (Object detection) 是一种计算机视觉技术,旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。
崔庆才
2019/08/12
6490
推荐阅读
相关推荐
ECCV 2022 | PTSEFormer : 针对视频目标检测的渐进式时空增强模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档