Loading [MathJax]/jax/input/TeX/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R-C3D 视频活动检测的经典算法

R-C3D 视频活动检测的经典算法

原创
作者头像
CV派
修改于 2019-09-17 02:41:44
修改于 2019-09-17 02:41:44
1K0
举报
文章被收录于专栏:Paper阅读Paper阅读
l论文信息
l论文信息

主要贡献

1)论文提出了活动检测模型,即R-C3D,这是一种端到端活动检测模型,结合活动建议和分类阶段,可以检测任意长度的活动。

2)通过在建议生成(proposal generation)和网络分类部分之间共享全卷积的C3D特性,实现快速检测速度(比当前方法快5倍);

3)对三个不同的活动检测数据集进行了大量的评估,证实了该文提出的模型具有普遍适用性。

存在问题

连续视频中的活动检测是一个具有挑战性的问题,不仅需要识别,还需要及时准确地定位活动。当前存在的方法在处理连续视频流的活动检测时,存在以下问题:

1)这些现成的表示可能不适合在不同视频域中进行定位活动,从而导致性能的地下。

2)现有方法依赖外部建议或全面的滑动窗口,导致计算效率地下。

3)滑动窗口无法轻松的预测灵活的活动边界。

基本思想

受目标检测方法FasterR-CNN的启发,论文中提出了一种区域卷积3D网络(RegionConvolutional 3D Network,R-C3D)如上图,该方法先进行3D全卷积网络对视频帧进行编码处理,之后提取活动时序片段(actionproposal segments),最后在分类子网络(action classificationsubnet)并对结果进行分类和细化。

论文细节

该网络可以用于连续视频流中进行活动检测。其网络结构图如下,由3各部分组成,共享的3D ConvNet特征提取器,时间建议阶段(temporalproposal stage)以及活动分类和细化阶段。

模型架构
模型架构

为了实现高效的计算和端到端训练,建议和分类子网共享C3D特征映射。这里的一个关键创新是将Faster R-CNN中的2D RoI pooling扩展到3D RoI pooling,这样做的好处就是,该文的模型能够提取各种分辨率的可变长度建议框的特征。

论文中通过共同优化两个子网的分类和回归任务来训练网络,Softmax损失函数用于分类,平滑L1损失函数用于回归,所以本文的目标函数结合两部分损失函数为:

上式中NclsNreg分别代表批量大小和anchor/proposal段的数量,λ为损失权值参数,设置为1,ti={δ^ci,δ^li}表示anchor或proposals的预测相对偏移量,ti={δci,δli}表示anchor或proposals的ground truth的坐标变换。其变换如下:

实验结果

Experimentson THUMOS'14

表1
表1

Table1是在THUMOS'14上的活动检测结果。在表1中作者在IoU阈值0.1~0.5(表示为a)上对当前存在的方法和R-C3D进行活动检测性能的评估比较。在单向缓冲设置(one-way buffer)的R-C3D,其mAP@0.5为27.0%比当前最先进方法高3.7%。双向缓冲设置(two-waybuffer)的R-C3D的mAP在所有IoU阈值下都有了提高,其中mAP@0.5达到28.9%。

表2
表2

Table2展示了R-C3D与其他方法在数据集THUMOS'14上的每一类的AP(Average Precision)。表中可以看出R-C3D在大多数类别中的AP优于其他方法,在一些活动中甚至超过了20%,比如Basketball Dunk, Cliff Diving等。图(a)显示了在数据集THUMOS'14上的两个视频的定性结果。

THUMOS'14
THUMOS'14

Experimentson ActivityNet

表3
表3

表3是在数据集ActivityNet上的检测结果。表3.活动网上的检测结果,以mAP@0.5(百分比)表示。 从表中可以看出,R-C3D方法在验证集和测试集上分别优于UPC4.3%和4.5%(在mAP@0.5下)。当训练集和验证集都用来训练时,R-C3D方法的检测结果要比只用训练集训练时高1.6%。

图(b)展示了R-C3D在数据集ActivityNet中具有代表性的结果。

ActivityNet
ActivityNet

Experimentson Charades

表4是关于在数据集Charades上的活动检测结果。如表4所示,该文的模型优于文献25中提出的异步时域模型以及在该文章中报告的不同基准线。

表4
表4

按照标准做法,论文中按照mAP@0.5评估了模型,结果为9.3%,性能与在其他数据集中测试的性能结果不同。这个原因可能是数据集Charades固有的问题,比如室内场景光照强度低,或者数据的标签过多等。

图(c)展示了R-C3D在数据集Charades中具有代表性的结果。

Charades
Charades

结论

引入了R-C3D模型,用来活动检测的第一个端对端时间建议分类网络;

在3个大规模的数据集中对该文提出的方法进行了评估,结果展示该文的方法比当前基于3D卷积的模型更快且更准确;

R-C3D还可以假如其他一些特性,以进一步提高活动检测结果。

论文地址:https://arxiv.org/pdf/1703.07814.pdf

代码地址:http://ai.bu.edu/r-c3d/

注:本篇解读文章是作者RoseVam发表于我爱计算机视觉

更多论文分享,请关注公众号
更多论文分享,请关注公众号

https://ask.qcloudimg.com/draft/6237381/9nwm8gyafp.png?imageView2/2/w/1620

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
暂无评论
推荐阅读
编辑精选文章
换一批
R-C3D 视频活动检测
本文为52CV群友RoseVam投稿,介绍了视频活动检测经典模型 R-C3D: Region Convolutional 3D Network for Temporal Activity Detect,该文出自ICCV 2017,谷歌学术显示已有127次引用,是该领域近两年较有影响力的工作,代码已开源。
OpenCV学堂
2019/07/30
1.2K0
R-C3D 视频活动检测
视频的行为识别「建议收藏」
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
全栈程序员站长
2022/06/27
1.6K0
视频的行为识别「建议收藏」
多级语言与视觉集成用于文本-剪辑检索(文章有视频Demo,文末有源码)
4月,是不冷不热的季节,可以肆无忌惮的去游玩,可以敞开心怀去做自己想做的事情,比如科研,灵感来源于大自然,一不小心在樱花树下Get了一个新颖的想法,所以,我们要用乐观的心态去学习、科研和生活。
计算机视觉研究院
2019/05/13
1K1
多级语言与视觉集成用于文本-剪辑检索(文章有视频Demo,文末有源码)
如何瞬间找到视频中的目标片段?这篇顶级论文帮你详解CDC网络如何实现视频的精准定位
作者|周翔 上个月 22 日,备受瞩目的 CVPR 2017 最佳论文在夏威夷会议中心揭晓。本届 CVPR 2017 共有两篇最佳论文(分别被康奈尔和清华团队、以及苹果团队拿下),两篇最佳论文提名,以及一篇最佳学生论文。 除了这些获奖论文之外,CVPR 2017 还收录了一些非常有意思的论文。其中,师从张世富教授的哥伦比亚大学在读博士寿政的论文——“Convolutional-De-Convolutional Networks for Precise Temporal Action Localizat
AI科技大本营
2018/04/27
2.6K0
如何瞬间找到视频中的目标片段?这篇顶级论文帮你详解CDC网络如何实现视频的精准定位
CVPR 2018 | 密歇根大学&谷歌提出TAL-Net:将Faster R-CNN泛化至视频动作定位中
选自arXiv 作者:Yu-Wei Chao等 机器之心编译 参与:Geek AI、路 近日,密歇根大学和谷歌研究院的一项研究提出了时序动作定位网络 TAL-Net,该网络将之前常用于图像目标检测的 Faster R-CNN 网络应用于视频时序动作定位中。在 THUMOS'14 检测基准上,TAL-Net 在动作提名(action proposal)和定位上都取得了目前最好的性能,并且在 ActivityNet 数据集上取得了具有竞争力的性能。目前,该论文已被 CVPR 2018 大会接收。 对人类动作的
机器之心
2018/06/08
6000
ECCV 2020 | 利用单帧标注进行视频时序动作检测
论文题目: SF-Net: Single-Frame Supervision for Temporal Action Localization
Amusi
2020/07/17
1.1K0
ECCV 2020 | 利用单帧标注进行视频时序动作检测
我们应当如何理解视频中的人类行为?
最近 ICCV 2017 公布了论文录用的情况,我照例扫了一遍论文列表寻找感兴趣的文章。“What Actions are Needed for Understanding Human Actions
AI研习社
2018/03/19
7260
我们应当如何理解视频中的人类行为?
学界 | MIT与Facebook提出SLAC:用于动作分类和定位的稀疏标记数据集
选自arXiv 作者:赵行等 机器之心编译 参与:刘晓坤、蒋思源 近日,MIT 与 Facebook 共同提出了用于动作分类和定位的大规模视频数据集的标注方法,新的框架平均只需 8.8 秒就能标注一个剪辑,相比于传统的标注过程节省了超过 95% 的标注时间,继而证明了该数据集可以有效预训练动作识别模型,经过微调后能显著提高在较小规模数据集上的最终评估度量。 数据集链接:http://slac.csail.mit.edu/ 图像分类和目标检测领域近年来取得了重大的平行进展。可以认为,这些进展归功于数据集的质量
机器之心
2018/05/11
9590
上海AI Lab提出Dual-DETR | 合理设计解码器,如果一个解码分支解决不了需求,那就再加一个总够了吧!
时间动作检测(TAD)是视频理解中的基本任务之一,在视频编辑,体育分析,监控录像分析以及自动驾驶[1]等领域有着广泛的真实应用。TAD旨在识别人类动作的起始和结束时间,并同时识别相应的动作类别。为了应对TAD在复杂真实应用场景中的挑战,我们专注于复杂的多标签时间动作检测(Multi-label TAD),在这种情况下,未修剪的视频中存在来自不同类别的多样化动作,通常具有显著的时空重叠。
集智书童公众号
2024/04/18
4390
上海AI Lab提出Dual-DETR | 合理设计解码器,如果一个解码分支解决不了需求,那就再加一个总够了吧!
打破两项世界纪录,腾讯优图开源视频动作检测算法DBG
近日,腾讯优图实验室提出一种新的视频动作检测算法DBG并开源,这是继今年4月人脸检测算法DSFD开源后,优图的又一次开源动作。 目前,DBG算法在全球两大权威视频动作数据集ActivityNet-1.3和THUMOS14上均取得了第一。相关论文《Fast Learning of Temporal Action Proposal via Dense Boundary Generator》已被国际人工智能顶级会议AAAI2020接收,与此同时,算法代码已在优图研究官方Github上开源。 Github开源
腾讯技术工程官方号
2019/11/18
1.1K0
打破两项世界纪录,腾讯优图开源视频动作检测算法DBG
【干货】首次使用分层强化学习框架进行视频描述生成,王威廉组最新工作
【导读】加州大学-圣塔芭芭拉计算王威廉组最新工作Video Captioning via Hierarchical Reinforcement Learning ,首次提出分层强化学习方法来加强不同等级的视频描述,通过分层深度强化学习,在文本生成上可以做到语言表达更加连贯,语义更加丰富,语法更加结构化。达在MSR-VTT数据集上达到了的最佳结果,并且提出了新的Charades Caption数据集。文章中指出,未来将计划注意力机制(Attention),以提升提出的层次强化学习(HRL)框架。作者相信,提出
WZEARW
2018/04/11
2K0
【干货】首次使用分层强化学习框架进行视频描述生成,王威廉组最新工作
大会 | CVPR 2018论文解读:真实监控场景中的异常事件检测
AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可不得转载。 安防作为近年最热门的计算机视觉研究落地方向,与视频分析研究有着很紧密的关系。在真实的监控视频中,一个常见的需求就是要自动识别视频流中的异常事件,也就是异常事件检测任务(Anomaly detection)。 这个任务有许多的难点,比如: 1.异常事件发生的频率很低,导致数据的收集和标注比较困难; 2.异常事件的稀少导致训练中的正样本远少于负样本; 3.在监控场景中,不管是通常(normaly)还是异常(ano
AI科技评论
2018/03/29
2.9K2
学界 | AAAI 18论文解读:基于强化学习的时间行为检测自适应模型
AI 科技评论按:互联网上以视频形式呈现的内容在日益增多,对视频内容进行高效及时的审核也变得越来越迫切。因此,视频中的行为检测技术也是当下热点研究任务之一。本文主要介绍的就是一种比传统视频行为检测方法更加有效的视频行为检测模型。 在近期 GAIR 大讲堂举办的线上公开上,来自北京大学深圳研究生院信息工程学院二年级博士生黄靖佳介绍了他们团队在 AAAI 2018 上投稿的一篇论文,该论文中提出了一种可以自适应调整检测窗口大小及位置的方法,能对视频进行高效的检测。点击阅读原文立即查看完整视频回放。 黄靖佳,北京
AI科技评论
2018/03/15
1.2K0
学界 | AAAI 18论文解读:基于强化学习的时间行为检测自适应模型
基于YOLOv8的无人机图像目标检测算法
在无人机(UAV)目标检测任务中,存在因检测目标尺度小、检测图像背景复杂等原因导致的漏检、误检问题。针对上述问题,提出改进YOLOv8s的无人机图像目标检测算法。
一点人工一点智能
2024/05/21
2.1K0
基于YOLOv8的无人机图像目标检测算法
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
CVPR 2014 Tutorial on Emerging Topics in Human Activity Recognition
全栈程序员站长
2022/08/31
3.8K0
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
3D卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D
看到这篇论文是因为之前看到一篇Nature上的某一篇医疗影像的论文中用到了这几个算法,R3D,MC3和R2+1D的3D卷积的算法。因为对3D卷积的算法了解比较局限,所以开始补一补这方面的算法。
机器学习炼丹术
2020/12/02
2.5K0
FCOS升级 | FCOS在3D检测中应该如何使用呢?FCOS3D就是最好的验证
所有这些都使该框架简单而有效,消除了任何2D检测或2D-3D对应先验。本文的解决方案在NeurIPS 2020的nuScenes 3D检测挑战中获得了所有仅视觉方法中的第一名。 Github: https://github.com/open-mmlab/mmdetection3d
AiCharm
2023/05/15
2.9K0
FCOS升级 | FCOS在3D检测中应该如何使用呢?FCOS3D就是最好的验证
CVPR大规模行为识别竞赛连续两年夺冠,上交大详细技术分享
【新智元导读】近日,视频行为理解领域的ImageNet竞赛——ActivityNet Challenge 2018在CVPR 会议上落下了帷幕。来自上海交通大学计算机视觉实验室的团队(自动化系研究生林天威、苏海昇,导师赵旭副教授),获得了未修剪视频中的时序动作定位任务的冠军,以及时序动作提名任务的亚军。本文将分享该团队在两项竞赛任务中所采用的算法思路和方案。
新智元
2018/07/31
1.1K0
CVPR大规模行为识别竞赛连续两年夺冠,上交大详细技术分享
业界首个视频识别与定位工具集PaddleVideo重磅更新
PaddleVideo 在实际工业界可以形成很多具体应用,包括:视频精彩片段预测、关键镜头定位、视频剪辑等任务,例如定位 NBA 篮球赛视频中扣篮镜头,电视剧中的武打镜头等。如下图所示:
用户1386409
2019/07/23
7370
国防科大提出基于可变形三维卷积(D3Dnet)的视频超分辨,代码已开源
视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能。
CV君
2020/08/10
1.1K0
推荐阅读
R-C3D 视频活动检测
1.2K0
视频的行为识别「建议收藏」
1.6K0
多级语言与视觉集成用于文本-剪辑检索(文章有视频Demo,文末有源码)
1K1
如何瞬间找到视频中的目标片段?这篇顶级论文帮你详解CDC网络如何实现视频的精准定位
2.6K0
CVPR 2018 | 密歇根大学&谷歌提出TAL-Net:将Faster R-CNN泛化至视频动作定位中
6000
ECCV 2020 | 利用单帧标注进行视频时序动作检测
1.1K0
我们应当如何理解视频中的人类行为?
7260
学界 | MIT与Facebook提出SLAC:用于动作分类和定位的稀疏标记数据集
9590
上海AI Lab提出Dual-DETR | 合理设计解码器,如果一个解码分支解决不了需求,那就再加一个总够了吧!
4390
打破两项世界纪录,腾讯优图开源视频动作检测算法DBG
1.1K0
【干货】首次使用分层强化学习框架进行视频描述生成,王威廉组最新工作
2K0
大会 | CVPR 2018论文解读:真实监控场景中的异常事件检测
2.9K2
学界 | AAAI 18论文解读:基于强化学习的时间行为检测自适应模型
1.2K0
基于YOLOv8的无人机图像目标检测算法
2.1K0
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
3.8K0
3D卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D
2.5K0
FCOS升级 | FCOS在3D检测中应该如何使用呢?FCOS3D就是最好的验证
2.9K0
CVPR大规模行为识别竞赛连续两年夺冠,上交大详细技术分享
1.1K0
业界首个视频识别与定位工具集PaddleVideo重磅更新
7370
国防科大提出基于可变形三维卷积(D3Dnet)的视频超分辨,代码已开源
1.1K0
相关推荐
R-C3D 视频活动检测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档