前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅谈动作识别TSN, TRN, ECO

浅谈动作识别TSN, TRN, ECO

原创
作者头像
SIGAI学习与实践平台
发布于 2018-09-24 03:48:04
发布于 2018-09-24 03:48:04
5.2K0
举报

SIGAI 特约作者Fisher Yu

2018.9.24

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。

什么是动作识别?给定一个视频,通过机器来识别出视频里的主要动作类型。

动作识别表面是简单的分类问题,但从本质上来说,是视频理解问题,很多因素都会影响其中,比如不同类型视频中空间时间信息权重不同?视频长短不一致?视频中动作持续的起始终止时间差异很大?视频对应的语义标签是否模糊?

本文主要对比 video-level 动作识别的经典方法TSN,及其拓展变形版本的TRN和ECO。

Temporal Segment Network[1], ECCV2016

TSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧,比如 C3D 中使用的是连续采样间隔的16 frames,这样当输入是个Long视频,计算量很庞大~

故文中就提出了 稀疏时间采样策略 ,就是不管输入视频的长短,直接分成K个Segment,然后在每个Segment再随机找出一个时间小片,分别用 shared CNN 来提取空间上的特征,再进行 feature-level 的融合,最后再 Softmax 分类:

公式中

表示第K个Segment;函数F表示CNN网络出来的特征;G表示特征融合函数;H表示分类层Softmax。

整个网络框架图如下,很简洁:

TSN[1]
TSN[1]

由于其中没有使用 3D conv,故为了更好进行 temporal 特征提取,文中也使用了类似双流的多模态输入:即上图的 Spatial ConvNet 的输入可以是 RGB图 或者 RGB差异图;Temporal ConvNet 的输入可以是 光流图 或者 wrapped光流:

不同模态输入[1]
不同模态输入[1]

从实验结果来看,使用Average fusion去融合特征效果最好;而当使用三模态输入(Optical Flow + Warped Flow + RGB)时,在HMDB51和UCF101超state-of-the-art;不过若只是RGB作为输入的话,性能不如 C3D~

总结:

Pros:通过 Sparse temporal sampling 可以扔掉很多冗余帧,初步满足实际应用的real-time要求。

Cons: 对于Temporal特征欠考虑,更多地是 focus 在 apperance feature。文中亦无对比超参K值(Default K=3)的选取对结果的影响 及 Segment内部采样小片策略。

Temporal Relation Network[2], ECCV2018

TRN致力于探索时间维度上的关系推理,那问题来了,怎么样才能找到特征间在时间上的传播关系呢?其实像传统的3D conv架构(C3D,P3D,R(2+1)D, I3D),也是有 Temporal conv 在里头,也能从不同感受野即multi-temporal-scale来得到联系。本文是在TSN框架上,提出用于video-level的实时时间关系推理框架。

TRN的 main contribution 有两个:

1.设计了新型的fusion函数来表征不同 temporal segment 的 relation,文中是通过MLP( concat feature -- ReLU -- FC -- ReLU -- FC)的结构来实现,而TSN中的fusion函数只是通过简单的 average pooling

2.通过时间维度上 Multi-scale 特征融合,来提高video-level鲁棒性,起码能抗快速动作和慢速动作干扰。

下图的框架图一目了然,算法实现流程就是先均匀地采样出不同scale的Segment 来对应 2-frame, 3-frame, ..., N-frame relation;然后对每个Segment里小片提取 Spatial feature,进行 MLP 的 temporal fusion,送进分类器;最后将不同scale的分类score叠加来作最后预测值。

TRN[2]
TRN[2]

两个实现的细节点需要注意

1.对采样下来的N-frame,必须保持时序性,即从先到后;这样后面的temporal fusion环节MLP才能学会推理动作的时间关系。

2. 不同scale的采样帧对应的 MLP 都是独立的,不share参数,因为含的帧数信息量也不同,输入给MLP的大小自然也不同。

文中给出了几个非常有趣的实验结果

1.如下图所示,在不同的数据集, TRN和TSN的性能差异很大。这说明什么问题呢?在UCF, Kinectics, Moments里两者的性能相近,说明这三个数据集的动作与空间上下文具有强相关性,而对于时间上下文相关性较弱;而 Something-something, Jester, Charades 里动作较为复杂,时间上下文联系较强,TRN的性能明显高于TSN。

不同的fusion方式在6个数据集上的性能[2]
不同的fusion方式在6个数据集上的性能[2]

2. 保持帧间时序对于TRN的重要性,如下图所示,可见乱序输入的TRN在动作复杂的something-something数据集下性能严重下降;而在UCF101里并不严重,因为该数据集需要更多的是空间上下文信息。

正序和乱序的性能[2]
正序和乱序的性能[2]

总结

Pros:

更鲁棒的 action/activity 时空特征表达方式,即 MLP fusion + Multi-scale。

Cons:

Spatial 和 temporal 的联系还是太少,只在最后 embedding feature时用MLP融合了一下~~另应对比不同的fusion方式,如LSTM/GRU与MLP的性能差异~

ECO[3], ECCV2018

本文通过 trade-off TSN系列 和 3Dconv系列,来实现实时的 online video understanding(文中夸张地描述到 ECO runs at 675 fps (at 970 fps with ECOLite) on a Tesla P100 GPU)。

ECO的主要贡献

1.使用 TSN 稀疏采样来减少不必要的冗余帧的前提下,对采样帧的 mid/high-level 进行 spatio-temporal 特征fusion,故比 TRN 只在最后特征层来做 temporal fusion的时空表达能力更强~

2. 提出了一整套工程化的 Online video understanding 框架。

来看看轻量级的ECO-Lite的网络框架图,对N个中的每个Segment中的帧来提取特征到某一层 K*28*28,然后通过 3D-ResNet(当然拉,这里你也可以使用 convLSTM + SPP 等方式来对比下效果) 提取N个Segment的时空特征,最后再分类。

ECO Lite[3]
ECO Lite[3]

完整的ECO框架就是在 ECO-Lite 的基础上,再接一个类似 TSN 的average pooling 的 2D 分支,最后再将两个分支特征进行融合及分类:

Full ECO[3]
Full ECO[3]

在Something-something数据集下,集成 {16, 20, 24, 32} 下采样帧数的四个ECO-Lite子网络的average score的方法,性能远超 Multi-scale TRN:

something-something性能[3]
something-something性能[3]

总结与展望:

当硬件的计算能力在上升,且成本下降后,无疑以后通过Sparse sampling后,直接从头到尾进行 3Dconv 出来的时空表征会更优 。而这个Sparse sampling,是否可以通过 temporal attention去自动选择最优的帧来计算也很重要。

Reference:

[1] Limin Wang, Temporal Segment Networks: Towards Good Practices for Deep Action Recognition, ECCV2016

[2]Bolei Zhou, Temporal Relational Reasoning in Videos,ECCV2018

[3]Mohammadreza Zolfaghari, ECO: Efficient Convolutional Network for Online Video Understanding,ECCV2018

推荐阅读

[1]机器学习-波澜壮阔40年【获取码】SIGAI0413.

[2]学好机器学习需要哪些数学知识?【获取码】SIGAI0417.

[3] 人脸识别算法演化史【获取码】SIGAI0420.

[4]基于深度学习的目标检测算法综述 【获取码】SIGAI0424.

[5]卷积神经网络为什么能够称霸计算机视觉领域?【获取码】SIGAI0426.

[6] 用一张图理解SVM的脉络【获取码】SIGAI0428.

[7] 人脸检测算法综述【获取码】SIGAI0503.

[8] 理解神经网络的激活函数 【获取码】SIGAI2018.5.5.

[9] 深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读【获取码】SIGAI0508.

[10] 理解梯度下降法【获取码】SIGAI0511.

[11] 循环神经网络综述—语音识别与自然语言处理的利器【获取码】SIGAI0515

[12] 理解凸优化 【获取码】 SIGAI0518

[13] 【实验】理解SVM的核函数和参数 【获取码】SIGAI0522

[14]【SIGAI综述】行人检测算法 【获取码】SIGAI0525

[15] 机器学习在自动驾驶中的应用—以百度阿波罗平台为例(上)【获取码】SIGAI0529

[16]理解牛顿法【获取码】SIGAI0531

[17] 【群话题精华】5月集锦—机器学习和深度学习中一些值得思考的问题【获取码】SIGAI 0601

[18] 大话Adaboost算法 【获取码】SIGAI0602

[19] FlowNet到FlowNet2.0:基于卷积神经网络的光流预测算法【获取码】SIGAI0604

[20] 理解主成分分析(PCA)【获取码】SIGAI0606

[21] 人体骨骼关键点检测综述 【获取码】SIGAI0608

[22]理解决策树 【获取码】SIGAI0611

[23] 用一句话总结常用的机器学习算法【获取码】SIGAI0611

[24] 目标检测算法之YOLO 【获取码】SIGAI0615

[25] 理解过拟合 【获取码】SIGAI0618

[26]理解计算:从√2到AlphaGo ——第1季 从√2谈起 【获取码】SIGAI0620

[27] 场景文本检测——CTPN算法介绍 【获取码】SIGAI0622

[28] 卷积神经网络的压缩和加速 【获取码】SIGAI0625

[29] k近邻算法 【获取码】SIGAI0627

[30]自然场景文本检测识别技术综述 【获取码】SIGAI0627

[31] 理解计算:从√2到AlphaGo ——第2季 神经计算的历史背景 【获取码】SIGAI0704

[32] 机器学习算法地图【获取码】SIGAI0706

[33] 反向传播算法推导-全连接神经网络【获取码】SIGAI0709

[34] 生成式对抗网络模型综述【获取码】SIGAI0709.

[35]怎样成为一名优秀的算法工程师【获取码】SIGAI0711.

[36] 理解计算:从根号2到AlphaGo——第三季 神经网络的数学模型【获取码】SIGAI0716

[37]【技术短文】人脸检测算法之S3FD 【获取码】SIGAI0716

[38] 基于深度负相关学习的人群计数方法【获取码】SIGAI0718

[39] 流形学习概述【获取码】SIGAI0723

[40] 关于感受野的总结 【获取码】SIGAI0723

[41] 随机森林概述 【获取码】SIGAI0725

[42] 基于内容的图像检索技术综述——传统经典方法【获取码】SIGAI0727

[43] 神经网络的激活函数总结【获取码】SIGAI0730

[44] 机器学习和深度学习中值得弄清楚的一些问题【获取码】SIGAI0802

[45] 基于深度神经网络的自动问答系统概述【获取码】SIGAI0803

[46] 反向传播算法推导——卷积神经网络 【获取码】SIGAI0806

[47] 机器学习与深度学习核心知识点总结 写在校园招聘即将开始时 【获取 码】SIGAI0808

[48] 理解Spatial Transformer Networks【获取码】SIGAI0810

[49]AI时代大点兵-国内外知名AI公司2018年最新盘点【获取码】SIGAI0813

[50] 理解计算:从√2到AlphaGo ——第2季 神经计算的历史背景 【获取码】SIGAI0815

[51] 基于内容的图像检索技术综述--CNN方法 【获取码】SIGAI0817

[52]文本表示简介 【获取码】SIGAI0820

[53]机器学习中的最优化算法总结【获取码】SIGAI0822

[54]【AI就业面面观】如何选择适合自己的舞台?【获取码】SIGAI0823

[55]浓缩就是精华-SIGAI机器学习蓝宝书【获取码】SIGAI0824

[56]DenseNet详解【获取码】SIGAI0827

[57]AI时代大点兵国内外知名AI公司2018年最新盘点【完整版】【获取码】SIGAI0829

[58]理解Adaboost算法【获取码】SIGAI0831

[59]深入浅出聚类算法 【获取码】SIGAI0903

[60]机器学习发展历史回顾【获取码】SIGAI0905

[61] 网络表征学习综述【获取码】SIGAI0907

[62] 视觉多目标跟踪算法综述(上) 【获取码】SIGAI0910

[63] 计算机视觉技术self-attention最新进展 【获取码】SIGAI0912

[64] 理解Logistic回归 【获取码】SIGAI0914

[65] 机器学习中的目标函数总结 【获取码】SIGAI0917

[66] 人脸识别中的活体检测算法综述【获取码】SIGAI0919

[67] 机器学习与深度学习常见面试题(上)【获取码】SIGAI0921 原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
时空建模新文解读:用于高效视频理解的TSM
接着之前的《浅谈动作识别TSN,TRN,ECO》,我们来谈谈最近 MIT和IBM Watson 的新文 Temporal Shift Module(TSM)[1]。
SIGAI学习与实践平台
2018/12/19
1.5K0
人脸识别中的活体检测算法综述
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。
SIGAI学习与实践平台
2018/09/19
5.3K0
人脸识别中的活体检测算法综述
干货 |「论文笔记」用于在线视频理解的高效卷积网络
AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经AI科技评论许可不得转载。
AI科技评论
2018/07/26
8560
干货 |「论文笔记」用于在线视频理解的高效卷积网络
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
CVPR 2014 Tutorial on Emerging Topics in Human Activity Recognition
全栈程序员站长
2022/08/31
3.8K0
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
最近看了下几篇动作识别,视频理解的文章,在这里记下小笔记,简单过一下核心思想,以便后续查阅及拓展使用。
SIGAI学习与实践平台
2018/12/28
1.8K0
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
计算机视觉文章盘点
论文解读: Quantized Convolutional Neural Networks for Mobile Devices
SIGAI学习与实践平台
2019/05/17
9050
深度多目标跟踪算法综述
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。
SIGAI学习与实践平台
2018/10/23
2.4K0
深度多目标跟踪算法综述
【干货】计算机视觉视频理解领域的经典方法和最新成果
---- 新智元专栏 作者:张皓(南京大学) 【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 常用数据集 视频分类主要有两种数据集,剪辑过(trimmed)
新智元
2018/05/30
3.8K0
理解生成模型与判别模型
我们都知道,对于有监督的机器学习中的分类问题,求解问题的算法可以分为生成模型与判别模型两种类型。但是,究竟什么是生成模型,什么是判别模型?不少书籍和技术文章对这对概念的解释是含糊的。在今天这篇文章中,我们将准确、清晰的解释这一组概念。
SIGAI学习与实践平台
2018/10/10
1K0
理解生成模型与判别模型
OCR技术简介
光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
SIGAI学习与实践平台
2018/09/26
16.8K0
OCR技术简介
动作识别调研
动作识别的主要目标是判断一段视频中人的行为的类别,所以也可以叫做 Human Action Recognition。
全栈程序员站长
2022/09/20
9820
动作识别调研
人工智能非技术从业者必知的十件事
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。
SIGAI学习与实践平台
2018/10/08
5360
人工智能非技术从业者必知的十件事
视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
本文提出了一种用于视频动作识别的Temporal Segment Networks (TSN) 架构,该架构能够捕捉长时间视频中的动作信息。TSN 架构将视频分割成多个时间片段,在每个时间片段内进行特征提取和表示,然后使用一种段间共识函数将来自不同时间片段的表示结合起来,以获得整个视频的表示。实验表明,TSN 架构在视频动作识别任务上比其他现有方法具有更好的性能,同时减少了计算量。
用户1148525
2018/01/03
1.6K0
视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
视频理解综述:动作识别、时序动作定位、视频Embedding(赠书)
机器之心发布 作者:张皓 本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。 1.视频理解背景 根据中国互联网络信息中心(CNNIC)第 47 次《中国互联网络发展状况统计报告》,截至 2020 年 12 月,中国网民规模达到 9.89 亿人,其中网络视频(含短视频)用户规模达到 9.27 亿人,占网民整体的 93.7%,短视频用户规模为 8.73 亿人,占网民整体的 88
机器之心
2023/03/29
3.8K0
视频理解综述:动作识别、时序动作定位、视频Embedding(赠书)
机器人读懂人心的九大模型
今天是国际海盗黑话推广日。首先,你要给自己起一个海贼的名字(比如戈尔·D·罗杰;蒙奇·D·路飞;马歇尔·D·帝奇;索隆;山治;娜美;罗宾;乔巴等等)。
用户1737318
2019/11/19
5220
机器人读懂人心的九大模型
视频的行为识别「建议收藏」
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
全栈程序员站长
2022/06/27
1.6K0
视频的行为识别「建议收藏」
计算机视觉技术self-attention最新进展
Attention注意力,起源于Human visual system(HVS),个人定义的话,应该类似于 外界给一个刺激Stimuli,然后HVS会第一时间产生对应的 saliency map,注意力对应的应该就是这个显著性区域。
SIGAI学习与实践平台
2018/09/29
8351
计算机视觉技术self-attention最新进展
【源头活水】CVPR 2021 | 利用时序差分进行动作识别的最新Backbone--TDN
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/04/13
1.1K0
【源头活水】CVPR 2021 | 利用时序差分进行动作识别的最新Backbone--TDN
机器学习发展历史回顾
机器学习是现阶段解决很多人工智能问题的主流方法,作为一个独立的方向,正处于高速发展之中。最早的机器学习算法可以追溯到20世纪初,到今天为止,已经过去了100多年。从1980年机器学习称为一个独立的方向开始算起,到现在也已经过去了近40年。在这100多年中,经过一代又一代人的努力,诞生出了大量经典的方法,在本文中,SIGAI将分有监督学习,无监督学习,概率图模型,深度学习,强化学习4个大方向对历史上出现的经典算法进行整理与总结,帮助大家理清机器学习这100多年来的发展历史,完成对机器学习的寻根问祖之旅。限于篇幅,我们无法对所有算法一一列举,只介绍有代表性的一部分。
SIGAI学习与实践平台
2018/09/05
2.7K0
机器学习发展历史回顾
理解Spatial Transformer Networks
随着深度学习的不断发展,卷积神经网络(CNN)作为计算机视觉领域的杀手锏,在几乎所有视觉相关任务中都展现出了超越传统机器学习算法甚至超越人类的能力。一系列CNN-based网络在classification、localization、semantic segmentation、action recognization等任务中都实现了state-of-art的结果。
SIGAI学习与实践平台
2018/08/13
1.7K0
理解Spatial Transformer Networks
推荐阅读
相关推荐
时空建模新文解读:用于高效视频理解的TSM
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档