首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视频打标签算法探讨

视频打标签算法探讨

作者头像
腾讯云大数据
发布于 2018-08-21 07:10:32
发布于 2018-08-21 07:10:32
16.3K5
举报
文章被收录于专栏:腾讯云大数据腾讯云大数据

随着内容时代的来临,多媒体信息,特别是视频信息的分析和理解需求,如图像分类、图像打标签、视频处理等等,变得越发迫切。目前图像分类已经发展了多年,在一定条件下已经取得了很好的效果。本文因实际产品需求,主要探讨一下视频打标签的问题。

查阅了部分资料,笔者拙见,打标签问题无论是文本、图像和视频,涉及到较多对内容的“理解”,目前没有解决得很好。主要原因有以下一些方面,标签具有多样性,有背景内容标签,细节内容标签,内容属性标签,风格标签等等;一些标签的样本的实际表现方式多种多样,样本的规律不明显则不利于模型学习;标签问题没有唯一的标准答案,也存在一定的主观性,不好评估的问题则更不利于模型学习。

依然笔者拙见,视频打标签问题目前还没有很好的解决办法,也处于探索阶段。方法上主要有以下一些思路:可以从视频角度出发,可以从图像角度出发;可以利用caption生成的思路,可以转化为多分类问题。

直接从视频角度出发,即从视频整体的角度出发,提取图像帧,甚至字幕或者语音信息,进一步处理得出视频标签的结果。Deep Learning YouTube Video Tags,这篇文章提出一个hybrid CNN-RNN结构,将视频的图像特征,以及利用LSTM模型对标签考虑标签相关性和依赖性的word embeddings,联合起来,网络结构如下图。

Large-scale Video Classification with Convolutional Neural Networks提出了几种应用于视频分类的卷积神经网络结构,在网络中体现时空信息。single frame:就是把一帧帧的图像分别输入到CNN中去,和普通的处理图像的CNN没有区别;late fution:把相聚L的两帧图像分别输入到两个CNN中去,然后在最后一层连接到同一个full connect的softmax层上去;early fution:把连续L帧的图像叠在一起输入到一个CNN中去;

slow fution:通过在时间和空间维度增加卷积层,从而提供更多的时空全局信息。如下图所示:

另一方面,为了提高训练速度,这篇文章还提出Multiresolution CNNs,分别将截取中间部分的图像和缩放的图像作为网络的输入,如下图所示:

这篇文章主要研究了卷积神经网络在大规模视频分类中的应用和表现。通过实验,文章总结网络细节对于卷积神经网络的效果并不非常敏感。但总的来说,slow fusion网络结构的效果更好。

从图像角度出发,即从视频中提取一些帧,通过对帧图像的分析,进一步得出视频标签的结果。对图像的分析,也可以转化为图像打标签或者图像描述问题。Visual-Tex: Video Tagging using Frame Captions,先从视频中提取固定数量的帧,用训练好的image to caption模型对图像生成描述。然后将文本描述组合起来,提取文本特征并用分类方法进行分类,得到tag结果。这篇文章对生成的描述,对比了多种不同的特征和多种不同的分类方法。可见,图像打标签对视频打标签有较大的借鉴意义。另一种思路,CNN-RNN: A Unified Framework for Multi-label Image Classification可以看作将图像打标签问题转化为多分类问题。将卷积神经网络应用到多标签分类问题中的一个常用方法是转化为多个单标签的分类问题,利用ranking loss或者cross-entropy loss进行训练。但这种方法往往忽略了标签之间的联系或者标签之间语义重复的问题。这篇文章设计了CNN-RNN的网络结构里,并利用attention机制,更好地体现标签间的相关性、标签间的冗余信息、图像中的物体细节等。网络结构主要如下图所示,主要包括两个部分:CNN部分提取图像的语义表达,RNN部分主要获取图像和标签之间的关系和标签之间的依赖信息。

针对空间部分短视频数据,笔者设计了一个简单的视频打标签的方案,并进行了实验。由于预处理和算法细节的很多进一步改进和完善工作还没有进行,在此只是提出一种思路和把实验结果简单地做个分享。

方法介绍:

整体思路:图片打标签 => 视频打标签

也就是说,对视频提取帧,得到视频中的图片;然后对图片进行打标签;最后将视频中帧图片的标签进行整合,得到视频标签。

1、从图片描述说起:

图片描述典型框架:利用deep convolutional neural network来encode 输入图像,然后利用Long Short Term Memory(LSTM) RNN decoder来生成输出文本描述。

2、在打标签任务中,我们把标签或类别组合,构造成“描述”:

一级类别+二级类别+标签(重复的词语进行去重)

3、利用预训练和强化学习,对训练样本图片和标签构造模型映射。

《Self-critical Sequence Training for Image Captioning》

网络模型有三种:fc model;topdown model;att2in model;模型细节见论文。

一般地,给定输入图像和输出文本target,,模型训练的过程为最小化cross entropy loss(maximum-likelihood training objective):

利用self-critical policy gradient training algorithm:

其中,是reward funtion

通过根据每一个decoding time step的概率分布进行采样获得,是baseline output,通过最大化每一个decoding time step的概率分布输出获得,也就是a greedy search。论文里提到,利用CIDEr metric作为reward function,效果最好。

4、根据视频帧图片的标签,对视频打标签。具体有两种思路:

记录视频提取的所有帧图片中每一个出现的标签,以及标签出现的次数(有多少帧图片

被打上了这个标签)。按照出现次数排序。

1.将帧图片的最多前n个标签,输出为视频标签。

2.将帧图片中,出现次数大于阈值c的标签,,输出为视频标签。

数据示例:

其中1class表示一级类别,2class表示二级类别。

实验结果示例:

截取一些实验结果展示如下,其中output指模型输出的结果,reference指人工标定的参考结果。

总的来说,游戏类视频的数据量最大,效果较好;但具体不同英雄的视频数据如果不平衡,也会影响算法结果。其他类型视频数据不算太稀疏的效果也不错,长尾视频的效果不行。

总结:

数据预处理、模型结构、损失函数、优化方法等各方面,都还有很多值得根据视频打标签应用的实际情况进行调整的地方。后续再不断优化。方法和实验都还粗糙,希望大家多批评指导。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯QQ大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
5 条评论
热度
最新
在内容运营的工作中,打标签是一项非常重要的工作,从这篇文章中拓宽了思路
在内容运营的工作中,打标签是一项非常重要的工作,从这篇文章中拓宽了思路
回复回复点赞举报
对卷积神经网络在大规模视频分类中的应用和表现有了了解~
对卷积神经网络在大规模视频分类中的应用和表现有了了解~
回复回复点赞举报
学习到了根据视频帧图片的标签,对视频打标签的两种思路
学习到了根据视频帧图片的标签,对视频打标签的两种思路
回复回复点赞举报
对于处理游戏类视频的数据,帮助很大
对于处理游戏类视频的数据,帮助很大
回复回复点赞举报
数据预处理、模型结构、损失函数、优化方法等各方面会做得更好
数据预处理、模型结构、损失函数、优化方法等各方面会做得更好
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
视频的行为识别「建议收藏」
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
全栈程序员站长
2022/06/27
1.7K0
视频的行为识别「建议收藏」
视频理解综述:动作识别、时序动作定位、视频Embedding(赠书)
机器之心发布 作者:张皓 本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。 1.视频理解背景 根据中国互联网络信息中心(CNNIC)第 47 次《中国互联网络发展状况统计报告》,截至 2020 年 12 月,中国网民规模达到 9.89 亿人,其中网络视频(含短视频)用户规模达到 9.27 亿人,占网民整体的 93.7%,短视频用户规模为 8.73 亿人,占网民整体的 88
机器之心
2023/03/29
4K0
视频理解综述:动作识别、时序动作定位、视频Embedding(赠书)
【深度前沿】基于深度学习的智能视频分析,微软亚洲研究院梅涛博士ACM MM 2017 Tutorial解读
【导读】第25届ACM国际多媒体会议(ACM Multimedia, 简称ACM MM)于2017年10月23日至27日在美国硅谷Mountain View隆重举行。微软亚洲研究院资深研究员梅涛博士为大会带来了题为《Deep Learning for Intelligent Video Analysis》的分享报告, 介绍了基于深度学习的智能视频分析相关的最新成果。为此,专知内容组整理了的梅涛博士的slides,进行了解读,请大家查看,并多交流指正! 此外,请查看本文末尾,可下载最新ACM MM 2017
WZEARW
2018/04/09
1.9K0
【深度前沿】基于深度学习的智能视频分析,微软亚洲研究院梅涛博士ACM MM 2017 Tutorial解读
美团的OCR方案介绍
近年来,移动互联、大数据等新技术飞速发展,倒逼传统行业向智能化、移动化的方向转型。随着运营集约化、数字化的逐渐铺开,尤其是以OCR识别、数据挖掘等为代表的人工智能技术逐渐深入业务场景,为用户带来持续的经济效益和品牌效应。图书情报领域作为提升公共服务的一个窗口,面临着新技术带来的冲击,必须加强管理创新,积极打造智能化的图书情报服务平台,满足读者的个性化需求。无论是高校图书馆还是公共图书馆,都需加强人工智能基础能力的建设,并与图书馆内部的信息化系统打通,优化图书馆传统的服务模式,提升读者的借阅体验。
机器学习AI算法工程
2021/10/14
1.8K0
美团的OCR方案介绍
深度学习让系统“看”懂短视频内容
很高兴可以和大家分享深度学习在短视频视觉内容分析中的应用,分享包括四个方面,首先回顾深度学习的发展历程和讲述深度学习在短视频领域进行自动化视频内容分析的意义和必要性,再结合美拍短视频业务分享我们将深度学习应用到视频内容理解中遇到的问题和解决思路,最后从产品、数据以及技术层面展望后续的一些优化方向。
LiveVideoStack
2021/09/02
1.9K0
深度学习让系统“看”懂短视频内容
行为识别综述
行为识别:行为识别(Action Recognition) 任务是从视频剪辑(2D帧序列)中识别不同的动作,其中动作可以在视频的整个持续时间内执行或不执行。行为识别似乎是图像分类任务到多个帧的扩展,然后聚合来自每帧的预测。尽管图像分类取得了很大的成功,但是视频分类和表示学习依然进展缓慢。
全栈程序员站长
2022/08/31
2.6K0
行为识别综述
ICCV-2021 Oral | AdaFocus:利用空间冗余性实现高效视频识别
来源丨https://zhuanlan.zhihu.com/p/416704427
计算机视觉
2021/10/11
6330
如何评价Google最新发布的增强型风格迁移算法?
Google最新发布了一种新的迁移网络(来自其论文《A Learned Representation for Artistic Style》)同时学习多种风格的简单方法,可以简单地让单个深度卷积风格迁
AI科技评论
2018/03/08
1.6K0
如何评价Google最新发布的增强型风格迁移算法?
语义分割技术综述_语义分割模型
综述论文翻译:A Review on Deep Learning Techniques Applied to Semantic Segmentation
全栈程序员站长
2022/09/25
1.1K0
语义分割技术综述_语义分割模型
基于深度学习的人类行为识别算法研究
本文为稀土掘金技术社区首发签约文章,30天内禁止转载,30天后未获授权禁止转载,侵权必究!
是Dream呀
2025/03/15
1910
基于深度学习的人类行为识别算法研究
AAAI 2020 | 上交大:基于图像查询的视频检索,代码已开源!
本篇文章介绍上海交通大学 BCMI 实验室在AAAI 2020 上的一项工作,A Proposal-based Approach for Activity Image-to-Video Retrieval。
马上科普尚尚
2020/05/13
2.5K0
AAAI 2020 | 上交大:基于图像查询的视频检索,代码已开源!
双流网络介绍
双流CNN通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络,为了获得比较好的异常行为分类效果,我们选用卷积神经网络对获得的数据样本进行特征提取和分类,我们将得到的单帧彩色图像与单帧光流图像以及叠加后的光流图像作为网络输入,分别对图像进行分类后,再对不同模型得到的结果进行融合。双流卷积神经网络结构如下图所示:
狼啸风云
2019/01/18
3.9K0
中科院自动化所王亮研究员:深度学习与视觉计算
2016年12月,中国人工智能学会举办了第一期《人工智能前沿讲习班》,国内视觉大数据学者王亮老师做了题为《深度学习与视觉计算》的报告。王亮老师在报告中介绍了视觉大数据的概念与特征、深度学习的发展背景与在计算机视觉领域的应用现状。本文根据王亮老师当日报告内容整理发布,详见后文。
马上科普尚尚
2020/05/14
1.7K0
中科院自动化所王亮研究员:深度学习与视觉计算
深度揭秘京东全景主图背后的技术
作者 黄志标:中国科学院大学硕士,京东AI与大数据部算法工程师。 擅长图像检索、深度学习领域。曾参与京东的上亿重图检测项目,目前主要负责京东全景主图、视频审核项目。 安山:山东大学机器人研究中心硕士,京东AI与大数据部资深算法工程师。 研究兴趣为大规模图像检索、计算机视觉。负责京东图像搜索引擎、知识产权保护、深度学习算法移动化。在计算机视觉领域获得2项发明专利授权,另有十余项专利申请。 据京东财报显示,京东集团第二季度净利润达9.765亿,年度活跃用户达2.583亿,订单完成量为5.912亿。扎实的用户基
京东技术
2018/06/20
9440
一篇看懂 CVPR 2017 五大研究前沿
腾讯AI实验室
2017/08/03
5K2
一篇看懂 CVPR 2017 五大研究前沿
专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计
机器之心专栏 作者:单乐 本届 CVPR 2017大会上出现了很多值得关注的精彩论文,国内自动驾驶创业公司 Momenta 联合机器之心推出 CVPR 2017 精彩论文解读专栏,本文是此系列专栏的第四篇,介绍了 UC Berkeley 与谷歌在大会上展示的 Oral 论文《Unsupervised Learning of Depth and Ego-Motion from Video》,作者为 Momenta 高级研发工程师单乐。 给定一张图像,人类可以根据以往的视觉经验推断出 3D 景深,而如何让计算机
机器之心
2018/05/09
1.2K0
专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计
【机器学习】大规模机器学习在爱奇艺视频分析理解中的实践
AI 前线导读:视频包含了图像、声音、文字等多种信息,可以表达生动、丰富的内容。随着 AI 时代的带来,互联网视频应用高速发展,视频更成为一种人人可生成的内容,数据量暴涨。如何利用机器学习将海量的视频内容充分利用起来,成为 AI 领域研究人员和企业开发应用的重要课题。本文,我们将分享爱奇艺资深科学家王涛在 AICon 上的精彩演讲,介绍爱奇艺在大规模视频分析理解方面的实践探索。更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)
新知号
2019/04/09
1.6K0
【机器学习】大规模机器学习在爱奇艺视频分析理解中的实践
将 CNN 与 RNN 组合使用,天才还是错乱?
从有一些有趣的用例看,我们似乎完全可以将 CNN 和 RNN/LSTM 结合使用。许多研究者目前正致力于此项研究。但是,CNN 的最新研究进展趋势可能会令这一想法不合时宜。
崔庆才
2019/09/05
2.2K0
将 CNN 与 RNN 组合使用,天才还是错乱?
ECCV 2020 | 腾讯 AI Lab 16篇入选论文解读
来自Tencent AI实验室。本文主要介绍 ECCV 2020 中腾讯 AI Lab 16篇入选论文。
深度学习技术前沿公众号博主
2020/08/04
1.2K0
ECCV 2020 | 腾讯 AI Lab 16篇入选论文解读
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
实例分割是计算机视觉中的基础问题之一。虽然静态图像中的实例分割已经有很多的研究,对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少。而真实世界中的摄像头所接收的,无论自动驾驶背景下车辆实时感知的周围场景,还是网络媒体中的长短视频,大多为视频流的信息而非纯图像信息,因而研究对视频建模的模型有着十分重要的意义。
美团无人配送
2021/07/01
1.5K0
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
推荐阅读
相关推荐
视频的行为识别「建议收藏」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档