Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在成人影片里做17种姿势识别?大佬在线求助:训练集不够用!

在成人影片里做17种姿势识别?大佬在线求助:训练集不够用!

作者头像
OpenCV学堂
发布于 2022-07-06 10:41:08
发布于 2022-07-06 10:41:08
99300
代码可运行
举报
运行总次数:0
代码可运行


代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权

【导读】有大佬最近在成人影片中做姿态识别的任务,发帖表示训练集不够用。立刻得到热心网友响应:我赞助140TB数据!

兄弟们又来学技术啦!

今天讲的是人体动作识别(Human Action Recognition),也就是通过模型识别出图片、视频中的人体动作姿势。

最近Reddit的一个网友突发奇想,如果把模型用在成人内容领域,那一定可以大大增加色情视频的鉴别和搜索的准确度。

据作者称,他建立的深度学习模型以图像RGB、骨架(Skeleton)和音频作为输入,对视频中的演员姿势识别准确度已经可以达到75%了。

不过并非只是模型的简单迁移,训练过程也遇到了一些技术上的难关,主要是因为摄像机位置在视频中经常会变换。

小编根据网友的描述推测,拍摄成人电影的摄像机可能是没有固定机位、或机位变换次数多,而人体动作识别的模型通常应用于监控视频等有固定位置的摄像机。

作者还表示,训练数据集相对较小也是一个问题,他只有大约44小时的训练数据,并且影片中的人物位置通常距离很近,所以大多数视频很难得到准确的姿势估计,也就没有办法将所有的位置纳入基于skeleton的模型中。

一个比较新奇的发现是,输入流中的音频信号,对于4个action的分类是有提升效果的,不过也只是对某些action有用。

帖子一出,也是获得了技术大咖们的一致点赞。

一切都是为了科学!

不过网友们也立刻明白了作者的核心诉求:求资源!

有网友表示,你要么能得到海量的资源支持,或者一点也拿不到。

也有人表示他曾经也做过类似的项目,他遇到的问题主要是高度嘈杂的场景和非常不稳定的摄像机。真正困难的场景是有3个以上演员参与的场景,会让实体的区分会变得很困难。

并且他表示对2人以上的sex position没有概念,所以看到这个模型如此容易地达到这么高的准确率,感觉有点受挫,想看看楼主是怎么实现的。

最慷慨的网友当场表示,我愿意赞助数据集!视频大小140.6TB,时长达到11年6个月,包括6416位表演艺术家,还有46.5GB的图片。

有网友跟着评论,替自己搞科研的朋友同求资源。

至于这项研究有什么意义,网友表示应用前景可大了!以后在资源网站上检索,可以按照指定的position对视频进行过滤,而不只是传统的标签、标题、类别等等。

正经的科学

原作者公开了源代码,表示他的目的是看看最先进的人类动作识别(HAR)模型在色情领域的表现如何。

代码链接:https://github.com/rlleshi/phar

HAR是深度学习领域中一个相对较新的、活跃的研究领域,其目标是从各种输入流(如视频或传感器)中识别人类行为。

从技术角度看,色情领域很有趣,因为它有一些与众不同的难点,如光线变化、遮挡以及不同摄像机角度和拍摄技术的巨大变化(POV、专业摄像师)使得位置与动作识别变得困难。两个相同的位置与动作,可能存在多个不同的相机视角拍摄,从而完全混淆了模型的预测。

作者收集到的数据集非常多样,包括各种录音,如POV、专业拍摄的、业余的、有无专门摄像人员的等等,还包括各种环境、人和摄像机的角度。

作者也表示,如果只使用专业团队拍摄的影片,这个问题可能不会特别严重。

根据收集到的数据集,作者总结了17个动作的识别,如亲吻等,不过动作的定义可能是不全面的,也可能有概念上的重叠。

其中作者把抚触把玩(fondling)当作一个占位符,没有其他动作类别检测到的时候,就将其视为抚触把玩,不过作者在标注数据过程中发现,44小时的影片数据中只得到了48分钟的抚触把玩数据。

项目的实现基于MMAction2,它是一个基于PyTorch的视频理解开源工具箱,可以对人体的骨架动作进行识别等。

取得SOTA结果的模型是通过基于三个输入流的三个模型的后期集成得到的。

与只使用基于RGB的模型相比,可以取得明显的性能改进。由于可能不止一个动作可能同时发,并且一些动作/位置在概念上是重叠的,所以评价标准以前两名的预测准确性作为性能度量。

目前多模态模型的准确率为~75%。但由于数据集相当小,总共只进行了约50次实验,因此有很大的改进空间。

首先介绍一下在性能和运行时间上都表现最好的多模态(Rgb + 骨架 + 音频)模型。

作者对视频RGB流使用TimeSformer,对骨架流使用poseC3D,以及用于音频流的resnet101。

这些模型的结果通过集成在一起,因为这些模型的重要性不同,所以微调后的权重是分别是0.5, 0.6和1.0

另一种方法是一次用两个输入流训练一个模型(即rgb+skeleton和rgb+audio),然后将它们的结果集成起来。

但在实际上,这个操作是不可行的。

因为如果模型的输入包含音频输入流,它只能对某些动作,比如deepthroat由于咽喉反射导致音调比较高,而对于其他动作,则不可能从其音频中获得任何的有效特征,从音频的角度来看,他们是完全相同的。

同样,基于骨架的模型只能用于那些姿势估计准确度高于某个置信度阈值的情况(对于这些实验,所用的阈值是0.4)。

例如,对于scoop-up或the-snake等高难度稀有动作,由于画面中人体位置比较接近,在大多数相机角度下很难得到准确的姿势估计(姿势变得模糊,混合在了一起),会对HAR模型的准确性产生了负面的影响。

对于诸如 doggy, cowgirl或missionary等普通动作来说,姿势估计的效果都不错,可以用于训练一个HAR模型。

如果我们有一个更大的数据集,那么我们可能会有足够多的难分类姿势的实例,再用基于骨架的模型训练所有的17个动作。

根据目前的SOTA文献,基于骨架的模型优于基于RGB的模型。当然,理想情况下,姿势估计模型也应该在sex domain中进行微调,以获得更好的整体姿势估计。

对于RGB输入流,基于注意力的TimeSformer架构实现了3D RGB模型的最佳结果,推理速度也非常快(~0.53s/7s clips)。

RGB模式总共有~1.76万个训练片段和~4900个评价片段,并应用了各种数据增强技术,如重新缩放、裁剪、翻转、颜色反转、高斯模糊、弹性变换、仿生变换等。

基于骨架模型的最佳结果是由基于CNN的PoseC3D架构实现的,模型的推理速度也很快(~3.3s/7s clips)。

姿势数据集比原始的RGB数据集要小得多,只有33%的帧的置信度高于0.4,所以最终测试集只有815个片段,且目标类别仅为6个。

基于语音的模型使用了一个简单的ResNet 101,jiyu Audiovisual SlowFast,推理速度非常快(0.05s/7s clips)。

对语音的预处理为从数据集中剪掉不够响亮的音频。通过修剪最安静的20%的音频,取得了最佳效果。总共有大约5.9万个训练片段和1.5万个验证片段。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/va0p9u/p_r_deep_learning_classifier_for_sex_positions/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
墙后的所有姿势,全被“瞎眼”AI透视
现在,MIT CSAIL的一群科学家,就用AI构建了一双透视眼。你在墙后的一举一动,它就都能看见。这项研究,作为spotlight论文发表在CVPR 2018上。
量子位
2018/07/24
1.4K0
墙后的所有姿势,全被“瞎眼”AI透视
CVPR 2022 Oral|港中文开源PoseC3D:基于3D-CNN的骨骼动作识别框架
PoseC3D是一种基于 3D-CNN 的骨骼行为识别框架,同时具备良好的识别精度与效率,在包含 FineGYM, NTURGB+D, Kinetics-skeleton 等多个骨骼行为数据集上达到了SOTA。不同于传统的基于人体 3 维骨架的GCN方法,PoseC3D 仅使用 2 维人体骨架热图堆叠作为输入,就能达到更好的识别效果。
Amusi
2022/04/18
2.8K0
CVPR 2022 Oral|港中文开源PoseC3D:基于3D-CNN的骨骼动作识别框架
每日学术速递2.10
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/12
1270
每日学术速递2.10
目标检测+姿态识别:AI助力奥运公平公正打分,不再给日本奥运黑哨的机会(附源代码)
‍‍‍‍‍‍‍日本人多次犯规,裁判却视而不见,这是对所有参赛选手的不公。在日本举行奥运会就要护着日本?
计算机视觉研究院
2022/01/25
1.2K0
目标检测+姿态识别:AI助力奥运公平公正打分,不再给日本奥运黑哨的机会(附源代码)
MMAction2 | 基于人体姿态的动作识别新范式 PoseC3D
PoseC3D 是一种基于 3D-CNN 的骨骼行为识别框架,同时具备良好的识别精度与效率,在包含 FineGYM, NTURGB+D, Kinetics-skeleton 等多个骨骼行为数据集上达到了 SOTA。
OpenMMLab 官方账号
2022/01/18
4.2K0
MMAction2 |  基于人体姿态的动作识别新范式 PoseC3D
[深度学习 – 实战项目] 行为识别——基于骨架提取/人体关键点估计的行为识别
我们可以通过深度学习,检测到一个人,但是那个人在做什么我们不知道。所以我们就想让神经网络既检测到人,又知道他在做什么。也就是对这个人的行为进行识别。
全栈程序员站长
2022/08/31
4.5K0
[深度学习 – 实战项目] 行为识别——基于骨架提取/人体关键点估计的行为识别
穿墙透视真的来了!MIT华人团队超强动作检测模型,小黑屋照样夜视
通常情况下,我们通过观看来知道别人的动作。从视觉数据中自动进行动作识别的过程已成为计算机视觉界众多研究的主题。但是如果太暗,或者人被遮挡或在墙壁后面怎么办?
新智元
2019/10/08
4410
穿墙透视真的来了!MIT华人团队超强动作检测模型,小黑屋照样夜视
谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你 | ECCV2020
而理解图像和视频中的姿势,是实现一系列应用的关键步骤,包括增强现实显示、全身姿势控制和体育锻炼量化等等。
新智元
2021/01/25
9450
基于深度学习的单目人体姿态估计方法综述(一)
原文:Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods
计算机视觉
2021/03/16
1.7K0
人体行为识别/人体姿态估计AI算法模型介绍及场景应用
AI算法模型训练是指利用大量的数据以及特定的算法来训练出一个能够完成任务的计算模型。在进行AI算法模型训练时,通常需要经过以下几个步骤:
TSINGSEE青犀视频
2024/04/26
5480
超轻量更泛化!基于人体骨骼点的动作识别
基于骨骼点的动作识别 (Skeleton-based Action Recognition) 旨在从一系列时间连续的人体骨骼点中识别正在执行的动作。相较于 RGB 帧或光流,人体骨骼这一模态与人体动作天然更密切,且更加紧凑。
OpenMMLab 官方账号
2022/01/18
5.1K0
超轻量更泛化!基于人体骨骼点的动作识别
学界 | 港中文AAAI录用论文详解:ST-GCN时空图卷积网络模型
AI 科技评论按:第 32 届 AAAI 大会(AAAI 2018)日前在美国新奥尔良进行,于当地时间 2 月 2 日至 7 日为人工智能研究者们带来一场精彩的学术盛宴。AAAI 2018 今年共收到论文投稿 3808 篇,接收论文 938 篇,接收率约为 24.6 %。
AI科技评论
2018/03/06
3.7K0
学界 | 港中文AAAI录用论文详解:ST-GCN时空图卷积网络模型
视频行为识别(一)——综述
本次分享的文章是2023年收录在计算机视觉领域的顶刊“CVPR”(级别:视觉类TOP)期刊上。该期刊详细信息可关注公众号 AI八倍镜 点击菜单项查询。 论文地址:https://arxiv.org/abs/2305.15692
卡伊德
2023/07/21
1.5K0
视频行为识别(一)——综述
行为动作识别
随着计算机学科与人工智能的发展和应用,视频分析技术迅速兴起并得到了广泛关注。视频分析中的一个核心就是人体行为识别,行为识别的准确性和快速性将直接影响视频分析系统后续工作的结果。因此,如何提高视频中人体行为识别的准确性和快速性,已成为视频分析系统研究中的重点问题。
全栈程序员站长
2022/08/31
1.9K0
行为动作识别
使用姿势估计进行跌倒检测
所有目标检测已成为动作识别研究的重要垫脚石,即训练AI对行走和坐下等一般动作进行分类。为了使AI能够理解接收到的输入,我们需要教它检测特定的图案和形状,并制定自己的规则。
AI算法与图像处理
2021/03/26
2K0
使用姿势估计进行跌倒检测
25篇最新CV领域综述性论文速递!涵盖15个方向:目标检测/图像处理/姿态估计/医学影像/人脸识别等方向
标题:Deep Domain Adaptive Object Detection: a Survey
深度学习技术前沿公众号博主
2020/05/18
1.7K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
OpenCV学堂
2022/09/19
1.6K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
行为识别综述
行为识别:行为识别(Action Recognition) 任务是从视频剪辑(2D帧序列)中识别不同的动作,其中动作可以在视频的整个持续时间内执行或不执行。行为识别似乎是图像分类任务到多个帧的扩展,然后聚合来自每帧的预测。尽管图像分类取得了很大的成功,但是视频分类和表示学习依然进展缓慢。
全栈程序员站长
2022/08/31
2.4K0
行为识别综述
多模态数据的行为识别综述
摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。
一点人工一点智能
2022/12/27
2.7K0
多模态数据的行为识别综述
IJCAI 2018 | 海康威视Oral论文:分层式共现网络,实现更好的动作识别和检测
选自arXiv 作者:Chao Li等 机器之心编译 参与:Panda 动作识别和检测正得到计算机视觉领域越来越多的关注。近日,海康威视在 arXiv 发布了在这方面的一项实现了新的最佳表现的研究成果,该论文也是 IJCAI 2018 Oral 论文。 动作识别和检测等对人类行为的分析是计算机视觉领域一个基础而又困难的任务,也有很广泛的应用范围,比如智能监控系统、人机交互、游戏控制和机器人。铰接式的人体姿态(也被称为骨架(skeleton))能为描述人体动作提供非常好的表征。一方面,骨架数据在背景噪声中具有
机器之心
2018/05/08
1.4K0
IJCAI 2018 | 海康威视Oral论文:分层式共现网络,实现更好的动作识别和检测
推荐阅读
相关推荐
墙后的所有姿势,全被“瞎眼”AI透视
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验