首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【弱监督视觉任务】开源 | 一种弱监督时间动作定位的混合注意机制,性能SOTA!

【弱监督视觉任务】开源 | 一种弱监督时间动作定位的混合注意机制,性能SOTA!

作者头像
CNNer
发布2021-09-23 16:54:40
发布2021-09-23 16:54:40
7630
举报
文章被收录于专栏:CNNerCNNer

内容提要

弱监督时间动作定位是一项具有挑战性的视觉任务,因为训练视频中缺乏真值的动作时间位置。由于在训练过程中只有视频级别的监督,大多数现有的方法依赖于多实例学习(MIL)框架来预测视频中每个动作类别的开始和结束帧。然而,现有的基于MIL的方法有一个主要的局限性,即只捕捉动作的最具区别性的帧,而忽略了活动的全部范围。此外,这些方法不能对定位前台活动起着重要作用的后台活动,进行有效地建模。在本文中,我们提出了一种新的框架HAM-Net,该框架包含时间软注意、半软注意和硬注意的混合注意机制。我们的时间软注意模块,在分类模块中的辅助背景类的指导下,通过为每个视频片段引入动作评分来模拟背景活动。此外,我们的时间半软和硬注意模块,计算每个视频片段的两个注意分数,有助于集中在一个动作的较少区别的帧,以捕获完整的动作边界。我们提出的方法在THUMOS14数据集上IoU阈值为0.5时至少有2.2% mAP,在ActivityNet1.2数据集上IoU阈值为0.75时至少有1.3% mAP,性能SOTA!

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档