前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征

CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征

作者头像
新智元
发布2018-03-27 14:45:16
1K0
发布2018-03-27 14:45:16
举报
文章被收录于专栏:新智元

【新智元导读】谷歌昨天发布消息,更新了此前开源的含上万个视频的大规模数据集 Youtube-8M,新的数据集除了标签升级,还首次包含了预计算的音频特征(pre-computed audio features),有助于联合视听(时间)建模。此外,谷歌还联合Kaggle举办了视频理解竞赛,邀请参与者使用Youtube-8M作为训练数据,利用谷歌云机器学习平台构建视听内容分类模型。相关内容会在今年的CVPR会议上作为Workshop 展出。

去年9月,我们发布了YouTube-8M数据集,该数据集涵盖上千万个代表标记的视频,包括数千个类型,为了促进大规模视频理解的创新和进步。最近,Google的其他团队发布了数据集,比如 Open Images和YouTube-BoundingBoxes 用于加速图像和视频的理解。为了实现这些目标,今天,我们发布了YouTube-8M数据集的更新,并与Google Cloud Machine Learning 和 kaggle.com 合作,组织了一个视频理解比赛,这也是CVPR'17的一个研讨会内容。

更新的YouTube-8M,首次纳入预计算音频特征

全新改进的 YouTube-8M 包括更干净和更详细的标签(平均每个视频的标签数量的两倍),清理过的视频集,以及包括预先计算的音频功能,基于除了先前发布的视觉特征之外,还首次将与计算的音频特征(pre-computed audio features)包括了进来,这些特征是基于最先进的音频建模架构。音频和视觉特征在时间上以1秒的时间粒度同步,这使得YouTube-8M成为大规模多模态数据集,并为联合视听(时间)建模(joint audio-visual (temporal) modeling)的新研究打开了机会。

新版本的主要统计信息如下所示。

更新后的YouTube-8M数据集的tree-map可视化,分为24个高级垂直类别,包括前200个最常见的实体,以及每个类别的前5个实体。

YouTube-8M数据集中前18个高级类别里的视频示例。

Google Cloud和YouTube-8M视频理解挑战

与Google Cloud和kaggle.com合作,我们还举办了Google Cloud和YouTube-8M视频理解挑战。挑战邀请参与者使用YouTube-8M作为训练数据,构建视听内容分类模型,然后标记大约700K的测试视频(用做测试的视频是系统没有见过的)。这是一个由Google Cloud赞助的Kaggle比赛,表现最佳的玩家将获得10万美元奖金。

Google Cloud还提供“credit”,方便参与者选择使用Google Cloud Machine Learning进行模型培训和探索。开源TensorFlow代码为YouTube-8M实现了一些基线分类模型和培训和评估脚本,这些都可以在Github上找到。有关开始本地或基于云的培训的详细信息,请参阅我们的README和Kaggle入门指南。

CVPR 2017 研讨会介绍

我们将在2017年7月26日举行的第一届YouTube-8M研讨会上,在CVPR 2017会议上宣布挑战的结果。研讨会还将邀请挑战赛第一名做演示报告。欢迎提交基于YouTube-8M数据集的新颖研究、实验或应用的论文。

我们希望这个大规模、多样化的数据集能够推广到许多视频域(YouTube-8M捕获超过20个不同的视频域)。我们相信这一挑战赛也可以加速视频理解研究发展和创新。

编译原文:https://research.googleblog.com/2017/02/an-updated-youtube-8m-video.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
视频理解
视频理解是基于腾讯领先的 AI 技术和丰富的内容运营经验,对视频内容输出涵盖人物、场景、物体、事件的高精度、多维度的优质标签内容。通过对视频内容进行细粒度的结构化解析,应用于媒资系统管理、素材检索、内容运营等业务场景中。其中一款产品是媒体智能标签(Intelligent Media Label Detection)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档