【新智元导读】谷歌今天发布了一个在声音识别上对标图像识别领域中的ImageNet的大型数据库。包含2100万标注视频、5800个小时的音频、527种类型的标注声音。
谷歌机器感知研究小组(Machine Perception Research)最新发布了一个大规模的音频数据集AudioSet。
根据谷歌在官网的介绍,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。
发布者写道:通过发布AudioSet,我们希望为音频事件检测提供一个常见的,现实层面的评估,同时开始提供一个全面的声音事件词汇表。
数据量:2100万标注视频、5800个小时的音频、527个类型的标注声音
数据例子:
声音识别领域的ImageNet
音频事件识别在机器感知中是一个新出现的难题,它的目标是让机器具备像人一样能从音频中识别并关联声音的能力。类似的问题,如图像中的对象检测,已经从大型数据集(主要是ImageNet)中获得了巨大的收益。
本文介绍了AudioSet的创建,这是一个手动注释音频事件的大规模数据集,努力弥合图像和音频研究之间数据可用性的差距。使用由文献和手动策划指导的635个音频类的精心构造的分层类目,我们收集来自人类标签器的数据,探测在10秒段的YouTube视频中特定音频类的存在。提出了使用基于元数据,上下文(例如,链接)和内容分析的搜索来标记。结果获得了覆盖范围和大小都前所未有的数据集,我们希望这能大大提高高性能音频事件识别器的开发。
更多详情,见论文https://research.google.com/pubs/archive/45857.pdf
如何使用数据库:https://research.google.com/audioset/