Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >开源 | 谷歌开放大规模音频数据集 AudioSet,加速音频识别研究

开源 | 谷歌开放大规模音频数据集 AudioSet,加速音频识别研究

作者头像
机器之心
发布于 2018-05-07 02:49:21
发布于 2018-05-07 02:49:21
3.9K0
举报
文章被收录于专栏:机器之心机器之心

选自Google Research

机器之心编译

参与:李亚洲、晏奇、微胖

近日,谷歌开放了一个大规模的音频数据集 AudioSet。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(包括 527 个标签)。此项研究论文已发表于最近正在新奥尔良举办的 IEEE ICASSP 2017 大会上。论文原文可点击文末「阅读原文」查看。

项目地址:https://github.com/audioset/ontology

AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频)。音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。

图:音频本体类别

通过发布 AndioSet,我们希望能为音频事件检测提供一个常见的、实际的评估任务,也是声音事件的综合词汇理解的一个开端。

大型数据收集

该数据集收集了所有与我们合作的人类标注者从 YouTube 视频中识别的声音。我们基于 YouTube 元数据和基于内容的搜索来挑选需要标注的片段。

在我们的音频本体中,得到的数据集在音频事件类上有极好的覆盖。

图:每类别样本的数量

在我们 ICASSP 2017 论文中音频本体和数据集的构建有更加具体的描述。你可以在我们 GitHub 知识库中为音频本体作更多补充。数据集与机器提取特征(machine-extracted features)已可以下载 https://github.com/audioset/ontology

此项研究成果已经以论文的形式发表在了 IEEE ICASSP 2017 大会上:

论文:Audio Set: An ontology and human-labeled dataset for audio events

摘要

音频事件识别,类似人类识别音频事件并进行关联的能力,是机器感知研究中的一个新生问题。类似问题,比如识别图像中的目标研究已经从广泛数据集——主要是 ImageNet 中获益匪浅。这篇论文描述了大规模人工标记音频事件数据组 Audio Set 的建造过程。该数据组旨在弥合图片和音频研究之间存在的鸿沟。使用文献和人工管理指导下精细建构起来的 635 个音频类别的层级本体,我们搜集了源自人工标记者的大量数据,探查特定音频类别(10 秒时长的 YouTube 音频片段)的现状。建议使用基于元数据、文本(比如链接)以及内容分析的搜索对这些片段进行标记。结果,我们获得了一个宽度和大小都史无前例的数据集,我们希望它能实质上促进高水平音频事件识别程序的发展。

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
声音识别的ImageNet诞生,谷歌发布大规模音频数据集
【新智元导读】谷歌今天发布了一个在声音识别上对标图像识别领域中的ImageNet的大型数据库。包含2100万标注视频、5800个小时的音频、527种类型的标注声音。 谷歌机器感知研究小组(Machine Perception Research)最新发布了一个大规模的音频数据集AudioSet。 根据谷歌在官网的介绍,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,
新智元
2018/03/27
1.8K0
声音识别的ImageNet诞生,谷歌发布大规模音频数据集
卧槽!ImageNet验证集6%的标签都是错!基于这些数据集的论文尴尬了!
众所周知,测试集是我们拿来衡量机器学习模型性能的基准。如果测试集错误百出,我们得‍到的性能数据也会存在很大偏差。‍
昱良
2021/04/16
1.3K0
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。
CDA数据分析师
2019/05/09
1.1K0
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱
我们平时用的机器学习数据集存在各种各样的错误,这是一个大家都已经发现并接受的事实。为了提高模型准确率,有些学者已经开始着手研究这些数据集中的错误,但他们的研究主要集中在训练集,没有人系统研究过机器学习测试集的误差。
公众号机器学习与AI生成创作
2021/04/19
9640
ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱
20用于深度学习训练和研究的数据集
数据集在计算机科学和数据科学中发挥着至关重要的作用。它们用于训练和评估机器学习模型,研究和开发新算法,改进数据质量,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。数据集提供了丰富的信息,用于理解和应用数据,从而支持各种应用领域,包括医疗、金融、交通、社交媒体等。正确选择和处理数据集是确保数据驱动应用成功的关键因素,对于创新和解决复杂问题至关重要。因此,数据集不仅是技术发展的基础,也是推动科学进步和社会决策制定的强大工具。
deephub
2023/09/14
6420
20用于深度学习训练和研究的数据集
骗过70%的人!这个AI能自动给视频配音,真假难辨(不服来试)
安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 先来做个“真假美猴王”的游戏。 视频内容 你将看到两段画面相同的视频,请判断哪段来自视频原声,哪段是AI根据视频画面配上的假声? 莫非两
量子位
2018/04/02
2.8K0
骗过70%的人!这个AI能自动给视频配音,真假难辨(不服来试)
[转载] 机器学习数据集统计系列一
作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎
marsggbo
2018/12/12
1.2K0
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦。
量子位
2019/04/23
9270
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
教程 | 如何使用TensorFlow实现音频分类任务
选自Medium 作者:DeviceHive 机器之心编译 参与:Nurhachu Null、刘晓坤 本文介绍了一种使用 TensorFlow 将音频进行分类(包括种类、场景等)的实现方案,包括备选模型、备选数据集、数据集准备、模型训练、结果提取等都有详细的引导,特别是作者还介绍了如何实现 web 接口并集成 IoT。 简介 有很多不同的项目和服务能够识别人类的语音,例如 Pocketsphinx、Google』s Speech API,等等。这些应用和服务能够以相当好的性能将人类的语音识别成文本,但是其中
机器之心
2018/05/10
3.5K0
媲美 ImageNet 的动作识别数据集,你知道哪些?
原标题 | New Datasets for Action Recognition
AI研习社
2019/08/29
2K0
媲美 ImageNet 的动作识别数据集,你知道哪些?
业界 | 谷歌为YouTube添加新功能:利用机器学习自动生成音效字幕
选自Google blog 作者:Sourish Chaudhuri 机器之心编译 音频(audio)对于我们对世界的感知的影响的巨大自然不言而喻。语音(speech)显然是人们最熟悉的通信方式之一,但环境声音(sound)也能传达很多重要的信息。我们可以本能地响应这些背景声音所创造的语境,比如被突然出现的喧闹而吓到、使用音乐作为一种叙述元素或者在情景喜剧中将笑声用作一种观众提示。 自 2009 年以来,YouTube 就开始为视频提供自动生成的字幕了,而这主要是专注于语音转录以使 YouTube 上托管的
机器之心
2018/05/07
1.4K0
业界 | 谷歌为YouTube添加新功能:利用机器学习自动生成音效字幕
谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文、 数据集)
本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处 本文长度为8311字,建议阅读10分钟 Jeff Dean回顾了谷歌大脑团队过去一年的核心研究,以及在多个AI领域的研究进展。 谷歌AI Senior Fellow、谷歌大脑负责人Jeff Dean,按照惯例,今天开始发布2017年度的谷歌大脑年度总结。 在这份已经发布的总结中,Jeff Dean回顾了谷歌大脑团队过去一年的核心研究,以及在多个AI领域的研究进展。 Jeff Dean还把相关研究的论文等一并附上,堪称良心之作,
数据派THU
2018/01/29
1.5K0
谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文、 数据集)
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
选自Google Research Blog 作者:Inbar Mosseri等 机器之心编译 在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上「屏蔽」其他所有声音。这种能力被称为「鸡尾酒会效应」,是我们人类与生俱来的技能。然而,虽然关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,但该问题仍是计算机领域面临的重大挑战。谷歌今日提出一种新型音频-视觉模型,从声音混合片段(如多名说话者和背景噪音)中分离出单独的语音信号。该模型只需训练一次,就可应用于任意说话者。 在《Lo
机器之心
2018/05/08
1.4K0
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
随着元宇宙的火爆以及数字人建模技术的商业化,AI 数字人驱动算法,作为数字人动画技术链的下一关键环节,获得了学界和工业界越来越广泛的兴趣和关注。其中谈话动作生成 (由声音等控制信号生成肢体和手部动作)由于可以降低 VR Chat, 虚拟直播,游戏 NPC 等场景下的驱动成本,在近两年成为研究热点。
一点人工一点智能
2022/12/27
8100
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
盘点 | Jeff Dean撰文回顾谷歌大脑2017:从基础研究到新硬件
选自Google Research Blog 作者:Jeff Dean 机器之心编译 参与:黄小天、路雪 继谷歌大脑 2016 年盘点之后,谷歌大脑负责人 Jeff Dean 近日撰文回顾了 2017 年的工作,内容包括基础研究工作,机器学习的开源软件、数据集和新硬件。本文是这次盘点的第一部分,谷歌将稍后推出第二部分,介绍机器学习在医疗、机器人等不同科学领域的应用与创造性,以及对谷歌自身工作带来的影响。 谷歌大脑团队致力于拓展人工智能在研究和系统工程方面的进展。去年,我们盘点了 2016 年的工作。2017
机器之心
2018/05/11
6160
CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征
【新智元导读】谷歌昨天发布消息,更新了此前开源的含上万个视频的大规模数据集 Youtube-8M,新的数据集除了标签升级,还首次包含了预计算的音频特征(pre-computed audio features),有助于联合视听(时间)建模。此外,谷歌还联合Kaggle举办了视频理解竞赛,邀请参与者使用Youtube-8M作为训练数据,利用谷歌云机器学习平台构建视听内容分类模型。相关内容会在今年的CVPR会议上作为Workshop 展出。 去年9月,我们发布了YouTube-8M数据集,该数据集涵盖上千万个代表
新智元
2018/03/27
1K0
CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征
谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为
【新智元导读】教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,谷歌最新发布一个电影片段数据集AVA,旨在教机器理解人的活动。 该数据集以人类为中心进行标注,包含80类动作的 57600 个视频片段,有助于人类行为识别系统的研究 数据集地址:https://research.google.com/ava/ 论文:https://arxiv.org/abs/1705.08421 教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,对个人视频搜索和发现、运动分析和手势界面等应用十分重要。尽管在
新智元
2018/03/21
1.5K0
谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为
Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成
音频生成领域又有好消息:刚刚,Stability AI 宣布推出开放模型 Stable Audio Open,该模型能够生成高质量的音频数据。
机器之心
2024/06/17
2650
Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成
谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)
李杉 维金 编译自 Google Blog 量子位 出品 | 公众号 QbitAI 谷歌AI Senior Fellow、谷歌大脑负责人Jeff Dean,按照惯例,今天开始发布2017年度的谷歌大脑
量子位
2018/03/22
7510
谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)
【资源】DeepMind发布300k动作标注视频数据集
【新智元导读】DeepMind 最新发布30万 YouTube 视频剪辑的 Kinetics 数据集,包含400类人类动作注释,有助于视频理解机器学习。 Kinetics 是一个大规模、高质量的 YouTube 视频URL数据集,包含了各种各样的人类动作标记。我们发布 Kinetics 数据集的目的是助力机器学习社区推进视频理解模型的研究。 Kinetics 数据集包含大约30万个视频剪辑,涵盖400类人类动作,每类动作至少有400个视频剪辑。每个剪辑时长约10秒,并被标记一个动作类别。所有剪辑都经过多轮人
新智元
2018/03/28
1.7K0
【资源】DeepMind发布300k动作标注视频数据集
推荐阅读
声音识别的ImageNet诞生,谷歌发布大规模音频数据集
1.8K0
卧槽!ImageNet验证集6%的标签都是错!基于这些数据集的论文尴尬了!
1.3K0
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
1.1K0
ImageNet验证集6%的标签都是错的,MIT:十大常用数据集没那么靠谱
9640
20用于深度学习训练和研究的数据集
6420
骗过70%的人!这个AI能自动给视频配音,真假难辨(不服来试)
2.8K0
[转载] 机器学习数据集统计系列一
1.2K0
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
9270
教程 | 如何使用TensorFlow实现音频分类任务
3.5K0
媲美 ImageNet 的动作识别数据集,你知道哪些?
2K0
业界 | 谷歌为YouTube添加新功能:利用机器学习自动生成音效字幕
1.4K0
谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文、 数据集)
1.5K0
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
1.4K0
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
8100
盘点 | Jeff Dean撰文回顾谷歌大脑2017:从基础研究到新硬件
6160
CVPR-17:谷歌大规模视频理解 Kaggle 挑战赛,首次加入音频特征
1K0
谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为
1.5K0
Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成
2650
谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)
7510
【资源】DeepMind发布300k动作标注视频数据集
1.7K0
相关推荐
声音识别的ImageNet诞生,谷歌发布大规模音频数据集
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档