一位匿名的读者引用Ars Technica的报道:谷歌研究人员已经开发出一种深度学习系统,旨在帮助计算机在嘈杂的环境中更好地识别和隔离个人声音。正如该公司本周在谷歌研究博客上发布的一篇文章中指出的那样,该科技中的一个巨头团队试图复制鸡尾酒会效应,或者人类大脑专注于一个音频来源,同时过滤掉其他人的能力 - 就像你一样在派对上与朋友交谈。谷歌的方法采用了视听模式,因此主要侧重于隔离视频中的声音。该公司发布了许多YouTube视频,展示了该技术的实际应用。 该公司表示,该技术适用于带有单个音频轨道的视频,并且可以通过算法来隔离视频中的声音,具体取决于谁在说话,或者通过让用户手动选择想要听到声音的人的脸部。谷歌表示,这里的可视化组件是关键,因为技术可以监视人的嘴巴何时移动,以便更好地识别在给定点处关注哪些声音,并为视频长度创建更准确的单个语音轨道。博客文章中指出,研究人员通过在YouTube上收集100,000个“讲座和会谈”视频,开发了这种模型,从那些流畅的视频中提取了近2000小时的片段,然后混合该音频创建一个“合成的鸡尾酒会”添加了人造背景噪音。Google随后通过阅读每个视频帧中说话的人的“脸部缩略图”以及该视频音轨的谱图来训练技术人员分割混合音频的能力。该系统能够在给定时间挑选哪个音频源属于哪个脸部,并为每个扬声器创建单独的语音音轨。
领取专属 10元无门槛券
私享最新 技术干货