论文地址: https://arxiv.org/pdf/2007.06355.pdf
代码: https://github.com/shvdiwnkozbw/Multi-Source-Sound-Localization
来源: 上海交通大学,百度,Adobe
论文名称:Multiple Sound Sources Localization from Coarse to Fine
原文作者:Rui Qian
内容提要
如何在无约束的视频中对多个声源进行视觉定位是一个棘手的问题,特别是在缺乏对声音和物体配对标注的情况下。为了解决这个问题,我们开发了一个两阶段的视听学习框架,该框架首先将不同类别的音频和视觉表示从复杂场景中分离出来,然后以粗到细的方式执行跨模态特征对齐,构建声音和物体的配对。我们的模型应用在公共数据集上取得了最先进的定位结果,在复杂场景下的多源声音定位方面也有相当好的表现。然后我们将定位结果用于声音分离,并获得与现有方法相当的性能。实验结果证明了该模型能够有效地将声音与特定的视觉源对应。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。