【声源定位】开源 | 上海交大&百度--实现复杂视听场景中的多声源视觉定位！

CNNer

发布于 2020-09-28 09:47:52

1.7K0

发布于 2020-09-28 09:47:52

文章被收录于专栏：CNNer

论文地址： https://arxiv.org/pdf/2007.06355.pdf

代码： https://github.com/shvdiwnkozbw/Multi-Source-Sound-Localization

来源： 上海交通大学，百度，Adobe

论文名称：Multiple Sound Sources Localization from Coarse to Fine

原文作者：Rui Qian

内容提要

如何在无约束的视频中对多个声源进行视觉定位是一个棘手的问题，特别是在缺乏对声音和物体配对标注的情况下。为了解决这个问题，我们开发了一个两阶段的视听学习框架，该框架首先将不同类别的音频和视觉表示从复杂场景中分离出来，然后以粗到细的方式执行跨模态特征对齐，构建声音和物体的配对。我们的模型应用在公共数据集上取得了最先进的定位结果，在复杂场景下的多源声音定位方面也有相当好的表现。然后我们将定位结果用于声音分离，并获得与现有方法相当的性能。实验结果证明了该模型能够有效地将声音与特定的视觉源对应。

主要框架及实验结果