前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【声源定位】开源 | 上海交大&百度--实现复杂视听场景中的多声源视觉定位!

【声源定位】开源 | 上海交大&百度--实现复杂视听场景中的多声源视觉定位!

作者头像
CNNer
发布2020-09-28 09:47:52
1.7K0
发布2020-09-28 09:47:52
举报
文章被收录于专栏:CNNer

论文地址: https://arxiv.org/pdf/2007.06355.pdf

代码: https://github.com/shvdiwnkozbw/Multi-Source-Sound-Localization

来源: 上海交通大学,百度,Adobe

论文名称:Multiple Sound Sources Localization from Coarse to Fine

原文作者:Rui Qian

内容提要

如何在无约束的视频中对多个声源进行视觉定位是一个棘手的问题,特别是在缺乏对声音和物体配对标注的情况下。为了解决这个问题,我们开发了一个两阶段的视听学习框架,该框架首先将不同类别的音频和视觉表示从复杂场景中分离出来,然后以粗到细的方式执行跨模态特征对齐,构建声音和物体的配对。我们的模型应用在公共数据集上取得了最先进的定位结果,在复杂场景下的多源声音定位方面也有相当好的表现。然后我们将定位结果用于声音分离,并获得与现有方法相当的性能。实验结果证明了该模型能够有效地将声音与特定的视觉源对应。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档