Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ACM MM 2024:基于多尺度融合的脑控说话人提取方法

ACM MM 2024:基于多尺度融合的脑控说话人提取方法

作者头像
脑机接口社区
发布于 2024-07-17 07:27:50
发布于 2024-07-17 07:27:50
4900
举报
文章被收录于专栏:脑机接口脑机接口
近日,发表在CCF A类会议上的一篇文章提出了一种用于脑控说话人提取的多尺度融合网络,使用端到端架构充分提取EEG信号和语音信号的多模态融合特征。相关研究成果以MSFNet: Multi-Scale Fusion Network for Brain-Controlled Speaker Extraction为题发表于the 32nd ACM International Conference on Multimedia (ACM MM 24)。

作者:范存航,张晶晶,张宏玉,项旺,陶建华,李心慧,易江燕,隋典伯,吕钊*(通讯作者)

背景介绍

人类大脑具有出色的选择性听觉注意能力,使个体能够在多说话人环境(如鸡尾酒会)中,仅提取目标听觉信息,同时忽略干扰语音。但对于患有听力损失的听者来说,这是一个重大挑战。在过去的十年里,语音增强和说话人提取算法的快速发展推动了助听器的进步,并作为前端语音处理技术来去除背景噪声或提取清晰的目标语音,以便投入语音应用,例如语音活动检测、说话人日志和语音合成等。但这些方法仍然缺乏人类选择性注意神经机制的有效性,实际应用中会受到环境限制。为了从多说话人混合语音中分离出目标语音,而不需要任何预注册的先验信息(例如目标说话人的身份信息),提出了一个解决方案是解码听者的大脑神经信号以确定目标说话人,使系统具备主动感知能力。根据神经科学的最新研究,证明了听者的听觉注意可以从大脑活动的记录中解码。EEG信号为研究皮层神经活动提供了一种非侵入性且有效的方法,这使得它特别适合于听觉注意检测(AAD)任务。然而,如何更有效地利用EEG信号和语音中所包含的针对目标说话人的共同信息仍是一个难题。

实验方法

在本文中,我们提出了一种多尺度融合网络(MSFNet)用于脑控说话人提取,这是一个端到端的时域模型。MSFNet方法通过所记录的EEG信号直接建模听者的注意力方向,以提取目标语音。它主要包括四个部分:语音编码器、EEG编码器、说话者提取网络和语音解码器。为了充分利用语音信息并更准确地捕捉语音的时间特征,语音编码器将混合语音波形的片段编码为具有不同时间尺度的多尺度语音嵌入。在EEG编码器中,使用图卷积网络(GCN)有效地提取EEG试验数据中的非欧几里得数据,获得目标说话人信息的特征表示。最后,在说话者提取网络中,这些多尺度语音嵌入与EEG特征分别进行融合,并估计出相应的感受掩码以提取目标说话人。在主要的Cocktail Party 数据集上的实验结果显示,所提出的MSFNet模型在SI-SDR和PESQ指标上相对于最先进方法分别改进了11.5%和13.6%。

接着,我们提出了一个创新性的音频-视频脑电数据集,简称为AVED数据集,旨在促进听觉注意解码和脑控说话者提取等相关方向的研究。为了模拟真实世界的感知环境,AVED数据集中包含了同时提供视频和音频刺激以及仅有音频作为刺激的情境,提供更丰富的模态信息。在表1中介绍了本工作中所使用数据集的详细设置。

实验结果

  • 与基线模型结果对比分析

在 Cocktail Party数据集上的实验结果:在该数据集上进行的实验使用了全部受试者的数据,网络训练过程不提供任何关于目标说话人的先验身份信息,做到subject-independent的设置,即未知目标说话人提取。在Table2中的结果表明,所提出的MSFNet模型在SI-SDR、STOI和PESQ方面分别比BASEN方法有1.33dB, 0.02, 0.3的相对改善。

在所提出的AVED数据集上的实验结果:由于在AVED数据集中,只使用了受试者注意同一个说话人的试验数据去进行网络训练和测试推理,将这种实验设置称为speaker-dependent提取,即已知目标说话人提取。在这种设置下,同样将所提出方法和UBESD、BASEN模型进行了比较,结果如表2所示。

因此,可以得出结论,在不同的数据集和不同实验设置中,与其他现有的EEG-语音多模态说话人提取基线方法相比,MSFNet模型仍然表现出竞争力的性能。

  • 消融实验分析

在表3中,我们探讨了分别融合多尺度语音嵌入和EEG嵌入想法的有效性。可以看到,覆盖三种不同时频分辨率的滤波器组合表现最佳,SI-SDR为12.89 dB,STOI为0.88,PESQ为2.51。此外,在单尺度语音编码器设置下的实验结果比较中,只使用长度为36个样本(约0.0025秒)的滤波器实现小窗口获得了最佳系统性能,其SI-SDR、STOI和PESQ的值分别为12.21 dB、0.88和2.34。随着滤波器数量的增加,例如共同使用长度为36个样本和长度为147个样本(0.01秒)的滤波器,实验结果进一步提高。

在使用EEG信号和语音进行多模态融合的说话者提取网络中,我们比较了使用DPRNN结构和TCN结构的性能。MSFNet网络使用4个重复的DPRNN块来估计感受掩码,同时我们将采用堆叠4次的基于深度一维卷积层的TCN块来估计感受掩码的网络称为MSFNet(TCN)。如表4所示,可以清楚地观察到,所提出的MSFNet在所有指标上显著优于MSFNet(TCN)。

为了说明在EEG编码器中加入GCN层有助于学习不同脑区之间的相关性,提高说话人提取性能,我们在表5中比较了有无GCN的影响。为了调整到最合适的GCN层数,还衡量了其层数从1到4对实验结果的影响。当使用3层GCN时,模型在所有指标上都取得最好的结果。

论文引用:

Maryam Hosseini, Luca Celotti, and Éric Plourde. Speaker-independent brain enhanced speech denoising. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1310–1314. IEEE, 2021.

Maryam Hosseini, Luca Celotti, and Eric Plourde. End-to-end brain-driven speech enhancement in multi-talker conditions. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30:1718–1733, 2022.

Jie Zhang, QingTian Xu, Qiu-Shi Zhu, and Zhen-Hua Ling. BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions. In Proc. INTERSPEECH 2023, pages 3117–3121, 2023.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Springboot面试题一
starter是一种服务,使用某个功能的开发者不需要关注各种依赖库的处理,不需要具体的配置信息,由Spring Boot自动通过classpath路径下的类发现并加载需要的Bean。
全栈程序员站长
2022/08/31
4430
Springboot面试题一
手把手教你打造一个SpringBoot自定义的Starter
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xmt1139057136/article/details/89090150
业余草
2019/04/18
1.6K0
手把手教你打造一个SpringBoot自定义的Starter
Spring Boot 静态资源处理
Spring Boot 默认为我们提供了静态资源处理,使用 WebMvcAutoConfiguration 中的配置各种属性。
全栈程序员站长
2022/08/24
9340
Spring Boot 静态资源处理
Java学习笔记-全栈-web开发-20-SpringBoot核心技术
微服务:架构风格(服务微化) 一个应用应该是一组小型服务;可以通过HTTP的方式进行互通;
devi
2021/08/18
8140
java面试题 --- Spring②
1. SpringBoot 有哪些优点? 简单轻量,远离繁琐配置,开箱即用; 提供了大量的 starter,不用导入大量的 maven 依赖,不用担心版本问题。 ---- 2. SpringBoot 的核心注解是什么? @SpringBootApplication 是 SpringBoot 的核心注解,这个注解其实是一个是组合注解,它由 @ComponentScan、@Configuration 和 @EnableAutoConfiguration 三个注解构成。@ComponentScan 是用来
贪挽懒月
2022/09/02
2770
Springboot中的面试题你能接几招?
application.yml 或 application.properies
一缕82年的清风
2021/12/06
4020
一道面试题引起的SpringBoot启动解析
Spring 框架就像一个家族,有众多衍生产品例如 boot、security、jpa等等。但他们的基础都是Spring 的ioc和 aop,ioc 提供了依赖注入的容器, aop解决了面向横切面的编程,然后在此两者的基础上实现了其他延伸产品的高级功能。
JAVA葵花宝典
2019/10/08
5220
一道面试题引起的SpringBoot启动解析
SpringBoot之旅-web开发
有了自动配置,springboot使web开发变得简单,这个在springboot之旅中的第一篇中就有体现,实际的开发中当然不会这么简单,很多时候我们都需要自己去定制一些东西。web开发的东西比较多, 我们先掌握一些必要知识点,剩下的就是CRUD开发。
烂猪皮
2023/09/04
3890
SpringBoot之旅-web开发
springboot核心原理
它是一个服务于spring框架的框架,能够简化配置文件,快速构建web应用, 内置tomcat,无需打包部署,直接运行。
三哥
2019/10/24
5430
springboot核心原理
面试 – 如何编写一个SpringBoot-Starter?
刚毕业第一批面试的时候,被问过如何手写MVC框架,但是感觉面试官在扯淡,我刚毕业的CRUD,你非要写尼玛MVC框架?面试第二家公司的时候遇到:如何手写SpringBoot-Starter?我感觉一样扯淡,我有必要写Boot-Starter么?但为了丰富技术点,当天晚上就研究一下,如何手写Boot-Starter?
收心
2022/09/27
3790
SpringBoot谁都会用,可你知道启动原理吗?
从上面代码可以看出,Annotation定义(@SpringBootApplication)和类定义(SpringApplication.run)最为耀眼,所以要揭开SpringBoot的神秘面纱,我们要从这两位开始就可以了。
Bug开发工程师
2019/07/09
7240
SpringBoot谁都会用,可你知道启动原理吗?
手把手教你如何编写springboot中starter
​ hello,everyone。好久不见,使用springboot的同学对springboot提供的各种各样的starter都不陌生。那么日常工作中如果我们想开发一个starter供其他同事来使用,我们该怎么做呢?
柏炎
2022/08/23
2.2K0
springboot学习教程【面试+工作】
springboot学习教程【面试+工作】 阅读原文即可在线观看教程及下载教程 1. Spring的发展 1.1. Spring1.x 时代 在Spring1.x时代,都是通过xml文件配置bean,随着项目的不断扩大,需要将xml配置分放到不同的配置文件中,需要频繁的在java类和xml配置文件中切换。 1.2. Spring2.x时代 随着JDK 1.5带来的注解支持,Spring2.x可以使用注解对Bean进行申明和注入,大大的减少了xml配置文件,同时也大大简化了项目的开发。 那么,问题来了,究
Java帮帮
2018/06/05
1.4K0
Springboot2
参考:https://www.yuque.com/leifengyang/springboot2
用户8126523
2023/04/11
5580
Spring Boot 静态资源处理
摘要:spring Boot 默认的处理方式就已经足够了,默认情况下Spring Boot 使用WebMvcAutoConfiguration中配置的各种属性。 但是如果你想要自己配置一些项目的设置,你可以在@Configuration注解的配置类上增加@EnableWebMvc或者继承WebMvcConfigurationSupport和WebMvcConfigurationAdapter 正文: 首先解析@EnableWebMvc 、WebMvcConfigurationSupport和WebMvcC
itliusir
2018/05/21
1.7K0
Spring Boot实战第七章-Spring Boot Web开发-Web相关配置
本章介绍的是基本的web相关配置,涉及了springboot自动配置,注册servlet、filter、listener等等,配置起来很简单。
全栈程序员站长
2021/05/19
4180
13.9 SpringBoot集成Swagger2中遇到的问题13.9 SpringBoot集成Swagger2中遇到的问题
我们在使用SpringBoot集成Swagger2中,访问:http://127.0.0.1:8188/swagger-ui.html
一个会写诗的程序员
2018/08/20
2.6K0
13.9 SpringBoot集成Swagger2中遇到的问题13.9 SpringBoot集成Swagger2中遇到的问题
SpringBoot进阶
spring-boot-starter-web:springBoot的场景启动器,里面很多依赖如:spring-web、spring-webmvc、jackson、hibernate-validator、spring-boot-starter-tomcat、spring-boot-starter
晚上没宵夜
2020/04/16
1K0
SpringBoot的核心内容之自动装配
不面试不知道,现在面试的问题真的是五花八门的,最近就有读者说,在面试的过程中,面试官还提到了关于最初版本的 Spring 还有 SpringMVC 以及现在的 SpringBoot 中的一些相关问题,比如他提到了这个 SpringBoot 的自动装配是什么,你是怎么理解的,今天了不起就和大家一起来看看这个关于 SpringBoot 的自动装配。
Java极客技术
2024/04/26
1970
SpringBoot的核心内容之自动装配
SpringBoot对静态资源的映射规则
==1)、所有 /webjars/** ,都去 classpath:/META-INF/resources/webjars/ 找资源;==
程序员阿杜
2021/03/15
9360
SpringBoot对静态资源的映射规则
相关推荐
Springboot面试题一
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档