首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ACM MM 2024:基于多尺度融合的脑控说话人提取方法

ACM MM 2024:基于多尺度融合的脑控说话人提取方法

作者头像
脑机接口社区
发布于 2024-07-17 07:27:50
发布于 2024-07-17 07:27:50
4500
举报
文章被收录于专栏:脑机接口脑机接口
近日,发表在CCF A类会议上的一篇文章提出了一种用于脑控说话人提取的多尺度融合网络,使用端到端架构充分提取EEG信号和语音信号的多模态融合特征。相关研究成果以MSFNet: Multi-Scale Fusion Network for Brain-Controlled Speaker Extraction为题发表于the 32nd ACM International Conference on Multimedia (ACM MM 24)。

作者:范存航,张晶晶,张宏玉,项旺,陶建华,李心慧,易江燕,隋典伯,吕钊*(通讯作者)

背景介绍

人类大脑具有出色的选择性听觉注意能力,使个体能够在多说话人环境(如鸡尾酒会)中,仅提取目标听觉信息,同时忽略干扰语音。但对于患有听力损失的听者来说,这是一个重大挑战。在过去的十年里,语音增强和说话人提取算法的快速发展推动了助听器的进步,并作为前端语音处理技术来去除背景噪声或提取清晰的目标语音,以便投入语音应用,例如语音活动检测、说话人日志和语音合成等。但这些方法仍然缺乏人类选择性注意神经机制的有效性,实际应用中会受到环境限制。为了从多说话人混合语音中分离出目标语音,而不需要任何预注册的先验信息(例如目标说话人的身份信息),提出了一个解决方案是解码听者的大脑神经信号以确定目标说话人,使系统具备主动感知能力。根据神经科学的最新研究,证明了听者的听觉注意可以从大脑活动的记录中解码。EEG信号为研究皮层神经活动提供了一种非侵入性且有效的方法,这使得它特别适合于听觉注意检测(AAD)任务。然而,如何更有效地利用EEG信号和语音中所包含的针对目标说话人的共同信息仍是一个难题。

实验方法

在本文中,我们提出了一种多尺度融合网络(MSFNet)用于脑控说话人提取,这是一个端到端的时域模型。MSFNet方法通过所记录的EEG信号直接建模听者的注意力方向,以提取目标语音。它主要包括四个部分:语音编码器、EEG编码器、说话者提取网络和语音解码器。为了充分利用语音信息并更准确地捕捉语音的时间特征,语音编码器将混合语音波形的片段编码为具有不同时间尺度的多尺度语音嵌入。在EEG编码器中,使用图卷积网络(GCN)有效地提取EEG试验数据中的非欧几里得数据,获得目标说话人信息的特征表示。最后,在说话者提取网络中,这些多尺度语音嵌入与EEG特征分别进行融合,并估计出相应的感受掩码以提取目标说话人。在主要的Cocktail Party 数据集上的实验结果显示,所提出的MSFNet模型在SI-SDR和PESQ指标上相对于最先进方法分别改进了11.5%和13.6%。

接着,我们提出了一个创新性的音频-视频脑电数据集,简称为AVED数据集,旨在促进听觉注意解码和脑控说话者提取等相关方向的研究。为了模拟真实世界的感知环境,AVED数据集中包含了同时提供视频和音频刺激以及仅有音频作为刺激的情境,提供更丰富的模态信息。在表1中介绍了本工作中所使用数据集的详细设置。

实验结果

  • 与基线模型结果对比分析

在 Cocktail Party数据集上的实验结果:在该数据集上进行的实验使用了全部受试者的数据,网络训练过程不提供任何关于目标说话人的先验身份信息,做到subject-independent的设置,即未知目标说话人提取。在Table2中的结果表明,所提出的MSFNet模型在SI-SDR、STOI和PESQ方面分别比BASEN方法有1.33dB, 0.02, 0.3的相对改善。

在所提出的AVED数据集上的实验结果:由于在AVED数据集中,只使用了受试者注意同一个说话人的试验数据去进行网络训练和测试推理,将这种实验设置称为speaker-dependent提取,即已知目标说话人提取。在这种设置下,同样将所提出方法和UBESD、BASEN模型进行了比较,结果如表2所示。

因此,可以得出结论,在不同的数据集和不同实验设置中,与其他现有的EEG-语音多模态说话人提取基线方法相比,MSFNet模型仍然表现出竞争力的性能。

  • 消融实验分析

在表3中,我们探讨了分别融合多尺度语音嵌入和EEG嵌入想法的有效性。可以看到,覆盖三种不同时频分辨率的滤波器组合表现最佳,SI-SDR为12.89 dB,STOI为0.88,PESQ为2.51。此外,在单尺度语音编码器设置下的实验结果比较中,只使用长度为36个样本(约0.0025秒)的滤波器实现小窗口获得了最佳系统性能,其SI-SDR、STOI和PESQ的值分别为12.21 dB、0.88和2.34。随着滤波器数量的增加,例如共同使用长度为36个样本和长度为147个样本(0.01秒)的滤波器,实验结果进一步提高。

在使用EEG信号和语音进行多模态融合的说话者提取网络中,我们比较了使用DPRNN结构和TCN结构的性能。MSFNet网络使用4个重复的DPRNN块来估计感受掩码,同时我们将采用堆叠4次的基于深度一维卷积层的TCN块来估计感受掩码的网络称为MSFNet(TCN)。如表4所示,可以清楚地观察到,所提出的MSFNet在所有指标上显著优于MSFNet(TCN)。

为了说明在EEG编码器中加入GCN层有助于学习不同脑区之间的相关性,提高说话人提取性能,我们在表5中比较了有无GCN的影响。为了调整到最合适的GCN层数,还衡量了其层数从1到4对实验结果的影响。当使用3层GCN时,模型在所有指标上都取得最好的结果。

论文引用:

Maryam Hosseini, Luca Celotti, and Éric Plourde. Speaker-independent brain enhanced speech denoising. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1310–1314. IEEE, 2021.

Maryam Hosseini, Luca Celotti, and Eric Plourde. End-to-end brain-driven speech enhancement in multi-talker conditions. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30:1718–1733, 2022.

Jie Zhang, QingTian Xu, Qiu-Shi Zhu, and Zhen-Hua Ling. BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions. In Proc. INTERSPEECH 2023, pages 3117–3121, 2023.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
金融/语音/音频处理学术速递[11.9]
【1】 Stock Portfolio Optimization Using a Deep Learning LSTM Model 标题:基于深度学习LSTM模型的股票投资组合优化 链接:https://arxiv.org/abs/2111.04709
公众号-arXiv每日学术速递
2021/11/17
6210
学界 | 一文概览基于深度学习的监督语音分离
选自arXiv 机器之心编译 参与:刘晓坤、路雪 近年来,基于深度学习的监督语音分离发展很快。本文作者对今年相关研究进行概述,介绍了语音分离的背景、监督语音分离的形成和组成部分,从历史的角度叙述了监督
机器之心
2018/05/10
1.7K0
端到端声源分离研究:现状、进展和未来
什么是端到端音源分离呢?罗艺老师首先介绍了端到端音源分离的定义。从名称来看,端到端的含义是模型输入源波形后直接输出目标波形,不需要进行傅里叶变换将时域信号转换至频域;音源分离的含义是将混合语音中的两个或多个声源分离出来。
深蓝学院
2020/09/07
2.8K0
端到端声源分离研究:现状、进展和未来
Interspeech 20周年,ASR和SD相关论文提前看
INTERSPEECH 是语音科学和技术领域最大、最全面的国际学术会议。INTERSPEECH 2019 将在奥地利第二大城市格拉茨(Graz)举办。在 INTERSPEECH 会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、语音增强这些细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。恰逢 INTERSPEECH 20 周年,主办方透露在会议日程上将会出现一些别出心裁的设计,即将参会的同行们可以期待一下。
机器之心
2019/09/17
1K0
Interspeech 20周年,ASR和SD相关论文提前看
安徽大学范存航、吕钊团队提出使用动态图自蒸馏方法实现基于EEG的高性能听觉注意检测
安徽大学智能信息处理与人机交互实验室(IIP-HCI)的范存航副教授、吕钊教授联合清华大学的陶建华教授、中科院自动化所的易江燕副研究员,提出了一种基于动态图自蒸馏(DGSD)的听觉注意检测模型。
脑机接口社区
2023/09/19
1.1K0
安徽大学范存航、吕钊团队提出使用动态图自蒸馏方法实现基于EEG的高性能听觉注意检测
音质评价(三)如何评价音质好坏
质量评估指的是通过人为或自动化的方法评价语音的质量。在实践中,通常可以根据评价方式分为主观评价和客观评价两类。
singleli
2022/11/27
2.3K0
GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音
本文中,Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知说话者数秒的音频来合成其讲话音频,即网络具有零样本学习能力。
AI科技大本营
2019/11/14
12.2K0
百度语音合成模型Deep Voice3
Deep Voice3是由百度提出的一个全新的全卷积TTS架构。百度的主要工作分为如下五个方面:
mathor
2020/08/24
2.8K0
百度语音合成模型Deep Voice3
金融/语音/音频处理学术速递[11.8]
Update!H5支持摘要折叠,体验更佳!点击阅读原文访问arxivdaily.com,涵盖CS|物理|数学|经济|统计|金融|生物|电气领域,更有搜索、收藏等功能! q-fin金融,共计3篇 cs.
公众号-arXiv每日学术速递
2021/11/17
3090
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。
脑机接口社区
2024/04/13
3330
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
金融/语音/音频处理学术速递[6.23]
【1】 A systems framework for remedying dysfunction in U.S. democracy 标题:一个弥补美国民主功能障碍的系统框架
公众号-arXiv每日学术速递
2021/07/02
6740
金融/语音/音频处理学术速递[12.16]
【1】 A fast Monte Carlo scheme for additive processes and option pricing 标题:可加过程和期权定价的快速蒙特卡罗方法 链接:https://arxiv.org/abs/2112.08291
公众号-arXiv每日学术速递
2021/12/17
4430
使用时空-频率模式分析从脑电数据的一些试验中提取N400成分
关于高小榕教授的介绍,可以查看本社区之前分享的《第1期 | 国内脑机接口领域专家教授汇总》
脑机接口社区
2020/07/28
9100
金融/语音/音频处理学术速递[8.18]
【1】 Analysis of Data Mining Process for Improvement of Production Quality in Industrial Sector 标题:提高工业部门生产质量的数据挖掘过程分析 链接:https://arxiv.org/abs/2108.07615
公众号-arXiv每日学术速递
2021/08/24
6210
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
多目标跟踪(MOT)是计算机视觉领域的一项重要技术,在移动机器人、自动驾驶(Sun等人,2020)和体育分析(Zhao等人,2023)等应用中发挥着重要作用。随着目标检测的最新进展,基于检测的跟踪方法已成为最受欢迎的范式。这些方法通常包括两个子任务:在每一帧中检测物体;以及跨多个帧关联这些物体。基于检测范式的核心是数据关联,这严重依赖于利用物体外观和运动信息以提高准确性。尽管采用检测以获得语义优势有其好处,但这种依赖在物体外观相似且物体遮挡频繁发生的复杂场景中提出了重大挑战。
集智书童公众号
2024/06/11
5100
DeepSORT/DanceTrack 都不是对手 | ETTrack 用动量校正Loss,准确预测未来运动 !
如何让机器像人一样听声音
通过对人体系统进行建模,人工智能技术已经取得了重大突破。尽管人工神经网络是数学模型,仅能粗糙地模拟人类神经元的实际运作方式,但它们在解决复杂而模糊的现实问题中的应用却是深远的。此外,在神经网络中模拟建模人脑的结构深度,为学习到数据背后更有意义的内涵开辟了广泛的可能性。
AI研习社
2019/05/08
6330
如何让机器像人一样听声音
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。
AI科技评论
2018/09/21
1.1K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
一文读懂简化的图卷积网络GCN(SGC)| ICML 2019
3.2 SGC and Low-Pass Filtering 简化的图卷积和低通滤波器
AI科技大本营
2019/10/31
2.7K0
金融/语音/音频处理学术速递[6.17]
【1】 The Economic Impact of Critical National Infrastructure Failure Due to Space Weather 标题:空间天气导致的国家重大基础设施故障的经济影响
公众号-arXiv每日学术速递
2021/07/02
9940
EEGNet:一个小型的卷积神经网络,用于基于脑电的脑机接口
脑机接口(BCI)利用神经活动作为控制信号,可以与计算机直接通信。这种神经信号通常从各种研究充分的脑电图(EEG)信号中选择。对于给定的脑机接口(BCI)范式,特征提取器和分类器是针对其所期望的脑电图控制信号的不同特征而定制的,这限制了其对特定信号的应用。卷积神经网络(Convolutional neural networks, CNNs)已被用于计算机视觉和语音识别中进行自动特征提取和分类,并成功地应用于脑电信号识别中;然而,它们主要应用于单个BCI范例,因此尚不清楚这些架构如何推广到其他范例。在这里,我们想问的是,我们是否可以设计一个单一的CNN架构来准确地分类来自不同BCI范式的脑电图信号,同时尽可能小型的方法。在这项工作中,我们介绍了EEGNet,一个小型的卷积神经网络为基于脑电图的BCI。我们介绍了深度卷积和可分离卷积的使用来构建脑电图特定模型,该模型封装了众所周知的脑机接口脑电图特征提取概念。我们比较了EEGNet,包括被试内和跨被试分类,以及目前最先进的四种BCI范式:P300视觉诱发电位、错误相关负波(ERN)、运动相关皮层电位(MRCP)和感觉运动节律(SMR)。我们表明,当在所有测试范例中只有有限的训练数据可用时,EEGNet比参考算法更好地泛化,并取得了相当高的性能。此外,我们还演示了三种不同的方法来可视化训练过的EEGNet模型的内容,以支持对学习到的特征的解释。意义:我们的结果表明,EEGNet足够鲁棒,可以在一系列BCI任务中学习各种各样的可解释特征。本文发表在Journal of Neural Engineering杂志。
用户1279583
2021/12/05
2.3K0
EEGNet:一个小型的卷积神经网络,用于基于脑电的脑机接口
推荐阅读
相关推荐
金融/语音/音频处理学术速递[11.9]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档