首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >利用脑记录产生的合成语音

利用脑记录产生的合成语音

作者头像
脑机接口社区
发布于 2020-07-01 10:03:06
发布于 2020-07-01 10:03:06
5400
举报
文章被收录于专栏:脑机接口脑机接口

虚拟声道改善自然语音合成

这项研究是由语音科学家GopalaAnumanchipalli和Chang实验室的生物工程研究生Josh Chartier领导。该项研究是基于一系列研究基础上进行研究的,首次描述了人类大脑的语音中心是如何编排嘴唇,下巴,舌头,和其他声道组件的运动以生产流利的语音。

在这项工作中,Anumanchipalli和Chartier意识到先前试图直接从大脑活动解码语音可能只会得到有限的成功,因为这些大脑区域并不直接代表语音的声学特性,而是协调声音运动所需的指令。比如说话时需要用口腔和咽喉。

Anumanchipalli说:“声道的运动和发出的声音之间的关系很复杂。”“我们认为,如果大脑中的这些语言中枢编码的是动作而不是声音,那么我们应该在解码这些信号时尝试这样做。”

在他们的新研究中,Anumancipali和Chartier选取了五名在UCSF癫痫中心接受治疗的志愿者(这些志愿者是能完整说话的患者),在他们的脑中临时植入了电极,以绘制癫痫发作的来源,为神经外科手术做准备-朗读数百句话研究人员记录了已知参与语言产生的大脑区域的活动。

根据参与者声音的录音,研究人员使用语言原理对产生这些声音所需的声道运动进行逆向工程:在此处将嘴唇压在一起,在此处收紧声带,将舌尖移到嘴顶部,然后放松,等等。

这种从声音到解剖结构的详细映射使科学家能够为每个参与者创建一个可以由其大脑活动控制的逼真的虚拟声道。这包括两个“神经网络”机器学习算法:一个解码器,将语音过程中产生的大脑活动模式转换为虚拟声道的运动;另一个是合成器,将这些声道的运动转换为参与者语音的合成近似值。

上图展示了由神经解码的口语句子合成语音的过程。

a.神经解码过程从高密度皮层活动中提取相关信号特征。

b.一个bLSTM神经网络从ECoG信号解码运动学表示。

c,一个额外的bLSTM解码声学从先前解码的运动学。声学是从语音波形中提取出来的光谱特征(例如MFCCs)。

d.将解码后的信号合成为声波波形。

e.光谱图显示了一个参与者所说的两个句子的频率内容。

f.由与e段同时记录的脑信号合成的语音谱图(重复5次,结果相似)。计算原始音频和解码音频之间的每个句子的MCD。使用五重交叉验证来寻找一致的译码。

研究人员发现,这些算法产生的合成语音明显优于直接从参与者大脑活动中解码的合成语音,而且不需要模拟说话者的声道。在Amazon Mechanical Turk平台上进行的众包转录测试中,这些算法生成的句子能够被数百名人类听众理解。

就像自然语言一样,当向抄写员提供较短的单词列表供他们选择时,抄写员会更成功。抄写员从25个备选词列表中准确识别出69%的合成词,并准确地抄写了43%的句子。由于可以选择更具挑战性的50个单词,抄写员的整体准确性下降到47%,尽管他们仍然能够完美地理解21%的合成句子。

Chartier认为:“我们仍然有一种方法可以完美地模仿口头语言。”“我们非常擅长合成“ sh”和“ z”等较慢的语音,并保持语音的节奏和语调以及说话者的性别和身份,但是一些更突然的声音如“ b”和“ p”有点模糊。不过,与目前可用的准确性相比,我们在此处产生的准确性水平将是实时通信方面的惊人改进。”

Chartier认为:“想要完美地模仿口语,我们还有很长的路要走。”

“我们很擅长合成‘sh’和‘z’等慢速发音,也很擅长保持说话的节奏和语调,但有些更突然的声音,比如‘b’和‘p’,听起来就有点模糊。”

尽管如此,与目前可用的实时通信相比,我们在这里生成语音的准确性水平的进步也是非常惊人的。

参考

https://www.ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 脑机接口社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
【新智元导读】Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。
新智元
2019/05/13
1K0
解码大脑信号直接合成语音,Nature新研究拯救失语者
许多失去说话能力的人需要利用某种技术进行交流,这项技术要求他们做出微小的动作来控制屏幕上的光标,进而选择单词或字母。最著名的例子就是霍金,他使用的是一种利用脸颊肌肉激活的发声装置。但是由于使用者必须逐个字母打出自己要说的话,这种装置通常速度很慢,每分钟最多生成十个单词,而正常说话者每分钟平均要说 150 个词,而这主要归功于人类的声道。
机器之心
2019/05/10
8020
解码大脑信号直接合成语音,Nature新研究拯救失语者
科学家利用脑机接口让患者正常发声
说话在我们看来似乎是一项很简单、毫不费力的活动,但它却是我们执行的最复杂的动作之一。它要求声道的发音结构(嘴唇、舌头、喉和下颌)进行精确、动态的肌肉协调。当中风、肌萎缩侧索硬化症或其他神经系统疾病导致语言障碍时,失去沟通能力可能是毁灭性的。在《Nature》杂志的一篇论文中,Anumanchipalli等人[1]发布了一项突破性的脑机接口技术,该脑机接口让我们更接近恢复语音功能。
脑机接口社区
2023/02/13
4180
学界 | 借助 RNN 从脑电波还原语音,Nature 论文呈上新款「脑机接口」
AI 科技评论按:近日,来自加州大学旧金山分校的研究者开发出了一种能将大脑信号转换为语音的虚拟假体语音系统,可帮助癫痫和其他神经性疾病患者还原语音能力。这项研究成果于 4 月 24 日发表在《自然》杂志上,并得到了多家媒体的报道,其中就包括《纽约时报》。AI 科技评论将《纽约时报》的这篇报道编译如下。
AI研习社
2019/05/13
4810
学界 | 借助 RNN 从脑电波还原语音,Nature 论文呈上新款「脑机接口」
不开口就能说话,脑波直接转语音,实现每分钟150词
是的,不必动手,也不必开口,只要你的脑波流转,AI就能以每分钟150个词的速度帮你说出心声。
量子位
2019/05/13
7920
不开口就能说话,脑波直接转语音,实现每分钟150词
中风瘫痪18年,AI让她再次「开口说话」!脑机接口模拟表情,数字化身当嘴替|Nature
30岁那年,一次毁灭性的中风,让一位47岁加拿大女性几乎完全瘫痪,此后失语18年。
新智元
2023/09/09
3100
中风瘫痪18年,AI让她再次「开口说话」!脑机接口模拟表情,数字化身当嘴替|Nature
Nature:不用开口说话,AI直接将大脑信号转译成言语
成千上万的人因事故或疾病导致言语能力丧失,与他人交流陷入困难。为了给不能说话的人提供便利,神经科学家设计了一种可以将大脑信号转换为语音的系统,每分钟可产生约150个字,语速接近自然水平。
AiTechYun
2019/05/14
6370
让失声群体重获“新声”,脑机接口领域现重大突破
日前,学术期刊《自然》在线发表了一篇文章,其中涉及一种解码器,能够将大脑神经信号转化为语音,帮助无法说话的患者实现发声交流。
镁客网
2019/05/10
4820
让失声群体重获“新声”,脑机接口领域现重大突破
Neuron:发音运动轨迹在大脑语音感觉运动皮层上的编码
流利的语言表达需要精确的声道运动。Chartier等人研究声道运动在感觉运动皮层上的编码。该研究发现,单电极神经活动可以编码不同的运动轨迹,这些运动轨迹是产生自然语言的复杂运动轨迹基础。本文发表在Neuro杂志。
用户1279583
2020/03/03
1.5K0
用机器学习解码一颗“失声”15年的大脑,让它“开口说话”
大数据文摘作品 作者:Miggy 对于瘫痪患者来说,最大的苦楚来自无法与外界进行沟通。虽然大脑依然活跃并且希望表达,但是无法驱动发声肌肉,会让这类患者的语言机制逐渐蜕化。 来自加州大学旧金山分校神经外科主任Edward Chang正在为失去说话能力的人开发脑机接口技术。他的实验室致力于解码与声道命令相关的大脑信号,并通过神经植入物,将大脑的语言机能,通过计算机输出出来。该项目不仅需要当今最好的神经技术硬件,还需要强大的机器学习模型。 最近,这一技术也取得了长足的进步,让一位因瘫痪“失声”15年的患者利用电脑
大数据文摘
2023/04/10
3120
用机器学习解码一颗“失声”15年的大脑,让它“开口说话”
脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源
这次是用神经信号进行语音合成,帮助因神经系统缺陷导致失语的人群重新获得交流的能力。
量子位
2024/04/18
2530
脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源
一种能将脑电波转化为文字的植入物
一名已经15年没有说话的瘫痪男子,正使用脑机接口来解码他想说的话(一次一个词)。加州大学旧金山分校
脑机接口社区
2023/02/14
6350
一种能将脑电波转化为文字的植入物
脑机接口里程碑!一天2篇Nature!
2023年8月23日,《Nature》期刊一口气发表了两项独立的脑机接口方向的研究。
脑机接口社区
2023/09/19
4000
脑机接口里程碑!一天2篇Nature!
LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊
脑机接口(BCI)在科研和应用领域的进展在近期屡屡获得广泛的关注,大家通常都对脑机接口的应用前景有着广泛的畅享。
新智元
2024/05/14
3050
LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊
Facebook脑机革命来了!华裔科学家领衔全球首个实时解码大脑信号项目
大脑活动解码语音已经不是新鲜事,但是,实时地解码大脑信号,将“听到”和“说出”的对话转变成文字,并且准确率很高,是全球首次!
新智元
2019/08/01
5720
Facebook脑机革命来了!华裔科学家领衔全球首个实时解码大脑信号项目
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。
脑机接口社区
2024/04/13
3280
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
第一次,脑机接口可以实时读取人类语言了
「今天我们分享的新工作有关构建非侵入式可穿戴设备,让人们只需通过想象要说的话即可完成『打字』动作,」Facebook 副总裁 Andrew Bosworth 表示。「这一进展显示了未来 AR 头戴设备输入和互动能力的新潜力。」
机器之心
2019/08/02
7240
第一次,脑机接口可以实时读取人类语言了
工程师将大脑信号直接转化为语音
通过监测一个人的大脑活动,这项技术可以以前所未有的清晰度重建一个人听到的单词。这一突破利用了语音合成器和人工智能的力量,可能会带来计算机直接与大脑交流的新方法。它还能帮助无法说话的人(例如患有肌萎缩侧索硬化症 (ALS) 或中风康复的人)重新获得与外界交流的能力。
脑机接口社区
2022/08/26
4380
工程师将大脑信号直接转化为语音
Nature:世界首例“脑机接口+AI算法”,让渐冻症患者重新开口说话
脑机接口(Brain-Computer Interface,BCI)有望帮助渐冻症患者进行实时对话,尤其是那些无法发声的患者。
用户11203141
2025/07/08
920
Nature:世界首例“脑机接口+AI算法”,让渐冻症患者重新开口说话
脑机接口领域全新里程碑:意念说话,机器解读
场景描述:利用神经网络将人说话时,相应大脑区域的神经信号进行解码,然后使用循环神经网络将信号合成为语音,可帮助语言障碍患者解决语言沟通问题。
HyperAI超神经
2019/11/29
7220
脑机接口领域全新里程碑:意念说话,机器解读
推荐阅读
Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
1K0
解码大脑信号直接合成语音,Nature新研究拯救失语者
8020
科学家利用脑机接口让患者正常发声
4180
学界 | 借助 RNN 从脑电波还原语音,Nature 论文呈上新款「脑机接口」
4810
不开口就能说话,脑波直接转语音,实现每分钟150词
7920
中风瘫痪18年,AI让她再次「开口说话」!脑机接口模拟表情,数字化身当嘴替|Nature
3100
Nature:不用开口说话,AI直接将大脑信号转译成言语
6370
让失声群体重获“新声”,脑机接口领域现重大突破
4820
Neuron:发音运动轨迹在大脑语音感觉运动皮层上的编码
1.5K0
用机器学习解码一颗“失声”15年的大脑,让它“开口说话”
3120
脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源
2530
一种能将脑电波转化为文字的植入物
6350
脑机接口里程碑!一天2篇Nature!
4000
LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊
3050
Facebook脑机革命来了!华裔科学家领衔全球首个实时解码大脑信号项目
5720
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
3280
第一次,脑机接口可以实时读取人类语言了
7240
工程师将大脑信号直接转化为语音
4380
Nature:世界首例“脑机接口+AI算法”,让渐冻症患者重新开口说话
920
脑机接口领域全新里程碑:意念说话,机器解读
7220
相关推荐
Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档