虚拟声道改善自然语音合成
这项研究是由语音科学家GopalaAnumanchipalli和Chang实验室的生物工程研究生Josh Chartier领导。该项研究是基于一系列研究基础上进行研究的,首次描述了人类大脑的语音中心是如何编排嘴唇,下巴,舌头,和其他声道组件的运动以生产流利的语音。
在这项工作中,Anumanchipalli和Chartier意识到先前试图直接从大脑活动解码语音可能只会得到有限的成功,因为这些大脑区域并不直接代表语音的声学特性,而是协调声音运动所需的指令。比如说话时需要用口腔和咽喉。
Anumanchipalli说:“声道的运动和发出的声音之间的关系很复杂。”“我们认为,如果大脑中的这些语言中枢编码的是动作而不是声音,那么我们应该在解码这些信号时尝试这样做。”
在他们的新研究中,Anumancipali和Chartier选取了五名在UCSF癫痫中心接受治疗的志愿者(这些志愿者是能完整说话的患者),在他们的脑中临时植入了电极,以绘制癫痫发作的来源,为神经外科手术做准备-朗读数百句话研究人员记录了已知参与语言产生的大脑区域的活动。
根据参与者声音的录音,研究人员使用语言原理对产生这些声音所需的声道运动进行逆向工程:在此处将嘴唇压在一起,在此处收紧声带,将舌尖移到嘴顶部,然后放松,等等。
这种从声音到解剖结构的详细映射使科学家能够为每个参与者创建一个可以由其大脑活动控制的逼真的虚拟声道。这包括两个“神经网络”机器学习算法:一个解码器,将语音过程中产生的大脑活动模式转换为虚拟声道的运动;另一个是合成器,将这些声道的运动转换为参与者语音的合成近似值。
上图展示了由神经解码的口语句子合成语音的过程。
a.神经解码过程从高密度皮层活动中提取相关信号特征。
b.一个bLSTM神经网络从ECoG信号解码运动学表示。
c,一个额外的bLSTM解码声学从先前解码的运动学。声学是从语音波形中提取出来的光谱特征(例如MFCCs)。
d.将解码后的信号合成为声波波形。
e.光谱图显示了一个参与者所说的两个句子的频率内容。
f.由与e段同时记录的脑信号合成的语音谱图(重复5次,结果相似)。计算原始音频和解码音频之间的每个句子的MCD。使用五重交叉验证来寻找一致的译码。
研究人员发现,这些算法产生的合成语音明显优于直接从参与者大脑活动中解码的合成语音,而且不需要模拟说话者的声道。在Amazon Mechanical Turk平台上进行的众包转录测试中,这些算法生成的句子能够被数百名人类听众理解。
就像自然语言一样,当向抄写员提供较短的单词列表供他们选择时,抄写员会更成功。抄写员从25个备选词列表中准确识别出69%的合成词,并准确地抄写了43%的句子。由于可以选择更具挑战性的50个单词,抄写员的整体准确性下降到47%,尽管他们仍然能够完美地理解21%的合成句子。
Chartier认为:“我们仍然有一种方法可以完美地模仿口头语言。”“我们非常擅长合成“ sh”和“ z”等较慢的语音,并保持语音的节奏和语调以及说话者的性别和身份,但是一些更突然的声音如“ b”和“ p”有点模糊。不过,与目前可用的准确性相比,我们在此处产生的准确性水平将是实时通信方面的惊人改进。”
Chartier认为:“想要完美地模仿口语,我们还有很长的路要走。”
“我们很擅长合成‘sh’和‘z’等慢速发音,也很擅长保持说话的节奏和语调,但有些更突然的声音,比如‘b’和‘p’,听起来就有点模糊。”
尽管如此,与目前可用的实时通信相比,我们在这里生成语音的准确性水平的进步也是非常惊人的。
参考
https://www.ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings