近日,哥伦比亚大学的科学家在《Scientific Reports》上发表了一项突破性成果。他们创造了一个系统,能将大脑中的想法转化成可识别的语言。通过监控某人的大脑活动,这项技术能以前所未有的清晰度重建他听到的单词。
这一突破利用语音合成器和人工智能的强大功能,有望实现计算机与大脑的直接沟通。它还将帮助那些失去说话能力的人,比如肌萎缩侧索硬化症患者和中风患者,让他们重新获得与外界沟通的能力。
“我们的声音让我们与朋友、家人以及整个世界保持联系,这也是为什么一个人失去声音的打击会如此沉重,”这篇文章的通讯作者、哥伦比亚大学的Nima Mesgarani说。“通过这项研究,我们或许能够重建这种能力。我们已经证明,这些人的想法也可以被听众解读。”
几十年的研究表明,当人们在说话(甚至想象说话)时,大脑会出现明显的活动模式。当我们在倾听某人说话时,大脑中也会出现不同但可识别的信号模式。科学家们试图记录和解码这些模式,并将大脑中的想法转化成口头语言。
Mesgarani博士及其同事早期的工作是解码大脑信号,他们用简单的计算机模型来分析频谱仪。不过这种方法不能产生任何类似语音的东西。之后,他们转而使用声码器(vocoder),这种计算机算法能够在接受说话录音的训练后合成语音,就像苹果手机上Siri的说话方式。
为了教会声码器解释大脑活动,Mesgarani博士与Hofstra Northwell医学院的Ashesh Dinesh Mehta博士进行合作。“与Mehta博士合作,我们让接受脑部手术的癫痫患者听不同人说的句子,同时我们记录大脑活动的模式,”Mesgarani博士说。他们用这些神经模式训练了声码器。
接下来,研究人员让同样的患者听0-9这些数字的发音,同时记录大脑信号,并交给声码器处理。他们接着利用神经网络来分析和整理声码器响应这些信号所产生的声音。最后是一段机器人发音,背诵出一串数字。
为了测试录音的准确性,研究人员要求每个人听录音并报告他们听到的内容。“我们发现人们可在75%的时间内理解并重复这些声音,这远远高于以往的尝试,”Mesgarani博士说。“灵敏的声码器和强大的神经网络代表了患者最初听到的声音。”
Mesgarani博士及其团队计划接下来测试更复杂的单词和句子。他们希望对一个人说话或想象说话时发出的大脑信号进行相同的测试。他们最终希望这种系统可以成为某种植入物,将佩戴者的思想直接转化为文字。
“在这种场景下,如果佩戴者想说‘我需要一杯水’,我们的系统可以接受这种想法产生的大脑信号,并将它们转化为合成的口头语言,”Mesgarani博士说。“这将改变游戏规则。它将让那些失去说话能力的人重新获得与周围世界沟通的机会。”
参考文献:
Towards reconstructing intelligible speech from the human auditory cortex
领取专属 10元无门槛券
私享最新 技术干货