首页
学习
活动
专区
圈层
工具
发布

Science Advances | 脑机接口实时解码普通话经信号

脑虎科技联合复旦大学附属华山医院、中国科学院上海微系统与信息技术研究所,近期在《Science Advances》上发表了一项研究中报告称,他们借助脑机接口(BCI)框架成功实现了对普通话的实时解码,这是BCI首次应用于声调语言。参与研究的受试者还能够使用这套新系统控制机械臂和数字虚拟形象,并与大型语言模型进行交互。

读想法的BCI有哪些用途?

虽然大多数人可能不希望电脑读取他们的想法,但那些因中风或肌萎缩侧索硬化症(ALS)等神经系统疾病而无法说话的人需要寻找其他沟通方式。能够解码神经信号的语音解码BCI为这类人群恢复沟通能力提供了一种很有前景的途径。除了沟通之外,BCI还提供了通过意念直接控制设备的方法。这对于那些除了语言障碍之外还伴有其他神经系统疾病的患者来说尤其有用。

实时汉语解码脑机接口系统框架和电极贡献度表征

这类设备并非什么新技术,但大多数脑机接口语音解码研究都集中在英语这种非声调语言上。

“一种主流方法侧重于腹侧感觉运动皮层,该区域编码发音运动轨迹。来自该区域的神经信号可以转化为离散的语言单元或发音手势参数,并随后合成单词、句子或声音。这种策略尤其适用于言语运动区域功能完好的个体,旨在帮助他们恢复功能性交流能力。”

“英语解码技术的最新进展使得将脑活动实时转换为文本或语音成为可能,尤其适用于肌萎缩侧索硬化症 (ALS) 或脑干中风等疾病引起的严重构音障碍患者,”研究作者写道。

克服中文解码难题

能够解码声调语言(如普通话)的脑机接口 (BCI) 的进展较为有限。由于普通话是一种声调单音节语言,且同音词密度高,因此语音解码更具挑战性。一些先前的研究已经解码了少量普通话音节或声调,但并未解码所需的全部范围。实际应用,而非实时应用。

然而,一项针对癫痫患者的临床研究使参与这项新研究的研究人员能够采取不同的方法。该研究以一名43岁女性为对象,使用植入式256通道高密度脑电图(ECoG)阵列,在11天内通过一系列单字和句子阅读任务监测和记录神经信号。研究还整合了一个3元汉语语言模型以提高句子解码能力。

中文的独特性以及区分中文音节和声调的皮层电极

研究团队表示,对ECoG信号的分析揭示了音节和声调处理的不同神经关联。该系统在单字任务中实现了71.2%的音节识别准确率。借助语言模型,实时句子解码的字符准确率达到了73.1%,通信速率为每分钟49.7个字符。

“我们的研究表明,将高密度、超共形ECoG阵列与以音节为中心的解码框架相结合,可以带来显著的改进。”研究作者写道:“脑电图(ECoG)阵列提供了广泛且稳定的皮层覆盖,尤其是在与语音相关的区域,使我们能够高精度地解码394个普通话声调音节——这主要基于神经特征,无需任何语言后处理。”

改进未来用于言语障碍的脑机接口(BCI)

虽然这项研究表明,解码普通话的脑机接口性能显著提升,但作者也指出了一些局限性和需要改进的地方。该研究仅纳入了一名参与者,限制了结果的普适性。此外,由于脑电图阵列最初是用于临床癫痫监测的,其电极覆盖范围并未涵盖所有与声调相关的脑区。然而,未来的研究可以以此为基础,进一步提高准确性和普适性。

研究作者希望将脑机接口的应用范围扩展到更多患者。他们表示:“除了提高解码准确率和硬件性能之外,扩展语音脑机接口的神经靶点代表着一个令人兴奋的前沿领域。”

“尽管目前的方法主要利用负责发音的运动皮层和前运动皮层的信号,但未来的系统或许可以受益于整合更高阶语言区域(例如颞中回、额下回和缘上回)的活动。整合这些区域处理的语义和句法信息可能有助于构建更稳定、更准确的语音解码器。”

仅用于学术分享,若侵权请留言,即时删侵!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLyPaVqwg-8fl5exx7Ok8Y2A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券