世界上第一个非侵入性的人工智能系统,可以将人们沉默的想法转化为文字,而用户只需要戴上一顶舒适的帽子。
开发这项名为“DeWave”的技术的澳大利亚研究人员,使用来自20多个受试者的数据对这一过程进行了测试。
参与者戴着一顶特殊的帽子静静地阅读,帽子通过脑电图(EEG)记录下他们的脑电波,并将其解码为文本。
经过进一步的改进,DeWave可以帮助中风和瘫痪患者进行交流,并使人们更容易指挥仿生手臂或机器人等机器。
悉尼科技大学的计算机科学家林金腾(音译)说:“这项研究代表了将原始脑电波直接翻译成语言的开创性努力,标志着该领域的重大突破。”
尽管在林金腾和他的同事进行的实验中,DeWave仅基于两组指标中的一组获得了略高于40%的准确率,但这比之前从脑电记录转换思维的标准提高了3%。
研究人员的目标是将准确率提高到90%左右,这将与传统的语言翻译方法或语音识别软件相当。
其他将大脑信号翻译成语言的方法需要进行侵入性手术,植入电极或体积庞大、价格昂贵的核磁共振成像仪,这使得它们不适合日常使用,而且它们通常需要使用眼球追踪来将大脑信号转换成单词级的块。
当一个人的眼睛从一个单词快速地跳到另一个单词时,我们有理由认为,他们的大脑在处理每个单词之间会有短暂的休息。原始的脑电波转换成单词(如果没有眼动追踪来指示相应的单词目标)是比较困难的。
来自不同人的脑电波并不都以相同的方式代表单词之间的停顿,这使得教人工智能如何解释个人的想法成为一个挑战。
经过广泛的训练,DeWave的编码器将脑电波转换成代码,然后根据它们与DeWave“码本”中的条目的接近程度,将其与特定的单词进行匹配。
林金腾解释说:“这是第一个将离散编码技术结合到大脑到文本的翻译过程中,引入了一种创新的神经解码方法。与大型语言模型的整合也为神经科学和人工智能开辟了新的领域。”
林金腾和他的团队使用了训练有素的语言模型,其中包括BERT和GPT系统的组合,并在现有的数据集上进行了测试,这些数据集的参与者在阅读文本时进行了眼动追踪和大脑活动记录。
这有助于系统学习将脑电波模式与单词相匹配,然后DeWave通过一个开源的大型语言模型进行进一步训练,该模型基本上可以从单词中生成句子。
翻译动词是DeWave表现最好的地方。另一方面,名词往往被翻译成一对意思相同的词,而不是精确的翻译,比如“the man”而不是“the author”。
第一作者、来自UTS的计算机科学家段奕群(音译)说:“我们认为,这是因为当大脑处理这些单词时,语义相似的单词可能会产生相似的脑电波模式,尽管存在挑战,但我们的模型产生了有意义的结果,可以对齐关键词并形成相似的句子结构。”
测试的相对较大的样本量解决了人们脑电波分布差异很大的事实,这表明该研究比早期只在非常小的样本上测试的技术更可靠。
当然,还有更多的工作要做,而且当脑电图信号通过一个帽子而不是植入大脑的电极接收时,信号会相当嘈杂。
该团队写道:“直接从大脑中翻译思想是一项有价值但具有挑战性的努力,需要持续努力。考虑到大型语言模型的快速发展,将大脑活动与自然语言联系起来的类似编码方法值得更多关注。”
该研究在NeurIPS 2023会议上发表,预印本可在ArXiv上获得。
如果朋友们喜欢,敬请关注“知新了了”!
领取专属 10元无门槛券
私享最新 技术干货