康奈尔大学的研究人员开发了一种无声语音识别界面,该界面使用声学传感和人工智能,根据嘴唇和嘴巴的运动,连续识别多达31个未本地化的命令。
这款名为EchoSpeech的低功耗可穿戴接口只需要几分钟的用户训练数据,就可以识别命令并在智能手机上运行。
信息科学博士生张瑞东(音)是《回声语音:声学传感驱动的最小突兀眼镜上的连续无声语音识别》的主要作者。
“对于不会发声的人来说,这种无声语音技术可能是语音合成器的一个很好的输入。它可以让患者恢复声音。”张在谈到这项技术随着进一步发展的潜在用途时说。
在目前的形式下,EchoSpeech可以用于在语音不方便或不合适的地方,如嘈杂的餐厅或安静的图书馆,通过智能手机与他人交流。无声语音接口也可以与手写笔配对,并与CAD等设计软件一起使用,几乎不需要键盘和鼠标。
EchoSpeech眼镜配备了一对麦克风和比铅笔橡皮擦还小的扬声器,成为一种可穿戴的人工智能声纳系统,可以在面部发送和接收声波,并感应口腔运动。然后,深度学习算法实时分析这些回波轮廓,准确率约为95%。
“我们正在将声纳移动到身体上,”康奈尔大学信息科学助理教授、未来交互智能计算机接口实验室主任张成(音)说。
“我们对这个系统感到非常兴奋,”他说,“因为它确实推动了性能和隐私领域的发展。它体积小、功耗低、对隐私敏感,这些都是在现实世界中部署新的可穿戴技术的重要功能。”
张成(音)说,大多数无声语音识别技术仅限于一组选定的预定命令,并要求用户面对或佩戴摄像头,这既不实用也不可行。他说,对于用户和与用户互动的人来说,可穿戴相机也存在重大的隐私问题。
像EchoSpeech这样的声学传感技术消除了对可穿戴摄像机的需求。信息科学教授François Guimbretière表示,由于音频数据比图像或视频数据小得多,处理所需带宽较小,可以通过蓝牙实时中继到智能手机。
“因为数据是在智能手机上本地处理的,而不是上传到云端,”他说,“隐私敏感信息永远不会离开你的控制。”
领取专属 10元无门槛券
私享最新 技术干货