首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

可穿戴的大进展!AI眼镜通过声学传感可读取唇语

康奈尔大学的研究人员开发了一种无声语音识别界面,该界面使用声学传感和人工智能,根据嘴唇和嘴巴的运动,连续识别多达31个未本地化的命令。

这款名为EchoSpeech的低功耗可穿戴接口只需要几分钟的用户训练数据,就可以识别命令并在智能手机上运行。

信息科学博士生张瑞东(音)是《回声语音:声学传感驱动的最小突兀眼镜上的连续无声语音识别》的主要作者。

“对于不会发声的人来说,这种无声语音技术可能是语音合成器的一个很好的输入。它可以让患者恢复声音。”张在谈到这项技术随着进一步发展的潜在用途时说。

在目前的形式下,EchoSpeech可以用于在语音不方便或不合适的地方,如嘈杂的餐厅或安静的图书馆,通过智能手机与他人交流。无声语音接口也可以与手写笔配对,并与CAD等设计软件一起使用,几乎不需要键盘和鼠标。

EchoSpeech眼镜配备了一对麦克风和比铅笔橡皮擦还小的扬声器,成为一种可穿戴的人工智能声纳系统,可以在面部发送和接收声波,并感应口腔运动。然后,深度学习算法实时分析这些回波轮廓,准确率约为95%。

“我们正在将声纳移动到身体上,”康奈尔大学信息科学助理教授、未来交互智能计算机接口实验室主任张成(音)说。

“我们对这个系统感到非常兴奋,”他说,“因为它确实推动了性能和隐私领域的发展。它体积小、功耗低、对隐私敏感,这些都是在现实世界中部署新的可穿戴技术的重要功能。”

张成(音)说,大多数无声语音识别技术仅限于一组选定的预定命令,并要求用户面对或佩戴摄像头,这既不实用也不可行。他说,对于用户和与用户互动的人来说,可穿戴相机也存在重大的隐私问题。

像EchoSpeech这样的声学传感技术消除了对可穿戴摄像机的需求。信息科学教授François Guimbretière表示,由于音频数据比图像或视频数据小得多,处理所需带宽较小,可以通过蓝牙实时中继到智能手机。

“因为数据是在智能手机上本地处理的,而不是上传到云端,”他说,“隐私敏感信息永远不会离开你的控制。”

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230512A05RS900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券