人机交互出新招，“唇语密码”认真学起来

文章来源：企鹅号 - 数码前沿

从最初的键盘打字、触屏技术，到现今的语音及人脸识别，人机交互的发展越来越多元化。第四届乌镇互联网大会上，搜狗公司亮相了人机交互的全新技术——唇语识别，在视觉及语言技术的处理基础下，唇语识别功能成功实现了从图像中获取语言的信息。这项听上去炫酷十足的黑科技是如何实现的？今天大大就带各位ICer聊聊“唇语密码”~

▌唇语识别：基于视觉识别和大数据比对

就本质而言，唇语识别是基于人脸识别和唇语大数据模型来进行操作的。无需听到声音，唇语识别技术首先通过摄像头的图像辨别出人的唇形，捕捉到人们连续变化的口型特征，再进一步由识别模型对唇部特征进行解码分析。在10万词以上的唇语序列建模大数据后台支持下，将获取的唇语文本数据与大数据进行识别和匹配，便能获取发音单元，最终输出语言文字。

相对于如今较为成熟的语音识别，唇语识别的优势十分明显。唇语识别技术无需声音介入，意味着不会受到其他噪音、杂音的干扰，在多人对话等特定场景能够有效进行区分和识别。当然，唇语识别也可以作为语音识别的辅助，让语音识别在使用中更加完善。

▌唇语识别：场景应用多元化发展

正因为唇语识别独特的优势，大大认为其在未来应用场景的落地实施上潜力巨大。一方面可作为语音识别的辅助，共同解决场景中的语言问题，如车载场景、公共场所及安防领域。当周围环境有多人对话或者较为嘈杂时会影响语音指令的准确性，严重时甚至导致系统无法通过语音识别来收取信息。而唇语识别技术可有效避免干扰，提升信息的准确性和稳定性。除此之外，唇语识别还能保证语言的私密性。

另一方面，作为人机交互的方式之一，唇语识别可以填充除图像识别、语音识别以外的人机交互空白领域，应用于日常生活中的各个场景。例如服务于公益事业领域，帮助听障、失语人士和老年人等弱势群体与外界进行更有效的沟通和互动。

▌普及难点：视觉识别的限制

由于目前的唇语识别系统只能通过正向的唇部视觉信息来进行识别，假如人们侧面对着镜头，能够检测到的唇部信息就没有那么完整，这样唇语识别所输出的文字就会出现较大差错。在唇语识别的场景应用中，要求人们时时刻刻正面对着摄像头，在现实生活里无疑是不现实的。未来，唇语识别想要实现普遍性的应用，首先要求在人脸识别上对唇部研究出更精准的定位和系统跟踪算法，在非正向、不完整的面部视觉信息条件下亦能确保文字输出的准确性。

其次，某些中文的口型属于多个拼音序列对应，如：zhi、chi、shi对应的口型是一样的。单纯依据视觉特征来进行区分匹配，很容易造成信息的错误输出。因此系统要同时依靠上下文来判断语言的信息，由语言模型对各个场景的信息进行细化和整理，但语言环境变化多样，要对所有场景进行设置似乎难度较大。目前，唇语识别在场景中的准确率为60%-70%，未来随着AI技术的发展，大大相信唇语识别技术将不断改善和普及。

▌大大点评

作为一项新兴的人机交互技术，唇语识别的应用潜力是巨大的。大大相信，未来唇语识别技术也会加入到我们的日常生活中去，像语音识别、图像识别一样成为生活中随处可见的一部分，各位ICer一起和大大期待新的人机交互方式吧。

发表于: 2018-01-122018-01-12 10:58:31
原文链接：http://kuaibao.qq.com/s/20180112B08GA600?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人机交互出新招，“唇语密码”认真学起来

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐