从最初的键盘打字、触屏技术,到现今的语音及人脸识别,人机交互的发展越来越多元化。第四届乌镇互联网大会上,搜狗公司亮相了人机交互的全新技术——唇语识别,在视觉及语言技术的处理基础下,唇语识别功能成功实现了从图像中获取语言的信息。这项听上去炫酷十足的黑科技是如何实现的?今天大大就带各位ICer聊聊“唇语密码”~
▌唇语识别:基于视觉识别和大数据比对
就本质而言,唇语识别是基于人脸识别和唇语大数据模型来进行操作的。无需听到声音,唇语识别技术首先通过摄像头的图像辨别出人的唇形,捕捉到人们连续变化的口型特征,再进一步由识别模型对唇部特征进行解码分析。在10万词以上的唇语序列建模大数据后台支持下,将获取的唇语文本数据与大数据进行识别和匹配,便能获取发音单元,最终输出语言文字。
相对于如今较为成熟的语音识别,唇语识别的优势十分明显。唇语识别技术无需声音介入,意味着不会受到其他噪音、杂音的干扰,在多人对话等特定场景能够有效进行区分和识别。当然,唇语识别也可以作为语音识别的辅助,让语音识别在使用中更加完善。
▌唇语识别:场景应用多元化发展
正因为唇语识别独特的优势,大大认为其在未来应用场景的落地实施上潜力巨大。一方面可作为语音识别的辅助,共同解决场景中的语言问题,如车载场景、公共场所及安防领域。当周围环境有多人对话或者较为嘈杂时会影响语音指令的准确性,严重时甚至导致系统无法通过语音识别来收取信息。而唇语识别技术可有效避免干扰,提升信息的准确性和稳定性。除此之外,唇语识别还能保证语言的私密性。
另一方面,作为人机交互的方式之一,唇语识别可以填充除图像识别、语音识别以外的人机交互空白领域,应用于日常生活中的各个场景。例如服务于公益事业领域,帮助听障、失语人士和老年人等弱势群体与外界进行更有效的沟通和互动。
▌普及难点:视觉识别的限制
由于目前的唇语识别系统只能通过正向的唇部视觉信息来进行识别,假如人们侧面对着镜头,能够检测到的唇部信息就没有那么完整,这样唇语识别所输出的文字就会出现较大差错。在唇语识别的场景应用中,要求人们时时刻刻正面对着摄像头,在现实生活里无疑是不现实的。未来,唇语识别想要实现普遍性的应用,首先要求在人脸识别上对唇部研究出更精准的定位和系统跟踪算法,在非正向、不完整的面部视觉信息条件下亦能确保文字输出的准确性。
其次,某些中文的口型属于多个拼音序列对应,如:zhi、chi、shi对应的口型是一样的。单纯依据视觉特征来进行区分匹配,很容易造成信息的错误输出。因此系统要同时依靠上下文来判断语言的信息,由语言模型对各个场景的信息进行细化和整理,但语言环境变化多样,要对所有场景进行设置似乎难度较大。目前,唇语识别在场景中的准确率为60%-70%,未来随着AI技术的发展,大大相信唇语识别技术将不断改善和普及。
▌大大点评
作为一项新兴的人机交互技术,唇语识别的应用潜力是巨大的。大大相信,未来唇语识别技术也会加入到我们的日常生活中去,像语音识别、图像识别一样成为生活中随处可见的一部分,各位ICer一起和大大期待新的人机交互方式吧。
领取专属 10元无门槛券
私享最新 技术干货