文/曹鹏
随着人工智能技术的兴起,它已经走进了人们的生活,可以帮助人们完成各种各样的工作,其中人工智能的语音识别是人们最常用的技术之一。1月17日,百度旗下的百度输入法在北京举办了主题为“AI输入,开启全感官输入时代”的发布会。
此次发布会是由有“中国好舌头”之称的华少主持。众所周知,华少的主持风格一向都很激昂,说话语速十分快,又有“快嘴”之称。记者发现,在发布会现场的大屏上可以实时显示字幕,而该功能就是百度输入法的速记功能,它可以毫无遗漏的记录下华少的每一句话,虽然有个别错字,但还是有97%以上的准确率。
百度副总裁、AI技术平台体系(AIG)总负责人王海峰表示:”8年前百度就开始布局人工智能,如今我们不仅把最先进的AI技术应用到输入法等产品中,更把技术开放出来给合作伙伴和开发者,一起共享这个AI时代。”
人们与电脑沟通是通过键盘与鼠标,随后出现了触控技术,而输入法的出现便是让人们更好地体验触控技术。将人工智能技术嵌入到输入法中,则可以让输入法变得更加智能,通过其深度学习技术,它可以越来越懂人们想要表达的意思。
百度语音技术部总监高亮表示,百度语音识别技术有了重大突破,名为Deep Peak 2模型。该技术全称为“基于 LSTM 和 CTC 的上下文无关音素组合建模”,其突破了沿用十几年的传统模型,能够更充分地发挥神经网络模型的参数优势,大幅提升中英文、多种口音、多种风格(如朗读、聊天、轻声)混合输入的识别准确率。简单点讲,在日常聊天场景下,百度语音识别的相对正确率较行业领先水平提升20%,它能让机器轻松适应用户的自然对话。
发布会现场,华少在现场向百度语音识别技术发起了挑战,他拿出事先准备好的文稿以最快速度念出,最终百度的人工智能在58秒内正确识别。此文稿中词语包括广告词、流行语、绕口令与网络用语等。
据了解,百度输入法此前已发布了多语种语音识别、场景化智能识别、语音指令、游戏键盘、轻声识别、OCR扫描输入及翻译、长语音识别、手写输入、文本翻译、语音实时翻译、语音修改等多种功能。百度输入法负责人蔡玉婷表示,百度输入法v8.0版本在这些已有的功能上增加了语音速记和AR表情两大全新人工智能应用。
其中,语音速记搭载了声纹识别技术,该技术可以针对2-3人小型会议场景使用,它可根据声纹自动区别发言人,实现智能化的语音识别。而“AR表情”功能基于百度领先的人脸识别技术和 AR 技术,用户不仅可根据相机或相册进行人脸识别、制作表情包,还支持用户通过自己的表情控制虚拟人物形象。制作出来的AR表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。
蔡玉婷表示,目前百度输入法月活用户已达4亿,语音输入日流量超过2.5亿,百度将拥抱年轻文化,贴近用户的个性化需求。现在,百度输入法除了用文字输入形式外,还能从声音、图片等形式实现人机交互功能。未来,百度希望可以利用人工智能技术从人们的动作、眼神,甚至捕捉人们的脑电波等方式,让用户拥有更自然、更个性化的体验,真正做到开启全感官输入时代。
------------------END-----------------
领取专属 10元无门槛券
私享最新 技术干货