还记得科幻片《钢铁侠》中,托尼·史塔克的AI管家贾维斯吗?只要托尼一声呼唤,无论语速快慢,声音大小,老贾的程序都能被迅速激活,完美地执行托尼的各类语音指令。贾维斯这样的语音识别与交互方式,未来终将出现在日常生活中。
1月16日,在百度输入法“AI·新输入 全感官输入2.0”发布会上,百度输入法AI探索版正式亮相。作为百度AI技术的桥头堡,百度输入法正引领一场全感官输入的革命,而过去在科幻片中出现的情景,如今都也正在变为现实。
百度高级副总裁王海峰博士表示,“目前输入法产品主要应用于手机端,未来各种智能设备都将需要输入、需要跟用户交互,输入法将发挥巨大作用。”
AI重塑各个行业,输入法正迎来重大变革
诚如王海峰所言,输入法本质上是一种人与机器交流的媒介。纵观历史,随着技术的发展,人与机器交流的媒介和形式也在不断变化升级。在过去75年里,每10年就有一次人机交互的重大革新,人类对机器的操作,经历了从物理手柄按键,到物理键盘鼠标,再到触摸屏的过程,而现在终于轮到了语音。
这种由技术升级带来的交互方式改变,也正在引领着输入法行业发生急剧的变化。随着5G、云计算、大数据、人工智能等新技术的不断升级,手机输入法行业无论在输入方式、应用场景、行业生态方面都正在发生巨大变革。
从诞生之初到经过若干年发展至现在,输入法对用户的作用已经远不止将用户所思所想转化成为文字那样简单。借助AI技术的赋能,输入法如今不仅能够读懂人类的语言,还能够进一步识别人类的明令并做出相应的反馈,语音、表情、动作都将可以成为输入方式。
输入法能够逐步实现全感官输入,背后则归功于强大的大数据技术和机器的深度学习能力。借助对用户的输入习惯、聊天对象、对话情景等进行特征分析,输入法可以逐步深入理解用户的意图,真正做到懂每一个用户。语音输入则是这种全新交互方式的最直观体现,作为人类交流、人机交互最自然的方式,它同样也被认为是开启人工智能时代的起点。
作为一种新颖而又十分重要的输入方式,语音输入也正随着语音识别效率的逐步提升,不断提高用户渗透率、提升用户体验,使用户的表达更加智能与交互。事实上,如果单看活跃用户数,谁是中国输入法市场老大可能还存在争议,但单从语音输入量这个维度来看,百度输入法早已成为毫无争议的市场第一,其语音输入请求量远超竞争对手搜狗输入法,而百度输入法实现质的突破背后则是语音识别技术。
站在变革的潮头,百度输入法为何能够先「声」夺人?
从语音输入到全感官输入,输入法的技术门槛变得越来越高,AI技术正在成为其核心驱动力。在发布会上,百度输入法还宣布,截至2018年底,百度输入法月活跃人数已达5亿,语音日均请求量峰值突破5.5亿,AR表情使用次数超过1亿,百度输入法的厚积薄发并不是偶然。
1、多年的AI技术积累
作为百度AI技术率先落地的产品之一,百度输入法凝聚了百度深耕多年的语音、图像、NLP和知识图谱等AI能力——尤其是AI语音技术。早在 2012 年,百度就率先上线了基于 DNN 的语音识别模型,此后随着技术的不断迭代,每一年在语音识别技术上都有所进展。
去年也是在输入法发布会上,百度语音发布的Deep Peak 2模型突破了沿用十几年的传统模型,进而得以更充分地发挥神经网络模型的参数优势,大幅提升中英文、多种口音、多种风格(如朗读、聊天、轻声)混合输入的识别准确率,聊天场景下的相对正确率较行业领先水平提升20%。
时隔一年,百度语音技术团队再次实现重大技术创新。在今年的发布会上,百度输入法发布了流式截断多层注意力建模(SMLTA),这是中文在线语音识别历史上的两个重大突破:世界上首次实现了局部注意力建模识别精度超过全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型。这一技术能够解决传统Attention模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音识别精度提升了15%,超越行业最高水平15%。
2、对用户体验的精益求精
除了技术积累外,百度输入法在用户体验上也是精益求精,这种对用户体验的打磨,让昔日功能单一的手机输入法,具备了“语音助手”,“效率工具”和“聊天伴侣”等多重身份。
百度输入法不仅对用户输入场景进行针对性的优化,比如无论会场还是课堂,百度输入法都可以通过轻声识别能力降低语音输入的尴尬;在“多人模式”场景下,借助百度输入法的声纹识别技术可以自动区分发言人,大幅降低工作者后期处理的成本。
除此之外,百度输入法还在探索更多辅助性功,进一步提升自己的产品吸引力,比如除了给予「语音识别」这个 AI 单点能力,百度输入法的「AR 表情」还基于用户的动作、表情捕捉信息,而这也为文字输入形式的人机交互提供了更多可能性。不难发现,正式百度在输入领域对用户需求全方位了解,让百度输入法借此实现快速爆发式的增长。
3、百度输入法不仅仅是工具
人工智能时代输入法会从工具走向服务,除了满足文字输入需求,还需要增加日常搜索等多种服务,提升用户黏性。这意味着输入法需要形成打通语音交互与服务,形成语音到服务的闭环,而这正是百度最擅长的地方。
比如,百度推出的语音速记功能,这可以帮助记者进行实时记录,从而提升了记者的工作效率,弥补了传统手记在速度上的滞后也避免了事后需要听打来整理录音的不便。再比如,游戏主播在直播过程中,也可利用百度输入游戏键盘开黑。不仅有极简语音功能可令其节省打字时间,更有诸如快捷短语、和谐转换等功能可为主播们进行定制化服务,丰富其游戏体验感 。
如今在很多场景中,百度输入法都能发挥着重要的作用。百度中文输入法负责人蔡玉婷表示,相较2016年,百度输入法日均语音请求量增长了8倍,语音输入法的场景也从聊天和搜索拓展到游戏、娱乐、购物等众多场景。百度的AI技术正深入落地,其所加持的各种功能让百度输入法已不再仅仅是“输入工具”。
输入法正在成为百度AI技术落地的新样本
输入法如今对百度的重要性正越来越重要。在过去几个季度的财报中,百度输入法也连续被提及,语音输入请求量更是被百度归纳进AI业务进展中。
语音输入不仅让百度输入法实现了爆发式增长,更可以帮助百度获取更多的语料资料,这反过来又能反哺百度语音识别技术的进化。从长远来看,作为一种高频使用场景,输入法可以快速的普及语音输入的人机交互方式,借助AI技术的赋能实现更精准的需求识别,最终为智能语音助理找到突破口。
事实上,百度最重要的人机对话系统DuerOS和百度输入法的发展可以说一脉相承,同样解决的都是交互问题,只不过一个的终端是智能手机,另一个终端则是所以可搭载对话式操作系统的智能硬件。百度输入法的成功,无疑能够给DuerOS起到很好的反哺作用。
百度输入法的成功,实际上也是百度AI技术落地的样本。众多AI技术的加持,即让百度输入法得以实现弯道超车,也帮助百度开启了人工智能新时代大门的“钥匙”。百度在语音、图像、NLP和知识图谱等多个领域的AI技术都在百度输入法上一一呈现,这何尝又不是百度AI赋能传统应用的一个案例。
百度在不断发展AI技术的同时,非常注重技术落地于实践,并且让AI与生活息息相关,百度输入法也在这个过程中不断完成自我进化,并引领未来进一步革新人机交互模式,完全开启全感官输入时代的日子,或许指日可待。
领取专属 10元无门槛券
私享最新 技术干货