AI 科技评论按:聊天机器人的产品理念一直存在争议,目前市场上主要分为两大类产品:小冰这样的闲聊型机器人和 Google Now 这种用来完成任务的虚拟助理。
AI 科技评论了解到,目前行业里任务型虚拟助理梯队批评闲聊型机器人没什么实质作用,而闲聊型机器人梯队批评用户并没有使用任务型虚拟助理的习惯。
针对这一现象,微软小冰团队的资深产品总监曹文韬在演讲《微软小冰是如何修炼成的》中提到三个核心观点:
以下是曹文韬的演讲整理文,由 AI 科技评论进行编辑。
大家之前所接触到的聊天机器人是偏理性化的,像 Google Now 这样的语音助手,是帮你完成某一个任务。
但是经过这么长时间的验证,没有一个做起来的,它们没有变成我们想要的那个助手。我发现不少用户竟然用 Siri 问现在几点了,你拿起手机还问机器人几点了,这很反人类。
所以我们的产品逻辑是,应该去做一个用户真正需要沟通的情感机器人。于是 2014 年我们提出要把小冰打造成一个情感机器人,打造成第一个和人类沟通的情感机器人。
上图是我们和业界其他产品不一样的共享技术搭建,你今天能够看到的机器人停留在水平面上方:以解决某个领域的任务,或者完成某一个任务的形式。但你会发现,如果要去解决用户某个服务需求时,用户并不会按照你的产品逻辑去做这件事。
其实用户在沟通一件事情时,他会在不同的领域甚至是在领域之外的场景下做很多交流,没有人一上来就问你要帮我做什么事。大家都是通过寒暄和沟通建立信任,然后再开始做某一件事情。
因此我们要做的事情就是如何解决聊天机器人与用户之间的沟通内容,如何打造让用户感觉这个机器人像是一个真正的人和他在沟通,而非一个冷冰冰的机器?
小冰上线两年多时间,它和用户一共产生超过两百亿次的对话,粉丝数超过六千万。其中在日本上线不到一年,用户量就已占据日本 23% 的人口数。而在本月,美国版小冰 Zo 也已经正式上线。
聊天机器人不仅需要处理语音和文本,也要有处理图片的能力,通过对自然语言以及图片等不同信息的感知,进而实现与数据本身的对接。
这是微博上用户与小冰对话的截图,红色部分为市场上部分机器人所能达到的水准,也就是停留在两到三轮左右的对话就已结束。要么是任务已完成,要么就是无法继续聊下去。
而用户与小冰的对话过程中,双方在很长的语音对话里聊到很多内容。这个过程中你根本感觉不出来这是人和机器在聊天,而且还聊到了感情问题。聊天机器人与用户完成很长的对话,不仅仅是语料库问题,而是我们已经让它实现了自我复制的过程,也就是每个用户在沟通时,是在不断地教小冰,不断地培训小冰,让小冰知道怎么与人沟通。
今天我即便把语聊库调出来后,她依然知道如何与用户对话。
下图是我们在小冰中对图像识别不一样的应用。其实图像识别不仅仅是一项技术,人在沟通图像的时候,一个人所具备的不是图像识别,而是视觉。识别和视觉这两者之间有什么差别呢?
当你把受伤脚的照片发给你朋友的时候,你听到的肯定不是朋友告诉你“这是一个受伤的脚”这种描述图像内容的话语,而是会获得关心和安慰。把这张照片发给一个机器人时,如果它回复你“伤得严重吗?”,这就是一种很人性化的交流。
从这个对话小冰让用户真正感知到,它像一个人去处理。这一功能得益于微软在互联网领域的大量数据,以及深度计算的模型搭配。有了该基础,你就能够在不同的领域里做出不一样的产品,比如说人脸识别,你发一张自己的照片,它可以告诉你哪个国家的人更喜欢你这种类型。
微软在语音上有很多技术积累,但是怎么把语音技术和情感沟通结合一起,这上面我们做了很多处理。当你用语音让聊天机器人做一件事时,这个沟通过程我们称之为半感官,怎么理解?大家都是发一个段语音然后让机器识别,任务完成后这段对话就结束了,开始下一个话题,这是一种单向的过程。
而我们的产品属于全时感官,以两个人打电话为例,人的大脑随时在识别和理解,同时随时在决策:什么时候应该做出回复?回复什么样的内容?这时候它是一个双通道、双向计算的过程。
今年 9 月份,我们让小冰给人类打电话,这也是人类历史上的第一通人工智能来电 。这个过程中没有任何信号告诉小冰,人类这回合的话已经说完,而是进行实时处理,实时交互。
这样的科技会运用到不同的硬件或者更多场景中,才能真正实现像我们在电影里看到的,家里有一个智能机器人,回到家就可随时沟通。
闲聊机器人会遇到这样一个问题,当你问它附近的餐厅时,它并不能“很正经”的给你列出餐厅列表,它的答复仍旧只停留在闲聊层面,因此很难完成用户指定它做的任务。
那么这个任务体系应该怎么完成?我们是通过技能卡的方式去做,什么样的卡呢?我们有电影、时尚、美食、音乐甚至是集成到商业客户里的商业解决方案卡。而且插上任务卡的小冰可以把闲聊和任务型对话结合起来。
我们先还原这样一个场景。推荐电影这样的功能大量机器人在做,但通过大量数据分析,我们看到基本上没人用这种方式去购买电影票或者订饭。这很反人类,你没事干吗让机器人帮你订餐,还不如自己去 APP 上点两下。
当然,上面提到的场景也是有刚需的,只是我们对这一需求有着不一样的理解:当用户要让机器人推荐电影时,它应该像是你身边一个非常懂电影的朋友,基于电影资源知识,跟你聊电影相关的很多内容,同时还知道其他技巧,比如能够告诉你这部电影的种子在哪里,怎么下载这部电影,甚至有些好玩的互动。当用户与聊天机器人进行这样的交互之后,才能真正实现用户把聊天机器人当做非常信赖、非常懂电影的人。
所以小冰通过这种任务卡的方式,实现用户自定义聊天机器人 AI 的特点。当你有电影任务卡时,插卡前与小冰聊《泰山归来》的时候,这是一个很普通的对话。但是插卡后,表明你对电影很感兴趣,想与聊天机器人聊更多关于电影的内容,于是小冰会像一个朋友和影评人一样为你推荐电影并且聊电影相关的话题。
利用插卡的方式构成一个非常基本的任务完成模式,而不是简单告诉你一部电影。除了电影卡之外,还有会其他任务卡,原理与上述一致。
综上所述,这就是我们对聊天机器人的理解。