前几天,Google I/O 2018 上谷歌语音助理的精彩首秀震撼全场,如果没有看过的直播的,这里有个精彩的片段,回味一下
所谓外行看热闹,内行看门道,从大会发布的演示视频来看,谷歌的智能语音助理还有一些瑕疵(当然,人家CEO 自己也承认了,这次演示的是一次预定餐厅的功能,是经过针对特定场景进行强化训练的)。
谷歌表示,语音助理是浓缩了google很久的技术研究,主要涉及:语音识别(ASR)、深度学习(DL)和语音合成技术(TTS)
语音识别和语音合成技术,相对比较浅显,我们会另寻篇幅和大家讨论,主要看看这次展示中谷歌深度学习的成果。
在深度学习方面,Google Assistant主要解决NLP(自然语言理解)和连续人机对话。语言理解,也包括语义理解。
接下来我们扒一扒Google Assistant的“缺陷”
(谷歌也蛮搞笑的,放的这段演示,对方听口音像是新移民,不是那种非常纯正的美语。当然了,谁要是能说一口纯正的美语,谁还在餐厅当接线员啊?!)
1、说错话 VS 会错意
GA说要为下周三预定一个位置(table),7号的。他把7号(the 7th)放在最后,表示强调。(演示视频里,他说的是the seven)
接下来,餐馆服务人员说“for seven people?” 为什么会这么问呢?
GA在提出预定请求时,核心在table(桌子、位置),他特地强调了“the 7(th)”.
殊不知,这样的一句话,在正常人类(美国人)的听到并且理解的是:
“……a table……,the seven( s' table)”.
释义:我要定个下周三的位置,7人(桌),有部分内容被省略了。
一般情况,如果你要表示7号,通常还会加上限定条件,如this month(或next month,时间更远的,会加上月份)
所以,这里搞错了人数和日期的主要原因是,语音助理在尝试着表现得像(美国)人类对话时,(口语时)会尽量选择短句和多使用省略,但是,不恰当的使用省略,造成了对方的理解歧义。由此看来,谷歌深度学习的结果(输出),在演示的场景中,还有待提高。
2、我不懂你们人类在说什么
再往下,餐厅服务人员问:
“For when?Tommorrow?Or weekend?” 释义:什么时候?明天?还是周末?
其实,服务人员的意思是在问语音助理,你们是想平日来?还是周末来?(听演示视频,服务人员可能心不在焉,对方之前提到了Wednesday。
背景:此时,现场观众中响起一片笑声,O(∩_∩)O哈哈~
于是,语音助理锲而不舍的回答“next Wednesday”(不接领子)。
3、你到底知道了什么?
对话的最后一句,GA 的“Oh,i Gotcha”,堪称神来之笔。
在面对餐厅服务人员的回答,4个人可以直接过来,GA 又多问了一句,一般等位要多久?或许你会觉得GA 很细心,但是,按照我们一般的对话习惯。餐厅说你们可以直接过来。通常你会再问一句“要不要等(位)?” 然后再跟,一般等位要多久。
这里,我猜测,GA 把餐厅回答的"not busy" 理解成“no need to wait”,这样的情况下,GA 再去问等位要多久显得比较合理。属于逻辑上的if / else if 判断 。
我很感兴趣知道,最后这个AI 助手向他的主人是怎么告知预定结果的。
人工智能是个黑箱,尤其是深度学习的多层神经网络,输入-输出结果存在一定的不可预知性,对技术的发展,永远保持一丝好奇和警惕。
领取专属 10元无门槛券
私享最新 技术干货