首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

解构:Google打电话幕后的人机对话技术

在5月8日的Google I/O大会上,Google发布了一系列惊人印象深刻的智能技术。而其中可以全双工打电话(Duplex)的Google Assisstant则成为业界的热门话题,也在普通网民中激起无限想象。人类和机器的交流的自然流畅程度,除了电影中的表现之外,被真正拔到了新的高度。

“自然”是各路评论当中的一个普遍关键词。那么Google Assistant 的对话是如何做到如此自然的?TA 真的都听懂了你讲的东西吗?TA还能做别的吗?

沪江智能学习实验室对此进行技术分析和解读,尝试回答上述问题。

一、关于“自然”

我们首先讨论一下“自然”的含义。

当我们说一个Voice Assistant表现“自然”时,我们其实包含以下意思:

1. 对话的逻辑自然

“人工智能”与“人工智障”的笑话主要指的是很多聊天机器人产品的“答非所问”的毛病。人类对话是按照一定的逻辑进行多个轮次的信息交换。语义理解的错误或者对话策略的错误,都将使得对话的过程失去流畅。

2. 语音的韵律自然

多年来,语音合成技术的评价标准都包括“可懂度”和“自然度”,评价方法则是通过包括多个评价着的主观打分(MOS)。“Monotone”、“ Robotic”、“Flat” 是传统技术下语音合成效果的最为常见的评价。

当合成的语音在韵律方面(语调、语气)与我们的预期非常接近时,我们就很自然地认为合成的语音“很自然”。

3. 交流的过程自然

人类会使用特定的交流方式来使得对话过程礼貌、流畅、舒服、有趣。比如合适的问题、合适的响应(时间和内容都很恰当)、措辞的选择、内容表述的变化、语调的选择、情绪的表达等等。

优秀的话者还会尝试理解交谈的对方(人而非内容),从而调整对话策略的选择。

二、技术架构

构建做一个 Voice Assistant 需要融合很多方面的技术(Fig.0所示),主要包括 (按流程) Speech Recognition(SR), Natural Language Understanding (NLU),Dialog Management (DM), 和Natural LanguageGeneration(NLG)等模块。要让 AI 能够迷惑大家的耳朵,误以为是人类,则需要这些模块共同的配合。

语音识别负责将用户的语音转换成机器可以理解的文字(尽管或有人尝试使用深度学习技术直接进行 Speech-to-Speech 的转换)。在这个转换过程中,信息是可能有损失的。技术优秀的 SR 可以做到 Word Error Rate 尽可能低。在另一方面,语气、情绪等超音段信息则可能丢失。

语音合成负责将系统生成的文字表述转换成人类可听(特别是电话信道)中的声音。从拼接合成到基于 HMM 的参数合成(HTS),再到近期不断取得突破的深度学习技术的使用,我们都在追求更高的语音的音质和自然度。语音的自然度既与承载语句的内容相关,也与语境有关。

Google 是在人工智能技术进行长足投入,并且在 SR、TTS、以及其他 AI的任务方面都取得了领先优势。这次我们主要给大家揭开对话管理系统(DM) 的神秘面纱。

三、任务完成为目标的对话系统

首先来看设定的选择 (Fig.1)。Google 选取的是任务型的对话,而非 Free talk,这是一个非常明智的选择主要因为:

目标:Google Duplex 作为一个 Virtual assistant 的终极目标就是成为一个好管家。也就是去完成任务。

难度:Free talk 的难度比 Task-based design要高,考虑到数据收集,策略转换...

Google选择的2个 Demo 任务分别是:为一位女性客户预定美发和在餐厅预定位子。

有了 Task 之后,整个 Picture 就变得清晰了。因为 Task 比较容易再breakdown。这两个任务其实都差不多,需要完成的 CheckList 主要就是时间和人物。 (Fig. 2 & Fig. 3)

是不是很简单呢?是也不是~

四、对话策略

因为在人类的沟通中会出现很多分支细节或者 Misunderstanding(正如,the tower of babel)。所以,这时候就需要很多策略去处理这些情况。

Duplex 之所以让大家觉得自然的一个原因是,相比较别的系统而言,TA更像人类的表达。

我们来看看Google Duplex背后是如何像人类一样 handle 这些情况。

1.被拒绝(Handling Negative Responses)

在第一个 Hair salon 的 Demo 中,Duplex 提出要中午12点去剪头发,但是对方说这个时间不行,最近也要下午1:15。(Fig. 4) 对人类来说,这个是很简单的问题,策略可能是换一个时间,但是对 Virtual assistant 的难点是,人类怎么让 TA 学习。首先要识别和理解“拒绝”(这部分主要是 SR 和 NLU)的工作,然后进入对话管理系统(DM),选择合适的策略。

我们大多数人应该有过给智能客服打电话或者跟siri讲话的经历。很多时候,机器的回答都比较生涩。比如: Sorry, can you say that again? (ask repeat) ; Sorry, I didn’t understand (notify)。但是,Bohus & Rudnicky (2005) 研究显示,这些策略在很多情况下可能并不是很好的选择。

Duplex 之所以让大家觉得自然主要是相比较别的系统而言,TA 更像人类的表达。

TA 其实并不一定听懂了最接近的是1:15,但是 TA 的 DM 逻辑中一定有多于一种的选择。而且,是从严/specific (12 pm) 到宽/broad (10 am- 12 pm)的“让步”。(Fig. 5)

2. 条件式问答(Handling Subsets)

然而,到终点的道路总不是一条直线。Hairsalon 的员工并没有给出一个是/否的答案,而是给了一个条件式的信息。(Fig. 6)

对人类而言非常简单的任务,对 Duplex 来说,想要成功 handle 这个情况,需要具备3种能力:

具备子条件信息;

查询子条件信息;

回到主线

其中,难点的是第三条。因为这个过程需要系统保存上下文信息(context),如果回不到主线,就很难完成整个任务。如下图所示。一个自然(像人类)的对话系统,一定需要有保存,提取,合理使用上下文的机制,才能让对话的flow更加自然。(Fig. 7)

到这里,Duplex 就完成了 task 中 time 的部分。这也是这次 demo 的 logic中比较复杂(show off)的板块。

当然,正如之前所述,要通过图灵测试,让 Virtualassistant 听起来很像人,需要整个系统协同工作。

比如,Demo中,duplex “Mm-hmm”的反应就很不像大多数机器。为什么能有这样对反应呢?其实也不难,因为这里完全可以用 okay 之类的词来替代,但是 Duplex 可以通过对 salon员的停顿,结合句子的理解,最终判段用语气词回答会有更好的效果。而这些则需要 SR 和 NLU 的技术来支持实现了。(Fig. 8)

五、展望

毫无疑问,从反响来看,大众喜欢这样的技术,大众期待这些技术可以被更快地应用到方方面面。现实生活中的种种琐事,似乎都可以由于类似Google Assistant 这样的技术而得到部分解决。没有互联网在线服务的商家机构,或者不方便或者不愿意使用在线服务的用户(例如正在开车,或者视力障碍),都可以尝试把任务交给 Digital Assistant,生活确实有望更加轻松、愉快、而有趣。

Assistan 在应用过程中,在我们看来,至少还应该在以下方面取得进展。

实用性

尽管演示非常成功,但现实的问题往往更加复杂,非常可能涉及到很多开发者没有覆盖的问题和情况。当场景涉及到更多的背景知识时(例如给孩子请假),就可能涉及到对孩子请假原因或者表现的信息。一个只具有有限知识的助理可能是很难派上用场的。

扩展性

Google 成功地展示了在两个领域的对话,在这两个领域的两条对话路径上中做到了相当的自然。扩展到其他的领域应该是 Google 计划中的事情。问题在于,扩展的成本有多大,以及是否能保持足够的准确率。

安全性

如果 Assistant 可以帮我打电话解决问题,那么 TA 也可能制造麻烦。如何控制使用过程中的安全性隐患是大规模推广使用的首先问题。

人机合作

如果 Assistant 的使用成为常态,那么如何正确地与 Assistant 交流可能就成了一个需要考虑的问题。正如服务员面对成人和小孩会使用不同的交流方式,对面的接线员在知道打电话的是一个数字助理之后,是否应该调整策略,使得对话更容易成功。

Reference

Bohus, Dan; Rudnicky,Alexander I. (2005): "Sorry, i didn’t catch that! - an investigation ofnon-understanding errors and recovery strategies", In SIGdial6-2005,128-143.

关于HILL

智能学习实验室(HILL, Hujiang Intelligent Learning Lab)

沪江智能学习实验室(HILL)成立于 2017 年,旨在融合教育学、心理学和计算机科学等领域的相关理论和技术,探索人工智能在教育领域的应用场景,推进沪江教育产品的智能化能力。未来也希望将这些能力提供给合作伙伴和整个教育行业。HILL的愿景:Activate Intelligence,Innovate Learning。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180517G1EKWK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券