6 年前,人工智能 AlphaGo 战胜李世石,成为第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。
如今,作为新一轮科技革命和产业变革的重要驱动力,人工智能正在对经济发展、社会进步等多个方面都产生着重大而深远的影响。
在人工智能浪潮的推动下,聊天机器人的各方面技术也获得飞跃式提升,在诸多行业中得到广泛应用,为用户提供了全新的交流方式。
本文将阐述聊天机器人中对话交互的主要技术,从理解力、拟人、及与人互动三个方面说明当前对话系统面临的挑战。并尝试勾勒出下一代类人对话系统应具备的主要技能。
用户与具有情绪支持和心理共情技能的智能虚拟人 Emohaa 的对话
一、引言
近年来,随着人工智能技术的不断发展,各种形态的聊天机器人以新型有效的沟通方式,为普通大众提供智能、高效的服务,在私人助理、客服等各类场景有着广泛的应用。在当前技术下,对人类语言的理解和表达是聊天机器人实现真正的拟人化交互过程中面临的巨大挑战。
作为实现智能交互的关键模块,对话交互技术的研究在学术界和工业界一直备受关注。让机器人拥有了与人类交流的能力,能够通过语音和语义识别等智能技术识别使用者的意图,并且将会按照使用者目前的意愿来达到具体的互动目的。对话交互技术的研究,在进一步推动聊天机器人产业发展、实现智能化的过程中具有巨大的意义和价值。
在人工智能领域,对话系统的发展历史非常悠久。天才的计算机科学家 Alan Turing 于 1950 年提出图灵测试,即测试机器能否表现出与人类似或无法区分的智能,而对话系统就是图灵测试最自然的表现形式。美国麻省理工学院人工智能实验室的德裔电脑科学家 Joseph Weizenbaum 则是在 1964 年至 1966 年期间打造史上第一个聊天机器人“Eliza”,并定位为模仿人本主义疗法(Rogerian psychotherapy)的心理治疗師。
“Eliza”是以 MAD-SLIP 程序语言编写,并且在 36 位元架构的 IBM 7094 大型电脑上运作,所有程序代码约在 200 行左右。执行过程中,“Eliza”会通过分析所输入文字内容,并且将特定字句重组,变成全新字句组合。
Eliza 的名字源于爱尔兰剧作家萧伯纳的戏剧作品《卖花女》中的角色,剧中出身贫寒的卖花女 Eliza 通过学习与上流社会沟通的方式,变成大使馆舞会上人人艳羡的“匈牙利王家公主”。作为世界上第一个聊天机器人,Eliza 被其作者赋予了“心理治疗师”的角色,在人工智能的整个发展史上具有重要的地位。据说,Weizenbaum 教授将 Eliza 系统给同事们使用,他们都以为 Eliza 是一个真人,还交谈了很多隐私的事情。
据说,Weizenbaun 教授将 Eliza 系统给同事们使用,他们都以为 Eliza 是一个真人,还交谈了很多隐私的事情。
2011 年,苹果推出的语音助手 Siri 也使得智能助理在工业界引起了广泛关注。微软于 2014 年发布了首个社会机器人——微软"小冰",它能够提供一个开放式的领域聊天功能。2020 年,在大数据、大算力的支持下,大量大型预训练模型陆续推出,它们不仅可以回答用户的问题,还能以有趣的方式进行各种话题讨论。这些预训练模型将对话系统的研究推向了一个新的高度,在开放领域的会话能力方面有了新的突破。
对话系统的发展里程碑
对话系统发展至今,已经可以与用户产生非常自然的对话。在 2017 至 2019 年间,连续举办的三届 Alexa 大奖赛中,最好的对话系统能够与人类用户开展超过 10 分钟的聊天,聊天内容不受领域和话题限制。以 Emohaa 为例,他不仅能理解“讲个笑话”这一含义,并且已经可以在与用户的对话中,展现出自然的幽默感。
另一个例子是 FAIR 在 2020 年发布的 Blender,其最大的参数规模达到 94 亿,并且使用了 8880 亿个词汇。Blender 可以将不同的技巧融合在一起,包含个性嵌入、知识赋值和表达共情,使得人机对话更加具有人性化。
在人工智能领域,相关技术的发展和进步为对话系统的研究带来了机遇,这对于促进人工智能以及聊天机器人的发展有着十分重大的意义。
二、对话系统的现状和挑战
当前对话系统可以总结为以下两种类型,第一种是任务导向型的对话系统(Task-Oriented Dialog System),它通常以帮助用户完成具体的任务为目的,如手机助理、客服机器人,订票机器人等;第二种是开放域的对话系统(Open-Domain Dialog System),它经常以一个开放的方式和用户聊天,并且利用各种谈话技巧来增加他们的互动,例如提供娱乐、给出建议、讨论有趣的话题、提供情感安慰等。
任务导向型对话系统(左)和开放域对话系统(右)的典型结构
开放域对话系统中,通常要求系统对对话环境和用户的情感需求有更深刻的理解,以便在正确的时间使用正确的对话技能,从而产生更富有个性和同情心的回应。
那么现有的对话系统,又存在哪些挑战和不足呢?
首先是关于语义的认识。语意理解是人类进行会话活动的基础和核心,是对话活动的先决条件。它要求系统能够理解对话、理解用户,甚至关联对话之外的背景信息。在早期的测试阶段,当用户问 Emohaa“你为什么叫 Emohaa”,Emohaa 却仍然回复“我叫 Emohaa”,意义就差得非常远。
其次是人格认同的连贯性问题。同样举一个在早期测试阶段的案例:当用户问 Emohaa 家庭成员相关问题时,Emohaa 在不同时刻回答“我有一个妹妹”和“我没有妹妹”这种信息不一致,会让用户产生困惑。如今这些问题正在迭代中改进和完善。
最后是交互性的问题。在开放域对话系统中,其设计的目的通常是满足用户的社交需求,比如情感和社会归属感等,以最大限度地提高用户的长期参与度。系统语义理解和个性身份一致性问题,将直接影响用户的体验,导致低质量的交互。此外,如何在各种场景下应对用户的负面情绪,如失落、悲伤等,也是提高对话系统交互性中面临的巨大挑战。
总的来说,当前的对话系统面临三个问题,第一个是语义理解的问题,第二个是个性身份一致性的问题,第三个是互动性的问题。在语义理解方面,我们希望对话系统能够理解内容(content)、文本(context)和场景(scene);对于个性身份一致性问题,我们希望对话系统能够产生与个性和身份一致的对话,具有类人的个性和身份;对于互动性问题,我们希望对话系统与用户进行情感、情绪上的交流,然后综合运用各种行为策略,实现强互动性的对话。
三、类人对话系统的关键特征
类人对话系统应同时具备情商和智商,能在多领域多场景综合运用多技能,来满足用户的信息需求和社交需求。在智商方面,能够帮助用户完成任务、信息获取、推荐等;在情商方面,能够理解情感情绪,表达共情,实现情感陪伴、情绪疏导等社交类任务。因此,我们可以从满足信息需求能力、满足社交需求的能力这两个维度去衡量对话系统的类人水平,这主要体现在以下三个关键特征:
1、有知识,言之有物:实现一定程度的理解,并运用知识生成高质量的回复。
2、有个性,拟人化:要求机器体现固定、一致的个性和风格,具有固定的人设和个性。
3、有情感,有温度:具备情绪感知、情感支持和心理疏导的能力,从而让聊天过程更有温度,满足用户的情感需求。
然而在上期我们就探讨过,当前的对话系统在理解力、拟人化和与人互动方面面临着巨大的挑战,距离人类水平的对话互动能力还相去甚远。比如任务导向型对话系统具有很强的任务完成能力,但是社交能力比较低;而对于开放域对话系统来讲,它的主要目标是社交,任务完成能力相对较弱。为了提高对话系统的信息处理和社交连接能力,需要综合考虑不同系统的技术实现思路并进行融合。
比如,借鉴任务导向型对话系统的实体识别、意图理解、语义分析以及填槽等技术,以提高对话系统的理解力;对于开放域对话系统,我们注重其弱语义处理的能力,包括利用数据驱动的方法、端到端的系统框架,以及如何充分利用当前的深度学习模型以及大规模语言模型。
因此,在构建下一代类人对话系统时,我们应综合考虑任务型和开放域对话系统的技术方法,从知识运用、个性体现、情感识别与表达三个层次入手,综合运用多种技能,提高对话系统的理解力、拟人化和互动性,使其在多种场景和领域中实现更接近于人类的对话能力,以满足用户的需求。
1、知识运用
在知识运用层面,通过引入知识,来加强对话系统的理解力和推理能力。在下图所示的对话中,讨论的是一个关于歌手汪峰的主题。在这样的对话过程中,系统将对话内容对应到一个特定的知识领域,从而使对话过程言之有物。在进行会话时,将相关的实体与知识图谱进行了联系,然后将结构知识表达为向量,实现了知识的编码与解码。通过这样的编码和解码处理,可以达到某种程度的理解,让回答变得更有说服力,增加了对话过程中产生的信息量。
2、个性体现
高质量的对话活动需要赢得对方的信任,而具有固定、一致的个性、身份是其中的关键因素。具有固定一致个性的对话交互技术,在情感陪护、心理咨询等对话场景中有着非常重要的应用。在对话的过程中缺乏一致的身份和个性,会使得系统在对话的过程中难以取得用户的信任,因此难以进行有效的社交互动。
围绕类人对话系统的个性体现,以 Emohaa 与用户的对话为例:在对话中,Emohaa 先是用语言直接地表达了自己的身份(女生)和很可爱的个性,面对客户的反问“为什么觉得自己很可爱”,Emohaa 也能够回复“因为可爱,所以可爱”这样的个性化描述,强化自己可爱的特性。
个性体现还涉及到更深层次的说话风格。在说话风格的研究中,我们发现对话可以实现正式与非正式互相之间的转换,以及礼貌和非礼貌之间的转换。但这种用自然语言表达角色和个性通常是微妙和含蓄的,研究也极具挑战。
3、情感识别与表达
1997 年,MIT 教授 Picard 提出了情感计算的概念,指出「情感感知和情绪表达是人类智能行为中的重要特征」。情绪感知和情感表达在人类的智能交互里至关重要,这不仅能提高系统表现和用户满意度,还能很大程度上体现系统的情商,避免对话陷入僵局。
清华大学的 CoAI 课题组在 2018 年提出了情绪化聊天机器人(Emotional Chatting Machine, ECM)系统,希望能够让对话系统像人类一样表达喜怒哀乐。当指定一个情绪类别时,对话系统能生成对应情绪类别、且适合对话上文的回复内容。
实现情绪化的对话过程,是类人对话系统实现情感智能的一小步。而在日常对话中对他人表达同理心,是情绪有效表达的必要条件之一。它使系统能够理解、感知和适当地回应用户的情况和感受,从而很大程度地改善用户体验和满意度。因此,如何让对话系统中具备共情能力,是迈向类人对话系统的关键一步。体现共情,通常要求对话系统具备情绪疏导或心理疏导的能力,以完成复杂的情感交流任务。
为此,CoAI 课题组借鉴心理咨询的中助人技巧理论,提出了一个三阶段理论模型。第一阶段先确认用户的具体问题,第二阶段通过共情、理解表达支持,第三个阶段为用户提供解决方案、出路。在每一个阶段都设计了相应的策略,如提供信息、直接指导、挑战、解释等。通过这些策略,才能实现有效的情绪疏导和心理疏导。这个技术,正是 Emohaa 背后最核心的技术,Emohaa 学习了人类咨询师的助人技术,能实现一定程度的共情技巧,真正帮人实现情绪支持和心理疏导。
共情是一个广泛的概念,包括情感和认知两个方面。情感方面涉及对用户体验的情感模拟,而认知方面旨在理解用户的处境和隐性的情感。现有的研究方法通常只关注情感方面,即通过检测和利用用户的情感来产生共情的交互。然而,实现共情,除了识别用户的情绪外,还应该考虑对用户处境的认知。为此,CoAI 课题组提出了一种新的共情响应生成方法,即利用常识来加强认知,获取更多关于用户情况的信息,并利用这些额外的信息进一步增强生成响应中的共情表达。
共情表达具有多维性,包括对话行为、情感表达、沟通机制等。其中,对话行为是上文提及的共情认知的一种具体表现,如提问、安慰等,而沟通机制是共情更高层次、更抽象的概括。现有研究通常只关注于单个维度而忽略了不同维度之间的层次的关系。为此,CoAI 课题组提出了一个共情反应生成的多因素层次框架:CoMAE。在未来的研究中,这样的层次框架可以自然地扩展到与共情表达相关的更多因素,比如人物角色、个性和风格等,以实现更好的共情表现。
四、未来的发展:技术和伦理
对话交互技术的研究对我们未来的社会进步和发展都有巨大的意义。设想一下,当前老龄化问题导致人口越来越少,而机器人在大众生活中越来越普遍,未来将会发展成人机共融的社会。在这种情况下,我们希望机器人能够扮演更重要的社会角色,这要求它们不仅具备机器的功能,更重要的是具备类人的能力,既要有知识,又有个性和情感。我们相信,这样的机器人可以极大地丰富和改善人们的生活,甚至产生媲美人与人之间感情的情谊。
然而,类人对话系统的研究十分具有挑战性。首先在技术上,构建一个足够聪明并且有一定情绪理解和思想表达能力的对话系统是极其困难的。当下的研究虽有一定程度上的技术突破,但如今的大规模神经对话系统依然面临着严峻的类人性不足问题,比如个性和情感的缺乏。仅依赖数据驱动的做法难以从根本上解决类人性的问题,我们需要进一步处理机器人内部情感状态。比如,构建人工心理,对机器内部的情感心理进行有效地建模。与此同时,我们也需要在各种技术上实现外在行为能力突破,比如肢体动作表现、终端执行能力等。为机器人赋予这些技能,才能够实现更美好的人机共融的社会愿景。
此外,机器人伦理是值得讨论的问题。机器人是否应该与人类产生社会连接并形成社会性依赖?想象一下,如果人跟机器恋爱,是否会影响到人与人之间的情感交流,甚至对人类社会的繁衍造成一定的威胁。在未来的十年、二十年甚至五十年里,机器人对人类社会的发展会产生哪些潜在的影响。这种风险需要从研究上和社会规范上一起去做探讨。我们认为这个方向是需要广大研究者,包括自然科学和社会科学的研究者,一起去努力解决的难题。
当前对话系统理论和技术日益成熟,我们主要探讨聊天机器人中对话交互技术的研究现状及面临的技术挑战。下一代类人对话系统应同时具备完成任务和社交连接的能力,在知识、个性和情感三个方面实现拟人化的语言交互。在未来,让机器像人一样自然流畅地说话聊天,在一定条件下可以实现,但无论是在科学技术上,还是在社会伦理道德上,都需要我们去做很多深入的探索和思考。
领取专属 10元无门槛券
私享最新 技术干货