Author:Lei Shen Yang Feng 会议:ACL2020 paper:https://arxiv.org/abs/2005.00329
简介:我们知道,在开放域对话的回复生成过程中,添加情感更能提高对话质量,而目前现有的方法主要是通过在标准交叉熵损失中加入正则化项增加情感表达,从而影响训练过程,但缺乏对内容一致性的进一步考虑,同时加剧了safe response (安全响应)问题。本文主要提出了一种基于课程对偶学习框架,在内容一致性,回复多样性,和情感表达方法优于基准。
对偶学习:对偶学习的最关键一点在于,给定一个原始任务模型,其对偶任务的模型可以给其提供反馈;同样的,给定一个对偶任务的模型,其原始任务的模型也可以给该对偶任务的模型提供反馈;从而这两个互为对偶的任务可以相互提供反馈,相互学习、相互提高。
课程学习:人类和动物的学习过程一般都遵循着由易到难的顺序,而Curriculum Learning正是借鉴了这种学习思想。相较于不加区分的机器学习一般范式,模仿人类学习的过程,首次提出了Curriculum Learning,主张让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识。
课程学习优势:(1)可以加速训练,减少迭代次数(2)得到更好的泛化性能,让模型训练到更好的局部最优值。
对偶任务:回复和问题生成
前向反向传播:使用强化学习训练
Rewards:尽可能同时提高回复内容一致性和情感表达能力
内容一致性通过重构概率表示;情感表达能力:显式和隐式情感,分别使用情感词数量和情感分类准确率作为反馈。
模型结构:红色部分输入为query和emotion(所要控制的生成的回复情感),经过前向传播模型,生成回复r’,分别输入到CLS(classification分类器)和反向传播模型,分别得到两个Reward,相加得到R;蓝色部分输入为response和emotion(根据response反向生成query),同样得到两个Reward。
CLS:预训练的分类器,用于计算隐式情感表达分值
Mf:前向传播模型(forward model)
Mb:反向传播模型(backward model)
红色部分:
输入:q,er (query,emotion ,r表示response,er:生成回复的情感类别)
Mf:生成回复r’ R(reward):Re + Rc
蓝色部分:
输入:r,eq(response,emotion,q表示query,eq:生成query的情感类别
Mb:生成询问q’ R(reward):Re + Rc
使用NLPCC2017数据集,对训练样本进行排序,根据情感分类准确率对样本重新排序。将高准确率的数据认为是简单数据,先用简单数据,逐步增加数据难度(课程学习思想)。分别独立训练前向传播模型(由query生成response)和反向传播模型(由response反向生成query),同时为了提高训练稳定性,添加Teacher Forcing对模型进行校正。
自动化评估:
其中,EmoDS ≈ ECM,S2S-Attn(Squence to sequence+Attention)只能生成流利的回复,不能添加情感。
通过对CDL-emo、CDL-con和CDL的比较,可以看出组合奖励对情感表达和内容一致性的效果。此外,我们可以发现,在课程学习的支持下,CDL可以取得比CDL- dl更好的效果
人工评估:
Con.(内容评分):范围0,1,2
Emo.(情感评分):范围0,1
CDL总体效果最优
效果展示:
本文提出了一种课程对偶学习框架,用来生成包含指定感情类别的回复,之前的方法非常容易生成安全响应,CDL充分利用了两种Reward,同时提高了模型在内容一致性和情感表达能力,除此之外,加入课程学习方法,使得训练过程更加高效,实验证明,CDL模型可以生成流利,内容一致,信息丰富的包含感情的回复。