首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >清华黄民烈朱小燕等提出ARAML,文本生成训练稳定性能新SOTA

清华黄民烈朱小燕等提出ARAML,文本生成训练稳定性能新SOTA

作者头像
机器之心
发布于 2019-09-10 07:05:31
发布于 2019-09-10 07:05:31
7700
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Pei Ke、Fei Huang、黄民烈、朱小燕

机器之心编译

参与:魔王

如何解决 GAN 在文本生成任务中的训练不稳定问题?清华大学做出了尝试,研究者在判别器和生成器两个部分都进行了变革。

论文链接:https://arxiv.org/pdf/1908.07195v1.pdf

目前,大多数用于文本生成任务的生成对抗网络(GAN)会遇到强化学习训练算法(如策略梯度)的不稳定性问题,从而导致性能不稳定。为了解决该问题,来自北京信息科学与技术国家研究中心和清华大学的研究者提出一种新型框架——对抗奖励增强最大似然(Adversarial Reward Augmented Maximum Likelihood,ARAML)。

在对抗训练过程中,该框架的判别器将奖励分配给从数据附近平稳分布获得的样本,而不是从生成器的分布中获得的样本。生成器使用最大似然估计进行优化,该估计由判别器的奖励来增强,而不是策略梯度。实验证明,ARAML 模型性能优于当前最优的文本生成 GAN,且训练过程比后者更加稳定。

目前,该论文已被EMNLP 2019接收。

引言

自然语言生成是 NLP 领域中的重要任务。由于神经模型的兴起,自然语言生成取得了巨大的进步。此类神经模型的标准训练范式是最大似然估计(MLE),即基于真实语境,最大化在文本中观察到每一个词的可能性。

MLE 被广泛使用,但它存在暴露偏置(exposure bias)问题:在测试阶段中,模型基于之前生成的单词顺序预测下一个词,而在训练阶段中,模型基于真值词汇进行预测。为解决这一问题,研究人员引入使用强化学习训练方法的 GAN 来解决文本生成任务,即训练判别器来分辨真实文本和模型生成的文本样本,为生成器提供奖励信号,生成器则通过策略梯度进行优化。

但是,近期研究发现,在离散数据上训练 GAN 存在的潜在问题比暴露偏置更加严重。其中一个基本问题是训练不稳定性。使用策略梯度更新生成器通常会导致训练过程不稳定,因为即使经过很好的预训练,生成器也很难从判别器中获取积极稳定的奖励信号。因此,生成器受到奖励信号高方差的负面影响,训练过程可能最终会崩溃。

在北京信息科学与技术国家研究中心和清华大学的研究者合著的这篇论文中,研究者提出了一种新型对抗训练框架——对抗奖励增强最大似然(ARAML),用来处理训练 GAN 解决文本生成任务时的不稳定问题。在对抗训练的每一次迭代中,研究者首先训练判别器将更高的奖励分配给真实数据,而不是生成样本。然后,使用最大似然估计(MLE)在采样自平稳分布的样本上更新生成器,MLE 使用判别器奖励作为加权。(该想法受到奖励增强最大似然(RAML,Norouzi et al., 2016)的启发。)

平稳分布可以确保训练样本围绕着真实数据,从而使生成器的探索空间受到 MLE 训练目标的约束,进而使得训练过程更加稳定。与其他使用强化学习训练方法的文本 GAN 相比,ARAML 模型从平稳分布(而不是生成器分布)中获取样本,使用 RAML 训练范式(而不是策略梯度)优化生成器。

ARAML 模型

下图 1 展示了 ARAML 模型。该对抗训练框架包含两个阶段:1)训练判别器,使其向真实数据(而不是生成数据)分配更高的奖励;2)使用奖励增强的 MLE 训练目标,在来自平稳分布的样本上训练生成器。生成器的训练范式是:用 MLE 训练目标约束搜索空间,从而缓解训练不稳定的问题。

图 1:ARAML 模型概览。训练样本来自基于真实数据的平稳分布 P_s,生成器在判别器奖励增强的样本上训练。判别器的训练目标是判断真实数据和生成数据。

判别器

和其他 GAN 模型一样,ARAML 模型中判别器的目标是区分真实数据和生成数据。损失函数要求判别器将更高的奖励分配给真实数据而不是生成数据,从而使判别器在训练过程中学习提供更合适的奖励。

生成器

生成器的训练目标来源于使用强化学习训练方法的离散 GAN。如前所述,由于策略梯度,离散 GAN 存在不稳定问题,因而更难训练。该研究受 RAML 的启发,提出了一种指数回报分布(exponential payoff distribution)——将强化学习损失和 RAML 损失结合起来。最终的损失函数如下所示:

为了优化该损失函数,研究者首先构建固定分布以获得样本,然后构建恰当的奖励函数,从而以稳定高效的方式训练生成器。

采样

研究者基于 P_data 构建了平稳分布 P_s:

P_s(X_s|X) 可以确保 P_s(X) 接近 P_data(X),从而使训练过程更加稳定。为了从真实数据样本 X 中获得新样本 X_s,研究者设计了三步:采样编辑距离 d、置换位置,以及填入对应位置的新单词。

训练

研究者根据判别器的输出和平稳分布,设计了奖励函数:

直观来看,该奖励函数鼓励生成器生成具备大采样概率和高判别器奖励的句子。

目前,研究者通过公式 6 成功地优化了生成器的损失。这种新的训练范式使生成器避免策略梯度导致的方差,从判别器中获取更稳定的奖励信号,因为该生成器只能探索真实数据附近的训练样本。

最终,算法的总体流程如下:

实验

数据集

研究者在三个数据集上评估了 ARAML 模型:COCO 图像描述数据集、EMNLP2017 WMT 数据集和 WeiboDial 单轮对话数据集。

研究者移除了包含低频词的 post-response 对,并随机选取子集作为训练集和测试集。三个数据集的具体数据情况见下表 2:

表 2:COCO、EMNLP2017 WMT 和 WeiboDial 数据集的统计概况。WeiboDial 数据集的平均长度 7.3/10.8 分别表示 post 和 response 的长度。

下表 3 展示了 ARAML 模型的实现细节:

表 3:ARAML 模型的实现细节。G/D/LM 分别表示约束采样中使用的生成器/判别器/语言模型。

代码和数据集地址:https://github.com/kepei1106/ARAML

实验结果

表 4:在 COCO 和 EMNLP2017 WMT 数据集上的自动评估结果。每个指标对应的数字是均值和标准差。

表 5:在 WeiboDial 数据集上的人工评估结果。Win、Lose 和 Tie 对应的百分比分数分别表示 ARAML 模型与基线模型对比时的胜率、负率和平率。

表 7 展示了模型在 COCO 数据集上生成的样本。我们可以发现,其他基线模型存在语法错误(如 MLE 模型生成样本中的「in front of flying her kite」)、重复表达(如 IRL 模型生成样本中的「A group of people」),以及不连贯表述(如 IRL 模型生成样本中的「A group of people sitting on a cell phone」)。而 ARAML 模型表现优异,它能够生成语法无误、表达连贯的句子。

表 7:在 COCO 数据集上的生成句子示例。红色字表示语法错误,蓝色文本表示重复表达,绿色文本表示不连贯表述。

表 8 展示了在 WeiboDial 数据集上的生成样本。很明显,其他基线模型没有捕捉到博文中的话题词「迟到」,从而生成了与微博正文无关的回复。而 ARAML 提供的回复无语法错误,且与微博正文的关联性强。

表 8:在 WeiboDial 数据集上的生成回复示例。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
7 Papers | 清华黄民烈、朱小燕等新论文;Quoc Le等提出新型硬注意力图像分类算法
1. 论文:Gradient Boosting Machine: A Survey
机器之心
2019/08/26
6680
7 Papers | 清华黄民烈、朱小燕等新论文;Quoc Le等提出新型硬注意力图像分类算法
蒙特利尔大学研究者改进Wasserstein GAN,极大提高GAN训练稳定性
近日,蒙特利尔大学的研究者们在WGAN的训练上又有了新的进展,他们将论文《Improved Training of Wasserstein GANs》发布在了arXiv上。研究者们发现失败的案例通常是由在WGAN中使用权重剪枝来对critic实施Lipschitz约束导致的。在本片论文中,研究者们提出了一种替代权重剪枝实施Lipschitz约束的方法:惩罚critic对输入的梯度。该方法收敛速度更快,并能够生成比权重剪枝的WGAN更高质量的样本。 生成对抗网络(GAN)将生成问题当作两个对抗网络的博弈:生成
BestSDK
2018/02/28
1.2K0
蒙特利尔大学研究者改进Wasserstein GAN,极大提高GAN训练稳定性
史上最全GAN综述2020版:算法、理论及应用
论文地址:https://arxiv.org/pdf/2001.06937.pdf
OpenCV学堂
2020/03/10
1.2K0
机器学习——生成对抗网络(GANs):原理、进展与应用前景分析
` 生成对抗网络(GANs)作为一种新型的生成模型,在无监督学习和生成式建模领域引起了广泛关注。其核心思想是通过两个神经网络——生成器(Generator)和判别器(Discriminator)——相互对抗、相互博弈,最终达到生成高度真实的数据样本。GAN的成功引发了生成模型的革命,使得深度学习能够从大规模数据中捕捉潜在的分布规律并生成具有高度可操作性的样本。
用户11379153
2025/11/05
4670
机器学习——生成对抗网络(GANs):原理、进展与应用前景分析
GAN!生成对抗网络GAN全维度介绍与实战
生成对抗网络(GAN)是深度学习的一种创新架构,由Ian Goodfellow等人于2014年首次提出。其基本思想是通过两个神经网络,即生成器(Generator)和判别器(Discriminator),相互竞争来学习数据分布。
TechLead
2023/10/21
4.4K0
GAN!生成对抗网络GAN全维度介绍与实战
学界 | 用生成对抗网络解决NLP问题:谷歌大脑提出MaskGAN
选自arXiv 作者:William Fedus等 机器之心编译 参与:Jane W、李泽南 生成对抗网络(GAN)自推出以来,在计算机视觉领域中引起了一股风潮,在自然语言处理中却鲜有研究。看来,这或许需要 GAN 的提出者 Ian Goodfellow 自己来推动。谷歌大脑 William Fedus、Ian Goodfellow 和 Andrew M. Dai 共同提交的论文中,研究人员使用 GAN 和强化学习方法在 NLP 中做了自己的探索。目前,该论文已提交至 ICLR 2018 大会。 前言 循
机器之心
2018/05/11
1.1K0
Yoshua Bengio 提出全新 GAN 训练法,大幅提升样本生成
【新智元导读】Yoshua Bengio 的团队提出用于训练 GAN 的新算法,在每次更新的训练中,训练一个生成器以产生位于当前鉴别器的判别边界之上的样本,使用这种算法训练的 GAN 被称为 BS-G
新智元
2018/03/27
1.1K0
Yoshua Bengio 提出全新 GAN 训练法,大幅提升样本生成
生成对抗网络(Generative Adversarial Networks)
传统的生成指的是生成图像数据,生成有两种策略,一种是直接估计概率密度函数,机器学习模型分为两类一类是判别式模型,一类是生成式模型,生成模型是基于联合概率,判别性模型基于条件概率,生成式模型判别的是一种共生关系,判别式判别的是一种因果关系。知己估计概率密度函数生成的是概率密度函数或者概率密度函数的参数。另一种是绕开直接估计概率密度函数,直接学习数据样本生成的过程,里面没有显式函数的学习。第一种方式比较直观,但有的情况下直接生成数据样本更合适,可以避开显式概率密度函数的估计和设计,直接达到目的。
狼啸风云
2019/12/20
11.8K0
生成对抗网络(Generative Adversarial Networks)
要合作,不要对抗!无需预训练超越经典算法,上交大提出合作训练式生成模型CoT
---- 新智元专栏 作者:卢思迪 上海交通大学 【新智元导读】上海交通大学APEX实验室研究团队提出合作训练(Cooperative Training),通过交替训练生成器(G)和调和器(M),无需任何预训练即可稳定地降低当前分布与目标分布的JS散度,且在生成性能和预测性能上都超越了以往的算法。对于离散序列建模任务来说,该算法无需改动模型的网络结构,同时计算代价较理想,是一种普适的高效算法。本文是论文第一作者卢思迪带来的解读。 论文地址:https://arxiv.org/pdf/1804.
新智元
2018/04/24
9950
要合作,不要对抗!无需预训练超越经典算法,上交大提出合作训练式生成模型CoT
【机器学习】生成对抗网络(GAN)——生成新数据的神经网络
GAN 由两部分组成:生成器(Generator)和判别器(Discriminator)。这两个网络相互竞争,通过不断改进各自的能力,最终生成逼真的数据。
2的n次方
2024/10/15
8K0
【机器学习】生成对抗网络(GAN)——生成新数据的神经网络
Petuum提出序列生成学习算法通用框架
作者:Bowen Tan , Zhiting Hu , Zichao Yang, Ruslan Salakhutdinov, Eric P. Xing
机器之心
2019/04/30
6380
Petuum提出序列生成学习算法通用框架
深度学习中的生成对抗网络(GAN)原理与应用
文章链接:https://cloud.tencent.com/developer/article/2474045
远方2.0
2024/12/07
6740
深度学习中的生成对抗网络(GAN)原理与应用
走进深度生成模型:变分自动编码器(VAE)和生成对抗网络(GAN)
【导读】近日,深度学习爱好者Prakash Pandey发布一篇博文介绍深度生成模型。我们知道,有监督学习在很多方面都达到了很好的效果,但是,由于有监督学习由于数据集太少等缺点,研究者逐渐偏向于探索无
WZEARW
2018/04/13
5.3K0
走进深度生成模型:变分自动编码器(VAE)和生成对抗网络(GAN)
BGAN:支持离散值、提升训练稳定性的新GAN训练方法
首先,让我们温习一下GAN(对抗生成网络)的概念。简单来说,GAN是要生成“以假乱真”的样本。这个“以假乱真”,用形式化的语言来说,就是假定我们有一个模型G(生成网络),该模型的参数为θ,我们要找到最优的参数θ,使得模型G生成的样本的概率分布Qθ与真实数据的概率分布P尽可能接近。即:
崔庆才
2019/09/04
2.3K0
BGAN:支持离散值、提升训练稳定性的新GAN训练方法
为什么让GAN一家独大?Facebook提出非对抗式生成方法GLANN
这种新方法在图像生成上能与 GAN 相媲美,也许除了 VAE、Glow 和 Pixcel CNN,这种新模型也能加入到无监督生成的大家庭中。当然在即将到来的 2019 年中,我们也希望 GAN 之外的更多生成模型会得到更多的成长,也希望生成模型能有更多的新想法。
机器之心
2019/01/02
5380
GAN(生成对抗网络)基础
生成对抗网络(Generative Adversarial Network, GAN)是一种深度学习模型,由两部分组成:生成器(Generator)和判别器(Discriminator)。GAN 的独特之处在于它采用了对抗性训练的策略,生成器和判别器通过互相博弈的方式共同训练,最终达到生成高质量数据的目标。
LucianaiB
2025/01/27
6370
探秘生成对抗网络(GAN):原理、应用与代码全知道
生成对抗网络(GAN)自提出以来在深度学习领域备受关注。其独特的对抗训练机制使其在图像生成、数据增强、风格迁移等众多领域展现强大能力。
羑悻的小杀马特.
2025/03/27
9870
生成对抗网络
生成式对抗网络(generative adversarial network,GAN)是基于可微生成器网络的另一种生成式建模方法。生成式对抗网络基于博弈论场景,其中生成器网络必须与对手竞争。生成网络直接产生样本 。其对手,判别器网络(dircriminator network)试图区分从训练数据抽取的样本和从生成器抽取的样本。判别器出发由 给出的概率值,指示x是真实训练样本而不是从模型抽取的伪样本的概率。
狼啸风云
2019/10/26
1.5K0
生成学习全景:从基础理论到GANs技术实战
生成学习(Generative Learning)在机器学习领域中占据了重要的位置。它通过学习数据分布的方式生成新的数据实例,这在多种应用中表现出了其独特的价值。本节将深入探讨生成学习的核心概念,明确区分生成学习与判别学习,并探索生成学习的主要应用场景。
TechLead
2024/01/02
4370
生成学习全景:从基础理论到GANs技术实战
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
生成模型:p(x) 即观测x出现的概率。如果有标签则表示为: p(x|y) 指定标签y生成x的概率。
汀丶人工智能
2023/06/01
3.2K0
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
推荐阅读
7 Papers | 清华黄民烈、朱小燕等新论文;Quoc Le等提出新型硬注意力图像分类算法
6680
蒙特利尔大学研究者改进Wasserstein GAN,极大提高GAN训练稳定性
1.2K0
史上最全GAN综述2020版:算法、理论及应用
1.2K0
机器学习——生成对抗网络(GANs):原理、进展与应用前景分析
4670
GAN!生成对抗网络GAN全维度介绍与实战
4.4K0
学界 | 用生成对抗网络解决NLP问题:谷歌大脑提出MaskGAN
1.1K0
Yoshua Bengio 提出全新 GAN 训练法,大幅提升样本生成
1.1K0
生成对抗网络(Generative Adversarial Networks)
11.8K0
要合作,不要对抗!无需预训练超越经典算法,上交大提出合作训练式生成模型CoT
9950
【机器学习】生成对抗网络(GAN)——生成新数据的神经网络
8K0
Petuum提出序列生成学习算法通用框架
6380
深度学习中的生成对抗网络(GAN)原理与应用
6740
走进深度生成模型:变分自动编码器(VAE)和生成对抗网络(GAN)
5.3K0
BGAN:支持离散值、提升训练稳定性的新GAN训练方法
2.3K0
为什么让GAN一家独大?Facebook提出非对抗式生成方法GLANN
5380
GAN(生成对抗网络)基础
6370
探秘生成对抗网络(GAN):原理、应用与代码全知道
9870
生成对抗网络
1.5K0
生成学习全景:从基础理论到GANs技术实战
4370
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
3.2K0
相关推荐
7 Papers | 清华黄民烈、朱小燕等新论文;Quoc Le等提出新型硬注意力图像分类算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档