【MIT博士论文】控制神经语言生成

数据派THU

发布于 2022-09-08 05:40:48

19200

代码可运行

文章被收录于专栏：数据派THU数据派THU

运行总次数：0

代码可运行

来源：专知本文为论文介绍，建议阅读5分钟本文探讨了柔性序列模型和弱监督方法来执行各种控制生成任务。

大规模的神经语言模型在自然语言生成方面取得了令人印象深刻的进展。然而，典型的模型以一种从左到右的、不受约束的方式运行，对生成的内容的控制有限。本文探讨了柔性序列模型和弱监督方法来执行各种控制生成任务。我们预计这些技术将广泛应用于其他领域，如图像、分子和生物序列的生成。

我们首先介绍了一类称为空白语言模型(BLMs)的序列模型，它通过动态创建和填充空白来生成序列。给定带有一个或多个空格的部分指定文本，BLM将使用与上下文一致的可变数量的标记来填充这些空格。我们的模型非常适合各种文本编辑和重写任务，并在文本填充、古代文本恢复和情感迁移方面证明了有效性。

接下来，我们研究文本自动编码器及其通过潜在空间操作控制生成的用途。我们建立了一个理论，如何塑造一个有意义的潜在空间几何离散文本数据。在此基础上，我们开发了一系列去噪文本自动编码器，通过简单的矢量算法展示了属性修改(例如，时态，情感等)的潜力。

最后两章讨论了在没有监督数据的情况下的语言风格迁移。我们首先将非并行风格迁移的任务形式化，并讨论学习问题的可行性。我们提出了一种利用潜在表示的分布对齐来执行样式传输的方法。然后，我们研究了混杂因素，并表明通过将数据分为两组不同的风格，每组中的集合说明了我们不希望改变的变化，我们可以利用不变性来隔离混杂因素，并向所需的方向转移文本。

https://dspace.mit.edu/handle/1721.1/144561