不以物喜不以己悲,爱学习,爱生活~~
引言
本次文章主要介绍了ERNIE-GEN(语言生成任务)、统一预训练语言模型(UniLM)、问答系统数据集(CoQA)、端到端神经生成问答(GENQA)、生成式问答系统评估方法、自编码自回归语言模型(PALM)、答案生成器(KEAG)、生成式问答(gQA)。(四篇含源码)
往期QA系列论文:
(含源码)Question Answering(QA)论文整理(一)
(含源码)Question Answering(QA)论文整理(二)
(含源码)Question Answering(QA)论文整理(三)
(含源码)Question Answering(QA)论文整理(四)
(含源码)Question Answering(QA)论文整理(五)
(含源码)Question Answering(QA)论文整理(六)
正文开始
1
First Blood
1、TILE: ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation
Author: Dongling Xiao • Han Zhang • Yukun Li
Paper: https://arxiv.org/pdf/2001.11314v3.pdf
Code: https://github.com/PaddlePaddle/ERNIE/tree/repro/ernie-gen
论文简述: 当前自然语言生成中的预培训工作很少关注下游任务的暴露偏差问题。为了解决这个问题,我们提出了一种增强的多流序列,用于序列预训练和框架微调,名为ERNIE-GEN,它通过增加生成机制和噪声感知生成方法来填补训练和推理之间的差异。为了使生成更接近人类给出的结果,此框架引入了跨接生成了流程,该流程并不是逐字预测,而是连续预测语义上完整的跨距。与现有的预训练方法不同,ERNIE-GEN结合了多粒度目标采样来构造预训练数据,从而增强了编码器和解码器之间的相关性。实验结果表明,ERNIE-GEN在一系列语言生成任务(包括抽象摘要(Gigaword和CNN / DailyMail),问题生成( SQuAD),对话生成(Persona-Chat)和生成性问答(CoQA)上都得到了较好的结果。
2、TILE: Unified Language Model Pre-training for Natural Language Understanding and Generation
Author: Li Dong • Nan Yang • Wenhui Wang
Paper: http://papers.nips.cc/paper/9464-unified-language-model-pre-training-for-natural-language-understanding-and-generation.pdf
Code: https://github.com/microsoft/unilm
论文简述: 本文提出了一种新的统一预训练语言模型(UniLM),它可以针对自然语言理解和生成任务进行微调。使用三种类型的语言建模任务对模型进行预训练:单向,双向和序列到序列的预测。通过使用共享的Transformer网络并利用特定的自注意mask来控制预测条件所处的环境,可以实现统一的建模。UniLM在GLUE基准测试,SQuAD 2.0和CoQA问题解答任务方面与BERT相比具有优势。此外,UniLM在五个自然语言生成数据集上获得了最新的最新结果,包括将CNN / DailyMail抽象摘要ROUGE-L提升到40.51(绝对改进2.04),Gigaword抽象摘要ROUGE-L提升到35.75(0.86)。CoQA生成问题解答F1分数达到82.5(绝对改进37.1),SQuAD问题生成BLEU-4达到22.12(绝对改进3.75)以及DSTC7文档为基础的对话框响应生成NIST-4达到2.67(人类性能为2.65)。
3、TILE: CoQA: A Conversational Question Answering Challenge
Author: Siva Reddy • Danqi Chen • Christopher D. Manning
Paper: https://arxiv.org/pdf/1808.07042v2.pdf
Code: https://github.com/stanfordnlp/coqa-baselines
论文简述: 人类通过参与一系列的问答对话来收集信息。机器能够回答对话性问题对帮助其信息收集是至关重要的。这里我们介绍CoQA,这是一个用于构建会话问答系统的新型数据集。该数据集包含12.7万个带有答案的问题,这些问题是从关于7个不同领域的文本段落的8k次对话中获得的。问题是对话性的,答案是自由形式的文本,其相应的证据在段落中突出显示。我们深入分析了CoQA,发现会话问题具有挑战性的现象,这些现象在现有的阅读理解数据集中并不存在,例如,引用和语法推理。我们在CoQA上评估了强大的会话和阅读理解模型。最好的系统获得的F1分数为65.4%,比人类的表现低23.4点(88.8%),表明这些模型还有足够的改进空间。
4、TILE: Neural Generative Question Answering
Author: Jun Yin • Xin Jiang • Zhengdong Lu
Paper: https://arxiv.org/pdf/1512.01337v4.pdf
Code: https://github.com/jxfeb/Generative_QA
论文简述: 本文介绍了一种端到端神经网络模型,称为神经生成问答(GENQA),该模型可以基于知识库中的事实生成简单事实问题的答案。更具体地说,该模型建立在用于序列到序列学习的编码器-解码器框架上,同时具备查询知识库的能力,并在知识库中的问答对及其相关三元组的语料库上进行训练。实证研究表明,该模型能够有效地处理问题和答案的变化,并结合知识库中的事实生成正确、自然的答案。问题回答实验表明,该模型的性能优于基于嵌入的QA模型,也优于基于相同数据训练的神经对话模型。
5、TILE: KPQA: A Metric for Generative Question Answering Using Word Weights
Author: Hwanhee Lee • Seunghyun Yoon • Franck Dernoncourt
Paper: https://arxiv.org/pdf/2005.00192v1.pdf
Code: None
论文简述: 对于生成式问答系统(genQA)的自动评估,必须评估生成的答案的正确性。然而采用广泛用于比较生成的文本和参考的n-gram相似性度量标准进行事实评估容易产生误判,并且缺乏基准数据集来衡量度量标准的正确性。为了研究更好的genQA评价指标,我们在两个标准genQA数据集上收集了人类对正确性的高质量判断,使用我们的人类评估数据集,我们证明了基于n-gram相似性的现有指标与人类判断没有关联。为了缓解这个问题,我们提出了一种新的指标来评估genQA的正确性。具体而言,新的度量标准通过关键短语预测为每个令牌分配不同的权重,从而判断预测的答案句子是否捕获了人类判断者的真实含义。与广泛使用的现有指标相比,我们提出的指标显示出与人为判断的相关性明显更高。
6、TILE: PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation
Author: Bin Bi • Chenliang Li • Chen Wu
Paper: https://arxiv.org/pdf/2004.07159v1.pdf
Code: None
论文简述: 自监督的预训练已经成为一种强大的自然语言理解和生成技术,如BERT、MASS和BART。现有的预训练技术将自编码或自回归作为目标,通过从被破坏的文本中恢复原始单词标记来训练基于transformer的模型。在这项工作中,我们提出了PALM,即在一个大的未标记语料库上预训练一个自编码和自回归语言模型,特别是针对基于上下文的下游生成,如问题生成和会话响应生成。PALM最大限度地减少了现有去噪方案在预训练和微调之间的不匹配,因为在微调过程中生成的文本不仅仅是重构原始文本。PALM采用了一种新颖的预训练方案,在各种语言生成基准测试中取得了最新的研究成果,包括生成性问题回答、Gigaword的摘要和康奈尔电影对话的会话反应生成。
7、TILE: Incorporating External Knowledge into Machine Reading for Generative Question Answering
Author: Bin Bi • Chen Wu • Ming Yan
Paper: https://www.aclweb.org/anthology/D19-1255
Code: None
论文简述: QA模型需要常识和背景知识来回答许多重要问题。与现有的知识型QA工作不同,我们关注的是一项更具挑战性的任务,即利用外部知识,根据上下文为给定的问题以自然语言生成答案。在本文中,我们提出了一种新的神经模型,即知识丰富的答案生成器(KEAG),它能够利用聚集来自所有四种信息源的证据来组成一个自然的答案:问题、文章、词汇和知识。在答案生成过程中,KEAG自适应地决定了什么时候使用符号知识以及知识中的哪些事实是有用的。这允许模型利用外部知识,这些知识在给定的文本中没有明确地陈述,但与生成答案相关。对回答生成公共基准的实验研究表明,相比无知识模型和现有的知识感知模型KEAG提高了回答质量,证实了KEAG在利用知识方面的有效性。
8、TILE: A Generative Approach to Question Answering
Author: Rajarshee Mitra
Paper: https://arxiv.org/pdf/1711.06238v2.pdf
Code: None
论文简述: 从选择答案、句子、关联问答到阅读和理解,问答已经走过了漫长的道路。我们将注意力转移到生成式问答(gQA)上,通过学习生成答案来帮助机器阅读文章和回答问题。我们将问题构造为一个生成任务,其中编码器是对问题和段落之间的关系进行建模并将其编码为向量的网络,从而有助于解码器直接形成抽象答案。不能保留事实和重复是常见的错误,会影响答案的整体可读性。为了解决这些问题,我们分别在模型中采用复制和覆盖向量的维护机制。我们在MS-MARCO上的结果证明了它比基线的优越性,并且我们也展示了在正确性和可读性方面得到改进的定性示例。