你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。
这是读芯术解读的第20篇论文
ACL 2017 Short Papers
使用特定语境词向量表示改进隐式篇章关系识别
Improving Implicit Discourse Relation Recognition with
Discourse-specific Word Embeddings
厦门大学
Xiamen University
【摘要】我们引入一种简单有效的方法来学习特定语境词向量表示(DSWE),用于隐式篇章关系识别。具体来说,DSWE是通过对大量显式篇章数据进行连接分类而获得的,并且能够捕获词之间的语境关系。在PDTB数据集上,使用DSWE作为特征可以显著改善基准实验效果。
1 引言
两句之间的篇章关系(例如对比Contrast、连接Conjunction)是话语结构分析的关键子任务。这些关系可以使许多下游的NLP任务受益匪浅,包括问答、机器翻译等。篇章关系实例通常被定义为一个连接词(例如,但是,和)和两个参数(例如,从句和句子)。对于明确的篇章关系识别,仅使用连接词作为特征,准确率达到93%以上(Pitler和Nenkova,2009)。隐含的篇章关系识别没有明显的线索,如连词,现如今仍然是一个挑战。
早期的研究通常采用语言知识特征,并利用监督学习方法来执行任务(Pitler等,2009; Lin et al., 2009; Louis et al., 2010; Rutherford and Xue,2014; Braud and Denis,2015)。在这些特征中,出现在论证中的单词对被认为是重要的特征,因为它们可以部分地捕捉两个论元之间的篇章关系。例如,像(good, great)的同义词对可能表示一个连接关系,而反义词对(如good, bad)可能意味着一个对比关系。然而,由于数据稀疏性问题,基于前人工作中单词对分类的方法已经不能正常工作了。为了解决这个问题,最近的研究使用单词向量表示(又称分布式表示)而不是单词作为输入特征,并设计了各种神经网络来捕捉论元间的篇章关系(Zhang et al., 2015; Ji and Eisenstein,2015; Qin et al 2016; Chen et al., 2016; Liu和Li,2016)。虽然这些研究取得了可观结果,但它们都是基于预先训练的词向量表示,忽略了语境信息(例如,good, great, bad往往被映射成近似向量)。因此,使用对篇章关系敏感的词向量表示将进一步提升系统性能。
在本文中,我们提出从显式数据中学习特定语境词向量表示(DSWE)来进隐式篇章关系识别的。我们的灵感来自于同义(反义)词对倾向于出现在语境连接词and (but)周围的现象。其他连词也可以提供一些语境线索。我们期望将这些语境线索编码成词的分布式表示,以捕获它们之间的篇章关系。为此,我们使用简单的神经网络对大量显式数据进行连接分类。显式数据可以被认为是用连词自动标注的。虽然它们不能直接用作隐式篇章关系识别的训练数据并包含一些噪声,但它们足够有效地用于训练弱监督下特定语境词向量表示。
我们将DSWE作为监督神经网络中的特征应用于隐式篇章关系识别。在PDTB(Prasad等人,2008)上,使用DSWE可以比使用现成的单词向量表示或包含显式数据的最新系统,产生更好的性能。我们在第2节详细介绍我们的方法,并在第3节进行评估。结论在第4节中给出。DSWE是公开的。
2特定语境词向量表示
在本节中,我们首先介绍用于学习特定语境词向量表示(DSWE)的神经网络模型,然后收集显式篇章数据进行训练。最后,强调了本文工作和相关研究之间的差异。
图1用于学习DSWE的神经网络模型。显式实例被表示为(arg1,arg2,conn)。表示arg1中的单词。两个论元连接为输入,隐藏层的数量不限于两个。
我们通过执行连接分类,基于显式数据来推导DSWE。连接分类任务是预测哪种话语连接适合于组合两个给定论元。它基本上类似于隐式关系识别,只是使用不同的输出标签。因此,隐含关系识别的任何现有神经网络模型都可以很容易地用于连接分类。我们使用(Wu et al., 2016)中的模型进行连接分类,因为它很简单,足以使我们能够对大量数据进行训练。如图1所示,首先将参数表示为其中单词分布式表示的平均值。在两个参数的并置中,然后使用多个非线性隐藏层来捕获它们之间的交互。最后,将softmax层堆叠进行分类。我们将交叉误差和正则化误差乘以系数λ作为目标函数。在训练期间,我们随机初始化所有单词的分布式表示,并调整它们以最小化目标函数。所有单词最终获得的分布式表示就是我们的特定语境的词向量表示。
收集显式篇章数据包括两个步骤:1)区分一个连接词是否反映了篇章关系。例如,连接词“and”可以作为一个篇章连接词来连接两个论元,或者只是用来链接短语中的两个名词。2)确定两个论元的位置。根据(Prasad等人,2008),arg2被定义为连接词后的参数,然而,arg1可以位于与连接词相同的之前或之后的句子中。Lin等人(2014)显示,区分连词的准确率超过97%,而认定论元比率低于80%。因此,我们使用现有的toolkit来查找篇章连接词,并且使用类似[arg1 because arg2]模式收集显式实例,其中两个论元在同一句中,以减少噪点。我们相信,当使用非常大的语料库时,这些简单的模式就足够了。请注意,在PDTB中有100个篇章连接词,为了简单起见,我们忽略四个并行连接词(例if...then)。收集显式数据的方式可以很容易地推广到其他语言,只需要训练一个分类器来查找篇章连接词(Lin et al., 2014)。
本文工作的一些方面类似于(Biran和McKeown,2013; Braud和Denis,2016)。基于大量的显式实例,他们首先建立一个连词共现频率矩阵,然后对这些原始频率进行加权。以这种方式,它们在连词空间中直接编码他们的语境功能进行词表示。他们的方法的主要限制是词表示的维度必须小于或等于连接词的数量。相比之下,我们通过预测参数上的连接条件来学习DSWE,从而产生更好的性能,并且没有这样的维度限制。一些研究人员通过多任务学习(Lan et al., 2013; Liu et al., 2016)或数据筛选(Rutherford and Xue,2015; Wu et al., 2016),使用显式数据作为额外的训练数据。
在这两种情况下,显式数据直接用于估计隐式关系分类器的参数。因此,由于噪音问题,他们难以整合大量的显式数据。相对地,我们通过从他们学习词向量表示来利用大量显式数据。
3 实验
3.1 数据和设置
我们从英语Gigaword Corpus(第3版)的Xin和Ltw收集显式数据,得到大约4.92M的显式实例。我们随机抽取20,000个实例作为开发集,其他实例作为DSWE的训练集。在丢弃少于5次的词后,词汇量的大小为185,048。对于连接分类任务,我们在开发集上获得约53%的精度。
我们将图1所描述的神经网络模型作为隐式篇章关系识别(CDRR)的分类器。具体来说,我们将一些基础特征与最后一个隐藏层连接起来,作为softmax层的输入来预测篇章关系。根据Peng等人提供的工具包,我们选择500种production rule(Lin et al., 2009)和500种 Brown Brown Pair(Rutherford and Xue,2014)(2005)。我们学习的DSWE被用作CDRR的预先训练的词向量表示,并在训练期间固定。
根据其相应的开发数据集选择训练DSWE和CDRR的超参数,如表1所示。
表1 用于训练DSWE和CDRR的超参数。 wdim表示词向量表示的维度,hsize表示隐藏层的大小,lr为学习率,λ为正则化系数,update为参数更新策略,f为非线性函数。 注意,[200,50]意味着CDRR分别使用两个尺寸分别为200和50的层。训练DSWE的学习率每次迭代衰减0.8倍。
根据Liu等人(2016)的方法,我们对PDTB:Temporal (Temp), Comparison (Comp), Contingency (Cont) and Expansion (Expa)中的四个顶级关系进行了四分类。 PDTB分为训练集(第2-20节),开发集(第0-1部分)和测试集(第21-22节)。表2列出了这些数据集的统计。由于测试数据集不均匀,我们采用不同的随机种子(因此不同的初始参数)分别运行10次我们的方法,并展示了最接近平均结果的运行结果。最后,我们使用精确度Accuracy和Macro F1(宏观F1)来评估我们的方法。
表2 PDTB数据集统计
3.2 结果
我们将本方法学习的特定语境词向量表示(DSWE)与两个公开可用的词向量表示进行比较:
表3 使用不同词向量的结果。我们还列出了每个关系的精确度、召回率和F1分数。
1)GloVe:使用基于计数的模型(Pennington等人,2014),使用维基百科2014和Gigaword 5共6B单词进行训练,词汇量为400K,维数为300。
2)word2vec:使用(Mikolov等人,2013)中的CBOW模型在Google新闻100B单词上进行训练,词汇量为3M,维度为300。
表3中的结果表明,使用DSWE获得显著改善(one-tailed t-test , p
我们还将我们的方法与三个最近的系统进行比较,这些系统也使用显式数据来提高性能:
1)R&X2015:Rutherford and Xue (2015) 根据所选择的连词构建显式数据的弱标注数据,直接扩大训练数据。
2)B&D2016:Braud和Denis(2016)学习基于连词的词表示,并基于它们构建逻辑回归模型。
3)Liu2016:Liu et al.(2016)使用一个多任务神经网络来合并几个语境相关的数据,包括显式数据和RSTDT语料库(William和Thompson,1988)。
表4 与近期系统的比较
表4中的结果显示了我们的方法的优越性。虽然Liu2016在Macro F1上表现稍好一点,但是它使用附加标签的RST-DT语料库。对于R&X2015和Liu2016,由于噪声问题,它们分别包含相对较小的显式数据,例如分别为20,000和40,000个实例。相比之下,我们的方法受益于大约4.9M的显式实例。虽然B&D2016使用大量的显式数据,但是由于词向量表示的最大维度限于连接词的数量,例如在其工作中是96,这是受到限制的。总的来说,我们的方法可以有效地利用大量显式数据,因此比基准方法更强大。
表5 在word2vec和DSWE中前15个最接近not和good的单词。
为了推断什么信息被编码到DSWE中,根据余弦相似性,我们在表5中列出了前15个最接近的not和good的单词。我们可以发现,在DSWE中,与not相似的单词在某种程度上具有负面意义。而且由于decline与not相似,分类器可能很容易识别隐含的实例[A network spokesman would not comment. ABC Sports officials declined to be inter- viewed. ]为连接关系。对于DSWE的good,类似的词不再包括像bad这样的词。此外,good与great之间的相似得分为0.54,而good与bad之间的得分仅为0.33,这可能使分类器更容易区分单词对(good, great)和(good, bad),因此有助于预测连接关系。这种定性分析表明我们的DSWE能够捕捉单词之间的篇章关系。
最后,我们进行实验来调查用于训练DSWE的连接词对我们结果的影响。具体来说,我们使用前10、20、30、60个最常见或全部连接词的显式篇章实例来学习DSWE,分别占总数的78.9%、91.9%、95.8%、99.4%或100%。前10个最常见的连接词是:and, but, also, while, as, when, after, if, however和because,覆盖了PDTB中定义的所有四个顶级关系。如图2所示,在只有前10个连接词的情况下,学习到的DSWE就能实现比普通词向量表示方法更好的性能。我们同时也观察到了使用前20个连接词时的显著改进,前30个连词时几乎是最佳性能,并且在继续增加连接词时没有进一步的实质性改进。这些结果表明,我们只能使用前n个最常见的连词来收集显式篇章数据进行DSWE生成,这对大多数语言来说都是非常方便的。
图2 连接词数量对训练DSWE的影响
4 结论
在本文中,我们从隐式篇章关系识别的大量显式数据中学习特定语境的词向量表示。在PDTB上的实验表明,使用学习到的词向量表示作为特征可以显著提高性能。同时还表明,本文方法可以比以前的工作更有效地使用显式数据。由于隐式篇章关系识别的大多数神经网络模型使用预训练的词向量表示作为输入,我们希望通过本文方法学习到的词向量表示可以对他们提供一定帮助。
论文下载链接:
http://www.aclweb.org/anthology/P/P17/P17-2042.pdf
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
领取专属 10元无门槛券
私享最新 技术干货