你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
这是读芯术解读的第92篇论文
ACL 2018 Long Papers
分布式关系向量的无监督学习方法
Unsupervised Learning of Distributional Relation Vectors
肯特大学
University of Kent
本文是英国肯特大学发表于 ACL 2018 的工作,文章提出了一种从共现统计中直接学习关系向量的新方法。为此,我们首先介绍GloVe的一个变体,其中词向量和PMI加权共现向量之间存在明确的联系。然后,我们展示了如何将关系向量自然嵌入到所得到的向量空间。
1 引言
词嵌入是词义的向量空间表示。这些模型的一个显著特性是,它们捕获了各种词汇关系,而不仅仅是相似性。例如,针对“a is to b what c is to ?”的类比问题,通常可以通过找到使cos(wb – wa + wc , wd) 最大的单词d来回答”,其中我们编写wx来表示单词x。
然而,将研究成果转化为一个成功的产品是具备一定挑战的。一般的,技术转移往往被认为是从纯研究到应用研究再到商业化的一个线性转变过程(Stokes,1997)。这种模式假定,研究人员的发现自然的会被工程师和业内人士所利用,进而来开发新的产品。实际上,研究成果向商业产品的转化是相当更复杂且没有保障的。事实上,许多研究项目都未能成功地将他们的研究成果转化为商业产品。
直观地说,词向量wa代表a最突出的特征。例如,wparis隐式地编码巴黎位于法国,并且它是一个首都城市,这直观地解释了为什么可以用向量差来建模“首都”关系。然而,其他关系,比如Macron接替Hollande出任法国总统,不太可能被词嵌入所俘获。关系提取方法可以通过分析包含两个相关单词或实体的句子来发现这种信息,但是它们通常需要大量的训练样本才能有效。
在本文中,我们提出了一种直接从共现统计中学习关系向量的方法。我们首先介绍GloVe的变体,其中词向量可以直接解释为平滑的PMI加权的词袋表示。然后,我们对三个参数使用PMI,将单词之间的关系表示为加权词袋表示,并学习对应于这些表示的平滑向量。
就本方法的可能应用而言,我们认为,关系向量可以用各种方式丰富神经网络模型的输入。作为一个简单的例子,在问答系统中,我们可以用关系向量“注释”实体,编码实体与问题中不同单词的关系。举另一个例子,我们可以考虑一个推荐系统,它利用向量来表示顾客已经购买(或浏览)的物品与目录中的其他物品之间的关系。最后,关系向量对于知识补全问题也应该是有用的,特别是在每个关系类型给出的训练示例很少(意味着不能使用神经网络模型)并且不能从已经可用的知识预测关系的情况下(意味着现有的知识图谱嵌入图方法不能被使用,或者至少是不够的)。
2 模型
关系嵌入方法是基于GloVe词嵌入模型的变体。这种变体的一个关键优点是,它允许我们根据点互信息(PMI)直接编码词向量,这对于我们学习关系向量是至关重要的。
GloVe模型变体
GloVe模型根据共现计数矩阵学习词汇表中每个单词i的向量wi,对给定窗口中两个单词出现的频率进行编码。在本文中,我们使用GloVe的以下变体:
尽管具备一定的相似性,但这个公式在许多方面上不同于GloVe模型。首先,我们使用平滑的频率计数代替观察到的频率计数X。特别地,单词i和j之间的PMI给出如下:
其中,概率通过以下方式计算:
其中,是一个控制平滑量的参数,n是词汇量的大小。这确保了即使在xij=0的情况下,PMI(i,j)估计的定义也是良好的,这意味着我们不再需要将内部求和限制为xij>0的那些j。出于效率的原因,在实践中,我们只考虑所有上下文单词j的一个小子集,对于该子集,xij=0,这类似于在Skip-gram中使用负采样。特别地,集合Ji包含每个j,使得xij>0,同时对于xij=0, M均匀采样上下文单词j,其中我们选择M=2·||。
然后,根据2016年Jameel和Schockaert的工作,加权公式已经被替换,是上下文词j的回归问题的残差方差,按如下方式进行估计:
因为我们需要词向量去估计这个残差方差,我们在5轮SGD优化以后再次估计。在前5轮迭代中没有估计可用,因此我使用GloVe加权公式。
词向量和PMI
我们按照如下方式定义PMIw :
特别的,当词向量根据我们按照本文提出的方式进行训练时,。换句话说,我们可以把词向量wi看成是向量的低维编码,n是词汇表中词的总数。对于一个个顶上下文词j,
换句话说,向量转换wi-wk为每个上下文单词j编码在i上下文和k上下文中看到j的概率的(log)比率,这与GloVe模型的原始动机一致。
现在我们来学习编码源词i和目标词k相关性的向量rik。主要的基本思想是,rik将捕获哪些上下文词j与单词对(i, k)最紧密相关。而GloVe模型是基于关于(核心词、上下文词)对的统计数据的,这里我们需要关于(源词、上下文词、目标词)三元组的统计数据。首先,我们讨论如何使用对三个参数的PMI来表达三个单词之间的共现统计,然后我们解释这些是如何用来学习关系向量的。
三元组共现频次统计
使作为关于词i的lth 个句子的位置集合,我们定义为:
当p
为了建模上下词语j与单词对(i,k)之间的关联度,我们认为以下两个著名的三个参数的PMI公式:
当在一个W大小的窗口下随机选择一个句子和三个词位置时,是三元组的概率。此外本文还提供了以下两种公式:
注意指的是(i,k)和j的PMI,是当j出现时i和k的PMI。因此,很容易得出以下结果:
使用的平滑版本,我们可以对使用以下概率估计:
其中,。考虑效率因素,对所有的单词对,计数首先被计算出,由于共现单元的稀疏性,这些数字很容易被计算出(对于大多数词对,这些计算很可能为0)。从这些计算中,我们可以很容易的预计算。另一方面,不能被预先计算出来,因为在一个典型的语料中,三元组的总数非常大。然而,使用倒排索引,我们可以有效地检索包含单词i和k的句子,并且由于这个句子的数量通常很小,因此只要需要,我们就可以有效地获得对应于给定对(i,k)的计数。
关系向量学习
我们的目标是学习一个向量rik,该向量rik对i和k之间的关系进行建模。考虑到三元组(i,j,k)的数量,为每对单词(至少同时出现一次)计算这样的向量是不可行的。取而代之的是,我们通过优化本文提出的GloVe变体首先学习一个词嵌入。然后,固定上下文向量w j和偏置项bj,通过求解以下目标来学习给定对(i,k)的向量表示:
3 实验
实验中,我们使用了从2015年11月2日起的维基百科仓库,它由1,335,766,618个tokens组成。我们已经删除了标点符号和HTML / XML标签,并且将所有的tokens变为小写。从语料库中删除出现少于10次的单词。为了检测句子边界,我们使用了Apache语句分割工具。在我们的所有实验中,我们已经将维度的数目设置为300。我们使用10字的上下文窗口大小W。SGD的迭代次数设置为50次。对于我们的模型,我们从选定值来调整平滑参数α。我们注意到,在大多数情况下,α的值被自动选择为0.00001。为了有效地计算三元组,我们使用了Zettair检索引擎。
作为本文的基线模型,我们使用三种流行的无监督方法来构造关系向量。Diff使用向量差,CONC使用级联,AVG对象量进行平均化。实验结果如下表所示,采用准确性和(宏观平均)精度、召回率和F1评分,我们的模型在两个数据集上都表现出优于基线的效果。
为了分析我们提出的word embedding变体的好处,下表显示了使用标准字嵌入模型时所得到的结果。特别地,我们展示了标准GloVe模型、SkipGram和连续词袋(CBOW)模型的结果。我们的变体比原来的GloVe模型和基线都表现出更好的效果。
类似GloVe模型,我们的模型中上下文词的加权策略是跟他们离最近目标词的距离。下表显示了我们模型的结果。
不同参数与方法的准确-召回率折线图如下所示。
4 结论
本文提出了一种无监督方法,它使用共现统计量来表示给定词对之间的关系。与用于关系提取的神经网络模型相比,本文提出的模型以无监督的方式学习关系向量,这意味着它可以用于测量关系相似性和相关任务。此外,即使在(远程)监督任务中,已经证明了我们的模型比最新的神经网络模型更具竞争力。与依赖平均词向量的方法相比,本文提出的方法能够通过关注与特定关系最密切的词来学习更可靠的词表示。
领取专属 10元无门槛券
私享最新 技术干货