Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction with Dynamic TransitionMatrix[C]// Meeting of the Association for Computational Linguistics.2017:430-439.
链接:http://www.aclweb.org/anthology/P/P17/P17-1040.pdf
1. 动机
Distant supervision 是一种生成关系抽取训练集的常用方法。它把现有知识库中的三元组 作为种子,匹配同时含有 e1 和 e2 的文本,得到的文本用作关系 r 的标注数据。这样可以省去大量人工标记的工作。
但是这种匹配方式会产生很多噪音:比如三元组 ,可能对齐到『Donald Trump was born in New York』,也可能对齐到『DonaldTrump worked in New York』。其中前一句是我们想要的标注数据,后一句则是噪音数据(并不表示born-in)。如何去除这些噪音数据,是一个重要的研究课题。
2. 前人工作
1、通过定义规则过滤掉一些噪音数据,缺点是依赖人工定义,并且被关系种类所限制。
2、Multi-instancelearning,把训练语句分包学习,包内取平均值,或者用 attention 加权,可以中和掉包内的噪音数据。缺点是受限于 at-least-one-assumption:每个包内至少有一个正确的数据。
可以看出前人主要思路是『去噪』,即降低噪声数据的印象。这篇文章提出用一个噪音矩阵来拟合噪音的分布,即给噪音建模,从而达到拟合真实分布的目的。
3.模型
1、2是普通的关系抽取模型过程,3、4是噪音拟合的过程。
transition matrix 是一个转移矩阵,大小为n * n,n是关系种类的数目。T_ij 的元素的值是 p( j i ),即该句子代表关系为 i,但被误判为j的概率。
这样我们就可以得到:
领取专属 10元无门槛券
私享最新 技术干货