你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。
这是读芯术解读的第40篇论文
AAAI 2017 Doctoral Consortium
网络事件提取中结构和文本特征的联合学习
Joint Learning of Structural and Textual Features for Web Scale Event Extraction
牛津大学
University of Oxford
【简介】网络已经成为活动组织、传播以及各种门票销售的主要平台。这些活动包括音乐会、研讨会、体育赛事、专业活动以及小型本地活动。个人的活动选择因偏好和生活方式而异。在线用户使用网络通知他们附近位置的新事件,并可能使用该网站购买门票或进行预约。从网络提取事件是信息提取中一种尤为困难的类型,它从源语言数据中检测事件的特定类型及其属性。传统的事件提取研究主要集中在从文本中提取政治、文化或其他基本的主题。这样的文本通常是社论新闻,例如(Kuzey,Vreeken和Weikum 2014),或者最新的来自诸如Twitter等社交媒体,如(Ritter,Etzioni和Clark 2012)。然而,本文涵盖了以表格、列表形式表示的事件,或者单个页面中的关键部分。本论文着重于“单一事件页面”的发现和提取。
这项研究的灵感来自于一系列从网络提取特定文档类型的工作。例如,(Wang等,2009)提出了一种从非常小的训练语料库中提取新闻文章及其基本属性的学习方法。虽然受到这项工作的启发,但这里介绍的方法在所用的范围和技术上差别很大。在研究范围上,我的目标是事件,它比上述工作中的文档类型具有更多的属性,并且属性可能出现在模板结构(如Wang等,2009)或事件描述中。此外,我的方法采用半监督方法来获取训练数据,能够平衡越复杂的领域需要越多训练数据的问题。
1问题陈述和解决方案
事件发现和提取的问题是多方面的:事件及其属性被隐藏在事件聚合器的深处且遍布网络,因此很难找到。每个网站可能需要不同的访问模式来获取单个事件的页面(“单一事件页面”)描述。在给定的单个事件页面内,事件属性必须在页面模板的结构内以及事件描述中定位。
这样的单个事件页面通常被分为文本事件描述和一组核心事件属性,例如题目、地点或时间,这些属性在特定源的所有事件的相同模板中被突出显示和呈现。在这项工作中,我的目标是学习从事件描述和模板中提取事件属性的联合模型。
单个事件页面的发现需要实现与网站的自动交互,例如表格填写,以获得网站中相关事件。不同的活动网站被组织者用来出售门票,个人用户转售门票,并且通常宣传关于事件的相关信息。然而,不仅有大型的活动网站,如Ticketweb.com,Eventbrite.com和Ticketmaster,还有一系列小型活动网站,主办小型的和本地的活动。因此,除了提取事件属性外,我还研究事件源和事件源中单个事件页面的自动发现。通过将所有三个问题作为一个整体系统来考虑,我可以利用每个子问题导出的模型来进行相互加强。
为了解决这个问题,我设计了一个联合学习模型的框架,以最小的监督从单个事件页面中提取结构和文本事件属性。不幸的是,这个过程的标签训练数据是很难得到的且创建的代价高。因此,该框架辅之以半监督过程,以降低获取标签示例页面的成本。该过程是一种bootstrapping方法,它使用每个事件属性的种子值来注释结构事件属性,通过利用无监督模板发现技术(Crescenzi,Mecca和Merialdo 2001)来消除噪音。
2事件页面发现
事件页面发现阶段包括查找事件的相关网站(“来源”)以及在这些网站内查找单个事件页面。在这一步中将多种方法结合起来,以尽量减少监督。
首先,通过结合相关的知识库以及为一小部分具有代表性的数据源手动创建爬虫,构建事件和事件属性实例的种子集合。这些爬虫是使用OXPath创建的(Furche等,2013),在XPath上扩展了表格填写动作、迭代和数据提取的标记。在第二个扩展步骤中,通过在Common Crawl(基于Microdata注释和从种子数据派生的注释爬取的网页数据)中识别单个事件页面来自动扩展该种子数据集。事件发现阶段的初始运行产生了来自OXPath Crawl的超过800k单个事件页面的数据集,以及来自Common Crawl的大约2M页面。
图1 整体架构
3网页注释
接下来为单个事件页面的发现,本项目的注释阶段采用了两种不同的技术。首先,使用Schema.org等Microdata在页面的模板结构中查找相关的事件属性。这些注释是由事件源的所有者,包括事件特定的属性和类型,例如事件的标题、位置、开始时间和发生地点,这些属性可以用来自种子数据集的信息进一步验证。对于Microdata不可用的情况,我使用种子数据通过GATE(Cunningham等,2002)NER框架对网站进行注释。如果这些注释通过了严格的约束条件,例如整个HTML节点被注释并且没有冲突的注释,则这些注释被验证且接受。如果他们没有通过验证,如果有必要的话,我打算使用有限的监督来增加训练数据集。注释过程结合了许多不同的自然语言处理(NLP)工具,如NER、启发式规则和地名词典,类似于(Furche 等,2012)的注释层。
由于机器学习模型同时学习结构和文本特征,所以这两种特征都需要注释。在Microdata的情况下,网站上的位置给出,因此给出了节点的结构指示。在Microdata不可用且单个事件页面上的属性已被OXPath提取的情况下,OXPath表达式和该节点内的跨度可用于注释文本。
4特征工程和机器学习
上述注释组成训练和评估语料库的一部分,并被用作机器学习算法训练阶段的输入。这也意味着注释特征模型的特征必须随着时间的推移而调整来微调算法。
确切的特征模型仍在修改之中,但初步测试显示了文本和结构特征结合使用的潜力。此外,这些测试建议分类或结构预测方法的组合作为第一步。机器学习阶段的输出是支持三种不同类别分类器的分类模型:确定页面模板的页面级分类器,确定给定站点内属性位置的节点级分类器,以及一个文本级分类器,它决定了节点文本的哪一部分包含我们所寻找的事件信息。
5 分类和提取
在训练的机器学习模型应用的初始阶段,将每个模板不可见的网页进行聚类。这允许按照每个模板聚类以站点式迭代方式来应用节点级和文本分类器。系统的输出是提取的事件,其属性在事件数据库中进行进一步处理。
6结论
这项事件发现和从单个实体页面提取的工作有助于模板独立的网页数据提取的整体工作。未来的工作旨在通过将其应用于其他领域(例如产品页面)来证明这种端到端方法的可行性,因为最初的指标表明该框架可以相对容易地应用于其他领域。
论文下载链接:
https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14520/14016
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
领取专属 10元无门槛券
私享最新 技术干货