首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于表格和文本证据的自动事实核查技术

基于表格和文本证据的自动事实核查技术

原创
作者头像
用户11764306
发布2025-10-23 18:18:05
发布2025-10-23 18:18:05
970
举报

自动事实核查:基于表格和文本证据的方法

在事实提取与验证研讨会(FEVER)上,我们将宣布FEVER系列第三届事实核查挑战赛的获胜者。这项挑战延续了2018年的FEVER共享任务和2019年的FEVER 2.0构建-破坏-修复竞赛。此次宣布标志着一整年工作的圆满结束,从最新数据集FEVEROUS(基于非结构化和结构化信息的事实提取与验证)的设计开始。

FEVEROUS数据集发布

FEVEROUS数据集和共享任务于2021年5月发布。随着误导性和虚假声明的激增,特别是在网络环境中,人们对全自动或辅助事实核查系统的兴趣日益增长。除了核查可能不可靠的声明外,自动事实核查还是知识提取和问答的宝贵工具。找到支持或反驳潜在答案的证据能力将使我们对其提供的答案更有信心,同时也允许我们在后续对话中提供这些证据。

FEVEROUS数据集包含87,026个手工构建的事实声明,每个声明都用来自维基百科页面的句子和/或表格单元格形式的证据进行标注。基于这些证据,每个声明被标记为"支持"、"反驳"或"信息不足"。该数据集标注项目由某中心资助,由FEVER团队设计。

数据集特点与技术挑战

FEVEROUS包含比原始FEVER数据集更复杂的声明(平均每个声明25.3个词,而FEVER为9.4个词),同时提供更完整的证据池(整个页面,包括表格,而不仅仅是介绍部分)。这使我们更接近现实世界场景,同时保持人工设计数据集的实验控制。

虽然与之前FEVER数据集最大的变化是使用结构化信息作为证据,但我们也致力于提高标注质量并消除已知偏差。例如,在原始数据集中,仅基于声明的基线系统(不考虑证据就对声明进行分类的系统)能够获得约62%的准确率,而多数类基线(选择最频繁标签)为33%。这意味着声明基于其包含的词语"泄露"了其标签。相比之下,FEVEROUS上仅基于声明的基线为58%,而多数类基线为56%。

基线方法

与之前两个共享任务一样,我们发布了FEVEROUS的基线方法,以支持研究人员设计事实核查系统并评估任务的可行性。

该基线使用实体匹配和TF-IDF的组合来提取最相关的句子和表格以检索证据,然后通过细胞提取模型从表格中返回相关单元格,该模型通过线性化表格并将提取视为序列标注任务来处理。最后,使用在NLI数据集上预训练并在FEVEROUS训练数据上微调的RoBERTa分类器来预测每个声明的最终标签。

共享任务结果

我们在今年5月发布了数据集并启动了共享任务。在7月下旬,我们开启了共享任务的最终测试阶段,参与者在盲测集上发送预测。

在最终测试阶段,我们收到了13个参赛作品,其中6个能够击败基线系统。获胜团队实现了27%的FEVEROUS分数(比基线提高9%)。提交作品中出现的主要趋势是使用基于表格的预训练系统(如TaPas)和强调多跳证据检索。

技术发展趋势

参与系统的主要趋势包括使用基于表格的预训练系统(如TaPas)以及强调多跳证据检索。为进一步了解参与系统的见解并了解更多关于挑战的信息,我们邀请您参加第四届FEVER研讨会的共享任务环节。除了讨论FEVEROUS挑战外,我们的研讨会还将展示与事实核查相关的所有主题的研究论文,并邀请该领域领先研究人员进行特邀演讲。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 自动事实核查:基于表格和文本证据的方法
    • FEVEROUS数据集发布
    • 数据集特点与技术挑战
    • 基线方法
    • 共享任务结果
    • 技术发展趋势
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档