机器之心专栏
机器之心编辑部
近日,哈工大深圳 HLT 研究组刷新了 Allen AI 平台的常识推理问答 ProtoQA 任务榜单,该技术方案两次登顶 Leadboards 第一名。ProtoQA 榜单由 UMass Amherst 提出,目标是测试人工智能系统的常识推理能力 [1]。
常识是人工智能研究的重要内容,机器常识或机器对开放世界的理解和推理能力一直被认为是人工智能和自然语言理解的重要组成部分。常识问答则是机器推理上的一个重要的应用方向,目的是帮助计算机通过已有的知识推理判断未见过的输入信息,从而使计算机更自然地理解人们的表达。
长时间以来,许多研究始终致力于推进这一领域的发展,特别是近年来采用预训练语言模型、知识图谱、提示学习等新技术的方法得到广泛研究。尽管一些模型在选择式的常识问答数据集上(如CommonsenseQA [2])超过人类水平,但是在没有预先给定选项的场景下,如何基于常识和背景知识进行生成式的推理以获得答案仍旧是一个巨大的挑战。
ProtoQA 新挑战:更难的任务、更开放的问题、更贴近真实场景
ProtoQA 是开放场景下基于常识推理的生成式问答基准数据集。例如说出人们在离开家上班之前通常会做的事情 (Name something that people usually do before they leave for work?)(图 1)
图 1:ProtoQA 数据集示例 [1]
相较于众多的单选题式常识问答数据集,ProtoQA 的难点在于:1)该数据集没有提供候选答案选项,需要模型自行生成答案;2)每个问题可以有多个合乎常识的答案,但是越典型(普遍)的答案得分越高。
因此,需要模型评估和生成更典型的答案。计分有两种模式(下图 2),Max Answers @ k:限定总回答数量的最大得分,和 Max Incorrect @ k:限定回答错误答案数量的最大得分。
图 2:ProtoQA 计分规则 [1]
该基准数据集由 University of Massachusetts, Amherst 的研究者们在 2020 年提出,设计并提出的目标是测试人工智能系统对常识问题生成有效答案的能力。它是 Machine Common Sense (MCS) DARPA 项目的一部分,由 AI2 托管。训练集是从一个长期运营的国际游戏节目 FAMILY-FEUD 中现有问题集中收集的约 9k 个问答,隐藏评估集的答案则是通过收集 100 名人工回答创建的,共 102 个问答。
ProtoQA 榜单
哈工大深圳 HLT 研究组于 2022 年 8 月 24 日获得 AI2 Leaderboards 中 ProtoQA 榜首。而后另一模型再次刷新榜首的记录。目前霸榜前两名。榜上第三和第六名分别被匿名团队和 Team Cosmic 获得。此外,还有 CMU/Bosch/USC,UMass Amherst,MOWGLI / USC INK Lab,USC LUKA,MOWGLI / USC LUKA,MOWGLI / Stanford 等团队参加(以上为非匿名团队)。
领取专属 10元无门槛券
私享最新 技术干货