支持搜索引擎的信息检索模型如果使用机器学习进行训练,则需要大量手动注释数据。这是因为他们不仅要处理一系列查询,还要处理与这些查询相关的所有数据。
亚马逊Alexa部门的科学家详细介绍了一种方法“Content-Based Weak Supervision for Ad-Hoc Re-Ranking”,可以为需要较少人工监督的模型铺平道路。这些可能会将训练数据集的大小从数万个条目增加到数百万个条目,从而产生性能更好的系统。
正如团队解释的那样,基于AI的检索算法通常在查询和两个文档上进行训练:满足用户搜索信息的相关文档,以及相似但不相关的文档。文档由人类手动标记为相关或不相关,并且在训练期间,AI系统学习最大化它们分配给处理样本的相关性分数之间的差异。
相比之下,研究人员的方法利用了这样一个事实,即大部分信息检索训练数据、新闻文章和维基百科条目已经与它们所介绍的文章和章节中的相关文本相关联。换句话说,他们假设标题和标题可以代替搜索字符串用于训练目的。
该团队首先从纽约时报的在线存储库和维基百科中收集了数百万对文档标题对。从每对中,他们使用查询和相关文本(以及与查询相关但与相关文本相关性较低的文本)来训练机器学习模型。
然后,他们从AOL挖掘了一个由客户查询和搜索结果组成的语料库,以建立基线,并应用一种算法为每个查询识别相关和非相关文本。最后,他们用一组大约25000个手工注释的样本,以及从测试数据中通过算法选择的样本补充了AOL的数据集。
为了证明方法的有效性,该团队分别在四个测试集——纽约时报,维基百科,AOL和手工注释集中分别训练AI系统,并使用一种名为标准化折现累积增益(nDCG)的指标,对每种方法前20个结果的累积相关性进行评分。
在基线上,AOL数据集和名为位置感知卷积循环相关网络(PACRR)的AI架构的组合得到了最好的结果。在同一系统上,纽约时报的数据集使nDCG增加了12%。当系统针对难以与给定新目标域中的数据区分的例子进行训练时,分数提高了35%。
团队表示,“通过使用该方法,可以在没有行为数据和有限的域内数据的情况下,在新的域上有效地训练神经排序模型。”
论文:
arxiv.org/pdf/1707.00189.pdf
End