Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于树的端到端稠密检索模型

基于树的端到端稠密检索模型

作者头像
圆圆的算法笔记
发布于 2023-08-17 00:50:03
发布于 2023-08-17 00:50:03
4420
举报

今天介绍的这篇文章由清华大学和华为联合发表,核心是提升向量检索的效果,在树检索的基础上,实现了索引构建和表示学习的端到端联合建模,提升了树检索的一致性。

论文标题:Constructing Tree-based Index for Efficient and Effective Dense Retrieval

下载地址:https://arxiv.org/pdf/2304.11943.pdf

机构:清华 & 华为

1、树检索

树检索是提升稠密向量检索效率的一种常用方法。在信息检索中,dense retrieval对于提升第一阶段检索效果有很大好处。Dense retrieval将query和document分别编码成向量,可以使用TwinBERT等类似的双塔模型拟合rank loss,得到query和document的向量。然后对于一个query向量,计算其和所有document向量的打分,选择topN的document作为第一阶段的检索结果。

然而,这种方式的计算开销很大,全库进行检索显然是不现实的。树检索就是为了提升这类dense retrieval而提出的一类算法。它的核心思路是,将所有document通过某种方式(如层次聚类)形成树结构,树中每个节点对应一个向量,代表以这个节点为根节点的子树。对于一个query向量,在树中做层次检索,每层只选打分topK的节点,进入到下一层匹配,下一层匹配只和上一层topK的节点的子节点进行匹配,按照这个逻辑递归进行(也即Beam Search,基于贪心的策略,每层只保留最相关的几个节点,逐层检索)。通过这种方式,可以显著降低检索空间,让dense retrieval在第一阶段的应用成为可能。

2、现有树检索的问题

现有的树检索模型,一般采用两阶段的方式:第一阶段训练query-document的双塔模型,拿到query和document的向量;第二阶段基于第一阶段训练好的向量,通过聚类算法构建层次树。整个过程如下图所示。

这种方式的弊端在于,两阶段的方式导致二者优化目标不一致,得到的并不是最优解。为了解决这个问题,本文提出了一种端到端的稠密向量学习+树索引构造的学习方式,实现了更高效的树稠密检索架构。

3、端到端训练

本文将Encoder训练和树学习融合到一起学习,新的流程如下图所示。由于cluster assignment是不可导的,优化比较困难,因此文中仍然使用Kmeans来做初始的聚类簇划分,重点将各个聚类节点的embedding通过对比学习的方式进行优化。

具体来说,文中首先利用原来的方法进行初始的聚类簇划分,然后使用对比学习优化每个cluster的embedding。对于一对query和document正样本,在树中采样它的正样本cluster节点和负样本cluster节点,然后做query和正负cluster节点的对比学习,以此优化cluster embedding,让cluster embedding能更好的进行beam search,尽量避免出现相关document在上层节点分支就被过滤掉的问题。构造正负样本的示意图如下。

4、带overlap的cluster

基于kmeans的聚类方法生成的树,每个document只会在一个叶子结点里。但是一个document可能对应不同的语义,对应不同的类别,这样的划分方法可能导致高质量document无法召回。因此,本文对cluster assignment也进行了优化,让一个document可以出现在多个叶子结点中。

核心做法如下图所示,利用query与叶子节点、document的关系矩阵进行融合,来实现overlap assignment。基于query-document的相关性矩阵,以及query-leaf node的assignment矩阵,可以获取到query与document、leaf node的相关关系。将这两个矩阵相乘,得到每个document属于每个lead node的关系,基于这个关系矩阵进行冗余document的挂载。其原理为,如果q1和l1、l2相关,且q1和d2、d4也相关,那么d2、d4都应该出现在l1、l2对应的叶子节点中,以提升树构建和相关性label的一致性。

5、实验结果

整体实验结果如下表所示,JTR方法带来了比较显著的效果提升。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 圆圆的算法笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
WWW 2022 | 信息检索方向值得一读的3篇论文详解
今天给大家介绍3篇WWW 2022检索方向3篇值得一读的文章。第一篇文章是北邮和微软联合提出的利用对比学习、可导量化对多阶段向量化检索的优化。第二篇文章是理海大学提出的StructBERT,用于进行结构化表格数据的检索。第三篇文章是首尔大学提出的基于prompt的query-document向量化召回模型。
圆圆的算法笔记
2022/09/22
5840
WWW 2022 | 信息检索方向值得一读的3篇论文详解
全方位解读 | Facebook的搜索是怎么做的?
今天要和大家分享的论文是来自Facebook的『Embedding based Retrieval in Facebook Search』。
NewBeeNLP
2020/10/21
1.8K0
WWW'23|递进式知识蒸馏提升检索模型效果
今天介绍的这篇文章是WWW 2023中微软发表的一篇工作,应用场景是检索,主要提出了一种新的蒸馏学习方法,用来实现将复杂的student模型的知识,蒸馏到简单的双塔dense检索模型上。核心提出的优化点是模型层面的aggressive蒸馏,以及数据层面的aggressive蒸馏。这里的aggressive,指的是teacher模型的复杂度逐渐提升,或者样本的预测难度逐渐增加。下面为大家详细介绍下这篇工作。
圆圆的算法笔记
2023/08/17
3660
WWW'23|递进式知识蒸馏提升检索模型效果
论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧
欢迎来到「澜舟NLP论文领读」专栏!快乐研究,当然从研读 paper 开始——澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘、交流 NLP「黑科技」,踩在「巨人」肩上触碰星辰!
澜舟科技
2022/06/13
8112
论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧
阿里妈妈深度树检索技术(TDM)及应用框架的探索实践
导读:阿里妈妈是阿里巴巴集团旗下数字营销的大中台,2018年广告营收超过1500亿,近乎占据中国广告市场收入的半壁江山。如何驱动这艘商业航母不断前行,阿里妈妈技术团队始终坚持技术创新驱动业务增长的战略,而 TDM 正是在这一战略指导下,由阿里妈妈精准定向广告算法团队自主研究、设计、应用从而创造巨大商业价值的创新算法典型代表。
石晓文
2019/08/19
3.3K0
阿里妈妈深度树检索技术(TDM)及应用框架的探索实践
【CTR】DR:字节深度检索召回模型
本文介绍的内容为字节跳动 2020 年的工作——《Deep Retrieval: An End-to-End Learnable Structure Model for Large-Scale Recommendations》,一个用于大规模召回的端到端模型。
阿泽 Crz
2020/09/28
3.1K0
综述!信息检索中的花式预训练
目前信息检索(Information Retrieval)几乎都是使用深度学习系列的方法,即NeuIR(neural information retrieval)。而随着预训练在深度学习领域的大放光芒,信息检索中也出现了各种预训练策略。这篇文章博主将整理来自清华大学与中科院的信息检索综述,先上路径。
NewBeeNLP
2022/04/14
1.7K0
综述!信息检索中的花式预训练
总结!语义信息检索中的预训练模型
本文对预训练模型在召回(retrieval), 排序(re-ranking),以及其他部分的应用做一个总结,参考学长们的综述:Pre-training Methods in Information Retrieval[1]
NewBeeNLP
2022/11/11
2K0
总结!语义信息检索中的预训练模型
字节最新复杂召回模型,提出深度检索DR框架解决超大规模推荐系统中的匹配问题
导读:今天分享一下ByteDance最新公开的一篇关于复杂深度召回模型的论文“深度检索”,使用EM算法学习图路径模型,取得了与暴力算法相当的效果,推荐工业界实战干货论文,值得细读。
石晓文
2020/09/15
2.8K0
COIL:结合稠密检索和词汇匹配的更高效检索模型
今天分享来自 NAACL 2021的一篇文章,一种基于上下文倒排索引的信息检索模型:「COIL(COntextualized Inverted List)」。
NewBeeNLP
2022/01/19
1.7K0
COIL:结合稠密检索和词汇匹配的更高效检索模型
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索是搜索、推荐、广告等领域的关键性技术;面向稠密检索的预训练是业界高度重视的研究课题。近期,华为泊松实验室联合北京邮电大学、华为昇思 MindSpore 团队提出“基于掩码自编码器的检索预训练语言模型 RetroMAE”,大幅刷新稠密检索领域的多项重要基准。而其预训练任务的简洁性与有效性,也为下一步技术的发展开辟了全新的思路。该工作已录用于自然语言处理领域顶级学术会议 EMNLP 2022。基于昇思开源学习框架的模型与源代码已向社区开放。
机器之心
2022/12/16
8130
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
总结!语义信息检索中的预训练模型(下)
上一篇中,我们介绍了预训练模型在建立倒排索引中的应用:总结!语义信息检索中的预训练模型
NewBeeNLP
2022/11/11
2.2K0
总结!语义信息检索中的预训练模型(下)
基于内容的图像检索技术:从特征到检索
构建词库是离线操作,主要对目标数据集中的文本进行解析提取词干信息,建立当前数据集的词库,然后基于词库,对数据集中所有文档提取本文特征。构建词库在整个检索系统生命周期开始阶段实施,一般情况仅执行一次,是针对目标检索文本数据集进行的非频繁性操作。
公众号机器学习与AI生成创作
2020/12/08
2K0
基于内容的图像检索技术:从特征到检索
京东广告研发——效率为王:广告统一检索平台实践
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
京东技术
2024/05/20
4960
京东广告研发——效率为王:广告统一检索平台实践
深度学习时代工业界最常用的检索算法?
今天给大家分享一个在工业界、实际工作中非常常用的技术——向量检索。得益于深度学习、表示学习的迅猛发展,向量化检索逐渐成为实际应用中很常见检索方法之一,是深度学习时代很多成熟系统的基础模块,在诸如文档检索系统、广告系统、推荐系统应用广泛。通过离线或在线将实体表示成向量的形式,再进行向量之间的距离度量,实现线上检索。
圆圆的算法笔记
2022/09/22
1.5K0
深度学习时代工业界最常用的检索算法?
深入理解推荐系统:召回
鱼遇雨欲语与余:深入理解YouTube推荐系统算法​zhuanlan.zhihu.com
Coggle数据科学
2020/04/03
3.6K0
KDD 2020 | 详解语义Embedding检索技术在Facebook搜索中的应用实战
导读:今天分享一下Facebook发表在KDD 2020的一篇关于社交网络搜索中的embedding检索问题的工作,干货很多,推荐一读。
石晓文
2020/09/07
2.3K0
KDD 2020 | 详解语义Embedding检索技术在Facebook搜索中的应用实战
MT-BERT在文本检索任务中的实践
基于微软大规模真实场景数据的阅读理解数据集MS MARCO,美团搜索与NLP中心提出了一种针对该文本检索任务的BERT算法方案DR-BERT,该方案是第一个在官方评测指标MRR@10上突破0.4的模型。
美团技术团队
2020/08/28
1.8K0
MT-BERT在文本检索任务中的实践
业界总结 | 如何改进双塔模型,才能更好的提升你的算法效果?
今天写点技术干货来回馈一下我的粉丝们。本来想继续写对比学习(Contrastive Learing)相关类型的文章,以满足我出一本AI前沿技术书籍的梦想,但奈何NIPS2021接收的论文一直未公开,在arxiv上不停地刷,也只翻到了零碎的几篇。于是,我想到该写一下双塔模型了,刚进美团的第一个月我就用到了Sentence-BERT。
对白
2022/04/01
8600
业界总结 | 如何改进双塔模型,才能更好的提升你的算法效果?
主流CTR预估模型的演化及对比
学习和预测用户的反馈对于个性化推荐、信息检索和在线广告等领域都有着极其重要的作用。在这些领域,用户的反馈行为包括点击、收藏、购买等。本文以点击率(CTR)预估为例,介绍常用的CTR预估模型,试图找出它们之间的关联和演化规律。
数说君
2019/07/17
1.2K0
主流CTR预估模型的演化及对比
推荐阅读
相关推荐
WWW 2022 | 信息检索方向值得一读的3篇论文详解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档