Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【NAACL 2022】GPL:用于密集检索的无监督域自适应的生成伪标记

【NAACL 2022】GPL:用于密集检索的无监督域自适应的生成伪标记

作者头像
小爷毛毛_卓寿杰
发布于 2022-09-30 06:37:32
发布于 2022-09-30 06:37:32
5700
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

论文地址:https://arxiv.org/abs/2112.07577

《文本匹配——【EMNLP 2021】TSDAE》中的自适应预训练的一大缺点是计算开销高,因为必须首先在语料库上运行预训练,然后在标记的训练数据集上进行监督学习。标记的训练数据集可能非常大。

GPL(用于密集检索的无监督域自适应的生成伪标记)克服了上述问题:它可以应用于微调模型之上。因此,可以使用其中一种预训练模型并将其调整到特定领域:

训练的时间越长,你的模型就越好。在 V100-GPU 上训练模型大约 1 天。GPL 可以与自适应预训练相结合,从而进一步提升性能。

GPL 分三个阶段工作:

  • query 生成:对于我们域中的给定文本,我们首先使用 T5 模型为给定文本生成可能的query。例如,当你的文本是“Python is a high-level general-purpose programming language”时,模型可能会生成类似“What is Python”这样的query。中文T5 Doc2Query 预训练模型地址 :https://huggingface.co/doc2query/msmarco-chinese-mt5-base-v1
  • 负例挖掘:接下来,对于生成query “What is Python”,我们从语料库中挖掘负例passage,即与query 相似但用户认为不相关的 passage。这样的负例 passage 可能是“Java is a high-level, class-based, object-oriented programming language.”。. 我们使用密集检索进行这种挖掘,即我们使用现有的文本嵌入模型之一并检索给定query 的相关passage。
  • 伪标签:在负例挖掘步骤中,我们检索到与query 实际相关的passage(如 “What is Python” 的另一个定义)。为了克服这个问题,我们使用 Cross-Encoder 对所有(query、passage)对进行评分。

训练:一旦我们有了三元组 (generated query, positive passage, mined negative passage) 和对 (query, positive) 、 (query, negative) 的评分的Cross-Encoder,我们就可以开始使用MarginMSELoss训练文本嵌入模型:

伪标记步骤非常重要,与之前的方法 QGen(《文本匹配——【NeurIPS 2021】BEIR》) 相比,它提高了性能,QGen 将 passages 视为正(1)或负(0)。正如我们在下图中看到的,对于生成query (“what is futures conrtact”),负例挖掘步骤检索与生成query 部分或高度相关的passages。使用 MarginMSELoss 和Cross-Encoder,我们可以识别这些 passages 并教导文本嵌入模型这些段落也与给定查询相关。

下表概述了 GPL 与自适应预训练(MLM 和 TSDAE)的比较。如前所述,GPL 可以与自适应预训练相结合:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Sentence Transformers 教程!
💯Cross Encoder (又名 reranker) 模型的用法与 Sentence Transformers 类似:
@小森
2024/09/24
4040
Sentence Transformers 教程!
语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度
语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源
汀丶人工智能
2024/07/09
6660
语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度
轻松构建聊天机器人、准确性新SOTA,RAG有了更强大的AI检索器
黄志恒拥有爱丁堡大学博士和加州大学伯克利博士后研究经历。志恒曾在微软、百度、Facebook、腾讯和亚马逊等 IT 公司工作。志恒在亚马逊 AWS 担任首席科学家领导了 Amazon Kendra 和 Amazon Q。志恒现在是 Denser.ai 的创始人。截至 2024 年 5 月,Google Scholar 引用次数超过 13,300 次。
机器之心
2024/06/17
2060
轻松构建聊天机器人、准确性新SOTA,RAG有了更强大的AI检索器
Denser Retriever: 企业级AI检索器,轻松构建RAG应用和聊天机器人(完全开源)
Denser Retriever是一个企业级AI检索器,将多种搜索技术整合到一个平台中。在MTEB数据集上的实验表明,可以显著提升向量搜索(VS)的基线(snowflake-arctic-embed-m模型, 在MTEB/BEIR排行榜达到了最先进的性能)。
DenserAI_Chris
2024/08/04
1780
Denser Retriever: 企业级AI检索器,轻松构建RAG应用和聊天机器人(完全开源)
整合文本和知识图谱嵌入提升RAG的性能
我们以前的文章中介绍过将知识图谱与RAG结合的示例,在本篇文章中我们将文本和知识图谱结合,来提升我们RAG的性能
deephub
2024/05/10
4880
整合文本和知识图谱嵌入提升RAG的性能
双塔模型没效果了?请加大加粗!
很多研究表明,双塔在一个域表现不错,在其他域表现不好了。一个广泛被认同的观点就是双塔仅仅用了最后一层的点积算分,这限制了模型的召回能力。这篇论文<Large Dual Encoders Are Generalizable Retrievers>就否认了这个观点,通过扩展双塔的网络,就能提升模型对各个召回任务的效果,特别是那些跨域的。实验结果表明,该论文提出的Generalizable T5-based dense Retrievers(GTR)在BEIR数据集上显著优于现存的一些召回模型。
炼丹笔记
2022/02/11
1.4K0
双塔模型没效果了?请加大加粗!
文本匹配——【NAACL 2021】AugSBERT
目前,最先进的 NLP 架构模型通常重用在 Wikipedia 和 Toronto Books Corpus 等大型文本语料库上预训练的 BERT 模型作为基线 。通过对深度预训练的 BERT 进行微调,发明了许多替代架构,例如 DeBERT、RetriBERT、RoBERTa ……它们对各种语言理解任务的基准进行了实质性改进。在 NLP 中的常见任务中,成对句子评分在信息检索、问答、重复问题检测或聚类等方面有广泛的应用。通常,提出了两种典型的方法:Bi-encoders 和 Cross-encoders。
小爷毛毛_卓寿杰
2022/06/30
6590
文本匹配——【NAACL 2021】AugSBERT
文本匹配——【ICLR 2022】Trans-Encoder
自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如,句子相似性检测、释义识别、问答蕴涵和文本蕴涵。
小爷毛毛_卓寿杰
2022/07/06
1.2K0
文本匹配——【ICLR 2022】Trans-Encoder
开放式的Video Captioning,中科院自动化所提出基于“检索-复制-生成”的网络
在本文中,作者将传统的视频字幕任务转换为一个新的范式,即开放式视频字幕,它在视频内容相关句子的提示下生成描述,而不限于视频本身。
CV君
2021/09/03
3540
文本生成 | retrieval augmentation(进阶篇Atlas)
每天给你送来NLP技术干货! ---- 来自:NLP日志 提纲 1 简介 2 模型架构 3 实验设计     3.1 损失函数     3.2 预训练任务     3.3 Efficient retriever fine-tuning 4 实验结论 5 分析     5.1 可解释性     5.2 可更新性 6 总结 参考文献 1 简介     之前写过若干篇retrieval augmentation的文章,对几种当下较为火热的retrieval augmentation的方法做了详细介绍,进而清晰
zenRRan
2022/09/14
9480
文本生成 | retrieval augmentation(进阶篇Atlas)
ACL 2022 Tutorial解析——知识增强自然语言理解
NLP预训练模型需要非常大的参数量以及非常多的语料信息,这些都是希望能尽可能多的记住文本中的知识,以此提升下游任务效果。相比而言,直接从数据库、知识图谱、搜索引擎等引入外部知识进行知识增强,是一种更直接、节省资源的方法。知识增强也是NLP未来的重要发展方向,由于在NLU这种需要理解、常识性知识的领域,知识增强更加重要。
圆圆的算法笔记
2022/09/22
1.4K0
ACL 2022 Tutorial解析——知识增强自然语言理解
深入解析 RAG:检索增强生成的原理与应用
RAG 是“检索增强生成”(Retrieval-Augmented Generation)的简称,简单来说,就是一种让 AI 更聪明的方法。它把“找资料”和“写答案”两件事结合起来。怎么做到的呢?
码事漫谈
2025/03/11
7420
深入解析 RAG:检索增强生成的原理与应用
RAG中的3个高级检索技巧
RAG系统检索的文档可能并不总是与用户的查询保持一致,这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节,或者文档的顺序可能与用户的意图不一致时,就会经常出现这种情况。
deephub
2024/01/23
7780
RAG中的3个高级检索技巧
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索是搜索、推荐、广告等领域的关键性技术;面向稠密检索的预训练是业界高度重视的研究课题。近期,华为泊松实验室联合北京邮电大学、华为昇思 MindSpore 团队提出“基于掩码自编码器的检索预训练语言模型 RetroMAE”,大幅刷新稠密检索领域的多项重要基准。而其预训练任务的简洁性与有效性,也为下一步技术的发展开辟了全新的思路。该工作已录用于自然语言处理领域顶级学术会议 EMNLP 2022。基于昇思开源学习框架的模型与源代码已向社区开放。
机器之心
2022/12/16
7600
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
CVPR 2022丨特斯联AI提出:用于视觉任务中无监督域自适应的类别对比
深度神经网络(Deep Neural Networks, DNNs)由于跨域不匹配(cross-domain mismatch),通常在新域表现不佳。而无监督域自适应(UDA)技术则可通过利用未标记的目标域样本缓解跨域不匹配问题。 近日,特斯联科技集团首席科学家邵岭博士及合作者们提出了基于类别对比的新颖方法Category Contrast (CaCo),并公布了所取得的最新研究成果。该方法在视觉UDA任务的实例判别之上引入了语义先验。该研究成果(标题为: Category Contrast for Uns
AI科技评论
2022/06/16
6450
CVPR 2022丨特斯联AI提出:用于视觉任务中无监督域自适应的类别对比
同济大学发布最新检索增强(RAG)的LLM生成技术综述
摘要主要介绍了大型语言模型(LLMs)在实际应用中面临的挑战,比如幻觉、知识更新缓慢和答案缺乏透明度等问题,并提出了检索增强生成(Retrieval-Augmented Generation,RAG)作为一种解决方案。RAG通过从外部知识库检索相关信息来辅助大型语言模型回答问题,已经被证明能显著提高回答的准确性,减少模型产生的幻觉,尤其是在知识密集型任务中。
唐国梁Tommy
2023/12/21
16.9K0
同济大学发布最新检索增强(RAG)的LLM生成技术综述
文本检索、开放域问答与Dense Passage Retrieval (EMNLP-20)
QA可以分为Close-domain QA和Open-domain QA,前者一般限制在某个特定领域,有一个给定的该领域的知识库,比如医院里的问答机器人,只负责回答医疗相关问题,甚至只负责回答该医院的一些说明性问题,再比如我们在淘宝上的智能客服,甚至只能在它给定的一个问题集合里面问问题;而Open-domain QA则是我们可以问任何事实性问题,一般是给你一个海量文本的语料库,比方Wikipedia/百度百科,让你从这个里面去找回答任意非主观问题的答案,这显然就困难地多。总结一下,Open-domain QA的定义:
beyondGuo
2022/03/28
2.3K0
文本检索、开放域问答与Dense Passage Retrieval (EMNLP-20)
介绍 RAG(检索增强生成)
RAG(Retrieval-Augmented Generation)是一种将检索和生成结合在一起的模型架构,特别适用于回答开放域问答、生成相关文本以及需要丰富背景信息的任务。它结合了检索系统和生成模型的优势,通过从大型数据库中检索相关信息并使用生成模型对其进行处理,生成更准确和上下文相关的答案或内容。
IT蜗壳-Tango
2024/07/29
1.3K0
WWW 2022 | 信息检索方向值得一读的3篇论文详解
今天给大家介绍3篇WWW 2022检索方向3篇值得一读的文章。第一篇文章是北邮和微软联合提出的利用对比学习、可导量化对多阶段向量化检索的优化。第二篇文章是理海大学提出的StructBERT,用于进行结构化表格数据的检索。第三篇文章是首尔大学提出的基于prompt的query-document向量化召回模型。
圆圆的算法笔记
2022/09/22
5530
WWW 2022 | 信息检索方向值得一读的3篇论文详解
基于段落检索的无监督阅读理解介绍
| 导语  阅读理解是当前火热的自然语言处理应用方向之一,但在大多数业务场景下都缺少有效的标注数据,这种情况下常常需要借助传统的信息检索方法。本文总结了TREC-9和TREC-10上几个比较经典的基于段落检索的无监督文档型问答系统,并介绍了这类系统的主要框架。 背景 在自动对话机器人或是智能客服中,根据用户问题,从文档中寻找可能的答案是一种很常见的需求。当前有很多基于神经网络的阅读理解模型,但是这些模型都需要大量的标注数据进行训练。在很多业务场景下,却常常难以拿到数量足够的监督数据,有时候甚至没有监督数据。
腾讯知文实验室
2018/08/13
1.7K0
推荐阅读
相关推荐
Sentence Transformers 教程!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档