paper:https://arxiv.org/pdf/2212.10496 code:https://github.com/texttron/hyde
这篇文章主要做zero-shot场景下的稠密检索,通过借助LLM的力量不需要Relevance Labels,开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法,即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档,并使用无监督检索器对其进行编码,并在其嵌入空间中进行搜索,从而不需要任何人工标注数据。
模型结构如下图所示,HyDE将密集检索分解为两个任务,即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。
https://github.com/gomate-community/GoMate/blob/main/gomate/modules/rewriter/hyde_rewriter.py
import pandas as pd
from tqdm import tqdm
import os
from gomate.modules.generator.llm import GLMChat
from gomate.modules.retrieval.dense_retriever import DenseRetriever, DenseRetrieverConfig
from gomate.modules.rewriter.base import BaseRewriter
from gomate.modules.rewriter.promptor import Promptor
from gomate.modules.document.common_parser import CommonParser
class HydeRewriter(BaseRewriter):
def __init__(self, promptor, generator, retriever):
self.promptor = promptor
self.generator = generator
self.retriever = retriever
def prompt(self, query):
return self.promptor.build_prompt(query)
def rewrite(self, query):
prompt = self.promptor.build_prompt(query)
hypothesis_document, _ = self.generator.chat(prompt, llm_only=True)
return hypothesis_document
def retrieve(self, query, top_k=5):
hypothesis_document = self.rewrite(query)
hits = self.retriever.retrieve(hypothesis_document, top_k=top_k)
return {'hypothesis_document': hypothesis_document, 'retrieve_result': hits}
检索效果对比:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有