首页
学习
活动
专区
圈层
工具
发布

改进 Elastic Stack 中的信息检索:混合检索

Elasticsearch ®还具有强大的词汇检索功能和丰富的工具来组合不同查询的结果。在本博客中,我们介绍了混合检索的概念,并探讨了 Elasticsearch 中可用的两种具体实现。...混合检索尽管现代训练管道产生了在零样本场景中具有良好性能的检索器模型,但众所周知,词汇检索器(例如 BM25)和语义检索器(例如 Elastic Learned Sparse Encoder)在某种程度上是互补的...在本实验中,我们使用 Elasticsearch 进行检索,通过单个文本字段和向量表示每个文档。BM25 搜索是使用匹配查询和使用带有script_score查询的精确向量搜索的密集检索来执行的。...还值得注意的是,最好和最差参数组合之间的差异仅为 5% 左右;因此错误设置这些参数的惩罚相对较小。我们还想看看是否可以使用倒数排名融合在零样本设置中提高弹性学习稀疏编码器的性能。...唯一的缺点是,目前,由于两个查询在 Elasticsearch 中顺序执行,查询延迟会增加。BM25 检索通常比语义检索更快,这一事实缓解了这一问题。

2.5K31

信息检索中的花式预训练

作者 | 上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP 目前信息检索(Information Retrieval)几乎都是使用深度学习系列的方法,即NeuIR...而随着预训练在深度学习领域的大放光芒,信息检索中也出现了各种预训练策略。这篇文章博主将整理来自清华大学与中科院的信息检索综述,先上路径。...Two-stage Retrieval (n=1):相比于单阶段检索,现有的IR框架会额外使用一个re-ranker来提升排序列表的质量。...比如用户所实际使用的查询query可能很短,很模糊,甚至有拼写错误。因此如上图所示,一般需要配备query parser和doc parser来处理。...snippets只突出文档中与给定查询相关的部分。 keyphrase extraction。从文档中抽取关键词,大部分工作通常会将关键词提取任务视作序列标注任务。 未来工作 新的目标和框架。

1.8K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    改进 Elastic Stack 中的信息检索:对段落检索进行基准测试

    图片在之前的博客文章中,我们讨论了信息检索的常见方法,并介绍了模型和训练阶段的概念。在这里,我们将介绍基准测试,以公平的方式比较各种方法。...BEIR 论文(“ BEIR:信息检索模型零样本评估的异构基准”,Takhur 等人,2021 年)提出了解决在通用环境中评估信息检索方法的问题。...这是我们将在本博客和未来博客中研究的指标。所有这些指标都应用于固定大小的检索文档列表。列表大小可能会根据手头的任务而有所不同。...最后,随着时间的推移,数据库中主题或语义结构的变化将降低微调模型的检索准确性。结论我们使用 13 个数据集建立了信息检索的基础。...调整模型的过程需要标记工作,这对于资源有限的用户来说可能不可行。 在我们的下一篇博客中,我们将讨论不需要创建标记数据集的高效检索系统的替代方法。这些解决方案将基于混合检索方法。

    1.6K31

    信息检索中过滤禁止文档的新方法

    信息检索中的禁止文档过滤内容所有者致力于消除可能对客户产生不利影响的不良内容。不良内容可能采取多种形式,如虚假新闻、付费评论、垃圾信息、攻击性语言等。...在某国际学术会议上,某机构的智能购物研究团队发表了一篇关于存在禁止文档时的信息检索(IR)论文。重点在于同时优化两个需求:检索与客户请求相关的内容,并过滤掉禁止文档。...过滤算法的挑战过滤算法容易出现两类错误:(1)误报(即过滤非禁止文档)和(2)漏报(即在结果中包含禁止文档)。通常,排名质量和过滤准确性是独立测量的。...合适的评估指标寻找一个评估指标,根据三个标准强化排名器:(1)从检索列表中修剪尽可能多的禁止文档;(2)不从列表中修剪非禁止文档;(3)根据剩余文档与查询的相关性进行排名,同时将禁止文档推至列表底部。...虽然LTRF模型在排名和过滤方面取得了成功,但检索列表中禁止文档的数量仍然过高。改进LTRF模型是一个开放的挑战,希望工作能鼓励其他研究人员解决它。

    6710

    解决调用快递100接口物流信息错误的方法(1)

    可先在贵司的小程序中嵌入贵司的H5,再在H5中再嵌入快递100地图,此时就可以通过iframe控制地图的宽高。 小程序嵌入地图时如何加上自定义的文字信息?...可先在贵司的小程序中嵌入贵司的H5,再在H5中再嵌入快递100地图,此时就可以在贵司的H5上加上自定义模块。 地图轨迹返回的URL多长时间内有效?...1.在包裹未签收前:3天 2.在包裹签收后:15天 (备注:url有效期从查询时间开始计算) 地图轨迹返回的URL会不会自动更新?...遵循查询接口本身产品特点,使用实时查询类需要主动发起请求并返回最新信息,使用订阅推送类会推送消息并更新URL。 地图上面的当前点跟当前轨迹数据有差距?

    1.2K60

    语义信息检索中的预训练模型(下)

    语义信息检索中的预训练模型 这一篇将介绍预训练模型在深度召回和精排中的应用。 4....此外一个常见的做法是,用一个embedding去表示query(因为query通常较短、意思集中),用多个embedding去捕捉document的不同子空间的信息。...所以,应该设计专门针对检索任务的预训练任务。...exact-match的稀疏检索模型,这是因为过多的使用简单负例(random或者in-batch负采样)没有提供很多信息量,其 梯度范数较小、收敛速度慢 。...,为了把握不同层的信息,对 L层 都计算相似度矩阵: S_{Q, D} \in \mathbb{R}^{L \times|Q| \times|D|} 然后对相似度矩阵采用DRMM或者KNRM的方法来提取交互信息

    2.3K30

    改进 Elastic Stack 中的信息检索:引入 Elastic Learned Sparse Encoder,我们的新检索模型

    这是众所周知的,BEIR基准测试将多种检索任务组合在一起,作为模型在未见过数据集上表现的代理。在零样本情况下实现良好的信息检索,即使用预训练模型进行一键式搜索文本字段,正是我们想要实现的目标。...SPLADE在训练过程中提供了自然的控制方式,可以在检索质量和检索延迟之间进行权衡。特别是,我们下面讨论的 FLOPS 正则化器允许为为预期检索成本添加一个项到损失函数中。...蒸馏法与常见范式略有不同,后者将大型模型缩小为小型但几乎同样准确的“副本”。相反,这个想法是提取交叉编码器架构中存在的排名信息。...在训练模型的过程中,我们有一个观察是教师并不是无懈可击的。我们最初是通过手动检查被分配了异常低分数的查询-相关文档对来发现这一点。在这个过程中,我们发现了客观上评分错误的查询-文档对。...特别是,它鼓励根据对倒排索引检索成本的影响,从查询和文档表示中删除那些提供很少排名信息的 token。

    2.1K31

    生物信息中的Python 02 | 用biopython解析序列

    上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是...是fasta文件格式中的第一行 print ("description: ", fa_seq.description) # 序列 print ("seq: ", fa_seq.seq) # 序列来源库信息...) # 序列中每个字母的注释信息 print ("letter_annotations: ", fa_seq.letter_annotations) # 部分序列的注释信息 print ("features...文件格式中的第一行 print ("description: ", gb_seq.description) # 序列信息, 这里的序列信息是以 bioPython 中的seq对象存储 print ("...) # 部分序列的注释信息,SeqFeature 对象的形式保存了features table中的所有entries(如genes和CDS等) print ("features: ", gb_seq.features

    2.5K10

    【RAG论文】检索信息中的噪音是如何影响大模型生成的?

    例如,如果有人询问拿破仑马的颜色,有个文档表达了拿破仑妻子马的颜色,虽然不包含正确的信息,但会高度相关。 不相关(irrelevant)的文档与查询无关,代表了检索过程中的一种信息噪声。...它们在评估模型处理完全不相关信息的能力方面发挥着关键作用,论文实验中从语料库中随机采样这些文档。...现实场景下的RAG检索器 以上实验都是在检索到标准答案的假设下进行的,但在实际场景中,并不可能每次都能检索到包含答案的文档。作者设置了一个更现实的场景。...https://github.com/princeton-nlp/EntityQuestions 答案不相关片段 语义不相关信息(Unrelated Information):选择与问题主题无关,但在检索系统中可能因为高相似性得分而被检索到的信息...部分相关:从检索Top10的段落中选择一个包含subj,但缺少obj的段落,作为前半段;然后找到一个包含错误答案obj’的片段作为后半段; 相关:与“部分相关”相比,“相关”片段与问题高度语义相关,但并不包含正确答案

    43510

    改进 Elastic Stack 中的信息检索:提高搜索相关性的步骤

    图片自 8.0 和用于文本嵌入的第三方自然语言处理 (NLP) 模型发布以来,Elastic Stack 的用户可以访问各种模型来生成文本文档的embedding并使用向量量搜索执行基于查询的信息检索。...因此,在本系列博客文章中,我们将向您介绍如何使用 Elastic Stack 中的公开数据集和信息检索技术进行测试,并提供有关如何最佳使用这些技术的建议。让我们一起来探索吧!...众所周知,BM25 是零样本检索设置中的强大基线。...图片介绍了这些不同的技术后,我们将测量它们在各种数据集上的表现。我们对这种通用信息检索任务特别感兴趣。我们希望为一系列用户提供工具和指导,包括那些不想自己训练模型以获得搜索带来的一些好处的用户。...在本系列的下一篇博客文章中,我们将描述我们将使用的方法和基准套件。

    45711

    错误提示毁了你的设计!如何在UI界面中优雅的展示“错误”信息?

    今天我们就来分享一些小技巧,让各位设计师能更好的将错误提示展示出来,从而让用户更好的避免操作中的错误,或者至少,让你的用户不那么沮丧。 为什么错误提示非常重要?...编写第一条错误消息的人以抽象的方式将其框定为问题陈述。这将责任归咎于用户,并不是特别有用。相反,可以简单地要求用户做你要求他们做的事情——这在第二个例子中很清楚。...直接进入解决方案,而不是用迂回的方式解释问题。专注于引导用户,而不是羞辱他们。 保持错误信息清晰 第一个消息示例几乎犯了所有的错误。它的遣词看起来很正式,但我们真正想告诉用户的是什么?...换句话说:您正在使用的应用程序可能损坏了,因此请尝试将其关闭并重新打开。如果这不起作用,请与提供商联系(或选择查看详细信息)。...错误是由用户引起的,还是由讨厌的错误引起的罕见的后端问题?如果您没有确切的答案,通常最好使用通用消息,例如第二条错误消息。

    2.8K30

    将数据库中的图片信息导出并调用

    github 仓库的上传网页,并且在数据库中记录上传的信息,比如缩略名、时间戳和图片链接。...分别对应 GitHub 仓库中的图片,但是后期我发现在 GitHub 查看图片非常别扭,因此我打算写一个可展示图片的网页,把 GitHub 仓库中的图片通过链接展示出来,当然我们不可能一张张复制,还好有数据库...看一下具体内容 写一个接口 很好,拥有我们需要的字段。事不宜迟,直接开动,下面是完成的接口代码。 <?...接口链接:http://121.196.166.173/img/img.php 使用 ajax 进行调用 然后只需要在前端将接口调用,然后简单写一个页面即可,下面是 html 代码,,通过 ajax 调用...,可以看一下效果 http://121.196.166.173/img 时间仓促,我也没使用更好的 ui 进行优化,只是大致写一下这个过程,待到以后具体使用时,我会对这个展示图片的页面进一步优化。

    1.8K10

    《LSTM:视频目标跟踪中时间序列信息的高效利用者》

    在视频目标跟踪领域,如何充分利用时间序列信息以提高跟踪精度一直是研究的关键。长短期记忆网络(LSTM)因其独特的结构和对时间序列数据的强大处理能力,在这方面展现出了显著优势。...在视频目标跟踪中,随着视频帧的不断推进,一些早期帧中的目标信息可能不再对当前跟踪有帮助,遗忘门可以根据当前的输入和之前的隐藏状态,决定是否丢弃这些信息,从而避免无关信息的干扰。...在实际应用中,通常将LSTM与目标检测算法结合使用。例如,先利用YOLO等算法对视频序列中的每一帧图像进行目标检测,获取目标的位置、类别、置信度以及外观特征等信息。...然后,将这些信息输入到LSTM网络中,LSTM通过学习这些时间序列数据中的模式和依赖关系,预测视频中下一帧目标的位置,并实现帧与帧之间的目标匹配与关联。...通过这种方式,LSTM能够充分利用视频中的时间序列信息,对目标进行连续、准确的跟踪。

    26110

    .Net调用Office Com组件的原理及问题:检索com类工厂组件检索 COM 类工厂中 CLSID 为 {XXX} 的组件失败

    /200810/6270283a.shtml)找到原因可能是在Windows Server 2008 X64中通过.NET程序调用32位com组件的问题,按照其说的,在Visual Studio中,将编译的目标平台...(Platform target)设置为:X86,然后重新统计发布项目,错误依旧。...最后终于发现问题,DCOM配置中一直配置的是【Microsoft Office PowerPoint 预览器】 原来一直都配置错地方了,可是DCOM中也没有【Microsoft Office PowerPoint...幻灯片】啊,原来服务器是64位了,没有加载32位的组件,运行中敲入mmc -32,在控制台中‘文件’‘添加/删除管理单元’选择‘组件服务’添加,就会出现【Microsoft Office PowerPoint...总结如下: .net调用office组件进行Excel、Word、ppt的一些操作,需要做一下操作: 1. 正确全面的安装office 2.

    5.5K20
    领券