首页
学习
活动
专区
圈层
工具
发布

生成式AI革新多模态信息检索

利用生成式AI进行多模态信息检索过去十年的大部分时间里,机器学习严重依赖于嵌入的概念:模型学习将输入数据转换为向量,使得向量空间内的几何关系具有语义含义。...嵌入概念意味着一个明显的信息检索范式:查询被嵌入到表示空间中,模型选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像可以被嵌入到同一个空间。然而,最近生成式AI主导了机器学习研究。...我们的模型被命名为GENIUS,是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。...然而,现有的生成方法通常是特定于任务的,在性能上不及基于嵌入的方法,并且难以处理多模态数据。...随着数据集的增长,其效率优势变得更加显著,无需像基于嵌入的方法那样进行昂贵的索引构建即可保持高检索速度。因此,它代表了生成式多模态检索领域的重要进展。FINISHED

10010
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    生成式AI革新多模态信息检索技术

    这种嵌入概念意味着一种直观的信息检索范式:查询被嵌入到表示空间中,模型选择其嵌入与之最接近的响应。这同样适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间中。...该模型名为GENIUS,是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。...在两项不同数据集上使用三种不同指标(检索一个、五个或十个候选响应时的检索准确率)的测试中,GENIUS比先前性能最佳的生成式检索模型提升了22%到36%。...然而,现有的生成方法通常是任务特定的,与基于嵌入的方法相比性能不足,并且难以处理多模态数据。...其效率优势随着数据集的增长而变得更加显著,在无需进行基于嵌入方法中昂贵的索引构建的情况下,保持高检索速度。因此,它代表了生成式多模态检索领域的重要一步。

    25510

    生成式AI革新多模态信息检索技术

    嵌入概念意味着一个直观的信息检索范式:查询被嵌入到表示空间中,模型会选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间。...我们的模型名为GENIUS(意为生成式通用多模态搜索),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。...在使用三个不同指标(当检索到一个、五个或十个候选响应时的检索准确率)在两个不同数据集上进行的测试中,GENIUS比先前性能最佳的生成式检索模型提高了22%到36%。...然而,现有的生成方法通常是任务特定的,与基于嵌入的方法相比性能不足,并且难以处理多模态数据。...随着数据集的增长,其效率优势变得更加显著,无需像基于嵌入方法那样进行昂贵的索引构建即可保持高检索速度。因此,它代表了生成式多模态检索的重大进步。

    18710

    剑桥 | 发布多模态检索器,赋能多模态大模型RAG应用

    PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。...图 2:PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现,是一个极强的预训练基底模型。 2....尤其是在多模态任务中,用户的问询(Query)包含复杂场景信息,压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构,使其在多模态知识检索中有得天独厚的优势。...M2KR 数据集 为了大规模预训练和评估通用多模态检索模型,作者汇编了十个公开的数据集并将其转换为统一的问题 - 文档检索格式。...实验结果表明对于后期交互多模态检索系统,增加视觉编码器的参数带来的回报更大。

    51010

    生成式AI实现多模态信息检索新突破

    多模态信息检索的生成式革新过去十年间,机器学习(ML)严重依赖嵌入(embedding)概念:模型将输入数据转换为向量,使向量空间中的几何关系具有语义含义。例如,嵌入位置相近的单词可能含义相似。...这种范式下的信息检索流程是:将查询嵌入表示空间,模型选择与之最接近的嵌入作为响应。多模态检索也遵循此模式,文本和图像可嵌入同一空间。然而随着生成式AI的兴起,传统检索方式面临革新。...在2025年计算机视觉与模式识别会议(CVPR)上提出的GENIUS框架(通用多模态搜索生成框架),实现了生成式AI时代的信息检索突破。该模型支持图像、文本及图文对的任意组合输入输出。...查询增强undefined通过在表示空间内插值原始查询与目标ID生成新查询,使模型学习到多查询映射同一目标的模式,显著提升泛化能力。...(免索引构建、恒定检索时间)的同时,将生成式与嵌入式方法的性能差距缩小到可接受范围,标志着多模态检索领域的重大进步。

    38200

    生成式AI实现多模态信息检索技术突破

    利用生成式AI进行多模态信息检索过去十年间,机器学习主要依赖嵌入概念:模型学习将输入数据转换为向量,使得向量空间中的几何关系具有语义含义。例如,嵌入表示相近的词语可能具有相似含义。...这种嵌入概念催生了明显的信息检索范式:将查询嵌入表示空间,模型选择嵌入最接近的响应。这也适用于多模态信息检索,因为文本和图像可以嵌入同一空间。...我们的模型名为GENIUS(通用多模态搜索生成框架),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。...然而,现有的生成方法通常是任务特定的,在性能上不及基于嵌入的方法,并且难以处理多模态数据。...随着数据集增长,其效率优势变得更加显著,保持高检索速度,而无需基于嵌入方法典型的昂贵索引构建。因此,它代表了生成式多模态检索的重要进展。

    26810

    生成式AI实现多模态信息检索新突破

    多模态检索的范式革新过去十年间,机器学习主要依赖嵌入技术——将输入数据转换为向量,使向量空间中的几何关系反映语义关联。传统检索方式需计算查询向量与所有候选向量的相似度,当面对海量数据时效率低下。...性能突破在M-BEIR基准测试中:文本到图像检索任务(COCO数据集)Recall@5指标超越现有生成式方法28.6分结合嵌入重排序后,性能差距较传统方法缩小31%-56%检索速度不受数据库规模影响,索引构建成本降低...独立训练图像和文本编码器对比学习阶段undefined残差量化模块学习生成层级编码推理阶段undefined基于Trie树结构约束输出序列,确保生成有效ID该技术已应用于某机构搜索系统,在十亿级数据规模下保持毫秒级响应,为跨模态检索提供高效解决方案

    23610

    预处理指令、typedef、条件编译、多文件代码

    条件编译 #if、#elif、#else #if后无需括号,直接填写条件表达式,并用空格隔开。 不同于if,#if要求条件表达式为一个常量表达式。常量表达式中不允许出现变量。...关键词if: 编译后,程序运行时,计算条件表达式的结果。根据表达式结果,让程序走向不同的分支。 图片 由于在预处理时就需要计算出条件表达式N == 1的结果。...图片 多文件代码 预处理:执行预处理指令,修改源代码。 编译:将预处理后的源代码转换为二进制目标文件。 链接:将需要用到的目标文件合并成可执行文件。...多文件代码小结 源文件person.c: 函数定义。 头文件person.h: 符号常量、函数宏、函数声明、结构声明、类型定义。 源文件person.c需要头文件person.h中的声明或定义。...头文件守卫 借助条件编译,使同一个头文件,只允许被包含一次。 添加的位置是在头文件内。

    1.8K00

    KDD Cup 2020 多模态检索赛道:数据分析

    近期对图像检索颇为感兴趣,正巧看到今年KDD Cup赛题中有两道都是它相关的,借着这次机会学习学习。...本赛题使用淘宝APP的真实场景多模态数据,数据集由淘宝搜索查询和产品图像特征组成,组织成基于查询的多模态检索任务。...需要注意本次赛题不是文本匹配任务,而关注跨模态的检索过程,因此不会给出商品的原始文字描述。...本赛题主要考察跨模态的检索检索任务,而且数据量非常大,需要选手通过query文本检索到商品,具体使用检索指标进行量化: (1) 这一题典型的跨模态检索任务,由于测试集中每个query会给出可能的30个商品...,因此也可以使用多模态匹配的方法。

    1.4K10

    预处理指令、typedef、条件编译、多文件代码

    条件编译 #if、#elif、#else #if后无需括号,直接填写条件表达式,并用空格隔开。 不同于if,#if要求条件表达式为一个常量表达式。常量表达式中不允许出现变量。...关键词if: 编译后,程序运行时,计算条件表达式的结果。根据表达式结果,让程序走向不同的分支。 由于在预处理时就需要计算出条件表达式N == 1的结果。此时,程序还未编译并运行,不能使用任何变量。...多文件代码 预处理:执行预处理指令,修改源代码。 编译:将预处理后的源代码转换为二进制目标文件。 链接:将需要用到的目标文件合并成可执行文件。...多文件代码小结 源文件person.c: 函数定义。 头文件person.h: 符号常量、函数宏、函数声明、结构声明、类型定义。 源文件person.c需要头文件person.h中的声明或定义。...头文件守卫 借助条件编译,使同一个头文件,只允许被包含一次。 添加的位置是在头文件内。

    1.7K40

    跨语言的多模态、多任务检索模型 MURAL 解读

    在 EMNLP 2021 提交的论文《MURAL:跨语言的多模态、多任务检索》(MURAL: Multimodal, Multitask Retrieval Across Languages)中,我们描述了一种用于图像...检索分析 我们还分析了 WIT 数据集上的零样本检索实例,比较了 ALIGN 和 MURAL 对英语(en)和印地语(hi)的检索。...相对于 LaBSE 的可视化,MURAL 的嵌入更注重多模态的学习,表现出一些符合区域语言学(某一地理区域内的语言或方言共享元素)和接触语言学(语言或方言相互影响)的集群。...此外,在使用多模态模型学习的文本表示中,观察区域语言学和接触语言学的提示也很有意思。因此,需要进一步探索通过多模态模型(如 MURAL)隐式学习到的各种联系。...最后,我们希望这项工作能促进多模态、多语言空间的深入研究,在这个空间里,模型学习语言的表示和语言之间的联系(通过图像和文本表示),而不仅仅是资源丰富的语言。

    1.5K30

    网络大会聚焦信息检索与多模态AI技术

    知识与多模态最让学者感兴趣的研究趋势之一是将结构化和非结构化知识及推理融入用于对话式信息检索和推荐系统的自然语言处理模型。“我可以举一个与我们工作密切相关的例子,”他说。...例如,为了推荐一部电影,智能体需要表示对话上下文,并检索关于电影本身的有用知识,理想情况下,还应提供关于是什么使这部电影适合用户的相关信息。”...“我一直在研究的另一件事是用户如何与信息检索和对话系统互动。...所以你可以想象,要真正提出准确的方法来解释用户与嵌入其空间的多模态对话系统的交互,还需要我们再花20年时间。”...研究领域搜索和信息检索对话式AI标签常识推理多模态交互学术合作网络大会

    16710
    领券