首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >向量数据库 >向量检索的核心步骤有哪些?

向量检索的核心步骤有哪些?

词条归属:向量数据库

以文本举例:向量数据库的核心思想是将非结构化的文本信息转换为向量数据表示,再将转换后的向量数据以及原始文本一并存储在向量数据库。然后将向量存储在数据库中,当用户输入问题时,将问题描述转换为向量数据,在向量数据库中进行相似性计算,检索出与目标值最相似的向量以及上下文信息,最后将文本返回给用户。下面是具体的操作流程:

生成并写入向量数据

向量数据库需要生成向量数据。向量数据可以来自各种数据源,例如文本、图像、音频等,每个向量数据都可以通过Embedding模型生成一个对应的特征表示,即向量数据。

向量数据库采用专门的数据结构和算法来存储和管理向量数据,以便快速地进行检索和分析。

建立向量索引

为了加速向量搜索,向量数据库通常会构建向量索引,这是一种专门设计的数据结构,旨在通过计算和比较向量之间的相似度或距离,将向量数据有效地组织起来。以便数据库快速地定位和检索与查询条件最相关的向量集合。目前,腾讯云向量数据库支持如下类型的向量索引:

FLAT 索引:向量会以浮点型的方式进行存储,不做任何压缩处理。搜索向量会遍历所有向量与目标向量进行比较。

HNSW 索引:全称为 Hierarchical Navigable Small World, 是基于图的索引,适合对搜索效率要求较高的场景。

IVF 系列:全称为 Inverted File,IVF 系列索引的核心思想是将高维空间划分为多个聚类,并为每个聚类构建一个倒排文件。适用于高维向量数据的快速检索。

进行向量搜索

在向量搜索中,用户输入一个查询向量,向量数据库通过相似性计算,会返回与查询向量最相似的向量。向量相似度通常使用余弦相似度、欧几里得距离等度量方式进行计算。

除了向量检索外,腾讯云向量数据库集成了文本Embedding能力,可以实现基于文本的数据写入和检索。

问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券