DocumentSet 是 AI 类数据库中 CollectionView 中的一个概念,用于存储文件的单元。在 CollectionView 中,一个文件会被拆分成多个 Document,这些 Document 组成了一个完整的文件数据,也就是一个DocumentSet。DocumentSet 可看作是一组相关的 Document 的集合,它们对应着同一个文件的数据。
管理 DocumentSet
腾讯云向量数据库(Tencent Cloud VectorDB)提供了一组 API 接口,用于插入、检索、更新、删除集合中的文档,方便管理集合视图中的文档。如下表所示。
API | 功能 | Python SDK | 详细说明 |
获取文件上传路径与授权签名 | 使用 API 接口获取授权签名后,您需使用 COS(对象存储)SDK 或 Restful API将文档上传至 COS 服务器。文件上传完成的状态通知之后,向量数据库便会开始拉取文件并解析文件内容,进行拆分、向量化,创建索引并进行存储。如果操作不便,可使用 Python SDK 的 load_and_split_text() 直接上传文件。 文件上传之后,当前不支持再次上传文件更新数据。 文件上传之后,当前不支持修改内容,仅可通过 Update 修改文件的元数据字段。 每次仅能上传一个文件,上传之后,将自动进行拆分、向量化等。 | ||
获取文件信息 | 可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息。 文件上传之后,可根据文件名查找文件内容,可获取系统分配的文件 ID。 获取文件 ID 之后,可根据文件 ID 查找文件信息。 | ||
精确查询 | 可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息,可根据需要控制需输出的字段。 支持根据 DocumentSet ID 或文件名查询具体文件的信息。 支持根据 DocumentSet ID 或文件名并分别结合标量字段的 Filter 表达式查询一个或多个文件。 支持指定查询起始位置与返回数量模糊查询多个文件。 支持指定文件元数据标量字段的 Filter 表达式,过滤所需查询的文件。 | ||
相似度检索 | 在指定的文件范围内,查找与给定文本信息相似的 Top K 条文本信息。 支持指定文件名称或 ID 信息检索最相似的文本信息。 支持搭配文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。 支持批量检索,即输入多个 ID或多个文件名,检索最相似的文本信息。 | ||
删除文档 | 支持指定一个或多个 DocumentSet ID 批量删除文件。 支持指定一个或多个文件名批量删除文件。 支持使用文件元数据标量字段的 Filter 表达式过滤需删除的文件。 | ||
更新文档 | 支持更新文件元数据标量字段的值,支持新增文件元数据的标量字段。 支持根据文件名或文件 ID 查找与更新的文件。 支持使用文件元数据标量字段的 Filter 表达式过滤需更新的文件。 支持批量更新过个文件的元数据字段。 |
数据结构
AI 类数据库文件元数据标量字段支持 string、uint64、double、array 数据类型。
数据结构 | 说明 |
string | 字符串,主键 ID 与文件 Meta 信息标量字段支持的数据类型之一。 |
uint64 | 整型数值,用于存储整数数值,包含正整数、负整数和零。 |
double | 双精度浮点型数值,用于存储浮点值。 |
array | 数组类型,用于存储一组相同类型的数据元素。当前,数组元素仅支持 string 类型。 |
说明:
文件主键 ID 字段仅支持 string。
标量字段(包含可创建 Filter 索引的标量字段)支持 string、uint64、array。