什么是 AI 套件?
AI 套件是腾讯云向量数据库(Tencent Cloud VectorDB)提供的一站式文档检索解决方案,包含自动化文档解析、信息补充、向量化、内容检索等能力,并拥有丰富的可配置项,助力显著提升文档检索召回效果。用户仅需上传原始文档,数分钟内即可快速构建专属知识库,大幅提高知识接入效率。
快速接入
设计思想
AI 套件检索方案提供完整的文档预处理和灵活的内容检索能力。用户只需上传 Markdown、PDF、Word、PPT 等格式的文档文件。腾讯云向量数据库将自动进行文本切分(Split)、信息补充、向量化(Embedding)和索引构建等一系列操作,完成知识库的建立。在进行检索时,会先基于切分后的内容进行相似度计算,并结合词(Words)向量进一步对检索结果进行精排,最终返回排名靠前的 Top K 条数据和其上下文内容。这种综合利用词级别做精排的检索方式,提供了更专业、更精确的内容检索体验。如下图以 Markdown 格式的文件为例。
基本概念
AI 类 Database
AI 类 Database 是专门用于 AI 套件上传和存储文件的向量数据库系统,可用于构建知识库。用户可以直接将文件上传至 AI 类 Database 下的 CollectionView 中,自动构建个性化的知识库。
说明:
AI 类 Database 不支持直接对向量数据进行操作,已上传的文件不支持更新文件内容。
为便于区别,腾讯云向量数据库将可直接操作向量数据的数据库称为 Base 类 Database。用户可以将向量数据上传至 Base 类 Database 中进行存储和管理,并可以直接对向量数据进行操作和处理。更多信息,请参见 Database。
CollectionView
AI 类数据库文档组的集合视图,由多个 DocumentSet 组成,每个 DocumentSet 存储一组数据,对应一个文件数据。多个 DocumentSet 构成一个 CollectionView。
DocumentSet
相对 Document,DocumentSet 是 AI 类数据库中存储在 CollectionView 中的非结构化数据,是文件被拆分成多个 Document 的集合。每个DocumentSet 存储一组数据,对应一个文件,是 CollectionView 下存储文件的最小单元。
Metadata
文件元数据,指上传文件时所携带的文件元数据信息,可以包括文件的名称、作者、创建日期、文件类型等信息。所有元数据被自动解析为标量字段,以
Key-Value
格式存储。用户可根据元数据构建标量字段的 Filter 索引,以检索并管理文件。Word
词语,是智能文档检索中最小的分割粒度,通常由一个或多个字符组成。在结果召回时,将对召回段落中所有 Words 进行相似性计算,以便于根据词向量进一步对检索结果做精排。
约束与限制
1. 当前支持导入数据库的文件类型包含: Markdown、PDF、Word、PPT,后续将逐步支持更多文件类型。
2. 每次只能上传一个文件,Markdown 类型文件最大限制为 1MB,其余类型最大限制为 10MB。若文件超过 10MB,请 提交工单 处理。
3. 当前支持地域包含:北京、上海、广州、新加坡。
开发者工具
您可以通过 Python SDK 或 HTTP 的方式访问 AI 类 Database。具体信息,请参见下表。
类别 | 功能 | Demo & API |
Python SDK | 将 AI 类 HTTP API 封装为 Python 函数或类 | |
HTTP | 支持创建 AI 类数据库、集合、上传并检索文件 |