向量数据库基本介绍

什么是 AI 套件？
AI 套件是腾讯云向量数据库（Tencent Cloud VectorDB）提供的一站式文档检索解决方案，包含依赖模型的自动化文档解析、信息补充、向量化、内容检索等能力，并拥有丰富的可配置项，助力显著提升文档检索召回效果。用户仅需上传原始文档，数分钟内即可快速构建专属知识库，大幅提高知识接入效率。
快速接入
向量数据库支持基于 Collection 或 CollectionView 上传原始文本文件。基于 Collection 上传文件是调用了 CollectionView 的接口。
（推荐）Collection：上传文件至 Collection 后，可通过标准接口访问数据并自主管理标量索引与账号权限，适用于需灵活管理、访问及修改拆分后数据的场景。具体代码示例，请参见 基于 Collection 上传文件。
CollectionView：文件上传至 CollectionView 后，通过其接口即可访问数据，适用于需快速构建并应用知识库的场景。具体代码示例，请参见 使用 AI 套件快速上传文件并检索。
说明：
AI 套件当前可以免费体验，暂不计费，后续正式计费时间请留意腾讯云官方通知。
设计思想
AI 套件检索方案提供完整的文档预处理和灵活的内容检索能力。用户只需上传 Markdown、PDF、Word、PPT 等格式的文档文件。腾讯云向量数据库将自动进行文本切分（Split）、信息补充、向量化（Embedding）和索引构建等一系列操作，完成知识库的建立。在进行检索时，会先基于切分后的内容进行相似度计算，并结合词（Words）向量进一步对检索结果进行精排，最终返回排名靠前的 Top K 条数据和其上下文内容。这种综合利用词级别做精排的检索方式，提供了更专业、更精确的内容检索体验。如下图以 Markdown 格式的文件为例。
﻿
基本概念
请先了解数据库设计的 逻辑结构，以便更好地理解 AI 套件相关的基本概念。
AI 类 Database
AI 类 Database 是专门用于 AI 套件上传和存储文件的向量数据库系统，可用于构建知识库。用户可以直接将文件上传至 AI 类 Database 下的 CollectionView 中，自动构建个性化的知识库。
说明：
AI 类 Database 不支持直接对向量数据进行操作，已上传的文件不支持更新文件内容。
为便于区别，腾讯云向量数据库将可直接操作向量数据的数据库称为 Base 类 Database。用户可以将向量数据上传至 Base 类 Database 中进行存储和管理，并可以直接对向量数据进行操作和处理。更多信息，请参见 Database。
CollectionView
AI 类数据库文档组的集合视图，由多个 DocumentSet 组成，每个 DocumentSet 存储一组数据，对应一个文件数据。多个 DocumentSet 构成一个 CollectionView。
DocumentSet
相对 Document，DocumentSet 是 AI 类数据库中存储在 CollectionView 中的非结构化数据，是文件被拆分成多个 Document 的集合。每个 DocumentSet 存储一组数据，对应一个文件，是 CollectionView 下存储文件的最小单元。
Metadata
文件元数据，指上传文件时所携带的文件元数据信息，可以包括文件的名称、作者、创建日期、文件类型等信息。所有元数据被自动解析为标量字段，以Key-Value格式存储。用户可根据元数据构建标量字段的 Filter 索引，以检索并管理文件。
Word
词语，是智能文档检索中最小的分割粒度，通常由一个或多个字符组成。在结果召回时，将对召回段落中所有 Words 进行相似性计算，以便于根据词向量进一步对检索结果做精排。
约束与限制
1. 当前支持导入数据库的文件类型包含： Markdown(.md)、PDF(.pdf)、Word(.docx)、PPT(.pptx)，后续将逐步支持更多文件类型。
2. 每次只能上传一个文件，Markdown 类型文件最大限制为1MB，其余类型最大限制为100MB。
3. 当前支持地域包含：北京、上海、广州、新加坡。
开发者工具
类别
Demo & API
Python SDK
﻿SDK AI Demo﻿
Java SDK 
﻿Java SDK Demo﻿
Go SDK
﻿Go SDK Demo﻿
HTTP 
﻿HTTP API﻿
类别	Demo & API
Python SDK	SDK AI Demo
Java SDK	Java SDK Demo
Go SDK	Go SDK Demo
HTTP	HTTP API
基本介绍

本页目录：

什么是 AI 套件？

快速接入

设计思想

基本概念

AI 类 Database

CollectionView

DocumentSet

Metadata

Word

约束与限制

开发者工具