配置知识库

最近更新时间:2025-12-04 16:11:21

我的收藏

简介

TCDataAgent 支持将各类文本文档解析为可问答的知识资产。向知识库添加文档时,您可从本地上传文档,也可从对象存储 COS 导入文档。添加文档后,TCDataAgent 将提取文本内容、语义信息,您可对其进行对话问答。
当前支持的文档类型说明如下:
文档类型
支持的文档格式
文档大小限制
文本文档
PDF、DOC、DOCX、PPT、PPTX
100MB以内
MD、TXT
10MB以内
PNG、JPG、JPEG
20MB以内
表格文档
XLS、XLSX、CSV
说明:
文件最多支持一个sheet 工作表,自动识别表格第一行作为表头。
100M以内
当前知识库功能模块有如下使用限制:
说明:
单次最多可上传或导入100个文档。
从 COS 导入文档时,暂仅支持选择腾讯云北京地域的对象存储 COS 桶。
对于图片文件,暂仅支持提取图片中的文本内容,更多图片语义理解功能敬请期待。

前置准备

您已开通 TCDataAgent 产品,详细操作请参见 开通使用

创建知识库

1. 进入TCDataAgent 知识库 模块,单击创建知识库。

2. 输入知识库名称和描述后,单击创建完成


添加文档

从本地上传文档

1. 进入已经创建的知识库,单击添加文件 > 从本地上传文档

2. 您可单击上传本地文档,或将本地文档拖拽至目标区域。

3. 上传后,您可继续点击上传或拖入本地文档,一次最多可上传100个文档。
在文档分段方式上,TCDataAgent 默认使用根据语义自动分段的智能分段方式。若您需自行设置分段规则,可以在文档导入后进行配置调整。
字段名称
字段说明
字段值说明
分段标识符
用于识别文本中自然分段边界的字符或字符串
可选值:换行符“\\n”、中文逗号“,”、中文句号“。”、 中文叹号“!”、 中文问号“?”、 英文逗号“,”、 英文句号“.”、 英文叹号“!”、 英文问号“?”、自定义
分段最大长度
单个文本块所允许包含的最大文本字符数
最小值500,最大值5000,步长1
分段重叠度
相邻两个文本块之间重复的文本比例
最小值0%,最大值100%,步长1%
4. 配置后单击确定,页面自动返回知识库列表页,显示该文档状态为“数据处理中”。

等待一段时间后,文档状态转为“可用”。

知识库文档可用后您可对其进行问答,详细操作请参见 对话问答

从 COS 导入文档

1. 进入已创建的知识库,单击添加文档 > 从COS导入文档

2. 您可在弹窗中选择目标 COS 路径和文件,单击确定

3. 进入文档配置页面。您可选择继续从COS导入文档,后续操作细节同上文 从本地上传文档

查看文档分段

1. 进入 TCDataAgent 知识库,对于目标文档,单击文档列表中的名称,进入详情页。

2. 进入文档分段详情页。

3. 您可单击原文件预览,查看原始文档内容。


更新文档分段配置

1. 对于目标文档,单击文档详情页调整配置

2. 单击后您可在弹窗中更新解析策略:

精准解析:默认选择,支持解析图片和表格中的文本
知识增强:支持文档概要和段落概要总结,开启后有助于提升检索的召回率
分段策略
默认使用智能分段
如有特殊需求,可调整为自定义分段,自定义分段配置内容如下:
字段名称
字段说明
字段值说明
分段标识符
用于识别文本中自然分段边界的字符或字符串
可选值:换行符“\\n”、中文逗号“,”、中文句号“。”、 中文叹号“!”、 中文问号“?”、 英文逗号“,”、 英文句号“.”、 英文叹号“!”、 英文问号“?”、自定义
分段最大长度
单个文本块所允许包含的最大文本字符数
最小值500,最大值5000,步长1
分段重叠度
相邻两个文本块之间重复的文本比例
最小值0%,最大值100%,步长1%
3. 配置完成后,点击保存并重新处理,文档会重新进入解析中状态。

删除文档

1. 进入 TCDataAgent 知识库,对于目标文档,单击删除

2. 如确认删除,可在弹窗中单击确定删除