简介
TCDataAgent 支持将各类文本文档解析为可问答的知识资产。向知识库添加文档时,您可从本地上传文档,也可从对象存储 COS 导入文档。添加文档后,TCDataAgent 将提取文本内容、语义信息,您可对其进行对话问答。
当前支持的文档类型说明如下:
文档类型 | 支持的文档格式 | 文档大小限制 |
文本文档 | PDF、DOC、DOCX、PPT、PPTX | 100MB以内 |
| MD、TXT | 10MB以内 |
| PNG、JPG、JPEG | 20MB以内 |
表格文档 | XLS、XLSX、CSV 说明: 文件最多支持一个sheet 工作表,自动识别表格第一行作为表头。 | 100M以内 |
当前知识库功能模块有如下使用限制:
说明:
单次最多可上传或导入100个文档。
从 COS 导入文档时,暂仅支持选择腾讯云北京地域的对象存储 COS 桶。
对于图片文件,暂仅支持提取图片中的文本内容,更多图片语义理解功能敬请期待。
前置准备
创建知识库
1. 进入TCDataAgent 知识库 模块,单击创建知识库。

2. 输入知识库名称和描述后,单击创建完成

添加文档
从本地上传文档
1. 进入已经创建的知识库,单击添加文件 > 从本地上传文档。

2. 您可单击上传本地文档,或将本地文档拖拽至目标区域。

3. 上传后,您可继续点击上传或拖入本地文档,一次最多可上传100个文档。
在文档分段方式上,TCDataAgent 默认使用根据语义自动分段的智能分段方式。若您需自行设置分段规则,可以在文档导入后进行配置调整。
字段名称 | 字段说明 | 字段值说明 |
分段标识符 | 用于识别文本中自然分段边界的字符或字符串 | 可选值:换行符“\\n”、中文逗号“,”、中文句号“。”、 中文叹号“!”、 中文问号“?”、 英文逗号“,”、 英文句号“.”、 英文叹号“!”、 英文问号“?”、自定义 |
分段最大长度 | 单个文本块所允许包含的最大文本字符数 | 最小值500,最大值5000,步长1 |
分段重叠度 | 相邻两个文本块之间重复的文本比例 | 最小值0%,最大值100%,步长1% |
4. 配置后单击确定,页面自动返回知识库列表页,显示该文档状态为“数据处理中”。

等待一段时间后,文档状态转为“可用”。

从 COS 导入文档
1. 进入已创建的知识库,单击添加文档 > 从COS导入文档。

2. 您可在弹窗中选择目标 COS 路径和文件,单击确定。

3. 进入文档配置页面。您可选择继续从COS导入文档,后续操作细节同上文 从本地上传文档。
查看文档分段
1. 进入 TCDataAgent 知识库,对于目标文档,单击文档列表中的名称,进入详情页。

2. 进入文档分段详情页。

3. 您可单击原文件预览,查看原始文档内容。

更新文档分段配置
1. 对于目标文档,单击文档详情页调整配置。

2. 单击后您可在弹窗中更新解析策略:

精准解析:默认选择,支持解析图片和表格中的文本
知识增强:支持文档概要和段落概要总结,开启后有助于提升检索的召回率
分段策略:
默认使用智能分段
如有特殊需求,可调整为自定义分段,自定义分段配置内容如下:
字段名称 | 字段说明 | 字段值说明 |
分段标识符 | 用于识别文本中自然分段边界的字符或字符串 | 可选值:换行符“\\n”、中文逗号“,”、中文句号“。”、 中文叹号“!”、 中文问号“?”、 英文逗号“,”、 英文句号“.”、 英文叹号“!”、 英文问号“?”、自定义 |
分段最大长度 | 单个文本块所允许包含的最大文本字符数 | 最小值500,最大值5000,步长1 |
分段重叠度 | 相邻两个文本块之间重复的文本比例 | 最小值0%,最大值100%,步长1% |
3. 配置完成后,点击保存并重新处理,文档会重新进入解析中状态。
删除文档
1. 进入 TCDataAgent 知识库,对于目标文档,单击删除。

2. 如确认删除,可在弹窗中单击确定删除。
