实时文档解析

最近更新时间:2025-01-10 01:20:53

我的收藏

1. 接口描述

接口请求域名: lkeap.tencentcloudapi.com 。

准实时文档解析接口,使用HTTP SSE 协议通信。

默认接口请求频率限制:20次/秒。

推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:ReconstructDocumentSSE。
Version String 公共参数,本接口取值:2024-05-22。
Region String 公共参数,详见产品支持的 地域列表
FileType String 文件类型。
支持的文件类型:PDF、DOC、DOCX、PPT、PPTX、MD、TXT、XLS、XLSX、CSV、PNG、JPG、JPEG、BMP、GIF、WEBP、HEIC、EPS、ICNS、IM、PCX、PPM、TIFF、XBM、HEIF、JP2
支持的文件大小
- PDF、DOC、DOCX、PPT、PPTX 支持100M
- MD、TXT 支持10M
- 其他支持20M

示例值:PDF
FileUrl String 文件的 URL 地址。
文件存储于腾讯云的 URL 可保障更高的下载速度和稳定性,建议文件存储于腾讯云。 非腾讯云存储的 URL 速度和稳定性可能受一定影响。
参考:腾讯云COS文档
FileBase64 String 文件的 Base64 值。
支持的文件大小:所下载文件经Base64编码后不超过 8M。文件下载时间不超过 3 秒。
支持的图片像素:单边介于20-10000px之间。
文件的 FileUrl、FileBase64 必须提供一个,如果都提供,只使用 FileUrl。
FileStartPageNumber Integer 文档的起始页码。
当传入文件是PDF、PDF、PPT、PPTX、DOC类型时,用来指定识别的起始页码,识别的页码包含当前值。
示例值:1
FileEndPageNumber Integer 文档的结束页码。
当传入文件是PDF、PDF、PPT、PPTX、DOC类型时,用来指定识别的结束页码,识别的页码包含当前值。
示例值:100
Config ReconstructDocumentSSEConfig 文档解析配置信息

3. 输出参数

参数名称 类型 描述
TaskId String 任务ID。本次请求的唯一标识
ResponseType String 响应类型。1:返回进度信息,2:返回解析结果
Progress String 进度。0~100
ProgressMessage String 进度信息。
DocumentRecognizeResultUrl String 文档解析结果URL。存储在腾讯云cos,可以通过http请求下载,URL十分钟内有效。
FailedPages Array of ReconstructDocumentFailedPage 文档解析失败的页码。
RequestId String 唯一请求 ID,由服务端生成,每次请求都会返回(若请求因其他原因未能抵达服务端,则该次请求不会获得 RequestId)。定位问题时需要提供该次请求的 RequestId。本接口为流式响应接口,当请求成功时,RequestId 会被放在 HTTP 响应的 Header "X-TC-RequestId" 中。

4. 示例

示例1 ReconstructDocumentSSE处理中回包示例

输入示例

POST / HTTP/1.1
Host: lkeap.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: ReconstructDocumentSSE
<公共请求参数>

{
    "FileType": "PDF",
    "FileUrl": "https://ocr.example.pdf"
}

输出示例

{
  "RequestId": "0c7bbfbc-641a-4321-bee2-56b1e1e046e9",
  "TaskId": "0c7bbfbc-641a-4321-bee2-56b1e1e046e9",
  "ResponseType": "PROGRESS",
  "Progress": "0",
  "ProgressMessage": "开始文档解析",
  "DocumentRecognizeResultUrl": "",
  "FailedPages": []
}

示例2 ReconstructDocumentSSE处理完成回包示例

输入示例

POST / HTTP/1.1
Host: lkeap.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: ReconstructDocumentSSE
<公共请求参数>

{
    "FileType": "PDF",
    "FileUrl": "https://ocr.example.pdf"
}

输出示例

{
  "RequestId": "0c7cabfbc-641a-4321-bee2-56b1e1adwq6e9",
  "TaskId": "0c7bbfbc-641a-4321-bee2-5dds1e1e04fe9",
  "ResponseType": "TASK_RSP",
  "Progress": "100",
  "ProgressMessage": "完成文档解析",
  "DocumentRecognizeResultUrl": "https://document-restruction-sse-1258344699.cos.ap-guangzhou.myqcloud.com/output_files%2F0c7bbfbc-641a-4321-bee2-545de1e046e9_parse.zip?q-sign-algorithm=sha1&q-ak=AKddFap6HLNbidLwPqOrAKGzXrx40scL7l&q-sign-time=1720006266%3B1720006866&q-key-time=1720006266%3B1720006866&q-header-list=host&q-url-param-list=&q-signature=e0e79876549e68f2ae9dbf5df1e516f8f1",
  "FailedPages": []
}

5. 开发者资源

腾讯云 API 平台

腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。

API Inspector

用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
FailedOperation.NonsupportParse 暂不支持解析该文件
FailedOperation.UnKnowError 内部未知错误。
FailedOperation.UnOpenError 服务未开通。
FailedOperation.UploadResultFileFailed 生成识别结果文件访问url失败,请稍后重试。
InvalidParameterValue.InvalidParameterValueLimit 参数值错误。
LimitExceeded.ExceededMaxPagesError 超过最大文件页数限制
LimitExceeded.TooLargeFileError 文件太大
RequestLimitExceeded 请求的次数超过了频率限制。
ResourceUnavailable.InArrears 帐号已欠费。
ResourceUnavailable.ResourcePackageRunOut 账号资源包耗尽。
ResourcesSoldOut.ChargeStatusException 计费状态异常。