多模态解析(文档版)

最近更新时间:2026-06-26 01:44:50

我的收藏

1. 接口描述

接口请求域名: ocr.tencentcloudapi.com 。

本接口支持解析多种类型的文档文件(PDF、Word、PPT、Excel、Markdown、TXT、图片、WPS),返回解析后的结果文件下载地址(zip压缩包,包含markdown、json和图片)。

支持的文件大小:PDF/Word/PPT支持150M且300页以内、Excel支持10M以内、TXT支持10M以内、图片文件支持70M以内。

默认接口请求频率限制:5 并发。

推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:MultimodalDocParse。
Version String 公共参数,本接口取值:2018-11-19。
Region String 公共参数,此参数为可选参数。
FileUrl String

文件的 Url 地址,支持FileType参数对应的文件格式及大小。文件下载时间不超过3秒。文件存储于腾讯云的 Url 可保障更高的下载速度和稳定性,建议文件存储于腾讯云。非腾讯云存储的 Url 速度和稳定性可能受一定影响。


示例值:http://example.com/doc.pdf
FileType Integer

支持解析的文件类型。

1:PDF 文档;

2:Word 文档(.doc / .docx);

3:PPT 演示文稿(.ppt / .pptx);

4:Excel 表格(.xls / .xlsx);

5:Markdown 文档(.md);

6:纯文本文件(.txt);

7:图片文件(.png / .jpg / .jpeg 等);

8:WPS 文档;

0:未知文件类型。

支持的文件大小:

PDF/WORD/PPT支持150M且300页以内、EXCEL支持10M以内、TXT支持10M以内、图片文件支持70M以内。

默认值:1


示例值:7
ResultType Integer

输出格式。

1:json格式

2:markdown格式

3:xml格式

9:json+markdown+xml格式

默认值:9


示例值:3
EnableSubImg Boolean

是否支持子图解析。

默认值:false


示例值:true
PageRange String

需要识别的页码范围,单次调用最多支持300页。

参数格式:1-10


示例值:1-2

3. 输出参数

参数名称 类型 描述
ResultUrl String

结果的临时下载地址。文件类型为zip压缩包,下载链接有效期30分钟。压缩包内包含.md、.json以及images文件夹。


示例值:https://example.com/result.zip
RequestId String 唯一请求 ID,由服务端生成,每次请求都会返回(若请求因其他原因未能抵达服务端,则该次请求不会获得 RequestId)。定位问题时需要提供该次请求的 RequestId。

4. 示例

示例1 示例

输入示例

POST / HTTP/1.1
Host: ocr.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: MultimodalDocParse
<公共请求参数>

{
    "FileUrl": "http://example.com/doc.pdf",
    "FileType": 7
}

输出示例

{
    "Response": {
        "ResultUrl": "https://example.com/result.zip",
        "RequestId": "bfe1cd50-c8a5-4310-acf5-389e3e750fcc"
    }
}

5. 开发者资源

腾讯云 API 平台

腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。

API Inspector

用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
FailedOperation.DownLoadError 文件下载失败。
FailedOperation.OcrFailed OCR识别失败。
FailedOperation.UnKnowError 未知错误。
FailedOperation.UnOpenError 服务未开通。
InvalidParameterValue.InvalidParameterValueLimit 参数值错误。
LimitExceeded.TooLargeFileError 文件内容太大。
ResourceUnavailable.InArrears 账号已欠费。
ResourceUnavailable.ResourcePackageRunOut 账号资源包耗尽。
ResourcesSoldOut.ChargeStatusException 计费状态异常。