视频译制功能简介
字幕级视频译制:擦除+字幕提取+字幕翻译。自动识别视频中的原始字幕,进行精准擦除和大模型翻译,并将翻译后的字幕无缝压制到视频中。
配音级视频译制:在字幕级视频译制的同时,提供自然流畅的 AI 配音,生成带有 AI 翻译语言字幕配音的新视频。

配音级视频译制接入
前置操作
在接入智能擦除前,为正常使用 MPS 产品,您需要完成以下前置操作:腾讯云账号注册与登录、开通 MPS 产品、授权服务角色。
发起配音级视频译制任务
方式1:控制台发起任务
1. 进入控制台 创建任务 页面,依次选择输入文件路径、配置编排处理流程、输出路径。
2. 在编排配置中,选择媒体 AI - 智能分析节点。
3. 在右侧弹出页面中,选择25号预设模板。开启“更多设置 - 扩展参数”,根据下文 扩展参数说明,传入所需参数。
说明:
25号预设模板默认为智能擦除-去水印基础版功能。如需发起视频译制任务,必须传入扩展参数,否则 MPS 仅对视频进行去水印处理。
MPS 控制台会自动转义,请直接传入 JSON 数据,不要传入转义后的字符串,否则会导致任务失败。

方式2:API 发起任务
调用 ProcessMedia 接口 ,选择 AiAnalysisTask 任务,将 Definition 设置为 25(预设模板 ID),ExtendedParameter 填扩展参数,通过该参数实现视频译制能力,取值见下文 扩展参数说明。ProcessMedia 的 JSON 示例如下:
{"InputInfo":{ //输入视频路径,请替换为您的原始视频"Type":"URL","UrlInputInfo":{"Url":"https://test-1234567.cos.ap-nanjing.myqcloud.com/mps_test/myvideo.mp4"}},"OutputStorage":{ //输出COS存储桶,请替换"Type":"COS","CosOutputStorage":{"Bucket":"test","Region":"ap-nanjing"}},"OutputDir":"/mps_test/output/",//输出文件夹路径,请替换"AiAnalysisTask":{"Definition":25, //预设模板ID,填25即可"ExtendedParameter":"{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}" //扩展参数,用于指定视频译制具体能力},"TaskNotifyConfig":{ //事件回调通知配置,可选"NotifyType":"URL","NotifyUrl":"http://www.qq.com/callback"}}
建议您通过 API Explorer 实现快速验证。您可以将上述 JSON 复制到 API Explorer 的 JSON 模式中,切换至“表单”模式可以自动解析,调整输入输出路径等必要参数后,再单击发起调用即可。
在 API Explorer 表单和 JSON 两种输入模式下,ExtendedParameter 的位置示意如下图:

注意:
使用 API Explorer 的表单模式填写 ExtendedParameter 时,需要直接传入 JSON,不用转换成字符串。但使用 API Explorer 的 JSON 模式或直接使用 API 接口,则必须传入转义后的字符串。
API Explorer 表单模式,ExtendedParameter 传入 JSON 即可:

API Explorer JSON 模式,ExtendedParameter 则需要传入转义后的字符串,示例:
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
ExtendedParameter 扩展参数说明
请根据视频译制使用场景,设置相应的扩展参数,以下为常见场景说明。
场景1:OCR 提取字幕并翻译+擦除原字幕+压制新字幕+AI 克隆配音(最常用)
将视频字幕及配音翻译为指定语言,生成带有翻译语言字幕及配音的新视频。其中,字幕及配音内容来源于 OCR 文本提取(提取视频画面上的源字幕)。对于画面上带有源语言字幕的视频,建议使用该场景处理。
计费说明
使用该场景能力,收取「去字幕」、「OCR 提取字幕并翻译+压制字幕」及 「AI 配音(克隆音色)」三个计费项的费用。
若不开启压制字幕,收取「去字幕」、「OCR 提取字幕并翻译」及 「AI 配音(克隆音色)」三个计费项的费用。
效果示例
中文原视频:


英文译制视频:
ExtendedParameter 传参如下
{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr"}}//若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
指定语言
默认为中转英(源语言为简体中文,目标翻译语言为英语),若需要其他语言,可通过在 ExtendedParameter 中补充传入
translate_src_language 和 translate_dst_language参数。支持语种及对应 code 请参考下文 视频译制支持语种,示例:{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr","subtitle_param": {"translate_src_language": "de", //德语"translate_dst_language": "id" //印度尼西亚语}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}translate_src_language: 用于指定视频源语言,不传则默认为中文translate_dst_language: 用于指定翻译目标语言,不传则默认为英语*/
不开启压制字幕
若您不需要将翻译语言字幕压制到视频画面上,可以补充以下传参
"use_draw": false 。{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr","subtitle_param": {"use_draw": false}}}/*use_draw: 不传或传true表示压制字幕,false表示不压制字幕若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}*/
场景2:ASR 提取字幕并翻译+压制新字幕+AI 克隆配音
与场景1类似,场景2也是将视频字幕及配音翻译为指定语言,生成带有翻译语言字幕及配音的新视频。不过字幕及配音内容来源于 ASR 语音识别(识别视频源语音内容,转写为字幕)。场景2不会自动进行去字幕处理。
计费说明
效果示例
俄语原视频:
中文译制视频:
ExtendedParameter 传参如下
{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_asr"}}//若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
指定语言
默认为中转英(源语言为简体中文,目标翻译语言为英语),若需要其他语言,可通过在 ExtendedParameter 中补充传入
translate_src_language 和 translate_dst_language参数。支持语种及对应 code 请参考下文 视频译制支持语种,示例:{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_asr","subtitle_param": {"translate_src_language": "de", //德语"translate_dst_language": "id" //印度尼西亚语}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}translate_src_language: 用于指定视频源语言,不传则默认为中文translate_dst_language: 用于指定翻译目标语言,不传则默认为英语*/
不开启压制字幕
若您不需要将翻译语言字幕压制到视频画面上,可以在 ExtendedParameter 中补充以下传参
"subtitle_param": { "use_draw": false } 。{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_asr","subtitle_param": {"use_draw": false}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}*/
场景3:AI 配音使用标准音色
视频译制 AI 配音功能支持两种音色选择:
标准音色:支持中、英、日三语,提供多种男声、女声、童声选择。收取「AI 配音(标准音色)」费用。
克隆音色:基于领先 AI 语音克隆技术,逼真还原声音特征。收取「AI 配音(克隆音色)」费用。
附:视频译制支持语种
视频译制功能,若选用 AI 配音克隆音色,支持以下语种:
语种 | Code | 是否可用于源语言(translate_src_language) | 是否可用于翻译目标语言(translate_dst_language) |
中文 (Chinese) | zh | ✓ | ✓ |
英语 (English) | en | ✓ | ✓ |
日语 (Japanese) | ja | ✓ | ✓ |
德语 (German) | de | ✓ | ✓ |
法语 (French) | fr | ✓ | ✓ |
韩语 (Korean) | ko | ✓ | ✓ |
俄语 (Russian) | ru | ✓ | ✓ |
乌克兰语 (Ukrainian) | uk | ✓ | ✓ |
葡萄牙语 (Portuguese) | pt | ✓ | ✓ |
意大利语 (Italian) | it | ✓ | ✓ |
西班牙语 (Spanish) | es | ✓ | ✓ |
印度尼西亚语 (Indonesian) | id | ✓ | ✓ |
荷兰语 (Dutch) | nl | ✓ | ✓ |
土耳其语 (Turkish) | tr | ✓ | ✓ |
菲律宾语 (Filipino) | fil | ✓ | ✓ |
马来语 (Malay) | ms | ✓ | ✓ |
希腊语 (Greek) | el | ✓ | ✓ |
芬兰语 (Finnish) | fi | ✓ | ✓ |
克罗地亚语 (Croatian) | hr | ✓ | ✓ |
斯洛伐克语 (Slovak) | sk | ✓ | ✓ |
波兰语 (Polish) | pl | ✓ | ✓ |
瑞典语 (Swedish) | sv | ✓ | ✓ |
印地语 (Hindi) | hi | ✓ | ✓ |
保加利亚语 (Bulgarian) | bg | ✓ | ✓ |
罗马尼亚语 (Romanian) | ro | ✓ | ✓ |
阿拉伯语 (Arabic) | ar | ✓ | ✓ |
捷克语 (Czech) | cs | ✓ | ✓ |
丹麦语 (Danish) | da | ✓ | ✓ |
泰米尔语 (Tamil) | ta | ✓ | ✓ |
匈牙利语(Hungarian) | hun | ✓ | ✓ |
越南语(Vietnamese) | vi | ✓ | ✓ |
查询任务结果
视频译制任务会输出处理后的视频文件,保存在任务配置的输出路径下。
控制台查询结果
1. 您可以在控制台 任务管理 页面查看任务状态,当子任务状态为“成功”时,单击回调 JSON。

2. 可以在输出信息中找到输出文件路径。

如果使用 COS 作为输出路径,您可以在 MPS 控制台的编排管理 > COS Bucket > 输出 Bucket 页面中找到输出文件。文件名类似"delogo-xxx.mp4"的视频即为译制处理后的视频文件。

事件通知回调
在使用 ProcessMedia 发起媒体处理任务时,您可以通过 TaskNotifyConfig 参数配置事件回调。当任务处理完成后,会通过配置的回调信息回调任务结果,您可以通过 ParseNotification 解析事件通知结果。
调用接口查询任务结果
在使用 ProcessMedia 发起媒体处理任务后,会返回任务 ID(TaskId),例如:24000022-WorkflowTask-b20a8exxxxxxx1tt110253、24000022-ScheduleTask-774f101xxxxxxx1tt110253。调用 DescribeTaskDetail 接口,输入任务 ID 即可获取任务结果,您需要解析 WorkflowTask ->AiAnalysisResultSet 字段获取任务结果。
常见问题
若对译制效果不够满意,如何二次调整?
视频译制支持二次调整,您可以在 ExtendedParameter 中补充以下传参
"fine_tuning": true 开启二次调整。示例如下:{"delogo": {"cluster_id": "gpu_pre","CustomerAppId": "audio_clone_ocr","subtitle_param": {"translate_src_language": "de", //视频源语言,不传默认为中文"translate_dst_language": "id" //目标翻译语言,不传默认为英文},"audio_replease": {"fine_tuning": true //true表示开启二次调整,不传或传false表示不开启二次处理}}}/*若直接调用API或使用 API Explorer 的 JSON 模式,请使用转义版本:{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"},\\"audio_replease\\":{\\"fine_tuning\\":true}}}*/
开启后,视频译制处理结果会输出以下三个文件:
1. 翻译后带有翻译配音及字幕的视频。
2. 仅擦除字幕不配音的视频(无痕视频)。
3. 字幕及角色标记文件(Speaker 文件)。
Speaker 文件修改示例:
修改标记不正确的说话人(SpeakerId),可以避免串音现象。

修改过短时间戳,避免配音语速过快问题。

修改译文,满足更地道、更口语化的需求。

字幕级视频译制接入
场景1:无需擦除,通过语音识别生成字幕并翻译
场景2:需要擦除原字幕,翻译为其他语种,再压制渲染回视频画面