媒体处理一站式视频译制接入

视频译制功能简介
视频译制功能整合了 MPS 多项强大原子能力，包括字幕擦除、提取、翻译、压制以及 AI 配音，一站式完成译制全流程。
﻿
快速选型
根据您的业务场景，参考以下表格选择接入方式：
译制模式
配音级译制
﻿
字幕级译制
﻿
﻿
一站式字幕识别 + 翻译 + 擦除+ AI 配音
仅做 AI 配音
一站式字幕识别 + 翻译 + 擦除
仅做字幕识别 + 翻译
适用场景
有原始视频，需要全流程自动完成：字幕识别提取→翻译→擦除→AI 配音。
已有无痕视频、原文和译文字幕文件，只需 AI 配音，无需 MPS 进行字幕识别和擦除。
原始视频带有硬字幕，需要擦除原字幕，翻译为其他语种，再压制并渲染回视频画面。
原始视频没有硬字幕，无需擦除，只需要识别提取字幕并翻译为其他语种。
使用模板
「智能分析」 25 号预设模板
「智能分析」 32 号预设模板
「智能擦除」模板
「智能字幕」模板
字幕来源
OCR 文本识别 / ASR 语音识别
传入原文和译文字幕文件
OCR 文本识别 / ASR 语音识别
OCR 文本识别 / ASR 语音识别
原文字幕擦除
✓ 默认开启（可关闭）
✗ 不包含（不可开启）
✓ 包含（不可关闭）
✗ 不包含（不可开启）
AI 配音
✓ 包含（不可关闭）。
支持三种模式：全自动克隆配音、按角色智能配音、指定单一音色配音。
✓ 包含（不可关闭）。
支持三种模式：全自动克隆配音、按角色智能配音、指定单一音色配音。
✗ 不包含（不可开启）
✗ 不包含（不可开启）
译文字幕压制
✓ 默认开启（可关闭）
✓ 默认开启（可关闭）
✓ 默认开启（可关闭）
✓ 默认开启（可关闭）
计费说明
收取“去字幕” + “OCR 提取字幕并翻译”/“ASR 语音翻译” + “AI 配音” + “压制字幕”费用。
定价请参考 计费说明。
收取“AI 配音” + “压制字幕”费用。
定价请参考 计费说明。
收取“去字幕” + “OCR 提取字幕并翻译”/“ASR 语音翻译” +  “压制字幕”费用。
定价请参考 计费说明。
收取 “OCR 提取字幕并翻译”/“ASR 语音翻译” +  “压制字幕”费用。
定价请参考 计费说明。
接入指引
参考本文 配音级视频译制接入 部分
参考 AI 配音（不含擦除）接入文档。
参考本文 字幕级视频译制接入-场景2 部分。
参考本文 字幕级视频译制接入-场景1 部分。
配音级视频译制接入
一站式进行字幕识别 + 翻译 + 擦除+ AI 配音。
前置操作
在接入智能擦除前，为正常使用 MPS 产品，您需要完成以下前置操作：腾讯云账号注册与登录、开通 MPS 产品、授权服务角色。
具体指引请参考 快速入门。账号授权问题可参考 账号授权 文档。
发起配音级视频译制任务
方式1：控制台发起任务
进入控制台 视频译制场景应用，即可发起任务。
﻿
方式2：API 发起任务
调用 ProcessMedia 接口 ，选择 AiAnalysisTask 任务，将 Definition 设置为 25（预设模板 ID），ExtendedParameter 填扩展参数，通过该参数实现视频译制能力，取值见下文 扩展参数说明。ProcessMedia 的 JSON 示例如下：
{
   "InputInfo":{ //输入视频路径，请替换为您的原始视频
      "Type":"URL",
      "UrlInputInfo":{
         "Url":"https://test-1234567.cos.ap-nanjing.myqcloud.com/mps_test/myvideo.mp4"
      }
   },
   "OutputStorage":{ //输出COS存储桶，请替换
      "Type":"COS",
      "CosOutputStorage":{
         "Bucket":"test",
         "Region":"ap-nanjing"
      }
   },
   "OutputDir":"/mps_test/output/",//输出文件夹路径，请替换
   "AiAnalysisTask":{
      "Definition":25, //预设模板ID，填25即可
      "ExtendedParameter":"{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}" //扩展参数，用于指定视频译制具体能力
   },
   "TaskNotifyConfig":{ //事件回调通知配置，可选
      "NotifyType":"URL",
      "NotifyUrl":"http://www.qq.com/callback"
   }
}
建议您通过 API Explorer 实现快速验证。您可以将上述 JSON 复制到 API Explorer 的 JSON 模式中，切换至“表单”模式可以自动解析，调整输入输出路径等必要参数后，再单击发起调用即可。
在 API Explorer 表单和 JSON 两种输入模式下，ExtendedParameter 的位置示意如下图：
﻿
注意：
使用 API Explorer 的表单模式填写 ExtendedParameter 时，需要直接传入 JSON，不用转换成字符串。但使用 API Explorer 的 JSON 模式或直接使用 API 接口，则必须传入转义后的字符串。
API Explorer 表单模式，ExtendedParameter 传入 JSON 即可：
﻿
API Explorer JSON 模式，ExtendedParameter 则需要传入转义后的字符串，示例：
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
查询任务结果
视频译制任务会输出处理后的视频文件，保存在任务配置的输出路径下。
控制台查询结果
1. 您可以在控制台 任务管理 页面查看任务状态，当子任务状态为“成功”时，单击回调 JSON。
﻿
2. 可以在输出信息中找到输出文件路径。
﻿
如果使用 COS 作为输出路径，您可以在 MPS 控制台的编排管理 > COS Bucket > 输出 Bucket 页面中找到输出文件。文件名类似"delogo-xxx.mp4"的视频即为译制处理后的视频文件。
﻿
事件通知回调
在使用 ProcessMedia 发起媒体处理任务时，您可以通过 TaskNotifyConfig 参数配置事件回调。当任务处理完成后，会通过配置的回调信息回调任务结果，您可以通过 ParseNotification 解析事件通知结果。
调用接口查询任务结果
在使用 ProcessMedia 发起媒体处理任务后，会返回任务 ID（TaskId），例如：24000022-WorkflowTask-b20a8exxxxxxx1tt110253、24000022-ScheduleTask-774f101xxxxxxx1tt110253。调用 DescribeTaskDetail 接口，输入任务 ID 即可获取任务结果，您需要解析 WorkflowTask ->AiAnalysisResultSet 字段获取任务结果。
ExtendedParameter 扩展参数说明
请根据视频译制使用场景，设置相应的扩展参数，以下为常见场景说明。
场景1：OCR 提取字幕并翻译+擦除原字幕+压制新字幕+AI 克隆配音（最常用）
将视频字幕及配音翻译为指定语言，生成带有翻译语言字幕及配音的新视频。其中，字幕及配音内容来源于 OCR 文本提取（提取视频画面上的源字幕）。对于画面上带有源语言字幕的视频，建议使用该场景处理。
计费说明
使用该场景能力，收取「去字幕」、「OCR 提取字幕并翻译+压制字幕」及 「AI 配音（高情感克隆配音）」三个计费项的费用。
若不开启压制字幕，收取「去字幕」、「OCR 提取字幕并翻译」及 「AI 配音（高情感克隆配音）」三个计费项的费用。
定价可参考 计费说明。
效果示例
中文原视频：
﻿
﻿
﻿
﻿
英文译制视频：
﻿
﻿
ExtendedParameter 传参如下
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_ocr"
    }
}
﻿
//若直接调用API或使用 API Explorer 的 JSON 模式，请使用转义版本：{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
指定语言
默认为中转英（源语言为简体中文，目标翻译语言为英语），若需要其他语言，可通过在 ExtendedParameter 中补充传入 translate_src_language 和 translate_dst_language 参数。支持语种及对应 code 请参考下文 视频译制支持语种，示例：
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_ocr",
        "subtitle_param": {
            "translate_src_language": "de", //德语
            "translate_dst_language": "id" //印度尼西亚语
        }
    }
}
﻿
/*
若直接调用API或使用 API Explorer 的 JSON 模式，请使用转义版本：
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}
﻿
translate_src_language: 用于指定视频源语言，不传则默认为中文
translate_dst_language: 用于指定翻译目标语言，不传则默认为英语
*/
不开启压制字幕
若您不需要将翻译语言字幕压制到视频画面上，可以补充以下传参 "use_draw": false 。
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_ocr", 
        "subtitle_param": {
            "use_draw": false
        }
    }
}
/*
use_draw: 不传或传true表示压制字幕，false表示不压制字幕
﻿
若直接调用API或使用 API Explorer 的 JSON 模式，请使用转义版本：
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}
*/
场景2：ASR 提取字幕并翻译+压制新字幕+AI 克隆配音
与场景1类似，场景2也是将视频字幕及配音翻译为指定语言，生成带有翻译语言字幕及配音的新视频。不过字幕及配音内容来源于 ASR 语音识别（识别视频源语音内容，转写为字幕）。场景2不会自动进行去字幕处理。
计费说明
使用该场景能力，收取「 ASR 生成字幕并翻译+压制字幕」及 「AI 配音（高情感克隆配音）」两个计费项的费用。定价可参考 计费说明。
若不开启压制字幕，收取「 ASR 语音翻译」及 「AI 配音（高情感克隆配音）」两个计费项的费用。定价可参考 计费说明。
效果示例
俄语原视频：
﻿
中文译制视频：
﻿
ExtendedParameter 传参如下
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_asr"
    }
}
﻿
//若直接调用API或使用 API Explorer 的 JSON 模式，请使用转义版本：{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_ocr\\"}}
指定语言
默认为中转英（源语言为简体中文，目标翻译语言为英语），若需要其他语言，可通过在 ExtendedParameter 中补充传入 translate_src_language 和 translate_dst_language 参数。支持语种及对应 code 请参考下文 视频译制支持语种，示例：
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_asr",
        "subtitle_param": {
            "translate_src_language": "de", //德语
            "translate_dst_language": "id" //印度尼西亚语
        }
    }
}
﻿
/*
若直接调用API或使用 API Explorer 的 JSON 模式，请使用转义版本：
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"translate_src_language\\":\\"de\\",\\"translate_dst_language\\":\\"id\\"}}}
﻿
translate_src_language: 用于指定视频源语言，不传则默认为中文
translate_dst_language: 用于指定翻译目标语言，不传则默认为英语
*/
不开启压制字幕
若您不需要将翻译语言字幕压制到视频画面上，可以在 ExtendedParameter 中补充以下传参 "subtitle_param": { "use_draw": false } 。
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_asr", 
        "subtitle_param": {
            "use_draw": false
        }
    }
}
/*
若直接调用API或使用 API Explorer 的 JSON 模式，请使用转义版本：
{\\"delogo\\":{\\"cluster_id\\":\\"gpu_pre\\",\\"CustomerAppId\\":\\"audio_clone_asr\\",\\"subtitle_param\\":{\\"use_draw\\":false}}}
*/
场景3：切换 AI 配音模式
AI 配音支持以下几种模式：
AI 配音模式
说明
计费说明
高情感克隆配音 （默认）
克隆原片角色音色，保留情感语气。情绪表现最好。
收取“AI 配音-克隆音色”费用
按角色智能分配音色
自动角色识别，从音色库中为每个角色自动分配符合角色描述的音色（不进行音色克隆）。情绪表现中等，音色一致性好，性价比高。
收取“AI 配音-按角色分配”费用
指定音色
指定单一音色 ID，全片使用一个音色说话，适合旁白、解说等单人说话的视频场景。音色 ID 可以通过参考音频克隆合成，或从 MPS 提供的系统音色库中选择。
收取“AI 配音-指定音色”费用。
定价请参考 计费说明﻿
指定配音模式，需要通过 voice_clone_param 字段实现：
AI 配音模式
ExtendedParameter 传参示例
高情感克隆配音 （默认）
voice_clone_param 不传即可
按角色智能分配音色
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_ocr",
        "subtitle_param": {
            "translate_src_language": "zh",
            "translate_dst_language": "en",
            "voice_clone_param": {
              "voice_from": "match" //表示使用“按角色智能分配音色”模式
            }
        }
    }
}
指定音色
{
    "delogo": {
        "cluster_id": "gpu_pre",
        "CustomerAppId": "audio_clone_ocr",
        "subtitle_param": {
            "translate_src_language": "zh",
            "translate_dst_language": "en",
            "voice_clone_param": {
                "provider": "beta", //必传
                "disable_speaker_mark": true, //必传true
                "narrator_voice_id": "s1_ffgIs/z6m/4N0fS1/MSotjeSxrtaVMTXMovoBjRATytSYVzhffFMWxq4pnx36Mq75Sh/v6d5smsJaA7z8w==" //音色ID
            }
        }
    }
}
附：视频译制支持语种
视频译制功能，若选用 AI 配音（高情感克隆配音），支持以下语种：
语种
Code
是否可用于源语言（translate_src_language）
是否可用于翻译目标语言（translate_dst_language）
中文 (Chinese)
zh
✓
✓
英语 (English)
en
✓
✓
日语 (Japanese)
ja
✓
✓
德语 (German)
de
✓
✓
法语 (French)
fr
✓
✓
韩语 (Korean)
ko
✓
✓
俄语 (Russian)
ru
✓
✓
乌克兰语 (Ukrainian)
uk
✓
✓
葡萄牙语 (Portuguese)
pt
✓
✓
意大利语 (Italian)
it
✓
✓
西班牙语 (Spanish)
es
✓
✓
印度尼西亚语 (Indonesian)
id
✓
✓
荷兰语 (Dutch)
nl
✓
✓
土耳其语 (Turkish)
tr
✓
✓
菲律宾语 (Filipino)
fil
✓
✓
马来语 (Malay)
ms
✓
✓
希腊语 (Greek)
el
✓
✓
芬兰语 (Finnish)
fi
✓
✓
克罗地亚语 (Croatian)
hr
✓
✓
斯洛伐克语 (Slovak)
sk
✓
✓
波兰语 (Polish)
pl
✓
✓
瑞典语 (Swedish)
sv
✓
✓
印地语 (Hindi)
hi
✓
✓
保加利亚语 (Bulgarian)
bg
✓
✓
罗马尼亚语 (Romanian)
ro
✓
✓
阿拉伯语 (Arabic)
ar
✓
✓
捷克语 (Czech)
cs
✓
✓
丹麦语 (Danish)
da
✓
✓
泰米尔语 (Tamil)
ta
✓
✓
匈牙利语（Hungarian）
hun
✓
✓
越南语（Vietnamese）	
vi
✓
✓
泰语（Thai）
th
✓
✓
若选用 AI 配音标准音色，支持多种男声、女声、童声选择。当前标准音色能力升级中，暂仅开放内测。如需了解具体音色及语种列表，您可以联系商务或 提交工单 获得支持。
字幕级视频译制接入
场景1：无需擦除，通过语音识别生成字幕并翻译
您可以使用智能字幕功能，基于 ASR 语音识别，生成翻译语言字幕文件，再通过调用转码功能，将字幕压制到视频画面中，参考 智能字幕接入。
场景2：需要擦除原字幕，翻译为其他语种，再压制并渲染回视频画面
参考 智能擦除接入-字幕级译制，一站式实现原始字幕擦除、字幕提取、字幕翻译、字幕压制。

译制模式	配音级译制			字幕级译制
译制模式		一站式字幕识别 + 翻译 + 擦除+ AI 配音	仅做 AI 配音	一站式字幕识别 + 翻译 + 擦除	仅做字幕识别 + 翻译
适用场景	有原始视频，需要全流程自动完成：字幕识别提取→翻译→擦除→AI 配音。	已有无痕视频、原文和译文字幕文件，只需 AI 配音，无需 MPS 进行字幕识别和擦除。	原始视频带有硬字幕，需要擦除原字幕，翻译为其他语种，再压制并渲染回视频画面。	原始视频没有硬字幕，无需擦除，只需要识别提取字幕并翻译为其他语种。
使用模板	「智能分析」 25 号预设模板	「智能分析」 32 号预设模板	「智能擦除」模板	「智能字幕」模板
字幕来源	OCR 文本识别 / ASR 语音识别	传入原文和译文字幕文件	OCR 文本识别 / ASR 语音识别	OCR 文本识别 / ASR 语音识别
原文字幕擦除	✓ 默认开启（可关闭）	✗ 不包含（不可开启）	✓ 包含（不可关闭）	✗ 不包含（不可开启）
AI 配音	✓ 包含（不可关闭）。支持三种模式：全自动克隆配音、按角色智能配音、指定单一音色配音。	✓ 包含（不可关闭）。支持三种模式：全自动克隆配音、按角色智能配音、指定单一音色配音。	✗ 不包含（不可开启）	✗ 不包含（不可开启）
译文字幕压制	✓ 默认开启（可关闭）	✓ 默认开启（可关闭）	✓ 默认开启（可关闭）	✓ 默认开启（可关闭）
计费说明	收取“去字幕” + “OCR 提取字幕并翻译”/“ASR 语音翻译” + “AI 配音” + “压制字幕”费用。定价请参考计费说明。	收取“AI 配音” + “压制字幕”费用。定价请参考计费说明。	收取“去字幕” + “OCR 提取字幕并翻译”/“ASR 语音翻译” + “压制字幕”费用。定价请参考计费说明。	收取 “OCR 提取字幕并翻译”/“ASR 语音翻译” + “压制字幕”费用。定价请参考计费说明。
接入指引	参考本文配音级视频译制接入部分	参考 AI 配音（不含擦除）接入文档。	参考本文字幕级视频译制接入-场景2 部分。	参考本文字幕级视频译制接入-场景1 部分。

AI 配音模式	说明	计费说明
高情感克隆配音（默认）	克隆原片角色音色，保留情感语气。情绪表现最好。	收取“AI 配音-克隆音色”费用
按角色智能分配音色	自动角色识别，从音色库中为每个角色自动分配符合角色描述的音色（不进行音色克隆）。情绪表现中等，音色一致性好，性价比高。	收取“AI 配音-按角色分配”费用
指定音色	指定单一音色 ID，全片使用一个音色说话，适合旁白、解说等单人说话的视频场景。音色 ID 可以通过参考音频克隆合成，或从 MPS 提供的系统音色库中选择。	收取“AI 配音-指定音色”费用。定价请参考计费说明

AI 配音模式	`ExtendedParameter` 传参示例
高情感克隆配音（默认）	`voice_clone_param` 不传即可
按角色智能分配音色	{ "delogo": { "cluster_id": "gpu_pre", "CustomerAppId": "audio_clone_ocr", "subtitle_param": { "translate_src_language": "zh", "translate_dst_language": "en", "voice_clone_param": { "voice_from": "match" //表示使用“按角色智能分配音色”模式 } } } }
指定音色	{ "delogo": { "cluster_id": "gpu_pre", "CustomerAppId": "audio_clone_ocr", "subtitle_param": { "translate_src_language": "zh", "translate_dst_language": "en", "voice_clone_param": { "provider": "beta", //必传 "disable_speaker_mark": true, //必传true "narrator_voice_id": "s1_ffgIs/z6m/4N0fS1/MSotjeSxrtaVMTXMovoBjRATytSYVzhffFMWxq4pnx36Mq75Sh/v6d5smsJaA7z8w==" //音色ID } } } }

语种	Code	是否可用于源语言（translate_src_language）	是否可用于翻译目标语言（translate_dst_language）
中文 (Chinese)	zh	✓	✓
英语 (English)	en	✓	✓
日语 (Japanese)	ja	✓	✓
德语 (German)	de	✓	✓
法语 (French)	fr	✓	✓
韩语 (Korean)	ko	✓	✓
俄语 (Russian)	ru	✓	✓
乌克兰语 (Ukrainian)	uk	✓	✓
葡萄牙语 (Portuguese)	pt	✓	✓
意大利语 (Italian)	it	✓	✓
西班牙语 (Spanish)	es	✓	✓
印度尼西亚语 (Indonesian)	id	✓	✓
荷兰语 (Dutch)	nl	✓	✓
土耳其语 (Turkish)	tr	✓	✓
菲律宾语 (Filipino)	fil	✓	✓
马来语 (Malay)	ms	✓	✓
希腊语 (Greek)	el	✓	✓
芬兰语 (Finnish)	fi	✓	✓
克罗地亚语 (Croatian)	hr	✓	✓
斯洛伐克语 (Slovak)	sk	✓	✓
波兰语 (Polish)	pl	✓	✓
瑞典语 (Swedish)	sv	✓	✓
印地语 (Hindi)	hi	✓	✓
保加利亚语 (Bulgarian)	bg	✓	✓
罗马尼亚语 (Romanian)	ro	✓	✓
阿拉伯语 (Arabic)	ar	✓	✓
捷克语 (Czech)	cs	✓	✓
丹麦语 (Danish)	da	✓	✓
泰米尔语 (Tamil)	ta	✓	✓
匈牙利语（Hungarian）	hun	✓	✓
越南语（Vietnamese）	vi	✓	✓
泰语（Thai）	th	✓	✓

一站式视频译制接入

本页目录：

视频译制功能简介

快速选型

配音级视频译制接入

前置操作

发起配音级视频译制任务

方式1：控制台发起任务

方式2：API 发起任务

查询任务结果

控制台查询结果

事件通知回调

调用接口查询任务结果

ExtendedParameter 扩展参数说明

场景1：OCR 提取字幕并翻译+擦除原字幕+压制新字幕+AI 克隆配音（最常用）

计费说明

效果示例

ExtendedParameter 传参如下

指定语言

不开启压制字幕

场景2：ASR 提取字幕并翻译+压制新字幕+AI 克隆配音

计费说明

效果示例

ExtendedParameter 传参如下

指定语言

不开启压制字幕

场景3：切换 AI 配音模式

附：视频译制支持语种

字幕级视频译制接入

场景1：无需擦除，通过语音识别生成字幕并翻译

场景2：需要擦除原字幕，翻译为其他语种，再压制并渲染回视频画面