媒体处理语音合成

功能介绍
提供多种 AI 语音模型选择，广泛适用于有声书、播客、音视频创作等多种场景。支持中、英、日、韩等40+语种，提供丰富的系统音色，音色复刻还原度高。
﻿
前提条件
在使用本功能前，您需完成以下前置操作：
腾讯云账号注册/登录、开通 MPS 产品、完成服务角色授权。
若您使用腾讯云子账号，还需要保证账号有足够权限使用 MPS 产品。
具体指引请参考 快速入门。账号授权问题可参考 账号授权 文档。
计费说明
收取“语音合成”费用，详细定价请参考 计费说明文档。
发起语音合成任务
短文本语音合成（同步）
控制台入口： AIGC 任务创建 > AI 语音。
﻿
您也可以调用 同步配音 接口发起任务并获取结果。
输入示例：
{
    "Text": "您好",
    "VoiceId": "s1_iX4D1zb9hyem/Bp2GpyJ7cD0miMrFVWDbtKap71N8cF8M7raq9RAupL+bRWn"
}
输出示例：
{
    "Response": {
        "RequestId": "2f8fa58c-91e8-4564-8b42-490ececda193",
        "ErrorCode": 0,
        "Msg": "success",
        "AudioData": "UklGRuxnAABXQVZFZm10IBAAAAABAAEAgD4AAA...",
        "VoiceId": "s1_iX4D1zb9hyem/Bp2GpyJ7cD0miMrFVWDbtKap71N8cF8M7raq9RAupL+bRWn"
    }
}
长文本语音合成（异步）
调用 异步语音合成 接口发起任务。
输入示例：
{
    "Text": "您好",
    "VoiceId": "s1_iX4D1zb9hyem/Bp2GpyJ7cD0miMrFVWDbtKap71N8cF8M7raq9RAupL+bRWn"
}
输出示例：
{
    "Response": {
        "ErrorCode": 0,
        "Msg": "success",
        "TaskId": "1300057393-DubbingAsync-0d810bb0-d78b-4545-b36e-eab983b40a6a",
        "RequestId": "0d810bb0-d78b-4545-b36e-eab983b40a6a"
    }
}
调用 查询语音合成任务结果 接口查询任务结果。
输入示例：
{
    "TaskId": "1300057393-DubbingAsync-fc3f52cf-f5f2-453c-882c-8847e5b2fe2f"
}
输出示例：
{
    "Response": {
        "AudioUrl": "https://laurie-tmp-1300828900.cos.ap-nanjing.myqcloud.com/async_dubbing/fc3f52cf-f5f2-453c-882c-8847e5b2fe2f.wav",
        "ErrorCode": 0,
        "ExtInfo": "{\\"duration\\":1.00325}",
        "Msg": "success",
        "Status": "success",
        "VoiceId": "s1_+DSBRZuGbfKlwsN1lV5OsriSYvOB3aSqqCsHH0LJ5BWHsmfmn13my4ki/QL+g+7RaRUWLhwPcEI6gtCTkA==",
        "RequestId": "c63e8ebb-af80-4987-b65e-eda61ac74455"
    }
}
指定引擎和模型版本
MPS 语音合成支持一系列丰富引擎和模型版本，包括：
引擎
模型版本
特性
MiniMax
speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-02-hd, speech-2.6-turbo, speech-02-turbo 等。
能力均衡，支持长文本。适合有声书、中文内容工厂、数字人对话等场景。
TTS-F2-emotional（待上线）
s2-pro，s1 等。
情绪细粒度控制强。适合多角色演播、情感戏等场景。
说明：
如需完整清单，请 联系我们。
本教程提供 MiniMax 引擎接入指引，如需其他引擎接入指引，请 联系我们。
联系时请提供使用场景、用量等必要信息以便评估。
MiniMax
通过扩展 ExtParam 指定引擎及对应参数。
扩展参数及说明
参数
类型
必填
描述
engine
String
是
填写 minimax。
synExt
Object
否
语音合成扩展参数
synExt.model
String
否
指定模型，支持 speech-2.6-hd、speech-2.8-hd（默认）等。
synExt.emotion
String
否
控制合成语音的情绪，参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm"]，分别对应 7 种情绪：高兴，悲伤，愤怒，害怕，厌恶，惊讶，中性。
synExt.format
String
否
生成音频格式。可选 wav、mp3，默认 wav。
synExt.sampleRate
Integer
否
合成音频采样率，可选范围[8000，16000，22050，24000，32000，44100]，默认16000。
synExt.duration
Float
否
指定音频时长。
synExt.speed
Float
否
语速，取值[0.5, 2]，默认1.0。
synExt.vol
Float
否
音量，取值(0, 10]，默认1.0。
synExt.pitch
Integer
否
音调，取值[-12, 12]，默认 0，原音调。
synExt.cutSilence
Bool
否
是否去除两端静音，当前仅中英文支持。
synExt.engineCustom
Object
否
引擎客制化参数。支持透传该语音合成引擎的所有官方请求参数，相同参数外层优先。
ExtParam 扩展参数示例
{
    "engine": "minimax",
    "synExt": {
        "model": "speech-2.6-hd",
        "emotion": "happy",
        "speed": 0.9
    }
}
MiniMax 语音合成示例
{
    "Text": "您好",
    "VoiceId": "Chinese (Mandarin)_News_Anchor",
    "ExtParam": "{\\"engine\\":\\"minimax\\",\\"synExt\\":{\\"model\\":\\"speech-2.6-hd\\",\\"emotion\\":\\"happy\\",\\"speed\\":0.9}}"
}
查询可用音色
﻿系统音色列表 文档列出了一些常用系统音色，您也可以前往 控制台音色库 查看完整音色列表。
﻿
API 接口为 查询可用音色。如需查询指定引擎的可用音色，需通过 ExtParam 传入 engine。
参数
类型
必填
描述
engine
String
当传了 ExtParam，必填
指定引擎名。
查询 MiniMax 可用音色示例：
{
    "ExtParam": "{\\"engine\\":\\"minimax\\"}"
}
附：支持语种
不同引擎和模型版本支持不同语种，以下为部分常见语种列表：
支持语种
语种 Code（srcLang、cloneVideoLang 传参支持选项）
中文 (Chinese)
zh
英语 (English)
en
日语 (Japanese)
ja
德语 (German)
de
法语 (French)
fr
韩语 (Korean)
ko
俄语 (Russian)
ru
乌克兰语 (Ukrainian)
uk
葡萄牙语 (Portuguese)
pt
意大利语 (Italian)
it
西班牙语 (Spanish)
es
印度尼西亚语 (Indonesian)
id
荷兰语 (Dutch)
nl
土耳其语 (Turkish)
tr
菲律宾语 (Filipino)
fil
马来语 (Malay)
ms
希腊语 (Greek)
el
芬兰语 (Finnish)
fi
克罗地亚语 (Croatian)
hr
斯洛伐克语 (Slovak)
sk
波兰语 (Polish)
pl
瑞典语 (Swedish)
sv
印地语 (Hindi)
hi
保加利亚语 (Bulgarian)
bg
罗马尼亚语 (Romanian)
ro
阿拉伯语 (Arabic)
ar
捷克语 (Czech)
cs
丹麦语 (Danish)
da
泰米尔语 (Tamil)
ta
匈牙利语 (Hungarian)
hun
越南语 (Vietnamese)
vi
挪威语 (Norwegian)
no
粤语 (Cantonese)
yue
泰语 (Thai)
th
希伯来语 (Hebrew)
he
加泰罗尼亚语 (Catalan)
ca
尼诺斯克语 (Nynorsk)
nn
阿非利卡语 (Afrikaans)
af
波斯语 (Persian)
fa
斯洛文尼亚语 (Slovenian)
sl

语音合成

本页目录：

功能介绍

前提条件

计费说明

发起语音合成任务

短文本语音合成（同步）

输入示例：

输出示例：

长文本语音合成（异步）

输入示例：

输出示例：

输入示例：

输出示例：

指定引擎和模型版本

MiniMax

扩展参数及说明

`ExtParam` 扩展参数示例

查询可用音色

附：支持语种

引擎	模型版本	特性
MiniMax	speech-2.8-hd, speech-2.8-turbo, speech-2.6-hd, speech-02-hd, speech-2.6-turbo, speech-02-turbo 等。	能力均衡，支持长文本。适合有声书、中文内容工厂、数字人对话等场景。
TTS-F2-emotional（待上线）	s2-pro，s1 等。	情绪细粒度控制强。适合多角色演播、情感戏等场景。

参数	类型	必填	描述
engine	String	是	填写 `minimax`。
synExt	Object	否	语音合成扩展参数
synExt.model	String	否	指定模型，支持 `speech-2.6-hd`、`speech-2.8-hd`（默认）等。
synExt.emotion	String	否	控制合成语音的情绪，参数范围 ["happy", "sad", "angry", "fearful", "disgusted", "surprised", "calm"]，分别对应 7 种情绪：高兴，悲伤，愤怒，害怕，厌恶，惊讶，中性。
synExt.format	String	否	生成音频格式。可选 wav、mp3，默认 wav。
synExt.sampleRate	Integer	否	合成音频采样率，可选范围[8000，16000，22050，24000，32000，44100]，默认16000。
synExt.duration	Float	否	指定音频时长。
synExt.speed	Float	否	语速，取值[0.5, 2]，默认1.0。
synExt.vol	Float	否	音量，取值(0, 10]，默认1.0。
synExt.pitch	Integer	否	音调，取值[-12, 12]，默认 0，原音调。
synExt.cutSilence	Bool	否	是否去除两端静音，当前仅中英文支持。
synExt.engineCustom	Object	否	引擎客制化参数。支持透传该语音合成引擎的所有官方请求参数，相同参数外层优先。

支持语种	语种 Code（`srcLang`、`cloneVideoLang` 传参支持选项）
中文 (Chinese)	zh
英语 (English)	en
日语 (Japanese)	ja
德语 (German)	de
法语 (French)	fr
韩语 (Korean)	ko
俄语 (Russian)	ru
乌克兰语 (Ukrainian)	uk
葡萄牙语 (Portuguese)	pt
意大利语 (Italian)	it
西班牙语 (Spanish)	es
印度尼西亚语 (Indonesian)	id
荷兰语 (Dutch)	nl
土耳其语 (Turkish)	tr
菲律宾语 (Filipino)	fil
马来语 (Malay)	ms
希腊语 (Greek)	el
芬兰语 (Finnish)	fi
克罗地亚语 (Croatian)	hr
斯洛伐克语 (Slovak)	sk
波兰语 (Polish)	pl
瑞典语 (Swedish)	sv
印地语 (Hindi)	hi
保加利亚语 (Bulgarian)	bg
罗马尼亚语 (Romanian)	ro
阿拉伯语 (Arabic)	ar
捷克语 (Czech)	cs
丹麦语 (Danish)	da
泰米尔语 (Tamil)	ta
匈牙利语 (Hungarian)	hun
越南语 (Vietnamese)	vi
挪威语 (Norwegian)	no
粤语 (Cantonese)	yue
泰语 (Thai)	th
希伯来语 (Hebrew)	he
加泰罗尼亚语 (Catalan)	ca
尼诺斯克语 (Nynorsk)	nn
阿非利卡语 (Afrikaans)	af
波斯语 (Persian)	fa
斯洛文尼亚语 (Slovenian)	sl