支持的 TTSConfig 配置
TTS 参数使用用户自己的第三方账号。
Tencent TTS
{"TTSType": "tencent", // String TTS类型"AppId": 您的应用ID, // Integer 必填"SecretId": "您的密钥ID", // String 必填"SecretKey": "您的密钥Key", // String 必填"VoiceType": 101001, // Integer 必填,音色 ID,包括标准音色与精品音色,精品音色拟真度更高,价格不同于标准音色,请参见语音合成计费概述。完整的音色 ID 列表请参见语音合成音色列表。"Speed": 1.25, // Integer 非必填,语速,范围:[-2,6],分别对应不同语速: -2: 代表0.6倍 -1: 代表0.8倍 0: 代表1.0倍(默认) 1: 代表1.2倍 2: 代表1.5倍 6: 代表2.5倍 如果需要更细化的语速,可以保留小数点后 2 位,例如0.5/1.25/2.81等。 参数值与实际语速转换,可参考 语速转换"Volume": 5, // Integer 非必填,音量大小,范围:[0,10],分别对应11个等级的音量,默认值为0,代表正常音量。"PrimaryLanguage": 1, // Integer 可选 主要语言 1-中文(默认) 2-英文 3-日文"FastVoiceType": "xxxx" // String 可选参数,快速声音复刻的参数"EmotionCategory":"angry",// String 非必填,控制合成音频的情感,仅支持多情感音色使用。取值: neutral(中性)、sad(悲伤)..."EmotionIntensity":150 //Integer 非必填,控制合成音频情感程度,取值范围为 [50,200],默认为 100;只有 EmotionCategory 不为空时生效。}
minimax TTS
{"TTSType": "minimax", // String TTS类型,"Model": "speech-01-turbo", // String 必填,请求的模型版本"APIUrl": "https://api.minimax.chat/v1/t2a_v2", // String 必填,接口地址"APIKey": "eyxxxx", // String 必填"GroupId": "181000000000000", // String 必填,用户所属的组"VoiceType":"female-tianmei-jingpin", // String 必填,请求的音色编号,对应voice_id"Speed": 1.0, // Integer 非必填,生成声音的语速,范围[0.5,2],默认值为1.0"Volume": 1.0, // Integer 非必填,生成声音的音量,范围(0,10],默认值为1.0"Pitch": 0, // Integer 非必填,生成声音的语调,范围[-12,12],默认值为0"Emotion": "", // String 非必填,控制合成语音的情绪,该参数仅对speech-02-hd,speech-02-turbo,speech-01-turbo,speech-01-hd生效"LanguageBoost": "", // String 非必填,增强对指定的小语种和方言的识别能力,设置后可以提升在指定小语种/方言场景下的语音表现。如果不明确小语种类型,则可以选择"auto",模型将自主判断小语种类型。"PronunciationDict": { "tone": [] } // 非必填,替换需要特殊标注的文字、符号及对应的注音。}
接口名 | T2A v2(语音生成) | T2A Pro(语音生成) | T2A(语音生成) | T2A Stream(流式语音生成) | T2A Stream(流式语音生成) |
模型 | speech-01-turbo、speech-01-240228、speech-01-turbo-240228 | speech-01、speech-02 | speech-01、speech-02 | speech-01 | speech-01 |
客户类型\\限制类型 | RPM | RPM | RPM | RPM | CONN(最大并行运行任务数) |
免费用户 | 3 | 3 | 3 | 3 | 1 |
充值用户 | 20 | 20 | 20 | 20 | 3 |
Azure TTS
{"TTSType": "azure", // 必填:String TTS类型"SubscriptionKey": "xxxxxxxx", // 必填:String 订阅的Key"Region": "chinanorth3", // 必填:String 订阅的地区"VoiceName": "zh-CN-XiaoxiaoNeural", // 必填:String 音色名必填"Language": "zh-CN", // 必填:String 合成的语言"Rate": 1 // 选填:float 语速 0.5~2 默认为 1}
Cartesia TTS
{"TTSType": "cartesia", // 必填:String TTS类型,"Model": "sonic-multilingual", //必填 模型"APIKey": "eyxxxx",//必填:获取的api密钥"VoiceId": "eda5bbff-1ff1-4886-8ef1-4e69a77640a0" //必填 声音id https://play.cartesia.ai/}
ElevenLabs TTS
{"TTSType": "elevenlabs", // 必填:String TTS类型,"Model": "eleven_turbo_v2_5",//必填:模型类型"APIKey": "eyxxxx","VoiceId": "eda5bbff-1ff1-4886-8ef1-4e69a77640a0" //声音类型 https://elevenlabs.io/docs/api-reference/get-voices}
自定义 TTS
{"TTSType": "custom", // String 必填"APIKey": "ApiKey", // String 必填 用来鉴权"APIUrl": "http://0.0.0.0:8080/stream-audio" // String,必填,TTS API URL"AudioFormat": "wav", // String, 非必填,期望输出的音频格式,如mp3, ogg_opus,pcm,wav,默认为 wav,目前只支持pcm和wav,"SampleRate": 16000, // Integer,非必填,音频采样率,默认为16000(16k),推荐值为16000"AudioChannel": 1, // Integer,非必填,音频通道数,取值:1 或 2 默认为1}