定制接口

最近更新时间:2024-11-13 15:22:12

我的收藏
使⽤该接⼝提交定制的请求,通过进度查询接口查询定制的各个阶段以及各阶段的相关信息。

调用协议

HTTPS + JSON
POST /v2/ivh/assetmanager/customservice/make
Header Content-Type: application/json;charset=utf-8

请求参数

参数
类型
必须
说明
AnchorName
string
主播名称:
1. 该名称主要用于标识该定制形象/声音,可以根据实际情况自定义
2. 命名参考:如果该主播定制的数量只有1个,可以直接以主播名称命名,例如“张三”;也可加上衣服名称来更好的标识,例如“张三蓝西服”等
3. 不超过50个字符,不少于2个字符,只允许有汉字、字母、数字、下划线、横线
4. 不能重名
MakeType
string
定制类别: IMAGE:2D小样本-标准版(专属口型)形象定制
IMAGE_GENERAL:2D小样本-标准版(通用口型)形象定制
IMAGE_4K:2D小样本-高精版(专属口型)形象定制
IMAGE_PHOTO:2D小样本(照片数智人)形象定制
注意:选择 IMAGE_PHOTO 类型时,强烈建议预先执行人脸检测任务创建以提高成功率
VOICE:声音复刻(基础版) ZERO_SHOT_VOICE:声音复刻(极速版)
IdentityCosUrl
string
视频格式授权书 URL,要求:
1. url 地址为通过上传素材到腾讯云 COS上传到指定路径的资源 url 地址后增加 idcard 路径,例如:域名/customer-pipline/{数字}/{uuid}/idcard/a.mp4
2. 该格式主要适用于“口述版授权书”,也可将“书面版授权书”拍成完整清晰的视频形式提交
备注:除 IMAGE_PHOTO、ZERO_SHOT_VOICE 定制类型无需填写外,其他定制类型与IdentityWrittenCosUrl 二选一或二者都填
IdentityWrittenCosUrl
string
pdf 格式授权书 URL,要求:
1. url 地址为通过上传素材到腾讯云 COS上传到指定路径的资源 url 地址后增加 idcard 路径,例如:域名/customer-pipline/{数字}/{uuid}/idcard/b.pdf
2. 该格式主要适用于“书面版授权书”,以完整清晰的扫描件形式提交
备注:除 IMAGE_PHOTO、ZERO_SHOT_VOICE 定制类型无需填写外,其他定制类型与IdentityCosUrl 二选一或二者都填
MaterialCosUrl
string
形象定制素材 url 地址要求:
1. url 地址为通过上传素材到腾讯云 COS上传到指定路径的资源url地址后增加 video 路径,例如/customer-pipline/{数字}/{uuid}/video/c.mp4
2. 视频大小,不超过5GB,4K不超过10G
3. 视频时长:专属口型版本定制时长为2-10分钟;通用口型版本定制时长为1-10分钟;高精版本定制时长为2-10分钟
4. 视频分辨率:1080P、4K(3840*2160),如定制高精版,则必须为4K
5. 视频长宽比:16:9 (9:16)
6. 视频帧率:不低于25fps,不超过60fps
7. 视频格式:mp4,mov

声音定制素材 url 地址要求: 1. url 地址为通过上传素材到腾讯云 COS上传到指定路径的资源 url 地址后增加 audio 路径,例如/customer-pipline/{数字}/{uuid}/audio/c.zip 2. 压缩包格式:.zip 格式的压缩包,单个 zip 包用于定制1个音色;压缩时不要新建文件夹,直接选中所有 wav 压缩 3. 对于单个 zip 包里的音频注意事项: ①音频数量:每个 zip 包里可以包含1条或多条 wav 格式音频,总量不超过10条 ②音频大小:每个 zip 包里的音频大小总和不超过1G ③音频格式:每条音频需为 wav 格式,其他格式的音频请先转码为 wav 格式后再压缩成 zip 包 ④音频采样率:采样率大于等于24k即可,建议24k、36k ⑤音频命名:名称不要有空格或者特殊字符,后缀名需要为小写“.wav”
备注:除 ZERO_SHOT_VOICE 定制类型无需填写外,其他定制类型必填

照片数智人定制素材 url 地址要求: 1. url地址为通过上传素材到腾讯云 COS上传到指定路径的资源 url 地址后增加 photo 路径,例如/customer-pipline/{数字}/{uuid}/photo/example.png 2. 图片名称:不少于2个字符,只允许有汉字、字母、数字、下划、横线;图片格式:支持jpg、jpeg、png、webp;图片大小:不超过16M;图片宽高比:支持 1:1 9:16 16:9 4:3 3. 人物清晰正面照,脸部居中,表情自然,嘴部闭合
SexType
string
性别:
MALE:男
FEMALE:女
Notes
string
定制备注信息,100字以内
TextDriver
string
用于生成驱动 demo 的文本内容,字符长度在4-1000之间(包括 ssml 标签,单个中文算一个字符)
VoiceDriverCosFile
string
生成驱动 demo 的音频文件路径,要求:
1. url 地址为通过上传素材到腾讯云 COS上传到指定路径的资源 url 地址后增加 audio 路径,例如:/customer-pipline/{数字}/{uuid}/audio/example.wav
2. 音频文件大小不超过10M,格式支持wav、mp3、wma、m4a、aac
AudioId
string
ZERO_SHOT_VOICE 定制类型必填:填写查询音质检测任务进度通过后返回的 AudioId
TimbreInfo
TimbreTemplate
形象定制时若需要指定音色,或尝试用视频里的声音快速复刻,则填充该字段。
IsHaveBackground
bool
形象定制类型,训练出来的形象是否带原始背景。默认“否”,即不带原始背景,在应用过程中可以按需更换背景
true:保留拍摄背景
false:抠除拍摄背景(支持更换背景,仅支持绿幕视频和白墙视频)
RemoveBackground
int
当 IsHaveBackground=false 时,进一步填充该参数。默认值是1。
1:抠除拍摄背景-绿幕视频
2:抠除拍摄背景-白幕视频
AlphaCosUrl
string
自定义 Alpha 通道视频地址,视频上传路径参照 形象定制素材 路径
ZeroshortLang
string
ZERO_SHOT_VOICE 定制类型的语言类型,chi-中文普通话,eng-英文,can-粤语,默认chi
PhotoVersion
int
默认0
0:快速版。在10分钟内即可完成数智人定制,只支持头部轻微晃动,面部特征稳定。建议执行人脸检测任务(CheckerVersion=1)
1:优享版。在1个小时内可完成数智人定制,头部和身体都支持轻微晃动。建议执行人脸检测任务(CheckerVersion=2)。
TimbreTemplate 信息参数
参数
类型
必须
说明
TimbreCode
string
制作文本驱动 demo 时指定的音色 code
Speed
string
制作文本驱动 demo 时指定音色的语速,默认1.0。语速(范围[0.5-1.5],值为0.5时播报语速最慢,值为1.5时播报语速最快)
IsWithTimbre
bool
尝试用视频里的声音快速复刻,额外生成 demo(由于视频里的音质质量不能保证,可能会存在快速复刻失败的情况)。该 demo 不影响其他 demo 的正常合成。

返回参数

参数
类型
必须
说明
TaskId
string
制作的任务 ID,携带 TaskId 访问进度查询接口,可获得制作进度和制作结果

请求示例

{
"Header": {},
"Payload": {
"AnchorName": "马老师",
"MakeType": "IMAGE_GENERAL",
"IdentityCosUrl": "https://virtualhuman-cos-prod-1251316161.cos.accelerate.myqcloud.com/customer-pipeline/100/f30e4d52-00ba-4e36-8a26-26c348bf786e/idcard/identity.mp4",
"MaterialCosUrl": "https://virtualhuman-cos-prod-1251316161.cos.accelerate.myqcloud.com/customer-pipeline/100/78675441-08bf-43f2-93db-f3936068bce7/video/test.mp4",
"SexType": "FEMALE",
"RemoveBackground": 2
}
}

返回示例

{
"Header": {
"RequestID": "c18aeee4e49d89e408231c5b3ceea23c",
"SessionID": "gzfa9105ca17310669340273673",
"Code": 0,
"Message": "ok"
},
"Payload": {
"TaskId": "1212_29934_w"
}
}