腾讯云智能数智人声音复刻录制指引

基础版
一、定制素材要求
声音复刻需提交一段100句文本的音频，提交前请务必逐条检查以下自检项：
1. 无复刻人外的其他人声录入。
2. 音频收音音量适中，无明显混响、底噪，及其他噪声。
3. 使用中文，普通话录制；文本有一定丰富性，不能存在大量的语句重复。
音频格式要求：
1. 所有音频需转化为 wav 格式，并压缩成 zip 包提交。
2. 直接选中所有音频文件直接压缩为 zip 包（不可新建文件夹后压缩），压缩包不超过1GB。
3. 每条音频采样率须是 24K 及以上，单条音频长度不超过1小时。
4. 音频命名无空格或者特殊字符。
二、音频录制指引（视频版）
﻿
三、音频录制指引（文字版）
录制内容
按停顿-读-停顿的循环过程，依次朗读100句文本并生成音频。
录制文本：可自行选择自己领域熟悉的文本，也可参照 附件参考文本，语句越多训练效果越好。
文本要求：中文汉字文本；单句子最长不超过50字，平均句子控制在20字左右。
音频个数：可一整段或分为几段音频均可，最多不超过10个。
音频格式：录制时推荐无损 WAV 格式（具体格式不限制），不低于 24k 采样率。
注意事项
环境要安静无杂音，建议麦克风有防风罩且与嘴的距离在 10cm 内，音量保持适中；
尽量避免在光滑墙面、地板房间录制，如大面积玻璃墙面或大理石地板房间，以避免引入混响；
提前熟悉朗读文本，避免录制断断续续；
注意尽量不要喷麦；
每个句子结束自然停顿；句子中按照文本正常表达进行自然停顿；
按照本身说话的风格，有韵律的朗读；
吐字清晰，保证台词读音正确；
除了讲话之外，不要做其余动作，避免多余声音（如衣服摩擦等声音、吞咽声）。
注意：
定制音频的效果和原视音频的质量息息相关，若音频质量好，最终的声音复刻效果也越好；音频质量差，最终定制效果也会差。
如：原音频中包含噪声，最终定制的效果也将包含噪声。
四、典型问题
爆音
避免出现爆音，通常离麦克风过近，麦克风没有防喷麦海绵，或录音语音音量过大会出现爆音。
抿嘴音，口水音、喘息及喷麦声
避免录音过程中过多闭口张口或吞咽导致的抿嘴音、口水音减少较明显的喘息声，喷麦声。
噪声及混响
避免麦克风离嘴部过远，避免在有明显背景噪声的环境录音，如有其他背景人声，空调声，背景音乐等；避免引入混响，通常在较多玻璃光滑墙壁房间会有较强混响。
频谱缺失
避免采用自带增强或降噪等处理模块的录音软件，避免导致对原始语音的损伤及频谱频段缺失。
五、音质检测接口指标说明
目前通过 音质检测接口 可以对如下指标进行检测，辅助判断音频里存在的问题。指标说明如下：
信噪比：音频中有用信号能量与噪声能量的比值，越大越好，该指标大于等于25可认为合格。
信噪比不达标的原因：
可能是由于录制环境的噪声比较大，可换个更安静的环境进行录制；
可能是由于嘴巴离麦克风太远，导致有用信号能量不够，可适当调整麦克风与嘴巴的距离，以 10cm 的距离为宜（距离过近容易导致喷麦或者截幅）。
混响指数：音频中有用信号能量与回声能量的比值，越大越好，该指标大于等于30可认为合格。
混响指数不达标的原因：
可能是录制环境不佳产生了回声，大的空间、硬质的墙面容易产生回声，尽量选择空间较小、软包较多地方进行录制，例如卧室、车内等。
截幅：截幅表示部分音频的幅值超过了最大允许范围，通俗来说就是音频的音量过大了；该指标小于等于10可认为合格。
截幅不达标的原因：
一般是由于录制时嘴巴离麦克风过近，可适当调整麦克风与嘴巴的距离，以 10cm 的距离为宜；
也可能是录制软件的音量设置过大造成的，可以通过调整录制软件的音量来解决。
截幅不达标的音频的波形图示意：
﻿
﻿
﻿
截幅达标的音频的波形图示意：
﻿
﻿
﻿
六、素材提交
我们支持微信扫码，手机端录制训练数据，轻松创建复刻任务。定制过程分为如下三步：
﻿
﻿
﻿
在数智人平台生成录制二维码
1. 用具有声音复刻额度的账号登录 数智人平台，进入定制资产管理 > 声音复刻录制任务管理页面。
﻿
﻿
2. 新增录制任务，然后将二维码截图提供给录制人。
﻿
﻿
录制任务状态分为：
录制中：二维码创建成功后，即进入该状态；
录制完成：录音人录制完成，提交后，仅进入该状态；
已停用：在“录制完成”前，可以对该任务操作“停用”；停用后，该二维码失效，无法正常采集素材。
已提交定制：使用该素材创建定制任务后，则进入该状态。
当“新增录制任务”的时候，会对声音复刻余额进行校验；如“录制中”和“录制完成”状态的任务数，超过声音复刻余额，则无法新增录制任务。
录制人微信扫码，录制训练素材
录制人用微信扫码，就可在手机端录制训练数据。素材采集完成之后，单击提交即可。
﻿
﻿
﻿
在数智人平台使用该素材，创建定制任务
1. 进入数智人平台，新增一个声音复刻定制任务。入口在 数智人平台 > 形象设定 > 定制资产管理 > 新增定制任务 > 声音复刻可（基础版），如下图所示：
﻿
﻿
﻿
2. 上传训练素材时，选择“客户通过录制工具提交的素材”即可。如下图所示：
﻿
﻿
﻿
极速版
一、定制素材要求
注意：
定制音频的效果和原始音频的质量息息相关，若音频质量好，最终的声音复刻效果也越好；音频质量差，最终定制效果也会差。
如：原音频中包含噪声，最终定制的效果也将包含噪声。
购买额度后，您可通过平台，直接录制素材来进行声音复刻，详见素材提交部分。
也可自行录制一段音频定制提交，要求如下：
【音频长度】支持上传1段音频文件定制，建议音频时长为15-20S，不超过5MB。
【录音质量】录制音频保证干净清晰，所有音频的情绪、语速、音量、音高一致稳定，避免语速忽快忽慢、音量忽大忽小；避免情绪表达过于夸张；朗读不出现卡顿、读错问题；避免方言口音朗读，避免音频包含口水音或较大的换气声；环境要安静无杂音，建议麦克风有防风罩且与嘴的距离在 10cm 内，音量保持适中；尽量避免在光滑墙面、地板房间录制，如大面积玻璃墙面或大理石地板房间，以避免引入混响；注意尽量不要喷麦。
【录音风格】按照正常业务场景对应的音色风格自然表达。
二、素材提交
访问路径：首页 > 形象设定 > 定制资产管理 > 新增定制任务 > 声音复刻（极速版），如下图所示。
﻿
﻿
﻿
您也可以通过接口提交素材定制：可参考 声音复刻（极速版）接口文档。
﻿
声音复刻录制指引

本页目录：

基础版

一、定制素材要求

二、音频录制指引（视频版）

三、音频录制指引（文字版）

录制内容

注意事项

四、典型问题

五、音质检测接口指标说明

六、素材提交

在数智人平台生成录制二维码

录制人微信扫码，录制训练素材

在数智人平台使用该素材，创建定制任务

极速版

一、定制素材要求

二、素材提交