声音复刻录制指引

最近更新时间:2026-03-27 16:13:11

我的收藏

基础版

一、定制素材要求

声音复刻需提交一段100句文本的音频,提交前请务必逐条检查以下自检项:
1. 无复刻人外的其他人声录入。
2. 音频收音音量适中,无明显混响、底噪,及其他噪声。
3. 使用中文,普通话录制;文本有一定丰富性,不能存在大量的语句重复。
音频格式要求:
1. 所有音频需转化为 wav 格式,并压缩成 zip 包提交。
2. 直接选中所有音频文件直接压缩为 zip 包(不可新建文件夹后压缩),压缩包不超过1GB。
3. 每条音频采样率须是 24K 及以上,单条音频长度不超过1小时。
4. 音频命名无空格或者特殊字符。

二、音频录制指引(视频版)



三、音频录制指引(文字版)

录制内容

按停顿-读-停顿的循环过程,依次朗读100句文本并生成音频。
录制文本:可自行选择自己领域熟悉的文本,也可参照 附件参考文本,语句越多训练效果越好。
文本要求:中文汉字文本;单句子最长不超过50字,平均句子控制在20字左右。
音频个数:可一整段或分为几段音频均可,最多不超过10个。
音频格式:录制时推荐无损 WAV 格式(具体格式不限制),不低于 24k 采样率。

注意事项

环境要安静无杂音,建议麦克风有防风罩且与嘴的距离在 10cm 内,音量保持适中;
尽量避免在光滑墙面、地板房间录制,如大面积玻璃墙面或大理石地板房间,以避免引入混响;
提前熟悉朗读文本,避免录制断断续续;
注意尽量不要喷麦;
每个句子结束自然停顿;句子中按照文本正常表达进行自然停顿;
按照本身说话的风格,有韵律的朗读;
吐字清晰,保证台词读音正确;
除了讲话之外,不要做其余动作,避免多余声音(如衣服摩擦等声音、吞咽声)。
注意:
定制音频的效果和原视音频的质量息息相关,若音频质量好,最终的声音复刻效果也越好;音频质量差,最终定制效果也会差。
如:原音频中包含噪声,最终定制的效果也将包含噪声。

四、典型问题

爆音
避免出现爆音,通常离麦克风过近,麦克风没有防喷麦海绵,或录音语音音量过大会出现爆音。
抿嘴音,口水音、喘息及喷麦声
避免录音过程中过多闭口张口或吞咽导致的抿嘴音、口水音减少较明显的喘息声,喷麦声。
噪声及混响
避免麦克风离嘴部过远,避免在有明显背景噪声的环境录音,如有其他背景人声,空调声,背景音乐等;避免引入混响,通常在较多玻璃光滑墙壁房间会有较强混响。
频谱缺失
避免采用自带增强或降噪等处理模块的录音软件,避免导致对原始语音的损伤及频谱频段缺失。

五、音质检测接口指标说明

目前通过 音质检测接口 可以对如下指标进行检测,辅助判断音频里存在的问题。指标说明如下:
信噪比:音频中有用信号能量与噪声能量的比值,越大越好,该指标大于等于25可认为合格。
信噪比不达标的原因:
可能是由于录制环境的噪声比较大,可换个更安静的环境进行录制;
可能是由于嘴巴离麦克风太远,导致有用信号能量不够,可适当调整麦克风与嘴巴的距离,以 10cm 的距离为宜(距离过近容易导致喷麦或者截幅)。
混响指数:音频中有用信号能量与回声能量的比值,越大越好,该指标大于等于30可认为合格。
混响指数不达标的原因:
可能是录制环境不佳产生了回声,大的空间、硬质的墙面容易产生回声,尽量选择空间较小、软包较多地方进行录制,例如卧室、车内等。
截幅:截幅表示部分音频的幅值超过了最大允许范围,通俗来说就是音频的音量过大了;该指标小于等于10可认为合格。
截幅不达标的原因:
一般是由于录制时嘴巴离麦克风过近,可适当调整麦克风与嘴巴的距离,以 10cm 的距离为宜;
也可能是录制软件的音量设置过大造成的,可以通过调整录制软件的音量来解决。
截幅不达标的音频的波形图示意:



截幅达标的音频的波形图示意:




六、素材提交

我们支持微信扫码,手机端录制训练数据,轻松创建复刻任务。定制过程分为如下三步:




在数智人平台生成录制二维码

1. 用具有声音复刻额度的账号登录 数智人平台,进入定制资产管理 > 声音复刻录制任务管理页面。


2. 新增录制任务,然后将二维码截图提供给录制人。


录制任务状态分为:
录制中:二维码创建成功后,即进入该状态;
录制完成:录音人录制完成,提交后,仅进入该状态;
已停用:在“录制完成”前,可以对该任务操作“停用”;停用后,该二维码失效,无法正常采集素材。
已提交定制:使用该素材创建定制任务后,则进入该状态。
当“新增录制任务”的时候,会对声音复刻余额进行校验;如“录制中”和“录制完成”状态的任务数,超过声音复刻余额,则无法新增录制任务。

录制人微信扫码,录制训练素材

录制人用微信扫码,就可在手机端录制训练数据。素材采集完成之后,单击提交即可。




在数智人平台使用该素材,创建定制任务

1. 进入数智人平台,新增一个声音复刻定制任务。入口在 数智人平台 > 形象设定 > 定制资产管理 > 新增定制任务 > 声音复刻可(基础版),如下图所示:



2. 上传训练素材时,选择“客户通过录制工具提交的素材”即可。如下图所示:




极速版

一、定制素材要求

注意:
定制音频的效果和原始音频的质量息息相关,若音频质量好,最终的声音复刻效果也越好;音频质量差,最终定制效果也会差。
如:原音频中包含噪声,最终定制的效果也将包含噪声。
购买额度后,您可通过平台,直接录制素材来进行声音复刻,详见素材提交部分。
也可自行录制一段音频定制提交,要求如下:
【音频长度】支持上传1段音频文件定制,建议音频时长为15-20S,不超过5MB。
【录音质量】录制音频保证干净清晰,所有音频的情绪、语速、音量、音高一致稳定,避免语速忽快忽慢、音量忽大忽小;避免情绪表达过于夸张;朗读不出现卡顿、读错问题;避免方言口音朗读,避免音频包含口水音或较大的换气声;环境要安静无杂音,建议麦克风有防风罩且与嘴的距离在 10cm 内,音量保持适中;尽量避免在光滑墙面、地板房间录制,如大面积玻璃墙面或大理石地板房间,以避免引入混响;注意尽量不要喷麦。
【录音风格】按照正常业务场景对应的音色风格自然表达。

二、素材提交

访问路径:首页 > 形象设定 > 定制资产管理 > 新增定制任务 > 声音复刻(极速版),如下图所示。



您也可以通过接口提交素材定制:可参考 声音复刻(极速版)接口文档