歌唱合成——使用计算机模型合成人声歌唱——自20世纪50年代起便开始研究。与相关的文本转语音领域类似,它最初围绕两个范式展开:统计参数合成(使用统计模型再现声音特征)和单元选择(实时重组录音片段)。
近年来,文本转语音领域已转向神经文本转语音,即基于深度神经网络的模型,这些模型提高了生成语音的感知质量。其中基于注意力的序列到序列模型已成为行业标准。
在某国际会议上,我们提出了名为UTACO的歌唱合成模型,该模型采用AS2S架构构建。据我们所知,这是在2019年秋季首次实现该技术,尽管此后歌唱合成领域已引入多个成功的AS2S架构。
新型歌唱合成系统以带歌词的乐谱作为输入,将其表示为一组音素,并根据音高和时长等属性进行标注。
UTACO相比先前模型更为简化:
最重要的是,UTACO实现了高度的自然度。在采用MUSHRA方法的测试中,最新全神经网络模型的自然度得分为31/100,而UTACO得分达到60,人类歌唱训练样本得分为82。
AS2S模型作为活跃研究领域,UTACO可自然借鉴文献中的多项改进和扩展。系统能够自主产生良好的振动效果,甚至"决定"在何处应用振动——在样本输入中没有振动指示的情况下仍能实现此效果。
undefined
将乐谱转换为UTACO输入时,采用称为音符嵌入的表示方法:
与典型NTTS系统类似,模型生成频谱图,通过基于扩张因果卷积的神经声码器转换为波形。
UTACO在休止符处理上存在已知问题,其节奏精度尚未达到完美水平,专业音乐家可立即识别此差异。但AS2S架构在文本转语音领域的持续研究进展,将为模型改进提供直接借鉴。
这项研究标志着歌唱合成领域重大变革的开端,其能力提升将达到几年前难以想象的水平。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。