UTACO歌声合成系统采用注意力机制序列到序列模型(AS2S),直接以带歌词的乐谱作为输入,无需依赖振动模式(vibrato)和音素时长等特征的独立子模型。该系统能够自主保持音准,并实现较高的自然度。
在MUSHRA测试中:
统计检验显示得分差异显著(所有配对t检验p值<10⁻¹⁶)
该方法标志着歌声合成领域的重大变革,为未来发展开辟了新的可能性。随着AS2S模型在文本转语音领域的持续发展,相关技术创新可直接应用于该模型。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。