自适应语音合成也可以认为是训练一 个多说话人模型(也就是预训练模型),主要是通过一个256维的讲者嵌入来表征不同说话人,将表征后的讲者嵌入加入到改进后的声学模型中,利用该模型提取训练集内不同说话人的时长、能量、音高等音频信息,进而得到梅尔频谱的音频表征形式,而在最后的声码器部分则选择使用Parallel WaveGAN和MelGAN分别进行实验。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。