2019年推出的双语模式需依赖不同说话人的录音数据,导致英语和西班牙语响应听起来像两个不同的人。最新研发的神经文本转语音(NTTS)技术通过以下创新解决了该问题:
方法 | 口音质量 | 说话人一致性 | 可扩展性 |
---|---|---|---|
传统音素映射 | 差 | 优 | 中 |
双语录音 | 优 | 差 | 差 |
新型多语言模型 | 优 | 优 | 优 |
该架构可扩展至更多语言组合,无需额外语音采集。实验表明,编码器学习到的跨语言表征能有效支持:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。