在过去的五年中,语音合成技术已转向全神经网络模型,该模型允许分别控制语音的各个元素——韵律、口音、语言和说话人身份(声音)。正是这项技术使得某中心的文本转语音团队能够教会女性音色的英语语音助手以纯正的美式西班牙语发音,并使男性音色的美国声音能够说出英国口音。
然而在上述两种情况下,团队具备两个优势:(1)大量带有目标口音的标注语音样本,可供现有语音模型学习;(2)一套将字素(字符序列)映射到目标口音音素(语音信息的最小单位,也是文本转语音模型的输入)的规则。
对于去年底推出的爱尔兰口音女性英语语音助手,这两个优势都不具备——既没有字素到音素的映射规则,数据集规模也比英国英语和美式西班牙语小一个数量级。当尝试使用先前成功的口音迁移方法时,结果并不理想。
因此团队转而采用语音转换技术:通过改变已录制口音语音的说话人身份,为目标语音的爱尔兰口音文本转语音模型生成额外的训练数据,显著提升了口音质量。
具体实现上,训练多说话人多口音文本转语音模型时,首先使用独立的语音转换模型合成训练数据。该模型的输入包括:说话人嵌入(表征特定说话人声音声学特征的向量)、梅尔频谱图(语音信号频谱的瞬时快照)以及与频谱图相关的音素序列。
在训练过程中,文本转语音模型同样接收说话人嵌入、梅尔频谱图和音素序列,但在推理阶段不接收频谱图。由于是多口音多说话人模型,训练时还会接收口音ID(输入语音口音的简单序数指标),推理阶段该信号仍将控制输出语音的口音。
虽然该方法不强制要求使用多口音模型,但实践表明多口音模型能产生更自然的合成语音。模型输入还包含从输入语音信号中提取的音素时长信息,这使模型能更好控制口音节奏。推理阶段通过独立训练的时长预测模型来替代实际语音信号。
针对爱尔兰口音英语缺乏字素-音素规则的问题,实验分别尝试了英国英语和美国英语的映射规则。尽管两者都不完全准确(例如"can't"的元音发音在爱尔兰英语中与其他口音不同),但均能获得可信结果。由于卷舌音特性(爱尔兰英语与美国英语均发r音),美国英语规则表现略优。
评估结果显示,合成语音与源说话人口音的相似度达61.4%,与真实爱尔兰说话人口音的平均相似度为51%,与现有领先方法相比口音相似度提升50%。这证明该方法能有效捕捉爱尔兰英语的多样性口音特征。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。