首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于注意力机制的歌唱合成系统技术解析

基于注意力机制的歌唱合成系统技术解析

原创
作者头像
用户11764306
发布2025-10-25 21:25:14
发布2025-10-25 21:25:14
920
举报

基于注意力机制的歌唱合成系统

歌唱合成——使用计算机模型合成人声歌唱——自20世纪50年代起便开始研究。与相关的文本转语音领域类似,它最初围绕两个范式展开:统计参数合成(使用统计模型再现声音特征)和单元选择(实时重组录音片段)。

近年来,文本转语音领域已转向神经文本转语音,即基于深度神经网络的模型,这些模型提高了生成语音的感知质量。其中基于注意力的序列到序列模型已成为行业标准。

在某国际会议上,我们提出了名为UTACO的歌唱合成模型,该模型采用AS2S架构构建。据我们所知,这是在2019年秋季首次实现该技术,尽管此后歌唱合成领域已引入多个成功的AS2S架构。

系统创新

新型歌唱合成系统以带歌词的乐谱作为输入,将其表示为一组音素,并根据音高和时长等属性进行标注。

UTACO相比先前模型更为简化:

  • 不依赖分别生成振动模式和音符/音素时长等输入特征的子模型
  • 仅以带歌词的记谱音乐作为输入
  • 具备自主音准调节能力

最重要的是,UTACO实现了高度的自然度。在采用MUSHRA方法的测试中,最新全神经网络模型的自然度得分为31/100,而UTACO得分达到60,人类歌唱训练样本得分为82。

技术优势

AS2S模型作为活跃研究领域,UTACO可自然借鉴文献中的多项改进和扩展。系统能够自主产生良好的振动效果,甚至"决定"在何处应用振动——在样本输入中没有振动指示的情况下仍能实现此效果。

模型架构

undefined

将乐谱转换为UTACO输入时,采用称为音符嵌入的表示方法:

  1. 对乐谱进行歌词语言分析,确定每个音符应发音的音素
  2. 为每个音素添加包含音高范围和具体音高的音符信息
  3. 加入"进度"流,标识音符起始和结束位置

与典型NTTS系统类似,模型生成频谱图,通过基于扩张因果卷积的神经声码器转换为波形。

当前局限

UTACO在休止符处理上存在已知问题,其节奏精度尚未达到完美水平,专业音乐家可立即识别此差异。但AS2S架构在文本转语音领域的持续研究进展,将为模型改进提供直接借鉴。

这项研究标志着歌唱合成领域重大变革的开端,其能力提升将达到几年前难以想象的水平。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于注意力机制的歌唱合成系统
    • 系统创新
    • 技术优势
    • 模型架构
    • 当前局限
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档