一年一度的全球语音大会INTERSPEECH 2022论文评选结果已经揭晓,腾讯音乐天琴实验室被录取两篇论文,本文介绍第一篇:《KaraTuner: Towards end to end natural pitch correction for singing voice in karaoke》
KaraTuner: Towards end to end natural pitch correction for singing voice in karaoke
作者:Xiaobin Zhuang, Huiran Yu, Weifeng Zhao, Tao Jiang, Peng Hu
智能修音系统通常包括几个阶段:基音提取、偏差估计、基频偏移处理和交叉淡入平滑。经典的基于规则的修音策略不但需要有音乐领域的专业知识,而且设计的规则很难涵盖绝大部分的修音情况,会造成在某些情况下修出怪音的问题。
在本文中,我们提出了首个基于曲谱的端到端修音方案KaraTuner,先在曲谱的指导下预测出修正后的音高曲线,然后结合从原始录音中提取的频谱包络,通过基频可控的歌声声码器重新合成歌唱声音,实现自动修音。
KaraTuner中引入了几个关键技术点,以确保音高精度、音高自然度、音色一致性和音质。在基频预测器中,采用了基于Transformer的前馈网络来捕获频谱包络和音符的相关性,同时也设计了一种基于源-滤波器模块和Fre-GAN结构相结合的基频可控歌声声码器,确保修音后的音质。KaraTuner通过A/B测试获得了比基于规则的基频校正方法更高的偏好,感知实验也表明,与传统World声码器、Phase Vocoder以及神经网络声码器CLPCNet相比 ,KaraTuner在音色一致性和音质方面具有显著优势。
1)在修音任务中,几乎不存在来自同一个非专业用户的的修音前后的数据,这也为设计端到端修音系统增加了难度。
本文的新颖之处在于我们使用HMM平滑对跑调的人声提取标准 MIDI 音符序列作为训练数据中的参考模板。在训练阶段,我们从跑调的参考音符模板学习生成用户跑调的音高曲线。在推理阶段,我们使用准确的参考音符模板替换跑调的音符模板。通过这种方法,我们构建了一个大型的数据集,无需手动标记完成音高预测任务。在实验中也发现,频谱包络特征仍然隐含地包含音高曲线的信息,因此将频谱包络和参考音符结合进行基频预测,不但可以确保音调修正,还能保留原始歌声中的更多的基频曲线细节。
2)源-滤波器 (SF) 模块的输入是音高曲线和频谱包络。
在训练阶段,真实音高直接接入SF块,而在推理阶段,预测音高通过嵌入层并与频谱包络生成周期性分量,频谱包络也通过 ResBlock2 预测非周期分量。一种简单的组合方式是将周期性分量和非周期性分量直接等比例相加,但是我们发现每帧信号通过可学习的权重参数来控制混合比例,可以显著提高合成音频的音质,减少频谱缺陷。因此,每一帧信号r可以隐式表示为:
r = σ(f1(sp)) ⊗ emb(pitch) ⊗ sp + f2(sp)
在生成器中,采用 HiFi-GAN 中提出的多感受野融合 (MRF) 模块和 Fre-GAN 中的两个鉴别器,并调整了部分参数,将音频采样率提升到32kHz。整体的模型结构如图所示:
我们收集了 5294 首不同演唱水平的业余用户的歌唱数据,平均每首歌4.3分钟。在效果评估方面,我们先对音高自然度、坏点数进行了A/B测试。在测试集上,KaraTuner相比于基于规则的方法有更好的自然度。我们也把Phase Vocoder、WORLD 声码器和 CLPCNet 作为基线系统,对音色一致性、音频质量和整体质量进行MOS分评估,打分结果也表明KaraTuner在音质和整体质量上都取得了最高的 MOS 分数。而在实验中我们也发现了,DSP 声码器比神经网络声码器对音高的还原能力更强,且对于低音质的音频鲁棒性更强,这也是KaraTuner后续可以结合改进一个方向。