机器之心报道参与:刘晓坤英伟达率先发表了相似的工作,让千里之外的几位研究者一脸懵逼,于是决定公布代码以示没有剽窃。来自韩国首尔大学的研究者近期发布了一篇利用基于流的生成模型进行实时的语音合成的研究FloWaveNet。但奇怪的是,他们的论文中并没有语音合成中典型的人类评估MOS(平均意见分数)指标,甚至一个实验图标都没有。
图1:FloWaveNet模型图示。左图:FloWaveNet的整个前向传播过程,由N个上下文模块构成。中间:流操作的抽象图示。右图:affinecoupling操作细节。
图1:WaveGlow模型图示。
表1:WaveGlow平均意见分数评估结果。我们大致能看到:FloWaveNet和WaveNet都采用了基于流的生成模型思想;摒弃了自回归;摒弃两阶段训练过程;不需要额外辅助损失项;只需要似然度作为损失函数;只需要一个网络;能生成和WaveNet质量相当的语音......如此正面刚的撞车,难怪一作疼的流泪。
有这么多的优点,以一己之力轻松克服WaveNet的缺点也不是什么难事了,至于更深入的细节,还请参阅原论文。基于流的生成模型可以大致理解为:它希望将数据表示成简单的隐变量分布,并可以从该分布中完全还原真实数据的分布。也就是说,它要学习的是一个可逆函数。
由于可以进行精确的密度估计,基于流的生成模型在很多下游任务中具备天然优势,例如数据补全、数据插值、新数据生成等。在Glow中,这种模型展示了其在图像生成和图像属性操控上的潜力:
领取专属 10元无门槛券
私享最新 技术干货