这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS | Two Minute Papers
翻译 | 张锋凯 整理 | 凡江 林尤添
在往期的2分钟论文栏目中,我们有谈过Google的WaveNet(一个基于学习型的文本到语音引擎),也就是说,只要我们给予已经训练好的模型一些朗读的素材,引擎就会尽可能生成一个较真实的声音。而在本期视频中,我们将介绍一个新的产品,它在原有的基础上进行改进,让合成语音臻于完美。
图片来源:WaveNet: A Generative Model for Raw Audio
点开本期视频后,你会听到,合成的语音在韵律,重读,和语调上都非常出色,以至于我们真假难辨。相关的音频信息可以在这里找到:
在原先Google的WaveNet论文中,我们为了解决语音合成难题,创造了扩张卷积,这个网络结构跳跃性地输入数据,由此使我们我们有了更好的全局视野。这有点像增加我们眼睛的感受野,让我们能够感受整个景观,而不是照片中只有树的狭窄的视角。
新框架利用梅尔声谱作为WaveNet的输入,这种声谱是一种基于人类感知的中间媒介,它不仅记录了不同的单词如何发音,而且还记录了预期的音量和语调。
新模型接受了大约24小时的语音数据训练,当然,模型都是要经过某种程度的检验才合格。
我们对其的检验方法是记录以前算法的平均意见分(用来描述声音样本和人类真实声音的比分)。我们的新算法大获成功,之后通过用户研究更加接地气的检验,让用户进行盲测,猜测听到的声音是合成的还是真实的。
的确不可思议,因为大部分的测试结果都是——人们真假莫辨。
请注意,生成这些波形不是实时的,而且还需要很长时间。为了有更好的效率,DeepMind的科学家撰写了一篇轰动的论文,把WaveNe的波形生成速度提升了上千倍。当然,新发明也会带来新挑战——这可能导致录音更容易被伪造,而录音将被削弱作为物证的可信性,除非我们找到一种新的检验方法,例如在录音上加入数字签名。
雷锋网雷锋网
领取专属 10元无门槛券
私享最新 技术干货