DeepMind新一代并行WaveNet 让快速高保真语音合成

文章来源：企鹅号 - 雷锋网

▷每周一篇2分钟论文视频解读

本期2分钟论文Parallel WaveNet: Fast High-Fidelity Speech Synthesis，主要介绍了2017年最新版的WaveNet技术运用的训练方法 Probability Density Distillation ，由该技术虽然不是实时生成，却比实时生成快了20倍，产生的系统能够由Google助手在线部署，还能提供英语、日语语音多项服务。

WaveNet是2016年Google旗下DeepMind实验室推出的一种文本转语音算法。

一直以来，WaveNet的迭代方向都是生成“更好更逼真的语音音频波形”。近期，WaveNet出了新版本，DeepMind的研究员们算出了一个速度更快的WaveNet，比原始的快1000倍。

在旧的WaveNet算法情况下，程序员必须为每一秒连续声音片段，生成24000个样本。而且，这些新样本是一个一个生成的，让一个计算单元完成所有的工作，意味着同一时间内，其它的计算单元什么都不做，并不适合如今所需的大规模计算，也很难在实时生产环境中部署。

DeepMind的研究员们一直在想办法让这算法并行起来。他们找到的解决方式是——并行生成样本。因为语音不是类似于随机噪音的东西，当新样本高度依赖原有样本时，它是高度相关的，这样的话我们一次只能生成一个新样，那么我们如何并行地使用这些多个计算单元，并且创建新的波形呢？

具体算法还请观看视频解读及论文，论文原址https://arxiv.org/abs/1711.10433

更多文章，关注雷锋网雷锋网雷锋网

添加雷锋字幕组微信号（leiphonefansub）为好友

备注「我要加入」，To be a AI Volunteer ！

发表于: 2018-04-092018-04-09 12:01:24
原文链接：http://kuaibao.qq.com/s/20180409C0M2ZL00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

DeepMind新一代并行WaveNet 让快速高保真语音合成

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐