【新智元导读】 百度最新发布文本到语音转化系统Deep Voice。百度称,这是一个全部由深度神经网络构建的系统,在文本到语音的转化速度上比 WaveNet 快400倍。
百度研究院今天发布 Deep Voice,这是一个文本到语音转化系统,完全由深度神经网络构建。
百度研究院在官方博客上写道:
目前,要搭建这样一个系统,最大的阻碍在于声频合成的速度,此前的方法一般都需要数分钟或数小时来生成几秒的语音。
我们解决了这一难题,并且证明我们能够进行实时的音频合成。在速度上,这一系统比WaveNet 参数部署要快400倍。
从文本中生成人造的语音,通常被称为文本转语音(TTS),它是许多应用,比如,语音驱动的设备、导航系统和视力障碍者设备中不可或缺的工具。从根本上说,它能让人在不需要视觉交互的情况下与技术进行互动。
现代的 TTS 系统都是基于复杂的、多步骤的处理管道,其中,每一个管道都可能会依赖于人为设计的特征和启发。由于这种复杂性,建造新的TTS 系统是非常消耗人力,而且也会非常困难的。
DeepVoice 受到传统的本文到语音的管道启发,并且采纳了相同的架构,但是,DeepVoice 使用神经网络来代替全部组件,并使用了更简单的特征。这是的我们的系统能更好地适用于新的数据库、声音和领域,而不需要任何人为的数据标注或者额外的特征设计。
DeepVoice 为真正的端到端的,且不需要复杂处理管道、不依赖于手动设计特征进行输入和预训练的语音合成奠定了基础。
我们目前的管道依然不是端到端的,它由一个音素模型和一个音频合成组件构成。
声音中的机器人声音特性产生于管道结构和音素模型,然后,声频生成组件单独可以生成更加自然的音频片段。
音频片段试听地址: http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/
深度学习以及变革了许多领域,包括计算机视觉和语音识别,并且,我们相信,文本到语音的转换现在也处在了类似的转折点上,我们非常期待深度学习社区能一起努力,并且希望能以一种可再生的细节程度,来分享我们的整个文本到语音的转化系统,进而加速这一进程。
论文:DeepVoice:Real-Time Neural Text-to-Speech
论文作者:Sercan O. Arik ,Mike Chrzanowski,Adam Coates,Gregory Diamos,Andrew Gibiansky,Yongguo Kang,Xian Li ,John Miller ,Jonathan Raiman ,Shubho Sengupta ,Mohammad Shoeybi
摘要
我们在本文中提出一个完全由深度神经网络组成的文本到语音的系统——Deep Voice,它为真正端到端神经网络语音合成奠定了基础。
该系统由5个主要的组件构成:一个用于定位音素边界的分割模型、一个字素到音素(grapheme-tophoneme)转换模型、一个音素音长预测模型和一个基础的频次预测模型以及一个音频合成模型。
在分割模型中,我们提出了一个新的方法来执行音素边界探测,其中的技术包括使用使用深度神经网络和联结主义临时分类(CTC)损失。
在语音合成模型中,我们采用了一个Wavenet 的变体,相比原始版本,我们要求的参数更少,训练速度更快。
通过在每一个组件中使用神经网络,我们的系统比传统的文本到语音系统更加简洁也更加灵活。传统的系统总共,每一个组件都要求人为设计的特征和深度的专业知识。
最终,研究证明,用我们的系统来进行推理,在CPU 和GPU 上,它比实时的和优化后的WaveNet 推理核(Inference kernels)更快,最终比既有的部署快了400倍。
五个组件在系统中的作用示意图
论文下载地址:https://arxiv.org/pdf/1702.07825.pdf