谷歌推出了一款名为 Tacotron 2 的文字转语音系统,其仿真度真实到与人声难以辨别。Tacotron 2 正如其名,属第二代技术,由两种深度神经网络组成,一种是上图中文本转为特殊的谱图,另一种称为 WaveNet,可以读取这个谱图并转化为声音。
该系统经过训练暂时只能用女声英语说话,它不仅能开口说话,如果文本中有大写用于强调的地方,你也能从它的语调中听出细微区别。
一个句子,分别播放真人女声朗读及 Tacotron 2 朗读的声音,除了在语调略有不同,很难想象计算机竟然能发出这么真实的声音。不仅仅是朗读,Tacotron 2 还会根据语义知道时态的正确发音;若更改了部分标点,它的朗读语调也会有所不同。
Tacotron 2 语音的真实性让人很难相信这是计算机,也许在未来我们能在 Google Assistant 之类的平台上听见它的声音了。想听听 Tacotron 2 的声音,可以点击 Quartz 原文。
Source:Google Research PaperviaQuartz
领取专属 10元无门槛券
私享最新 技术干货