首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音

学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音

作者头像
机器之心
发布于 2018-05-07 03:53:18
发布于 2018-05-07 03:53:18
1.8K0
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:王雨轩等

机器之心编译

参与:李泽南、吴攀

最近,谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文作者认为这一新思路相比去年 DeepMind 的 WaveNet 以及百度刚刚提出的 DeepVoice 具有架构上的优势。点击阅读原文下载论文。

现代文本转语音(TTS)的流程十分复杂(Taylor, 2009)。比如,统计参数 TTS(statistical parametric TTS)通常具有提取各种语言特征的文本前端、持续时间模型(duration model)、声学特征预测模型和基于复杂信号处理的声码器(Zen et al., 2009; Agiomyrgiannakis, 2015)。这些部分的设计需要不同领域的知识,需要大量精力来设计。它们还需要分别训练,这意味着来自每个组件的错误可能会复合到一起。现代 TTS 设计的复杂性让我们在构建新系统时需要大量的工作。

此前,WaveNet(van den Oord et al., 2016)是一种用于生成音频的强大模型。它对 TTS 来说效果良好,但由于样本级自回归采样的本质(sample-level autoregressive nature),速度较慢。它还需要对来自现有 TTS 前端的语言特征进行调节,因此不是端到端的:它只取代了声码器和声学模型。另一个最近开发的神经模型是百度提出的 DeepVoice(Arik et al., 2017),它通过相应的神经网络代替经典 TTS 流程中的每一个组件。但其中的每个组件都是独立训练出来的,改变系统以端到端形式训练非常重要。

论文:Tacotron:一个完全端到端的文本转语音合成模型(Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model)

摘要:

一个文本转语音的合成系统通常需要多个处理阶段,例如文本分析前端、声学模型和音频合成模块。构建这些组件经常需要多种领域的专业知识,而且设计选择也可能很脆弱。在本论文里,我们提出了 Tacotron——一种端到端的生成式文本转语音模型,可以直接从字符合成语音。通过<text, audio>配对数据集的训练,该模型可以完全从随机初始化从头开始训练。我们提出了几个可以使该序列到序列框架在这个高难度任务上表现良好的关键技术。Tacotron 在美式英语测试里的平均主观意见评分达到了 3.82 分(总分是 5 分),在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。

图 1:模型架构。该模型接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法以生成语音

图 2:CBHG(一维卷积库+highway 网络+双向 GRU)模块,改编自 Lee et al. (2016)

表 1:超参数和网络架构。「conv-k-c-ReLU」表示宽度为 k、有 c 个输出通道、带有 ReLU 激活的一维卷积。FC 代表全连接。

图 3:在测试短语上的注意对齐(attention alignment)。由于使用了 r=5 的输出规约(output reduction),Tacotron 的解码器的长度更短。

图 4:使用和不使用后处理网络的预测谱图对比

研究人员进行了平均意见得分测试(mean opinion score,MOS)——由测试者对合成语音的自然程度进行 5 分制的李克特量表法(Likert scale score)评分。MOS 的测试者均为母语人群,共使用 100 个事先未展示的短语,每个短语获得 8 次评分。当计算评分时,只有在测试者佩戴耳机时打出的评分被计算在内。作为对比,研究人员将 Tacotron 与参数式(parametric)系统(基于 LSTM(Zen et al., 2016))和拼接式(concatenative)系统(Gonzalvo et al., 2016)做了比较,后两者目前均已投入商业应用。测试结果如下表显示:Tacotron 的 MOS 分数为 3.82,优于参数系统。由于参照基准已经非常强大,以及 Griffin-Lim 合成的引入,这一新方法具有非常好的前景。

表2:意见得分测试结果

项目 GitHub:https://github.com/google/tacotron

语音合成音频试听:「Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model」

https://google.github.io/tacotron/

原文链接:https://arxiv.org/abs/1703.10135

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【NLP】自然语言处理学习笔记(三)语音合成
本笔记参考的课程是李宏毅老师的自然语言处理 课程Link:https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466
zstar
2022/06/20
1.2K0
【NLP】自然语言处理学习笔记(三)语音合成
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
机器之心原创 作者:李亚洲 近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS)),仍在很大程度上基于所谓的拼接 TTS(concatenative TTS)。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步?这也成为了人工智能领域研究的课题之一。 2016 年,DeepMind 提
机器之心
2018/05/07
1.3K0
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨
谷歌再出黑科技 用人工智能模拟出来的声音 几乎可以和真人以假乱真 在我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一直致力于研究让机器“说人话”,但搞出来的成果似乎还是跟人类真实的声音差距很大,生硬、不自然一直是通病。 在这方面,谷歌倒是一直不遗余力的在研究,所谓只要功夫深,铁杵磨成针。前段时间,他们终于宣布,让机器说人话这事儿,有进展了!!! 谷歌最近发布了一个利用神经网络合成语音的模型,它可能会让电脑发出的声音变得更有“人味儿”。 根据dailymail报道,谷歌最近展示了一种新的语音系统
企鹅号小编
2018/01/15
3.9K0
谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨
业界 | 谷歌发布TTS新系统Tacotron 2:直接从文本生成类人语音
选自Google Blog 作者:Jonathan Shen、Ruoming Pang 机器之心编译 参与:黄小天、刘晓坤 近日,谷歌在其官方博客上推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。虽然结果不错,但仍有一些问
机器之心
2018/05/11
1.4K0
DeepVoice3: 百度多人语音合成实践
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sparkexpert/article/details/80099724
sparkexpert
2019/05/27
3.8K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.9K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
谷歌发布升级版语音合成系统,直接从字符合成语音
科技改变生活 近日,谷歌推出了新的语音合成系统Tacotron 2,这是一种直接从文本中合成语音的神经网络结构,即新型TTS系统,该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验,在能力上有了进一步提升。 TTS技术即从文本到语音,它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下,文本输出的语音音律应使听众在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,但是目前还没有一款系统可以做到。 2017年3月,谷歌推出了一种新的端到端语音合成系统Tacotron。
企鹅号小编
2018/01/16
2.1K0
谷歌发布升级版语音合成系统,直接从字符合成语音
学界 | 百度发布Deep Voice 3:全卷积注意力机制TTS系统
选自arXiv 机器之心编译 参与:刘晓坤、李泽南 今年 2 月份,百度提出了完全由深度神经网络构建的高质量文本转语音(TTS)系统 Deep Voice。这一系统随后在今年五月份推出了第二个版本。近日,百度发布了 Deep Voice 3,该研究的论文已经提交 ICLR 2018 大会。 人工语音合成(亦称文本到语音,TTS)传统上都是以复杂的多态手工设计管道(Taylor, 2009)实现的。最新的对神经 TTS 的研究出现了令人印象深刻的结果—放弃管道并用更简单的特征、更少的组成获得了更高质量的合成语
机器之心
2018/05/10
8780
Tacotron论文阅读
Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音
mathor
2020/08/10
8980
Tacotron论文阅读
动态 | Google推出Tacotron 2:结合WaveNet,深度神经网络TTS媲美专业级别
AI 科技评论按:今年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文认为这一新思路相比去年 DeepMind 的 WaveNet 具有架构上的优势。10 月,Deepmind发布博客称,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(参见 AI 科技评论往期文章:《Deepmind语音生成模型Wave
AI科技评论
2018/03/14
1.6K0
动态 | Google推出Tacotron 2:结合WaveNet,深度神经网络TTS媲美专业级别
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
连政,中国科学院自动化研究所模式识别国家重点实验室16级硕博生。目前研究兴趣为多模态情感识别、语音合成和语音转换。
马上科普尚尚
2020/05/14
1.3K0
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
AI 技术的应用门槛正在不断降低,换脸、换声音、生成各种不存在的人像都变得非常容易,但与此同时,犯罪的门槛也降低了。
机器之心
2019/09/09
1.2K0
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
5250
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
微软提出极低资源下语音合成与识别新方法,小语种不怕没数据!| ICML 2019
编者按:目前,人类使用的语言种类有近7000种,然而由于缺乏足够的语音-文本监督数据,绝大多数语言并没有对应的语音合成与识别功能。为此,微软亚洲研究院机器学习组联合微软(亚洲)互联网工程院语音团队在ICML 2019上提出了极低资源下的语音合成与识别新方法,帮助所有人都可以享受到最新语音技术带来的便捷。
AI科技大本营
2019/05/22
1.7K0
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
编者按:语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。
AI科技评论
2021/08/24
7020
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
2019深度学习语音合成指南(上)
人工生成的人类语音被称为语音合成。这种基于机器学习的技术适用于文本到语音转换、音乐生成、语音生成、启用语音的设备、导航系统以及视障人士的可访问性。
AiTechYun
2019/12/23
9210
2019深度学习语音合成指南(上)
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.3K0
2019深度学习语音合成指南
百度语音合成模型Deep Voice3
Deep Voice3是由百度提出的一个全新的全卷积TTS架构。百度的主要工作分为如下五个方面:
mathor
2020/08/24
2.8K0
百度语音合成模型Deep Voice3
Tacotron2论文阅读
这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射为梅尔声谱图,后面再接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的不同影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构
mathor
2020/08/13
1.6K0
学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet
最近,百度硅谷人工智能实验室的研究员提出了 ClariNet,一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术(Google I/O 大会所展示的超逼真合成语音的背后技术)。自从其被提出,就得到了广泛的离线应用。但由于其自回归(autoregressive)的特点,只能按时间顺序逐个生成波形采样点,导致合成速度极慢,无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流(Gaussian inverse autoregressive flow),可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型,其合成速度提升了数千倍,可以达到实时的十倍以上。
机器之心
2018/07/30
1.1K0
学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet
推荐阅读
相关推荐
【NLP】自然语言处理学习笔记(三)语音合成
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档