Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】

作者头像
马上科普尚尚
发布于 2020-05-14 03:08:21
发布于 2020-05-14 03:08:21
1.2K0
举报

作者介绍


连政,中国科学院自动化研究所模式识别国家重点实验室16级硕博生。目前研究兴趣为多模态情感识别、语音合成和语音转换。

导读


如何使人机交互中机器的声音更具情感和表现力一直是一个重要的研究热点。不同于传统pipeline式的语音合成系统,端到端的语音合成方法凭借简练的模型结构,突出的性能获得了越来越多的关注,其中以wavnet, tacotron, tacotron2等最为著名。

正文


通常的语音合成系统包含文本分析、声学模型和声码器等模块。而构建这些模块需要大量专业相关的知识以及特征工程,这将花费大量的时间和精力,而且各个模块之间组合在一起也会产生很多新的问题。近期,王雨轩等人提出TACOTRON框架,将文本分析和声学模型统一为一个模块,合成语音在自然度和清晰度方面,超越了传统的基于参数合成和拼接合成的语音合成系统。在声码器方面,传统声码器重构语音存在频谱细节丢失,语音相位依赖最小相位假设和人工设计等问题,导致重构语音自然度和音质下降,DeepMind研究者提出的WaveNet结构,可以直接学习到采样值序列的映射,因此具有很好的合成效果。目前主流的语音合成框架就是TACOTRON + WaveNet的结构。

TACOTRON的核心模块是基于注意力机制的编码器-解码器模型。模型结构如下图。它包含一个编码器,一个基于注意力机制的解码器和一个后处理网络。从高层面上说,模型把字符作为输入,产生的谱参数随后被转换成波形。其中,编码器的目的,是提取文本的鲁棒序列表达。使用高效的编码器实现可以提取出更具表达力的高级别表示,从而有助于模型泛化。编码器的输入是字符序列或者音素序列(对于汉语,输入可以为带调的声韵母序列);解码器采用基于内容的注意力解码器,在这个解码器中,一个有状态的循环层在每个时间步骤上都产生一次注意点查询。再把上下文向量和Attention RNN单元的输出拼接在一起,作为解码器RNN的输入;后处理网络的任务是,把seq2seq的输出转化成可以被合成为波形的目标表达。在原始端到端模型被提出来时,使用Griffin-Lim做合成器,因此后处理网络要学习的是如何预测在线性频率刻度上采样的频谱幅度(线性谱)。

图1 TACOTRON网络结构示意图

WaveNet结构,是一种序列生成模型,可以用于语音生成建模。在语音合成的声学模型建模中,WaveNet可以直接学习到采样值序列的映射,因此具有很好的合成效果。目前Wavenet在语音合成声学模型建模,声码器方面都有应用,特别是在声码器建模方面,能够与前端端到端Tacotron进行结合,生成媲美人类录音水平的效果。网络结构如图2所示。WaveNet是一种自回归(autoregression)的深度生成模型,可以根据一个序列的前n-1个点预测第n个点的结果,因此可以用来预测语音中的采样点数值。WaveNet采用因果卷积神经网络来对条件概率建模,每个卷积层都对前一层进行卷积,卷积核越大,层数越多,时域上的感知能力越强,感知范围(receptive field)越大。在生成过程中,每生成一个点,把该点放到输入层最后一个点继续迭代生成即可。由于语音波语音的采样率高,时域上对感知范围要求大,WaveNet使用了扩张因果卷积网络结构(Dilated Casual Convolutions)来获得足够大的接受野。此外,WaveNet采用了类似PixelCNN的加门控激活函数。于此同时,WaveNet还采用残差网络结构以及参数化的跳跃链接(skip connection)来构建深层次的网络,同时这种网络结构也有助于加快模型收敛。

图2 WaveNet网络结构示意图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码
语音合成技术可以将文字信息转换成标准流畅的语音且进行朗读,在公共服务、智慧交通、泛娱乐、智能硬件等领域具有广泛应用。 在第3期英伟达x量子位NLP公开课上,英伟达开发者社区经理分享了【使用NeMo让你的文字会说话】,介绍了语音合成技术的理论知识,并通过代码演示讲解了如何使用NeMo快速完成自然语音生成任务。 以下为分享内容整理,文末附直播回放、课程PPT&代码、往期课程内容整理。 ---- 大家好,我是来自NVIDIA企业级开发者社区的李奕澎。今天直播的主题是使用对话式AI工具库—Nemo让你的文字会说话。
量子位
2023/03/10
6130
使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.6K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领域率先发力,取得了一系列成功的应用。 这次分享会中,雷锋网邀请到了中科院自动化所的刘斌博士。刘斌,中科院自动化所博士,极限元资深智能语音算法专家,中科院-极限元智能交互联合实验室核心技术人员,曾多次在国际顶级会议上发表论文,获得多项关于语音及音频领域的专利,具有丰富的工程经验。刘斌博士会与大家分享近年来深度学习在语音生成问题中的新方法,围绕语音合成和
AI科技评论
2018/03/14
1.2K0
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
漫谈语音合成之Char2Wav模型
漫谈语音合成之Char2Wav模型 语音合成是指将文本转化成音频的过程,整个过程的难点可以用两个词语来形容:清晰度(Intelligibility)和自然度(Naturalness),清晰度是指合成的音频是否是干净的,是否可以被人听懂;而自然度是指合成的音频是否融合了情感上的色彩。传统的语音合成通常有两种做法,一种是合成式,另外一种是参数式,下面我们分别看它们各自的特点。 合成式(Concatenative TTS),这种方法需要大量的剪辑音频组成的数据库,然后根据文本内容从数据库中挑选相应的音频片段,把它
企鹅号小编
2018/01/22
1.3K0
漫谈语音合成之Char2Wav模型
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.3K0
2019深度学习语音合成指南
微软歌声合成算法HIFISINGER论文解读
论文题目: HIFISINGER: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS 摘要 高保真的歌声需要高的采样频率。高采样必定导致更宽的频率带和更长的波形序列,给歌声合成模型带来困难。 hifisinger是采用48kHZ的采样频率。它包括基于自然语音的fastSpeech和并行的声码器WaveGAN,在声学模型和声码器中引入了多尺度对抗训练,以改善歌唱建模。 sub-frequency GAN 来生成梅尔声谱图,并将80维的mel频率分成多个
AI拉呱
2021/01/19
1.9K0
Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解
作为语音交互的出口,语音合成是语音助手、车载导航、智能音箱、智能玩具、机器人等应用的必备功能,其效果直接影响人机交互的体验。此外,语音合成在AI音频内容创作与生成上也具有巨大的应用潜力:AI听书、AI电台、虚拟主播等均需要自然流畅、多样化、表现力、个性化的语音合成技术。
音视频开发进阶
2021/06/09
8030
Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解
学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音
选自arXiv 作者:王雨轩等 机器之心编译 参与:李泽南、吴攀 最近,谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文作者认为这一新思路相比去年 DeepMind 的 WaveNet 以及百度刚刚提出的 DeepVoice 具有架构上的优势。点击阅读原文下载论文。 现代文本转语音(TTS)的流程十分复杂(Taylor, 2009)。比如,统计参数 TTS(statist
机器之心
2018/05/07
1.8K0
学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
机器之心原创 作者:李亚洲 近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS)),仍在很大程度上基于所谓的拼接 TTS(concatenative TTS)。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步?这也成为了人工智能领域研究的课题之一。 2016 年,DeepMind 提
机器之心
2018/05/07
1.3K0
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
3660
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
谷歌发布升级版语音合成系统,直接从字符合成语音
科技改变生活 近日,谷歌推出了新的语音合成系统Tacotron 2,这是一种直接从文本中合成语音的神经网络结构,即新型TTS系统,该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验,在能力上有了进一步提升。 TTS技术即从文本到语音,它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下,文本输出的语音音律应使听众在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,但是目前还没有一款系统可以做到。 2017年3月,谷歌推出了一种新的端到端语音合成系统Tacotron。
企鹅号小编
2018/01/16
2.1K0
谷歌发布升级版语音合成系统,直接从字符合成语音
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
AI科技评论按:目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。
AI科技评论
2019/06/05
9020
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
DeepVoice3: 百度多人语音合成实践
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sparkexpert/article/details/80099724
sparkexpert
2019/05/27
3.8K0
精选论文 | 情感语音识别与合成【附打包下载】
人机交互是人工智能的重要研究热点。而关于情感的研究使得人机交互变得更加有温度。情感语音识别要求从语音中准确的识别人类所具有的情感表达,有助于机器对于我们语义的理解;而情感语音合成则是为了使得机器合成的语音更加自然,更加具有温度。因此6月1日(周六),《SFFAI31期-情感语音识别与合成论坛》邀请两位出色的博士生(黄健,郑艺斌),分别从情感语音识别与合成两个维度来给带大家了解人机交互。
马上科普尚尚
2020/05/11
1.1K0
精选论文 | 情感语音识别与合成【附打包下载】
谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet
安妮 编译整理 量子位 出品 | 公众号 QbitAI 让电脑会讲话没什么,但让电脑说得666就不是一件容易事了。 今天,谷歌推出一种直接从文本中合成语音的神经网络结构,即新型TTS(Text-to-Speech,TTS)系统Tacotron 2。Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。 下面是一个Tacotron 2生成的音频案例,效果确实很赞,并且还能区分出单词“read”在过去分词形式下的读音变化。 △ “He has read
量子位
2018/03/22
1.2K0
谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
编者按:语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。
AI科技评论
2021/08/24
6800
系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
Tacotron2论文阅读
这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射为梅尔声谱图,后面再接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的不同影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构
mathor
2020/08/13
1.6K0
方兴未艾的语音合成技术与应用
作者简介:李秀林,中国科学院博士,15 年语音相关技术研发和学术研究,申请专利三十余项,在国内外语音界有很高的知名度;曾带领团队获得百度百万美元大奖。2006 年—2013 年,松下研发中心高级研发经理;2013 年—2016 年,百度语音合成技术负责人;2016 年—2018 年,滴滴研究院语音团队负责人&首席算法工程师;2018 年3 月加盟标贝科技,作为联合创始人兼CTO。
AI科技大本营
2018/10/22
1.6K0
方兴未艾的语音合成技术与应用
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
“人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备,敬请关注公众号获取最新消息。
马上科普尚尚
2020/05/14
1.4K0
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
开源声码器WORLD在语音合成中的应用
语音合成(TTS)是语音AI平台的基础设施,而声码器则决定着其中的声学模型以及合成质量。喜马拉雅FM音视频高级工程师 马力在LiveVideoStack线上交流分享中详细介绍了新一代合成音质更高,
LiveVideoStack
2021/09/01
1.4K0
推荐阅读
相关推荐
使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档