首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[深度学习概念]·语音识别模型WaveNet介绍

[深度学习概念]·语音识别模型WaveNet介绍

作者头像
小宋是呢
发布于 2019-06-27 06:56:54
发布于 2019-06-27 06:56:54
2.1K0
举报
文章被收录于专栏:深度应用深度应用

语音识别模型WaveNet介绍

这篇文章介绍了WaveNet,一种原始音频波形的深度生成模型。我们展示了WaveNets能够生成模仿任何人类语音的语音,并且听起来比现有的最佳文本语音系统更自然,与人类表现的差距缩小了50%以上。

我们还演示了相同的网络可以用于合成其他音频信号,如音乐,并呈现自动生成的钢琴片的一些引人注目的样本。

说话的机器

允许人们与机器交谈是人机交互的长期梦想。在过去几年中,计算机理解自然语音的能力已经通过深度神经网络(例如,谷歌语音搜索)的应用而发生了革命性的变化。然而,用计算机产生语音 - 这个过程通常被称为语音合成或文本到语音(TTS) - 仍然主要基于所谓的连接TTS,其中从单个记录了一个非常大的短语音片段数据库。说话者然后重新组合以形成完整的话语。这使得难以在不记录全新数据库的情况下修改语音(例如,切换到不同的说话者,或改变他们的语音的强调或情绪)。

这导致对参数TTS的巨大需求,其中生成数据所需的所有信息都存储在模型的参数中,并且可以通过模型的输入来控制语音的内容和特征。然而,到目前为止,参数化TTS倾向于听起来不如连接。现有的参数模型通常通过将其输出传递通过称为声码器的信号处理算法来生成音频信号。

WaveNet通过直接建模音频信号的原始波形(一次一个样本)来改变这种范例。除了产生更自然的声音外,使用原始波形意味着WaveNet可以模拟任何类型的音频,包括音乐。

WaveNets

研究人员通常会避免对原始音频进行建模,因为它的速度非常快:通常为每秒16,000个样本或更多,在许多时间尺度上具有重要结构。构建一个完全自回归模型,其中每个样本的预测都受到所有先前样本的影响(在统计学中,每个预测分布都以先前的所有观察为条件),显然是一项具有挑战性的任务。

然而,我们 今年早些时候发布的PixelRNNPixelCNN模型显示,不仅可以一次生成一个像素,而且一次生成一个颜色通道,每个图像需要数千个预测,因此可以生成复杂的自然图像。这激发了我们将二维PixelNets改编为一维WaveNet。

上面的动画显示了WaveNet的结构。它是一个完全卷积的神经网络,其中卷积层具有各种扩张因子,允许其感知场随深度呈指数增长并覆盖数千次步长。

在训练时,输入序列是从人类扬声器记录的真实波形。在训练之后,我们可以对网络进行抽样以生成合成话语。在采样期间的每个步骤中,从网络计算的概率分布中抽取值。然后将该值反馈到输入中,并进行下一步骤的新预测。像这样一步一步地构建样本计算成本很高,但我们发现它对于生成复杂,逼真的音频非常重要。

改善现状

我们使用Google的一些TTS数据集训练了WaveNet,以便我们评估其性能。下图显示了WaveNets的质量,从1到5,与Google目前最好的TTS系统(参数连接)相比,以及使用Mean Opinion Scores(MOS)的人类语音 。MOS是主观声音质量测试的标准测量,并且是在人类受试者的盲测中获得的(来自100个测试句子的500多个评级)。正如我们所看到的,WaveNets将美国英语和普通话的现状和人类表现之间的差距缩小了50%以上。

对于中文和英文,Google目前的TTS系统被认为是全球最好的系统之一,因此使用单一模型进行改进是一项重大成就。

为了使用WaveNet将文本转换为语音,我们必须告诉它文本是什么。我们通过将文本转换为一系列语言和语音特征(包含有关当前音素,音节,单词等的信息)并将其输入WaveNet来实现。这意味着网络的预测不仅取决于先前的音频样本,还取决于我们希望它说出的文本。

如果我们在没有文本序列的情况下训练网络,它仍会产生语音,但现在它必须弥补说话。正如您可以从下面的示例中听到的那样,这会产生一种bab呀学语,其中真实的单词中散布着类似于单词的声音:

请注意,WaveNet有时也会产生非语音,如呼吸和嘴巴动作; 这反映了原始音频模型的更大灵活性。

正如您可以从这些样本中听到的那样,单个WaveNet能够学习许多不同声音(男性和女性)的特征。为了确保它知道哪个语音用于任何给定的话语,我们根据说话者的身份调整网络。有趣的是,我们发现许多发言者的培训使得单个演讲者的建模比单独对该演讲者进行培训更好,这表明了一种转学方式。

通过更改说话者身份,我们可以使用WaveNet在不同的声音中说同样的事情:

同样,我们可以为模型提供额外的输入,例如情感或口音,使演讲更加多样化和有趣。

制作音乐

由于WaveNets可以用来模拟任何音频信号,我们认为尝试生成音乐也很有趣。与TTS实验不同,我们没有对输入序列上的网络进行调节,告诉它要播放什么(例如乐谱); 相反,我们只是让它生成它想要的任何东西。当我们在古典钢琴音乐的数据集上进行训练时,它产生了如下的迷人样本:

WaveNets为TTS,音乐生成和音频建模提供了很多可能性。使用深度神经网络直接生成每时间步长的时间步长对16kHz音频起作用的事实确实令人惊讶,更不用说它优于最先进的TTS系统。我们很高兴看到我们接下来可以做些什么。

有关详细信息,请查看我们的论文

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年01月22日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能
编者按:Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果——WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。 WaveNets是一种卷积神经网络,能够模拟任意一种人类声音,生成的语音听起来比现存的最优文本-语音系统更为自然,将模拟生成的语音与人类声音之间的差异降低了50%以上。 我们也将证明,同一种网络能够合成其他音频信号,如音乐,并
AI科技评论
2018/03/07
1.2K0
DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能
【重磅】DeepMind发布最佳语音神经网络生成模型,与人类差距缩减50%以上
【新智元导读】本文介绍的是WaveNet——一个原始音频波形深度模型。我们展示了,Wavenet能够生成模仿人类的语音,听起来要比现有最好的文本到语音转化系统更自然,将与人类表现的差距缩减了50%以上。 在我们的展示中,相同的网络能被用于合成其他的音频信号,比如,音乐。在这里,我们提供了一些样本——自动生成的钢琴曲。 会说话的机器 让人能与机器对话是人机交互长期以来的一个梦想。近年来,随着深度神经网络的应用(比如,谷歌的语音搜索),计算机理解自然语音的能力取得了革命性的进展。但是,用计算机生成语音仍然大量地
新智元
2018/03/23
8970
【重磅】DeepMind发布最佳语音神经网络生成模型,与人类差距缩减50%以上
WAVENET论文阅读
谷歌DeepMind2016年的深度生成模型 WaveNet 将机器语音合成的表现与人类之间水平的差距至少缩减了 50%
mathor
2020/08/10
1.2K0
动态 | Deepmind语音生成模型WaveNet正式商用:效率提高1000倍
AI科技评论消息:2017年10月4日,Deepmind发表博客称,其一年前提出的生成原始音频波形的深层神经网络模型WaveNet已正式商用于Google Assistant中,该模型比起一年前的原始模型效率提高1000倍,且能比目前的方案更好地模拟自然语音。 以下为Deepmind博客所宣布的详细信息,AI科技评论摘编如下: 一年之前,我们提出了一种用于生成原始音频波形的深层神经网络模型WaveNet,可以产生比目前技术更好和更逼真的语音。当时,这个模型是一个原型,如果用在消费级产品中的计算量就太大了。
AI科技评论
2018/03/14
1.2K0
动态 | Deepmind语音生成模型WaveNet正式商用:效率提高1000倍
2019深度学习语音合成指南(上)
人工生成的人类语音被称为语音合成。这种基于机器学习的技术适用于文本到语音转换、音乐生成、语音生成、启用语音的设备、导航系统以及视障人士的可访问性。
AiTechYun
2019/12/23
9720
2019深度学习语音合成指南(上)
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.4K0
2019深度学习语音合成指南
谷歌又玩黑科技,DeepMind可以模仿人类说话
Google的DeepMind研究实验室昨天公布了其在计算机语音合成领域的最新成果——WaveNet。该语音合成系统能够模仿人类的声音,生成的原始音频质量优于目前的文本转语音系统(text to speech,简称TTS)。 DeepMind宣称,通过人耳测试,该技术使得模拟生成的语音与人类声音之间的差异缩小了一半。当然,这种测试不可避免地存在主观性。 WaveNet目前还没有被应用到谷歌(微博)的任何产品中,而且该系统需要强大的计算能力,近期也无法应用到真实世界场景。 让人类跟机器自由交谈是人机交互研究领
BestSDK
2018/02/27
7580
Google Duo采用WaveNetEQ填补语音间隙
在线语音通话已经成为人们日常生活的一部分,但数据包常以错误的顺序或错误的时间到达另一端,有时个别数据包甚至可能会完全丢失。这不仅导致通话质量降低,而且是音频和视频传输都普遍存在的问题。
LiveVideoStack
2020/04/07
9910
Google Duo采用WaveNetEQ填补语音间隙
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
7540
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO
作者 | James Vincent 等 编译 | 夕颜、Monanfei 出品 | AI科技大本营(ID:rgznai100)
AI科技大本营
2019/06/20
9630
Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO
学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?
androidauthority AI 科技评论消息,今日百度研究院在官网上正式推出了 Deep Voice:实时语音合成神经网络系统(Real-Time Neural Text-to-Speech for Production),Twitter 上也同步更新了消息,目前论文也已经投递 ICML 2017。 本系统完全依赖深度神经网络搭建而成,最大的优势在于能够满足实时转换的要求。在以前,音频合成的速度往往非常慢,需要花费数分钟到数小时不等的时间才能转换几秒的内容,而现在,百度研究院已经能实现实时合成,
AI科技评论
2018/03/12
1.4K0
学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?
2019深度学习语音合成指南(下)
作者提出了一种全卷积字符到谱图的框架,可以实现完全并行计算。该框架是基于注意力的序列到序列模型。这个模型在LibriSpeech ASR数据集上进行训练。
AiTechYun
2019/12/23
1K0
2019深度学习语音合成指南(下)
DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音
人类梦想让文字说话已经有好几个世纪的历史了。你可能没想到,其实在1968年,日本的电机技术实验室由Noriko Umeda和他的同伴开发了第一个完整的英语语音转换系统(Text-To-Speech,简称TTS)。
新智元
2019/10/10
2.2K0
DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音
动态 | Google推出Tacotron 2:结合WaveNet,深度神经网络TTS媲美专业级别
AI 科技评论按:今年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文认为这一新思路相比去年 DeepMind 的 WaveNet 具有架构上的优势。10 月,Deepmind发布博客称,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(参见 AI 科技评论往期文章:《Deepmind语音生成模型Wave
AI科技评论
2018/03/14
1.7K0
动态 | Google推出Tacotron 2:结合WaveNet,深度神经网络TTS媲美专业级别
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
9060
视频 | 谷歌新一代WaveNet :深度学习怎么生成语音?
AI 科技评论按:这里是雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 原标题:NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 翻译 | 张锋凯 整理 | 凡江 林尤添 在往期的 2 分钟论文栏目中,我们有谈过 Google 的 WaveNet(一个基于学习型的文本到语音引擎),也就是说,只要我们给予已经训练好的模
AI科技评论
2018/03/06
9160
视频 | 谷歌新一代WaveNet :深度学习怎么生成语音?
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
AI 技术的应用门槛正在不断降低,换脸、换声音、生成各种不存在的人像都变得非常容易,但与此同时,犯罪的门槛也降低了。
机器之心
2019/09/09
1.3K0
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
业界 | 历经一年,DeepMind WaveNet语音合成技术正式产品化
选自DeepMind 机器之心编译 参与:刘晓坤 昨日,谷歌发布了一系列新的产品,从音箱到手机,让我们看到了其产品全面 AI 化的趋势。而 DeepMind 一年前宣布的语音合成技术 WaveNet 也正式产品化,融入谷歌助手之中。本文对升级后的 WaveNet 技术做了解读。 就在一年前,谷歌 DeepMind 发布了 WaveNet,这是一种新的深度神经网络,能生成新的声音信号波形,并且比起其它现有技术,其生成的语音拥有更加逼真的音效。当时这个模型还只处于研究雏形阶段,对于消费性产品而言,模型的计算消耗
机器之心
2018/05/08
1.5K0
业界 | 历经一年,DeepMind WaveNet语音合成技术正式产品化
谷歌又出新招数,利用深度学习的视听模型进行语音分离
AiTechYun 编辑:chux 即使在嘈杂的环境下,人们也能够将注意力放在特定的人身上,选择性忽略其他人的声音和环境音。这被称作鸡尾酒会效应,对人类来说十分寻常。然而自动语音分离,将音频信号分离到
AiTechYun
2018/04/17
1.4K0
谷歌又出新招数,利用深度学习的视听模型进行语音分离
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
4.2K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
推荐阅读
DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能
1.2K0
【重磅】DeepMind发布最佳语音神经网络生成模型,与人类差距缩减50%以上
8970
WAVENET论文阅读
1.2K0
动态 | Deepmind语音生成模型WaveNet正式商用:效率提高1000倍
1.2K0
2019深度学习语音合成指南(上)
9720
2019深度学习语音合成指南
1.4K0
谷歌又玩黑科技,DeepMind可以模仿人类说话
7580
Google Duo采用WaveNetEQ填补语音间隙
9910
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
7540
Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO
9630
学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节,端到端的语音合成还有多远?
1.4K0
2019深度学习语音合成指南(下)
1K0
DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音
2.2K0
动态 | Google推出Tacotron 2:结合WaveNet,深度神经网络TTS媲美专业级别
1.7K0
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
9060
视频 | 谷歌新一代WaveNet :深度学习怎么生成语音?
9160
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
1.3K0
业界 | 历经一年,DeepMind WaveNet语音合成技术正式产品化
1.5K0
谷歌又出新招数,利用深度学习的视听模型进行语音分离
1.4K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
4.2K0
相关推荐
DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能
更多 >
交个朋友
加入[后端] 腾讯云技术交流站
后端架构设计 高可用系统实现
加入前端工作实战群
前端工程化实践 组件库开发经验分享
加入云原生工作实战群
云原生落地实践 技术难题攻坚探讨
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档