前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案

“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案

作者头像
机器之心
发布于 2022-08-25 11:24:27
发布于 2022-08-25 11:24:27
8510
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。

字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。

该方案的亮点如下:

  • 在 CPU 单核上就能做到极低延迟的实时输入实时变声,就像 “柯南领结” 一样;
  • 能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原;
  • 媲美真人的高保真音质,以及高度的目标音色一致性;

语音合成到声音转换:探索更多元的声音玩法

语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频,该技术已被广泛的应用于音视频创作场景中。而相比语音合成,声音转换创造了新的语音交互形式:其不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原:

中文:

英文:

同基于深度学习的语音合成一样,声音转换的模型也由声学模型(acoustic model)和声码器(vocoder)组成。声学模型通过内容编码器从输入音频中提取出发音内容序列,并通过音色编码器从参考音频中提取出音色特征,最后通过声音转换模型生成带有输入音频内容和参考音频音色的频谱;声码器负责将声学模型生成的频谱还原为能够被设备直接播放的音频采样点:

面向实时场景的声音转换模型优化

相较于非实时场景下对完整音频的声音转换,实时声音转换有着更加丰富的落地场景。典型的场景包括直播、虚拟人这类实时交互的娱乐场景,变声的结果需要在很短的延迟内实时流式的生成,才能保证音画同步。

实时声音转换的难点在于:1. 模型在每个时刻只能获取到很短的未来音频片段,因此发音内容的正确识别更加困难;2. 流式推理的实时率(计算时长 / 音频时长)需要稳定小于 1,因此在设计模型时需要更加关注推理性能。这给研发人员带来了更大的挑战,一方面需要通过设计合理的模型结构来降低模型感受野和推理延时,另一方面需要尽可能保证变声的发音内容、音色和音质不受影响。

为了达到上述要求,研究人员对模型进行了一系列改进,使得模型的首包延时压缩到 250ms 左右。实时声音转换的整体框架如下:

对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,使得更多的发音细节、韵律情感能够被保留下来,且显著降低了对模型感受野的要求;对于声音转换模型,研究人员结合了 chunk 级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制,从而确保了生成频谱的发音、音质和音色足够好;对于声码器,研究人员通过精巧的模型结构设计大大压缩了感受野,并通过对抗生成训练提高了生成音频的自然度。

现实版“柯南领结”:各种复杂场景不在话下

现实的语音交互中往往包含许多复杂的场景,使得现有大部分的 AI 变声系统的转换结果变得极不自然。例如,当用户输入中包含叹气、咳嗽这类声音时,现有系统倾向于对其过滤而非保留,从而导致用户想表达的副语言信息的丢失。并且,现有系统的跨域性能较差,从而导致用户进行多语种 / 方言输入时,无法转换出正确的内容。此外,现有系统在低延迟场景下的转换结果容易出现发音错误与音色不稳定的问题。

相较于现有系统,本系统在各个场景下的转换效果均显著提升。以下视频演示了无网环境下在 Macbook 上的实时流式变声效果。用户通过蓝牙耳机实时输入语音,Macbook 实时输出变声结果,模型转换的平均延迟大约 250ms:

使用呆萌音色朗读“玛卡巴卡”,较难理解的文本也可以非常准确转换:

输入方言也能够自然地转换,以上海话为例:

提高一下难度,甚至连 B-box 的转换都毫无违和感:

SAMI 的新一代 AI 变声系统对于复杂场景的适应性显著提升。这项声音转换服务可以支持云端在线服务形式输出,也支持本地化部署。未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。

目前这项技术已经可以在火山引擎 - 音频技术下的声音转换模块(电脑端点击「阅读原文」)体验和开通。针对一些商业化的合作,特别是发音人的音色定制会严格审核音色的版权和授权许可。一些实时性要求比较高的业务,可以通过火山留资页沟通实时转换方案。

声音转换模块链接:https://www.volcengine.com/product/Voice-conversion

火山留资页:https://www.volcengine.com/contact/product?t=Voice-conversion

© THE END 

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
在人们互相交流和信息传递的过程中,「隐喻」的作用极其重要。在1970年之前,当人们提起「桌面」这个单词,联想到的还都是放满了锅碗瓢勺的桌子。但是当天才计算机大师Alan Kay在 Xerox PARC 实验室设计了现代的 GUI 交互界面之后,桌面这个词可能更多的指代的就是配备各种图形化操作系统的电脑桌面了。
AI科技评论
2020/08/20
2.8K0
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
训练网络像是买彩票?神经网络剪枝最新进展之彩票假设解读
深度神经网络已经在计算机视觉领域取得了巨大的成功,如 AlexNet、VGG 等。这些模型动辄就有上亿的参数,传统的 CPU 对如此庞大的网络一筹莫展,只有具有高计算能力的 GPU 才能相对快速的训练神经网络。如 2012 年 ImageNet 比赛中夺冠的 AlexNet 模型使用了 5 个卷积层和 3 个全连接层的 6000 万参数的网络,即使使用当时顶级的 K40 来训练整个模型,仍需要花费两到三天时间。卷积层的出现解决了全连接层的参数规模问题,但叠加若干个卷积层后,模型的训练开销仍然很大。
机器之心
2019/09/19
9680
训练网络像是买彩票?神经网络剪枝最新进展之彩票假设解读
学界 | ICLR2019 最佳论文公布:「有序神经元」、「彩票假设」获奖
获奖论文 1:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
AI科技评论
2019/05/15
3960
学界 | ICLR2019 最佳论文公布:「有序神经元」、「彩票假设」获奖
ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%,其中 oral 论文 24 篇,poster 论文 476 篇。
机器之心
2019/05/15
4790
ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
ICLR最佳论文:MIT科学家提出彩票假设,神经网路缩小10倍并不影响结果
根据齐鲁晚报报道,最近威海一彩民获得了1219万大奖,可以说是非常幸运了,看的一众神经网络“炼丹师”们羡慕不已。
新智元
2019/05/15
8280
ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%,其中 oral 论文 24 篇,poster 论文 476 篇。
昱良
2019/05/15
4320
ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
来源:机器之心本文约3000字,建议阅读10分钟本文介绍了MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」。 登陆 GitHub 以来,这个项目已经收获了 800 多个 Star。 随着越来越多的企业转向人工智能来完成各种各样的任务,企业很快发现,训练人工智能模型是昂贵的、困难的和耗时的。 一家公司 MosaicML 的目标正是找到一种新的方法来应对这些层出不穷的挑战。近日, MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」
数据派THU
2022/04/22
7140
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
机器之心报道 机器之心编辑部 登陆 GitHub 以来,这个项目已经收获了 800 多个 Star。 随着越来越多的企业转向人工智能来完成各种各样的任务,企业很快发现,训练人工智能模型是昂贵的、困难的和耗时的。 一家公司 MosaicML 的目标正是找到一种新的方法来应对这些层出不穷的挑战。近日, MosaicML 推出了一个用于高效神经网络训练的 PyTorch 库「Composer」,旨在更快地训练模型、降低成本,并获得表现更好的模型。 Composer 是一个用 PyTorch 编写的开源库,旨在集
机器之心
2022/04/06
5040
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021
---- 新智元报道   作者:刘宁 编辑:好困 【新智元导读】「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络。然而,这种中奖特性在许多情况中很难被观测到。最近,王言治教团队发现并揭示了中奖特性的潜在条件和基本原理。 在深度模型压缩领域中,「彩票假说」(Lottery Tickets Hypothesis)指出一个原始神经网络可能存在中奖彩票的子网络(Winning ticket),该子网络可以达到和原始网络相近的准确率。 然而,这种中奖特性(Winning property)在许多情况
新智元
2023/05/22
2280
「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021
修剪网络要趁早?「彩票假说」告诉你关于剪枝的一切
好!但是成本很贵……大量的计算资源、训练,还有碳足迹和AI研究的商业化,这些成本给人工智能界带来了若干挑战。
新智元
2020/10/29
5780
独家 | 如何在确保准确度>99%的前提下减少CNN的训练参数(附链接)
文:Sabrina Göllner 翻译:陈之炎 校对:zrx 本文约4800字,建议阅读10分钟 本文来自 Niantic 和 UCL 等机构的研究者使用精心设计和训练的 2D 网络,实现了高质量的深度估计和 3D 重建。 标签:CNN训练 性能优良的神经网络不一定要很大。 图Uriel SC (Unsplash) 近年来,图像识别领域的研究主要集中在深度学习技术上,并且取得了很好的进展。卷积网络(CNNs)在感知图像结构方面非常有效,它能够自动提取独特的特征。然而,大型神经网络往往需要大量的算力和长时
数据派THU
2022/09/27
5980
独家 | 如何在确保准确度>99%的前提下减少CNN的训练参数(附链接)
中奖彩票,子网络的觉悟
如今,深度学习在机器学习中占有非常重要的地位。但随着对深度学习的要求越来越多,需要的网络层数越来越深,参数越来越多,消耗的计算资源也随之扩张,而这很大程度上阻碍了其产业化应用和推广。
机器之心
2020/05/19
7200
中奖彩票,子网络的觉悟
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
来源:机器之心本文约2400字,建议阅读5分钟这篇文章对神经网络架构感兴趣的人有所帮助,特别是那些正在寻找不同角度进行研究的研究者。 研究者希望这篇文章对神经网络架构感兴趣的人有所帮助,特别是那些正在寻找不同角度进行研究的研究者。 深度学习的基本原理可以追溯到几十年前,20 世纪 80 年代 Geoffrey Hinton 等人提出了基于梯度的反向传播学习算法,而 ConvNets 从早期就被应用于手写数字识别等计算机视觉任务。然而,深度学习的真正威力直到 2012 年才显露出来,那年 AlexNet 赢得
数据派THU
2022/08/29
3570
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
2019年 10 大精彩论文,哪篇论文打动了你?
AI 科技评论按:2019 年马上就要结束了,这一年里我们又一同见证了雪片般密集(越来越密集)的论文,见证了全世界研究人员在各种问题上的新探索。
AI科技评论
2019/12/30
9140
ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩成焦点
两篇最佳论文分别来自Mila/加拿大蒙特利尔大学、微软蒙特利尔研究院和MIT CSAIL,主题分别集中在NLP深度学习模型和神经网络压缩。
新智元
2019/05/14
7650
ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩成焦点
【论文推荐】了解《对抗学习》必看的6篇论文(附打包下载地址)
“SFFAI139期来自美国莱斯大学的傅泳淦推荐的文章主要关注于基础研究的对抗学习领域。”
马上科普尚尚
2022/04/11
3380
【论文推荐】了解《对抗学习》必看的6篇论文(附打包下载地址)
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
本文介绍了 2019 年中 机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向。
机器之心
2020/02/24
3450
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
机器之心报道 编辑:陈萍、杜伟 研究者希望这篇文章对神经网络架构感兴趣的人有所帮助,特别是那些正在寻找不同角度进行研究的研究者。 深度学习的基本原理可以追溯到几十年前,20 世纪 80 年代 Geoffrey Hinton 等人提出了基于梯度的反向传播学习算法,而 ConvNets 从早期就被应用于手写数字识别等计算机视觉任务。然而,深度学习的真正威力直到 2012 年才显露出来,那年 AlexNet 赢得了 ImageNet 大规模图像分类挑战赛。 之后数据可用性的提高、计算技术的进步和算法的改进使得深度
机器之心
2022/08/25
4450
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
ICLR 2022 | 提高子网络「中奖」准确率,美国东北大学、Meta等提出对偶彩票假说
机器之心专栏 机器之心编辑部 来自美国东北大学、圣克拉拉大学和 Meta 的研究者提出对偶彩票假说(Dual Lottery Ticket Hypothesis,DLTH),随机的子网络都可以被转换成中奖彩票。 稀疏网络训练一直是深度学习中训练神经网络的难点。随着网络规模和数据量的不断增加,训练成本也不断提升。如何有效的训练稀疏网络来维持合理的训练开销变得十分重要。另一方面,找到有效的稀疏网络训练方法对理解神经网络的工作原理同样很有帮助。 近日,来自美国东北大学,圣克拉拉大学和 Meta 的研究者提出对偶
机器之心
2022/03/21
6190
ICLR2019最佳论文!神经网络子网络压缩10倍,精确度保持不变 | MIT出品
这篇获奖论文名为The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks,提出了一种叫作“彩票假设”(lottery ticket hypothesis)的缩小方法。
量子位
2019/05/15
4460
推荐阅读
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
2.8K0
训练网络像是买彩票?神经网络剪枝最新进展之彩票假设解读
9680
学界 | ICLR2019 最佳论文公布:「有序神经元」、「彩票假设」获奖
3960
ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
4790
ICLR最佳论文:MIT科学家提出彩票假设,神经网路缩小10倍并不影响结果
8280
ICLR 2019最佳论文出炉:微软、MILA、MIT获奖
4320
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
7140
让模型训练速度提升2到4倍,「彩票假设」作者的这个全新PyTorch库火了
5040
「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021
2280
修剪网络要趁早?「彩票假说」告诉你关于剪枝的一切
5780
独家 | 如何在确保准确度>99%的前提下减少CNN的训练参数(附链接)
5980
中奖彩票,子网络的觉悟
7200
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
3570
2019年 10 大精彩论文,哪篇论文打动了你?
9140
ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩成焦点
7650
【论文推荐】了解《对抗学习》必看的6篇论文(附打包下载地址)
3380
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
3450
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
4450
ICLR 2022 | 提高子网络「中奖」准确率,美国东北大学、Meta等提出对偶彩票假说
6190
ICLR2019最佳论文!神经网络子网络压缩10倍,精确度保持不变 | MIT出品
4460
相关推荐
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档