首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Dialog+ : 基于深度学习的音频对话增强技术

Dialog+ : 基于深度学习的音频对话增强技术

作者头像
用户1324186
发布于 2022-02-18 02:25:11
发布于 2022-02-18 02:25:11
1.1K0
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:IBC2021 主讲人:Matteo Torcoli 内容整理:陈梓煜 研究者通过调研发现,现今观众经常会受到听不清音频中人物对话的困扰,为给观众提供个性化的声平衡方案,这篇文章主要提出了一种利用深度学习改善音频中人物对话和环境声相对水平的声平衡方案 Dialog+,并通过线上调研和实地广播测试验证了该方案的有效性。

目录

  • 问题概述
  • Dialog+
  • WDR线上调查
  • 实地广播测试
  • 总结

问题概述

本工作解决的主要问题是,如何在音频广播的过程中平衡对话语音的音频水平和其他背景成分的音频水平。这种平衡是非常个性化的,因为不同个体的个人喜好、收音环境、听觉能力等许多方面的差异都会对优解的平衡产生重要影响,不存在可以同时满足所有人的需求的平衡方案。传统广播机制在WDR测试中经常会收到关于对话语音难以听清的负面反馈。

次世代音频(Next Generation Audio,NGA) MPEG-H Audio 为上述问题提供了非常好的解决方案,该语音广播方案为终端设备提供了非常好的个性化选择方案,终端用户可以在不同的环境下自主选择语音广播中对话语音和环境声音的平衡方式。次世代音频有非常好的应用潜力,已经被主流的广播和流媒体应用标准给采用,例如 DVB,ATSC,TTA,SBTVD。

为了得到个性化的语音成分平衡方案,需要处理的核心问题是如何分离一段语音中的对话成分和背景音成分,从而在语音传播的发生、传播、接收等各个阶段,灵活地处理对话成分与背景音成分之间的平衡。与单独分离对话语音问题对应的更宽泛的问题是如何分离一段音频中的各种成分,得到每种成分的属性数据。为了在一段打包了多种成分的音频片段中,准确的分解出次世代音频所需要的各种成分和对应属性,从而为移动端用户提供更好的音频平衡方案,作者提出了 Dialog+。

Dialog+

Dialog+ 利用了深度学习方法的最新进展,考虑到算法的鲁棒性为了得到更好的算法表现,使用到的训练数据是现实世界的广播内容,大部分来自于WDR和BR。工作者对数据进行了仔细的后处理,挑选对算法训练和优化最有帮助的训练数据。

下图展示了 Dialog+ 的流程框架,该流程的第一步是分离未知的声音源。对输入的立体声混合音频文件进行短时傅里叶变换得到频域下的音频数据,再使用深度卷积网络从频域上的音频数据预测分离的对话音和环境音。作者认为深度卷积网络的结构对从原始数据中分离不同特征的数据更加敏感,作者证明了相比于其他更复杂的网络结构,使用深度卷积神经网络可以获得更好的性能表现。

Dialog+ 流程框架

Dialog+ 包含了自动分离对话音和环境声和自动对分离的音频进行混音两部分,可以做到突出对话的内容同时减少因环境声成分降低而引起的听感的不自然。预测得到分离的对话音成分和背景音成分后,用均衡器调节两种成分的频率响应,可以获得与原始输入音频不同的新的混音音频,混音的方式有两种:全局混音和时变混音。全局混音降低背景杂音的相对音量,将对话音量和环境音量稳定在相对的水平不变;时变混音会随着环境生的实际情况自动随着时间调节环境音量和对话音量的相对值,灵活地改变音量平衡的方式。时变混音的好处是,在音频中没有出现对话音的时候,不降低环境声音的比例,不破坏音频中环境声创造的氛围,而当检测到音频中的对话音时,平滑地降低环境声的占比以突出对话的内容。亦可将两种混音方式结合获得更好的平衡效果。

最后,重混音的音频文件以及音频对应的属性数据被自动地生成,这些音频可以直接被应用于次世代音频中,或者在渲染后应用于传统的基于频道的广播频道上,这些音频文件突出了原始音频的对话音。

WDR线上调查

WDR 是为了让观众提供日常可触及的广播服务,并获得他们的反馈和建议。使用 WDR 线上测试和调查的目标是更好地理解和处理广播机制所关注的问题,从用户接受度和满意度两个方面评估 Dialog+。研究者为受测试者提供了三段语音,每段语音分为不做处理的原始版本和用 Dialog+ 处理后的版本。为了得到更客观的测试调研结果,三段语音涵盖了不同的场景,都是在测试过程经常获得难以听清人物对话这一负面反馈的音频,受测试者在观看所有的视频后,会被问及他们在观看视频时真实感受和观点,并记录在线上问卷中。

受测试者超过2000人,约80%的受测试者年龄在41~80岁,下图展示了受测试者在观看视频时听人物对话存在障碍的频率,所有受测试者中,约68%的测试者认为自己经常或者非常频繁地存在这一问题,年龄超过60岁的受测试者中约有90%认为自己经常或者非常频繁地存在这一问题。研究者者发现,随着受测试者年龄的增长,越来越容易出现听不清视频中人物对话的问题,这说明单个音频不可能可以满足各个年龄段观众的收音感受,能满足年轻观众的声音频道可能会在更年长的观众群体中产生收音障碍,能满足年长观众的音频可能由于过于突出人物对话破坏了环境声创造的氛围感而在年轻的观众群体中产生乏味无趣的情况。

受测试者在观看视频时听人物对话存在障碍的频率

受测试者被问及的主要问题是他们是否更愿意把音平衡切换到 Dialog+ 模式,调研结果显示大部分观众都愿意将频道切换为 Dialog+ 模式,即使是从来没有或者很少出现跟不上人物对话情况的听众也倾向于把音平衡切换到 Dialog+ 模式,受测试者被问及的第二个问题是他们更喜欢哪种类型的声平衡模式,约46%的受测试者更喜欢 Dialog+ 声平衡模式,年迈的听众更倾向于使用 Dialog+。

受测试者切换到Dialog+的倾向

实地广播测试

基于WDR线上测试的结果,研究者使用两种方式展开了实地广播测试。

  • 基于 DVB 和流媒体频道的 WDR 实地测试:该测试于2020年12月于德国某电视频道展开两天,观众可以在视频选项中选择 Dialog+ 声平衡模式。
  • 基于 HbbTV2 的 BR 实地测试:HbbTV2 可以基于 DVB 广播常规的视频和语音,同时在网络中可以添加额外的声音版本,研究者在此添加了两种额外的 Dialog+ 版本音源,一种为对话突出版本,一种为对话突出增强版本,为光中提供了更多的选择使得观众可以根据自己的喜好来选择对话的突出程度。

总结

现今观众经常会受到听不清音频中人物对话的困扰,研究者采访了超过2000名观众,发现随着年龄的提升,受该问题困扰的程度越大。但是现有的广播机制难以提供高度个性化的语音平衡方案以满足不同年龄段观众对于听清音频中人物对话的需求,基于此问题,本工作的研究者提出了 Dialog+,这是一种通过深度学习方法,从原始声音片段中先分离出环境音和人物对话音后,再将增强的人物对话与环境音结合,以达到突出人物对话音目的的音平衡方案,通过线上调研和实际的广播测试,约83%的听众更愿意切换到 Dialog+ 模式,证明了该方案的有效性。

最后附上演讲视频:

http://mpvideo.qpic.cn/0bc3eeaaaaaauiacbtpnuzqvaiodaaqqaaaa.f10002.mp4?dis_k=299af3f9e691bca560aafddf872d6f5f&dis_t=1645151068&vid=wxv_2237041039578710020&format_id=10002&support_redirect=0&mmversion=false

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI 音频转视频秘籍:从原理到实践
在当今数字化时代,AI 技术正以前所未有的速度改变着我们创作和分享内容的方式。其中,AI 音频转视频技术为创作者们提供了一个全新的维度,使得将单纯的音频内容转化为富有视觉吸引力的视频变得轻而易举。无论是音乐创作者希望为自己的曲目配上独特的视觉效果,还是播客主想要丰富内容呈现形式,亦或是教育工作者试图打造更生动的教学材料,AI 音频转视频都能成为得力助手。接下来,让我们深入探索这项神奇技术背后的秘籍。​
用户11781873
2025/08/07
1010
AI 音频转视频秘籍:从原理到实践
音视频技术开发周刊 | 231
几年前,很多人对在线网课还非常陌生。随着移动设备的普及和音视频技术的发展,如今在线教育产品百花齐放。而在线教育产品能服务千万学子离不开流媒体分发技术的支撑。本次LiveVideoStackCon 2021 音视频技术大会北京站邀请到了网易有道研发工程师周晓天,为我们分享网易有道在线教育业务的流媒体分发相关内容。
LiveVideoStack
2022/02/11
3590
音视频技术开发周刊 | 231
三大技术突破!OPPO MariSilicon Y发布:从“计算影像”跨入“计算音频”!
12月14日,继去年推出首款自研芯片马里亚纳 MariSilicon X 整整一年之后,OPPO在深圳召开的“OPPO 未来科技大会”上正式发布了第二款自研芯片—— 马里亚纳 MariSilicon Y。不同于面向“计算影像”领域的MariSilicon X,OPPO这一次推出的MariSilicon Y则瞄准的是“计算音频”领域,是一款旗舰级蓝牙音频SoC芯片,带来了音质的重大突破。
芯智讯
2023/02/09
7510
技术实战 —— 快速实现语聊房搭建
语音相比文字图片更丰富,比视频又更简便,是天然的社交工具。以95后为代表的Z世代用户,在微信、QQ、微博等主流社交工具以外,更愿意尝试基于不同兴趣相对小众的社交工具。ZEGO 即构科技推出语聊房解决方案,帮助客户快速搭建语聊房。本次分享,我们邀请到了 即构科技交付解决方案专家 JIN 。他向我们分享了线上社交以及语聊房的发展、玩法,并详细解析如何快速搭建语聊房,提供稳定、低延时,高品质的线上互动体验。
LiveVideoStack
2021/12/21
1.7K0
技术实战 —— 快速实现语聊房搭建
ASR(语音识别)评测学习
小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目,识别效果是至关重要的一环,识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案,小编学习了相关知识,对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)
用户5521279
2020/12/24
9.2K0
攻破“鸡尾酒会”难题,人声分离给生活带来了哪些改变?
试想一下,在一个嘈杂的鸡尾酒会上,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音,这对于我们人类来说十分简单。
用户2908108
2019/08/20
1.4K0
攻破“鸡尾酒会”难题,人声分离给生活带来了哪些改变?
从视音角度看多模态学习的过去与未来
作者丨卫雅珂、刘学旻 视觉和听觉在人类的沟通和场景理解中至关重要。为了模仿人类的感知能力,旨在探索视音模态的视音学习在近些年来已成为一个蓬勃发展的领域。本文是对由中国人民大学高瓴人工智能学院GeWu-Lab联合德克萨斯州大学达拉斯分校以及西北工业大学共同发布的最新视音学习综述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解读。 该综述首先分析了视音模态的认知科学基础,进而对近来的视音学习工作(近三百篇相
AI科技评论
2023/04/12
6850
从视音角度看多模态学习的过去与未来
奇声(IQDubbing)-- 面向影视剧的AI配音技术
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息   //   编者按:随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。LiveVideoStackCon 2022
LiveVideoStack
2023/04/04
2K0
奇声(IQDubbing)-- 面向影视剧的AI配音技术
实时音视频助力在线教育风口
各位朋友大家好,今天主要是来分享关于实时音视频与教育的结合。本来最开始的标题是“TRTC与在线教育的那些事儿”,但考虑大家都是做技术的,所以改为“实时视频助力在线教育的新风口”,能力有限,如果有错误与问题,还请多多指教,欢迎一起交流学习。
LiveVideoStack
2020/11/12
1.5K0
实时音视频助力在线教育风口
AMBEO双声道空间音频携手Netflix为观众提供激动人心的音频体验
森海塞尔AMBEO 双声道空间音频 (AMBEO 2-Channel Spatial Audio) 无需环绕声系统,亦能为观众提供激动人心的音频效果,并让后期混音师完全掌握调校
云上计算
2022/07/14
4060
AMBEO双声道空间音频携手Netflix为观众提供激动人心的音频体验
Wwise + GME游戏语音方案:解锁更多语音玩法,让玩家“声临其境”
游戏多媒体引擎(Game Multimedia Engine,GME)作为游戏语音的PaaS服务,致力于提升游戏语音的质量,简化语音接入的流程,创造更多的语音玩法。GME基于Wwise引擎推出了独有的解决方案,目前是Wwise官方支持的唯一语音合作伙伴,本文将对Wwise + GME方案做简单的介绍,看一看那些被解锁的游戏语音新玩法。
腾讯游戏多媒体引擎GME
2021/11/03
4.6K2
Wwise + GME游戏语音方案:解锁更多语音玩法,让玩家“声临其境”
解决玩家语音体验痛点,《香肠派对》怎么做到的?
无社交,不游戏,游戏语音功能已成为了多数游戏的标配功能,游戏内社交的重要性不言而喻。本文将剖析《香肠派对》给玩家带来的语音体验,揭秘其如何彻底解决了开关麦时的音质、音量卡顿跳变问题,再一起来看看这一升级方案能为游戏带来怎样的想象空间。 游戏具有强社交属性,玩家在游戏中聊天、沟通游戏策略是一个自然发生的社交行为。游戏内置语音功能已成为了多数游戏的标配。 游戏内置语音的实现,一般采用的是独立语音服务商提供的解决方案。目前市面上大多数游戏语音方案,可以把语音功能和游戏场景结合起来,但这基本上还只停留在功能上的简单
腾讯游戏多媒体引擎GME
2022/08/16
1.6K0
解决玩家语音体验痛点,《香肠派对》怎么做到的?
MPEG音频编码三十年
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- 作者:Leonardo Chiariglione 翻译:Alex 技术审校:冯建元 音频编码   视 野 #011# 前言 很明显,声音信息的电子格式要早于视觉信息的电子格式,用电子格式分发声音信息的服务也是如此。同样,音频的数字格式与视频数字格式的出现时间也不同。在上世纪80年代初,唱片公司可以通过CD(Compact Disc)向消费者市场发行数字音频,而在80年代
LiveVideoStack
2022/08/26
7750
MPEG音频编码三十年
RT-Thread智能音箱音频应用实践
2014年10月,Alexa一款名为 Echo 的智能音箱出现,智能音箱行业开始火爆并受到极大关注。2015年年底,全球智能音箱销量达到250万台。
LiveVideoStack
2021/09/01
7490
RT-Thread智能音箱音频应用实践
音频基础知识
Nyquist 采样率大于或等于连续信号最高频率分量的 2 倍时,采样信号可以用来完美重构原始连续信号。
Gnep@97
2023/09/06
4K0
音频基础知识
声网3D在线互动场景空间音频的实时渲染——如何把“声临其境”推向极致
  //   编者按:千人有千耳,不同的人耳对于声音方位的适应已形成习惯,但在Meta RTC场景中如何让不同人也能畅想“身临其境”的感觉?3D在线互动场景空间音频的实时渲染又有哪些应用?LiveVideoStackCon 2022音视频技术大会上海站邀请到了声网音频策划负责人冯建元,为我们分享3D在线互动场景空间音频的实时渲染。 文/冯建元 整理/LiveVideoStack 大家下午好,我是来自声网的冯建元。 今天给大家主要分享一下声网在RTC 3D互动场景中是如何操作空间音频的渲染。让人在虚拟的场景
LiveVideoStack
2022/09/06
1.3K0
声网3D在线互动场景空间音频的实时渲染——如何把“声临其境”推向极致
腾讯实时音视频又放大招!移动端语音聊天室组件正式来袭!
随着移动互联网技术飞速发展,语音社交逐渐崛起。越来越多的社交App增加了语音聊天功能,更有专门的语音社交软件应运而生,占据了不少“90后”“00后”的空闲时间。“音控”群体逐渐壮大,“连麦”互动更成为时下年轻人流行的社交方式。 语音聊天与文字聊天相比,更加生动有趣,且信息传递更高效;跟图片和视频相比,隐私性高、门槛更低,还能传达真实情绪。因此语音聊天已经成为远程办公和社交娱乐的沟通利器,越来越受用户喜爱。
Mosen
2020/08/05
1.8K0
腾讯实时音视频又放大招!移动端语音聊天室组件正式来袭!
人声分离攻破“鸡尾酒会”效应,将为语音识别带来哪些新可能?丨科技云·视角
时隔65年,在近日Google Research软件工程师Inbar Mosseri和Oran Lang发表的论文《Looking to Listen at the Cocktail Party》中,采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道,这一突破为语音识别不仅带来了更多新可能,同时也成为该领域一个划时代的分水岭。
科技云报道
2022/04/14
1.5K0
人声分离攻破“鸡尾酒会”效应,将为语音识别带来哪些新可能?丨科技云·视角
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
选自Google Research Blog 作者:Inbar Mosseri等 机器之心编译 在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上「屏蔽」其他所有声音。这种能力被称为「鸡尾酒会效应」,是我们人类与生俱来的技能。然而,虽然关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,但该问题仍是计算机领域面临的重大挑战。谷歌今日提出一种新型音频-视觉模型,从声音混合片段(如多名说话者和背景噪音)中分离出单独的语音信号。该模型只需训练一次,就可应用于任意说话者。 在《Lo
机器之心
2018/05/08
1.4K0
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
腾讯实时音视频又放大招!移动端语音聊天室组件正式来袭!
随着移动互联网技术飞速发展,语音社交逐渐崛起。越来越多的社交App增加了语音聊天功能,更有专门的语音社交软件应运而生,占据了不少“90后”“00后”的空闲时间。“音控”群体逐渐壮大,“连麦”互动更成为时下年轻人流行的社交方式。 语音聊天与文字聊天相比,更加生动有趣,且信息传递更高效;跟图片和视频相比,隐私性高、门槛更低,还能传达真实情绪。因此语音聊天已经成为远程办公和社交娱乐的沟通利器,越来越受用户喜爱。
腾讯即时通信IM
2020/07/16
2.2K0
推荐阅读
相关推荐
AI 音频转视频秘籍:从原理到实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档