Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

作者头像
AI科技评论
发布于 2018-03-13 09:20:20
发布于 2018-03-13 09:20:20
1.4K0
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文入选,并获邀在大会作了oral报告。

Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

今年的Interspeech,除了学术界巨擘之外,苹果、谷歌、微软、亚马逊、腾讯、阿里巴巴、百度、滴滴等在内的国内外知名公司也悉数亮相。腾讯音视频实验室王燕南博士论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017。

下图为历年Interspeech论文收录情况,过去三年收录文章的数量分别为614、746、779。

(数据来源:Interspeech 2016大会主办方欢迎报告)

王博士的论文主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量,引入对其进行概率分布的学习,从而使用最大似然估计方法训练深度神经网络的参数,如下图所示。

通过实验对比发现,基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

另外,通过在验证集上的reconstruction loss的变化情况对比,王博士等人发现该模型有更强的泛化能力,而在收敛速度上,该方法也具有明显的优势,对比情况如下图所示。

关于王燕南博士

王燕南,毕业于中国科学技术大学语音信号与信息处理国家工程实验室,研究领域包括语音增强和分离、语种识别、手写识别等,在Interspeech等著名语音国际会议以及IEEE Transaction on Audio,Speech and Language Processing期刊发表多篇文章,在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室,专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室, 组建于2016年11月,专注于音视频通信技术的前瞻性研究,包括全球实时音视频网络优化,音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告
2017年8月20日,语音通信领域国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开。 Interspeech是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。 本届Interspeech会议主题是“情景互动”,研究影响和形成交流互动的情境、
腾讯多媒体实验室
2018/04/10
1.7K0
Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告
腾讯多媒体实验室亮相GBA-IAS 2019声学论坛,深度分享音频前沿技术
12月16日,由香港科技大学深圳研究院主办的GBA-IAS 2019声学论坛(GREATER BAY AREA -INTERNATIONAL ACOUSTICS SYMPOSIUM),在深圳正式召开。随着虚拟现实技术的发展,音视频行业对3D音频等技术的需求也更加强烈,本此论坛以“感知与声音”为主题,来自国内外众多知名大学、科研机构的多名心理学、声学、信号处理和计算机科学的专家出席,对各自团队的研究进展和新思路进行了分享与交流。在音视频领域积累多年的腾讯多媒体实验室团队受邀参会,腾讯多媒体实验室高级总监商世
腾讯多媒体实验室
2019/12/30
1.4K0
腾讯多媒体实验室亮相GBA-IAS 2019声学论坛,深度分享音频前沿技术
专业降噪,GME 有一群噪音猎人精准消除 300+ 种环境噪声|技术分享
先介绍下腾讯游戏多媒体引擎 GME 背后的音频黑科技团队——腾讯会议天籁实验室。这是一群“噪音猎人”,他们沉浸在实验室,也穿梭在菜市场、游荡在马路边、商场等各种生活常见场所。噪音是他们的猎物,被狙击、捕获、并消除。 “猪肉铺的老板开始剁肉末了,走!” 王燕南两眼发光,如同饿虎扑食一般冲过去,一根收音棒伸到了桌子前,听着砍刀和砧板激烈碰撞的声音,王燕南如获珍宝。“小伙子,我看你好几天啦。不来两斤五花肉吗?”肉铺老板调侃道。 王燕南是 AI 降噪团队中的成员,一名来自中科大的博士。从本科到硕士再到博士,多年的音
腾讯游戏多媒体引擎GME
2022/11/03
8950
专业降噪,GME 有一群噪音猎人精准消除 300+ 种环境噪声|技术分享
Interspeech2020腾讯天籁论文系列解读
导读 | 本篇文章将解读腾讯多媒体实验室“腾讯天籁”团队在Interspeech2020上同佐治亚理工学院和中国科学技术大学等单位联合发表的3篇论文。Interspeech是语音技术领域的国际顶级会议,今年于10月25至29日在线上举行,根据主办方发布的数据,Interspeech2020共接收到有效论文投稿 2140 篇,其中 1022 篇被接收。 ▌01     在本篇论文中,探索了语音增强领域的深度张量-向量回归模型(deep tensor-to-vector regression mode
腾讯多媒体实验室
2020/11/10
1.2K0
2020腾讯犀牛鸟精英人才培养计划课题介绍(六)——语音技术研究
精英人才培养计划是一项校企联合人才培养项目,入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间,学生将获得3个月以上到访腾讯开展科研访问的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将为学生搭建线上和线下学习、交流平台,帮助学生挖掘更多潜能。学生通过“十分精英圈”线上平台,随时获取前沿技术资讯、沉淀科研收获与心得;通过“智学研讨会”及“智享交流会”等线下平台,积极参与海内外顶级学术会议及学术专家交流活动;通过“精英研学营”进阶平台,对话产业
腾讯高校合作
2020/01/03
9640
2020腾讯犀牛鸟精英人才培养计划课题介绍(六)——语音技术研究
业界 | 从语音到金融:邓力的人工智能30年
邓力的人工智能之旅已跨越 30 余年。在担任过公司研究员、大学教授并在语音研究领域占有一席之地之后,邓力一头扎进了金融界:2017 年 5 月,他辞去了微软首席人工智能科学家的职位(尽管他曾在那领导微软的人工智能学校并创立了深度学习技术中心),加入了管理 300 亿美元的对冲基金 Citadel 并担任首席人工智能官(Chief AI Officer)。同时辞去的还有任教超过 17 年的华盛顿大学附属教授职位。
机器之心
2018/09/20
5290
业界 | 从语音到金融:邓力的人工智能30年
腾讯天籁:基于上下文的语音丢包补偿算法
导读 | 腾讯天籁,“天籁之音,沟通无界”,作为腾讯多媒体实验室提供的端到端实时音频解决方案,专注于持续提升人们的沟通体验,给用户提供高音质,低延时,强抗性的音频通信服务。 VoIP通话中,由于网络传输等问题,部分数据包无法被接收端接收;数据包的丢失,会造成语音的短时中断或者卡顿,进而影响长时通话过程中的音质和可懂度。 数据丢包概念图     上述质量问题,最常用的解决方案是前向纠错(FEC, Feedforward Error Correction):在当前包加入前一个包的冗余信息并进行传输;一旦
腾讯多媒体实验室
2020/07/02
4.3K0
网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备
基于信号处理的传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好的降噪效果。但是对于 Non-stationary Noise(非平稳噪声),特别是 Transient Noise(突发噪声)降噪效果较差,而且有些方法对于语音也有较大的损伤。随着深度学习在 CV(Computer Vision)上的广泛应用,基于神经网络的音频降噪算法大量涌现,这些算法很好的弥补了传统算法对于 Non-stationary Noise 降噪效果不好的问题,在 Transient Noise 上也有较大的提升。
机器之心
2021/09/06
1.7K0
网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备
千万日活腾讯会议背后:深度学习的最新应用
导读 | 深度学习是实现语音增强最主要的方法之一,­帮助我们从带噪语音中提取尽可能纯净的原始语音,提高语音质量和可懂度。腾讯会议在去年年底推出,短短两个月内就突破千万日活大关。在多样且复杂的场景下,深度学习如何帮助腾讯会议在实时通话中进行去混响、声音事件检测和回声消除?本文是腾讯多媒体实验室高级研究员王燕南在「腾讯技术开放日·云视频会议专场」的分享整理。  点击视频,查看直播回放 一、经典的语音增强深度学习算法 语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑
腾讯多媒体实验室
2020/04/01
2.4K0
2021腾讯犀牛鸟精英科研人才培养计划课题(六)——语音技术
12月11日,2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00。 本年度精英科研人才计划将延续人工智能领域顶尖科研人才培养,发布包含机器人、AI医疗、量子计算、智慧城市等12个前沿热议方向,71项研究课题。入选学生将由校企导师联合制定专属培养计划,并获得3个月以上到访腾讯开展科研访问的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将为学生搭建线上和线下学习、交流平台,帮助学生挖掘更多潜能。 本期小编整理了该计
腾讯高校合作
2020/12/24
1.5K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。
AI科技评论
2018/09/21
1.1K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务丨AAAI 2020
编者按:在刚刚落幕的 Ignite 大会上,微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频,Microsoft Stream 都能自动过滤背景噪音,让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发,研究团队提出了关注相位和谐波的语音增强模型 PHASEN,通过双流结构让降噪效果大幅超过此前方法。该论文已被 AAAI 2020 接收。
AI科技大本营
2019/11/18
1.9K0
从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务丨AAAI 2020
腾讯犀牛鸟精英人才培养计划课题介绍(二)——语音技术&自然语言处理
腾讯犀牛鸟精英人才培养计划是一项面向学生的校企联合培养方案,项目覆盖机器学习、量子计算、计算机视觉、语音技术、自然语言处理等产学研热点方向,入选学生将到腾讯开展科研访问,基于真实产业问题,借助腾讯海量数据、专家指导等资源,验证学术理论,加速成果应用转化,全面提升自身科研能力和综合素质。 2018年度申请时间已经过半,小伙伴们要抓紧哦~ 今年共有8个课题方向,54个子课题供大家选择,总有一款适合你! 上一篇文章已经介绍了机器学习及相关应用研究方向、量子计算方向的课题及导师,接下来为大家介绍语音技术方向及
腾讯高校合作
2019/07/02
5720
腾讯犀牛鸟精英人才培养计划课题介绍(二)——语音技术&自然语言处理
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
选自Google Research Blog 作者:Inbar Mosseri等 机器之心编译 在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上「屏蔽」其他所有声音。这种能力被称为「鸡尾酒会效应」,是我们人类与生俱来的技能。然而,虽然关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,但该问题仍是计算机领域面临的重大挑战。谷歌今日提出一种新型音频-视觉模型,从声音混合片段(如多名说话者和背景噪音)中分离出单独的语音信号。该模型只需训练一次,就可应用于任意说话者。 在《Lo
机器之心
2018/05/08
1.4K0
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
语音信号处理概念
现实中的语音交互系统,无一例外的会受到各种环境不利因素的影响,极大影响了交互成功率和用户体验。
全栈程序员站长
2022/09/01
1.1K0
语音信号处理概念
全球顶级语音技术比赛中获双料冠军,这家中国公司靠什么?
腾讯、西工大、CMU等国内外机构是这场对决的主办方,两项比赛内容是语音行业的前沿研究,针对真实视频会议场景。
量子位
2021/07/19
6100
学界 | 微软研究员提出多束深度吸引子网络,解决语音识别「鸡尾酒会问题」
或许这也是一种方法论:当针对一个问题有多种方法时,不妨将它们综合起来,或能取各家之长,补各家之短。
AI科技评论
2018/07/27
8900
学界 | 微软研究员提出多束深度吸引子网络,解决语音识别「鸡尾酒会问题」
如何利用深度学习实现单通道语音分离?
大家好,我是来自大象声科的闫永杰,接下来我会从以下六个方面为大家介绍深度学习在单通道语音分离中的应用:
LiveVideoStack
2019/07/10
3.9K0
如何利用深度学习实现单通道语音分离?
生成式对抗网络GAN在语音自然语言处理中的应用|
生成对抗网络(GAN)是训练模型的新思想,生成器和鉴别器相互对抗以提高生成质量。最近,GAN在图像生成方面取得了惊人的成果,并在此基础上迸发了大量新的思想,技术和应用。虽然只有少数成功的案例,但GAN在文本和语音领域具有很大的潜力,以克服传统方法的局限性。
新智元
2019/09/25
4.4K0
生成式对抗网络GAN在语音自然语言处理中的应用|
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领域率先发力,取得了一系列成功的应用。 这次分享会中,雷锋网邀请到了中科院自动化所的刘斌博士。刘斌,中科院自动化所博士,极限元资深智能语音算法专家,中科院-极限元智能交互联合实验室核心技术人员,曾多次在国际顶级会议上发表论文,获得多项关于语音及音频领域的专利,具有丰富的工程经验。刘斌博士会与大家分享近年来深度学习在语音生成问题中的新方法,围绕语音合成和
AI科技评论
2018/03/14
1.2K0
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
推荐阅读
Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告
1.7K0
腾讯多媒体实验室亮相GBA-IAS 2019声学论坛,深度分享音频前沿技术
1.4K0
专业降噪,GME 有一群噪音猎人精准消除 300+ 种环境噪声|技术分享
8950
Interspeech2020腾讯天籁论文系列解读
1.2K0
2020腾讯犀牛鸟精英人才培养计划课题介绍(六)——语音技术研究
9640
业界 | 从语音到金融:邓力的人工智能30年
5290
腾讯天籁:基于上下文的语音丢包补偿算法
4.3K0
网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备
1.7K0
千万日活腾讯会议背后:深度学习的最新应用
2.4K0
2021腾讯犀牛鸟精英科研人才培养计划课题(六)——语音技术
1.5K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
1.1K0
从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务丨AAAI 2020
1.9K0
腾讯犀牛鸟精英人才培养计划课题介绍(二)——语音技术&自然语言处理
5720
业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型
1.4K0
语音信号处理概念
1.1K0
全球顶级语音技术比赛中获双料冠军,这家中国公司靠什么?
6100
学界 | 微软研究员提出多束深度吸引子网络,解决语音识别「鸡尾酒会问题」
8900
如何利用深度学习实现单通道语音分离?
3.9K0
生成式对抗网络GAN在语音自然语言处理中的应用|
4.4K0
干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结
1.2K0
相关推荐
Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档