首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICASSP音频技术研究全景解析

ICASSP音频技术研究全景解析

原创
作者头像
用户11764306
发布2025-10-30 18:18:42
发布2025-10-30 18:18:42
360
举报

ICASSP音频技术研究全景解析

研究概览

国际声学、语音与信号处理会议(ICASSP)即将召开,某中心在本届会议上发表了36篇研究论文,主题涵盖从经典的噪声和回声消除信号处理问题,到歌声与乐器音轨分离、翻译长度调节等广泛领域。

核心技术研究

自动语音识别(ASR)

多数论文聚焦于自动语音识别的核心技术,即将语音信号转换为文本:

  • ASR n-best融合网络
  • 双焦点神经ASR:利用关键词发现进行推理优化
  • 领域感知神经语言模型用于语音识别
  • 端到端多通道变换器用于语音识别
  • 基于RNN变换器的语音识别对不流畅语音的鲁棒性改进
  • 端到端语音识别系统个性化策略
  • 通过领域对抗训练与重标记实现口音不变表示的端到端ASR
  • 通过压缩感知实现自动语音识别的稀疏化
  • 基于RNN-T的流式多说话人ASR
  • 使用合成音频改进端到端ASR系统中词汇表外词的识别

语言切换识别

两篇论文解决了语言(或代码)切换问题,这是ASR的更复杂版本,语音识别器必须确定正在使用多种可能语言中的哪一种:

  • 使用RNN-T的联合ASR和语言识别:动态语言切换的高效方法
  • 用于代码切换语音识别的变换器-传感器

副语言信号处理

语音信号包含的信息不仅仅是说话者的词语,词语的表达方式可以改变其含义:

  • 用于语音情感识别的对比无监督学习
  • 使用多任务设置解耦视听情感识别

ASR扩展应用

多篇论文涉及ASR的其他扩展应用:

  • 说话人日志:跟踪多个说话人中每个发声者
  • 逆文本归一化:将原始ASR输出转换为对下游应用有用的格式
  • 声学事件分类:识别人声以外的声音

语音增强技术

语音增强或从语音信号中去除噪声和回声,自1976年ICASSP会议开始以来一直是重要主题:

  • 增强编解码器:基于矢量量化自动编码器的噪声鲁棒语音编码
  • 基于Percepnet的低复杂度实时联合神经回声控制和语音增强

关键词发现

每次与语音助手的交互都始于唤醒词,因此在ICASSP上,某中心通常展示关于唤醒词检测的工作:

  • 探索合成音频在训练关键词发现器中的应用

自然语言理解

在许多口语系统中,ASR之后的下一个步骤是自然语言理解(NLU):

  • 将深度强化学习引入NLU排序任务
  • 语言模型就是全部所需:将自然语言理解作为问答处理

口语理解

在某些情况下,可以通过单个模型执行ASR和NLU,这被称为口语理解

  • 按我的意思做,而不是按我说的做:口语理解的序列损失训练
  • 图增强查询重写用于口语理解系统
  • 端到端口语理解中的自上而下注意力

文本到语音

与语音服务的交互通常以代理使用合成语音传递响应结束:

  • CAMP:在上下文中建模韵律的两阶段方法
  • 使用数据增强的低资源表达性文本到语音
  • 用于神经文本到语音的韵律表示学习和上下文采样
  • 使用Parallel WaveNet的通用神经声码器

音视频同步

三篇论文涉及音视频同步:两篇处理将一种语言的音频配音到另一种语言拍摄的视频上,一篇描述如何检测视频中的同步错误:

  • 通过事件检测音视频同步错误
  • 自动配音的韵律对齐改进
  • 自动配音的机器翻译冗余控制

特殊应用研究

计算机辅助发音训练

文本到语音团队有一篇关于计算机辅助发音训练的论文:

  • 使用不确定性建模的非母语(L2)英语发音错误检测

歌声分离

另一篇论文研究了歌声分离主题,即从歌曲录音中将人声音轨与乐器音轨分离:

  • 基于噪声自训练的半监督歌声分离

通用机器学习方法

两篇论文虽然评估了语音识别和音频分类应用,但提出了可适用于一系列问题的通用机器学习方法

  • 云中使用多样性缩放和半监督学习的跨孤岛联邦训练
  • 通过一致性学习增强音频增强方法

学术交流

在ICASSP会议上,七位某中心科学家将参与半小时的现场问答环节。会议注册者可以在线向小组成员提交问题。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ICASSP音频技术研究全景解析
    • 研究概览
    • 核心技术研究
      • 自动语音识别(ASR)
      • 语言切换识别
      • 副语言信号处理
      • ASR扩展应用
    • 语音增强技术
    • 关键词发现
    • 自然语言理解
    • 口语理解
    • 文本到语音
    • 音视频同步
    • 特殊应用研究
      • 计算机辅助发音训练
      • 歌声分离
    • 通用机器学习方法
    • 学术交流
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档