国际声学、语音与信号处理会议(ICASSP)即将召开,某中心在本届会议上发表了36篇研究论文,主题涵盖从经典的噪声和回声消除信号处理问题,到歌声与乐器音轨分离、翻译长度调节等广泛领域。
多数论文聚焦于自动语音识别的核心技术,即将语音信号转换为文本:
两篇论文解决了语言(或代码)切换问题,这是ASR的更复杂版本,语音识别器必须确定正在使用多种可能语言中的哪一种:
语音信号包含的信息不仅仅是说话者的词语,词语的表达方式可以改变其含义:
多篇论文涉及ASR的其他扩展应用:
语音增强或从语音信号中去除噪声和回声,自1976年ICASSP会议开始以来一直是重要主题:
每次与语音助手的交互都始于唤醒词,因此在ICASSP上,某中心通常展示关于唤醒词检测的工作:
在许多口语系统中,ASR之后的下一个步骤是自然语言理解(NLU):
在某些情况下,可以通过单个模型执行ASR和NLU,这被称为口语理解:
与语音服务的交互通常以代理使用合成语音传递响应结束:
三篇论文涉及音视频同步:两篇处理将一种语言的音频配音到另一种语言拍摄的视频上,一篇描述如何检测视频中的同步错误:
文本到语音团队有一篇关于计算机辅助发音训练的论文:
另一篇论文研究了歌声分离主题,即从歌曲录音中将人声音轨与乐器音轨分离:
两篇论文虽然评估了语音识别和音频分类应用,但提出了可适用于一系列问题的通用机器学习方法:
在ICASSP会议上,七位某中心科学家将参与半小时的现场问答环节。会议注册者可以在线向小组成员提交问题。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。