自动语音识别(ASR)系统通常包含两个阶段:第一阶段通过深度神经网络将声学信息映射为可能的单词序列假设;第二阶段通过语言模型评估这些假设的合理性。传统声学模型针对多数发音模式优化,导致对训练数据中代表性不足的发音(如区域口音)识别效果较差。
在ICASSP 2023会议上提出的新方法采用图标签传播技术改进重评分过程:首先构建语音样本图网络,节点表示语音嵌入向量,边连接发音相似的语句。通过动态时间规整(DTW)算法计算嵌入向量距离,当距离低于阈值时建立边连接。在包含标注数据和非标注数据的半监督学习场景中,该方法能将有高置信度的正确转录结果传播到发音相似但识别置信度低的节点。
实验使用以北美英语为主训练的ASR系统测试英国、苏格兰、印度等地区口音数据。结果显示该方法使整体词错误率平均下降44%。该技术特别适用于半监督学习场景,通过教师模型生成更准确的语音标注,帮助学生模型克服训练数据中的主流发音偏见。
核心技术包括:
该方法被ICASSP会议评为前3%的优秀论文,为改善语音识别系统的包容性提供了有效解决方案。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。