无需重新训练即可更新语音识别词汇

原创

用户11764306

发布于 2025-10-08 12:57:57

120

无需重新训练即可教语音识别器学习新词汇

近年来，自动语音识别已全面转向全神经网络模型。连接时序分类损失函数因其无需依赖上文语境即可进行预测的特性，成为端到端语音识别的理想选择，这种预测机制可构建推理延迟较低的简易模型。

与早期使用词典匹配音素与候选词的混合语音识别模型不同，全神经网络模型难以适配罕见词或生僻词。由于缺乏上下文依赖关系，对CTC模型进行新词偏置尤为困难——模型在每个时间步的预测都独立于前序输出，这种特性虽然实现了低延迟解码，但也增加了适应性挑战。

应用场景与解决方案

当操作词汇表持续变化时（例如新增"泽连斯基"等人名，或用户通讯录新增联系人），这一问题尤为突出。通过包含新词汇的数据集重新训练模型，对于大型模型更新而言耗时过长且计算成本高昂。

在某中心举办的SLT研讨会上，我们提出了一种无需重新训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种技术，可同时作用于模型的编码器（将输入转换为向量表示）和波束搜索解码器（评估候选输出序列），通过组合应用最大化准确转录的可能性。

技术实现

编码器偏置

通过上下文适配器模块，在冻结基础CTC模型权重后进行训练。该适配器以训练样本中的罕见词集合作为输入，学习词语子词单元序列与其音频表征之间的映射关系。

基础网络中使用额外CTC损失训练编码器中间层（第6层和第12层）的表征，使其能生成子词序列。这使得模型可利用前序时间步的近似输出影响当前帧预测。适配器通过对这些中间层表征进行加权求和作为音频表征，从而抵消CTC模型的条件独立性假设。

推理时，上下文适配器嵌入罕见词或未登录词实体列表，在音频的每个时间帧，注意力模块尝试将名称嵌入与音频表征进行匹配。该模块也可通过关注特殊<无偏置>标记忽略所有名称。若音频确实包含提供列表中的实体，则相应子词单元序列的概率将得到提升。

解码器偏置

在推理时直接应用以下技术获得显著效果：

自适应子词增强：若子词序列以定制实体列表中的子词开头，则动态提升其概率
单元增强：通过未登录词/增强类别将实体列表中的词语添加到外部语言模型
基于音素距离的重排序：利用中间层网络的音素输出与CTC模型输出进行强制对齐
基于发音的词典查询：对罕见词使用音素预测假设进行精确匹配
字素到字素技术：通过字素与多种可能发音的映射表解析替代发音

联合模型与性能提升

通过组合上述编码器和解码器偏置技术构建的联合模型，各项技术相互补充产生叠加增益。编码器偏置方法有助于为复制的罕见子词生成更高概率分数，防止其在波束搜索解码过程中被剪枝，而解码器偏置技术则进一步促进罕见词候选路径获得更高排名。

在包含复杂医学术语的数据集上，该方法将实体识别F1分数从无偏置模型的39%提升至62%。在包含欧洲议会录音的公开基准测试中，罕见实体识别F1分数从49%提升至80%，且无需重新训练基础语音识别模型。

该方法推动了CTC模型零样本个性化语音识别的发展方向，这类模型正日益成为语音识别系统的普遍选择。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

语音识别

网络安全

计算机

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度