近年来,自动语音识别已全面转向全神经网络模型。连接时序分类损失函数因其无需依赖上文语境即可进行预测的特性,成为端到端语音识别的理想选择,这种预测机制可构建推理延迟较低的简易模型。
与早期使用词典匹配音素与候选词的混合语音识别模型不同,全神经网络模型难以适配罕见词或生僻词。由于缺乏上下文依赖关系,对CTC模型进行新词偏置尤为困难——模型在每个时间步的预测都独立于前序输出,这种特性虽然实现了低延迟解码,但也增加了适应性挑战。
当操作词汇表持续变化时(例如新增"泽连斯基"等人名,或用户通讯录新增联系人),这一问题尤为突出。通过包含新词汇的数据集重新训练模型,对于大型模型更新而言耗时过长且计算成本高昂。
在某中心举办的SLT研讨会上,我们提出了一种无需重新训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种技术,可同时作用于模型的编码器(将输入转换为向量表示)和波束搜索解码器(评估候选输出序列),通过组合应用最大化准确转录的可能性。
编码器偏置
通过上下文适配器模块,在冻结基础CTC模型权重后进行训练。该适配器以训练样本中的罕见词集合作为输入,学习词语子词单元序列与其音频表征之间的映射关系。
基础网络中使用额外CTC损失训练编码器中间层(第6层和第12层)的表征,使其能生成子词序列。这使得模型可利用前序时间步的近似输出影响当前帧预测。适配器通过对这些中间层表征进行加权求和作为音频表征,从而抵消CTC模型的条件独立性假设。
推理时,上下文适配器嵌入罕见词或未登录词实体列表,在音频的每个时间帧,注意力模块尝试将名称嵌入与音频表征进行匹配。该模块也可通过关注特殊<无偏置>标记忽略所有名称。若音频确实包含提供列表中的实体,则相应子词单元序列的概率将得到提升。
解码器偏置
在推理时直接应用以下技术获得显著效果:
通过组合上述编码器和解码器偏置技术构建的联合模型,各项技术相互补充产生叠加增益。编码器偏置方法有助于为复制的罕见子词生成更高概率分数,防止其在波束搜索解码过程中被剪枝,而解码器偏置技术则进一步促进罕见词候选路径获得更高排名。
在包含复杂医学术语的数据集上,该方法将实体识别F1分数从无偏置模型的39%提升至62%。在包含欧洲议会录音的公开基准测试中,罕见实体识别F1分数从49%提升至80%,且无需重新训练基础语音识别模型。
该方法推动了CTC模型零样本个性化语音识别的发展方向,这类模型正日益成为语音识别系统的普遍选择。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。