Google云计算在其语音转文本API(Speech-to-Text API,STT)采用Conformer新模型,以提高STT所支持23种语言和61种区域口音的语音识别准确性。新模型可能与现有模型的功能略有不同,不过皆提供相同的稳定性和支持。
Google提到,这是一项重大技术改进,使用当前最新的机器学习技术,是他们在语音识别神经串行到串行模型研究8年来的阶段性成果,其经过大量研究和优化,使模型能够适用于不同的用例、噪音环境,并提供最佳的结果。
Google解释了新模型与当前模型的不同,过去自动语音识别技术都是基于单独的声音、发音和语言模型,这三个单独的组件会独立训练,最后组装在一起进行语音识别,而Conformer新模型,则是单一神经网络。
与过去需要组合三个独立模型的方法不同,Conformer模型能够更有效地使用模型参数,由于这个架构是带有卷积层(Convolution Layer)的Transformer模型,因此才称为Conformer,该架构能够捕捉语音信号中的区域和全局资讯。
开发者现在使用STT API可立即看到新模型所带来的品质改进,虽然用户仍然可以通过调整模型,来改进模型性能,但是Conformer新模型不需要用户进行任何动作,就能明显感觉品质提升。
新模型支持更多不同类型的语音、噪音和声音条件,使得用户可以将语音技术嵌入应用程序中,并在更多环境产生更准确的输出。智能应用程序的用户,将可以自然地用更长的句子,跟应用程序交互,不需要担心语音能否被准确截取。
用户只要在使用STT API时,添加新标签latest long和latest short,便可以访问最新的Conformer模型,latest long针对视频等应用设计,可以处理长篇语音,而latest short则是用于命令或是短语上,能提供更好地品质和低延迟。
领取专属 10元无门槛券
私享最新 技术干货