开源wav2letter ++,最先进的语音系统和flashlight
研究内容是:
一种全新的自动语音识别卷积方法和wav2letter ++,这是目前最先进的端到端语音识别系统。该方法利用卷积神经网络(CNN)进行声学建模和语言建模,并且由于我们联合发布的工具包,它具有可重复性。
这个怎么运作:
CNN架构与针对任务的循环架构竞争,其中建模远程依赖性很重要,例如语言建模,机器翻译和语音合成。然而,在端到端语音识别中,循环架构对声学和语言建模仍然更为普遍。
Facebook AI Research(FAIR)演讲团队正在分享第一个完全卷积语音识别系统。从波形到最终的单词转录,系统的可学习部分仅由卷积层组成。这产生的性能与周期性架构的性能相当。Facebook AI Research(FAIR)演讲正在分享第一个完全卷积语音识别系统。 从波形到最终的单词转录,系统的可学习部分仅由卷积层组成。 这产生的性能与周期性架构相比具有竞争力。
我们还发布了手电筒,这是一个快速,灵活的独立机器学习库,由FAIR Speech团队和Torch和DeepSpeech的创建者设计。它采用现代C ++进行即时编译,针对CPU和GPU后端,以实现最高效率和规模。该wav2letter ++工具包是建立在手电筒的顶部。我们正在与这项研究共同发布这两个框架,以实现可重复性。
为什么重要:
端到端语音识别可以轻松扩展到多种语言。此外,直接从原始语音学习是音频质量高度可变的环境中的一种有前途的途径。诸如wav2letter ++之类的高性能框架实现了快速迭代,这通常是成功研究和对新数据集和任务进行模型调优的重要因素。
阅读完整论文:
Wav2letter ++:最快的开源语音识别系统和完全卷积语音识别
https://arxiv.org/abs/1812.07625
https://arxiv.org/abs/1812.06864
领取专属 10元无门槛券
私享最新 技术干货