-免费加入AI技术专家社群>> 导读:谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改进。 传统自动语音识别系统(ASR)一直被谷歌的多种语音搜索应用所使用,它由声学模型(AM)、发音模型(PM)和语言模型(LM)组成,所有这些都会经过独立训练,同时通常是由手动设计的,各个组件会在不同的数据集上进行训练。AM 提取声学特征并预测一系列子字单元(subword unit),通常是语境依赖或语境独立的音素。然后,手动设计的词典(PM)将声
选自Google Research 作者:Tara N. Sainath、Yonghui Wu 机器之心编译 参与:刘晓坤、李泽南 近日,谷歌发表博客介绍了他们对端到端语音识别模型的最新研究成果,新模型结合了多种优化算法提升 LAS 模型的性能。相较于分离训练的传统系统,新方法充分地发挥了联合训练的优势,在语音搜索任务中取得了当前业内最低的词错率结果。 当前最佳语音搜索模型 传统自动语音识别系统(ASR)一直被谷歌的多种语音搜索应用所使用,它由声学模型(AM)、发音模型(PM)和语言模型(LM)组成,所有这
新智元编译 【新智元导读】谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改进。新方法利用联合训练,结合多种优化算法显著提升LAS模型的性能,在多语言/方言识别方面有令人瞩目的潜在应用。 论文:https://arxiv.org/pdf/1712.01769.pdf 在谷歌的各种语音搜索应用中使用的传统的自动语音识别(ASR)系统,包括一个声学模型(AM),一个发音模型(PM)和一个语言模型(LM),所有这些模型都是在不同的数据集
本文提出了一种新的对话状态跟踪方法,称为 Seq2SeqDU,它将 DST 形式化为一个序列到序列问题。Seq2Seq-DU 的 独特之处 是它使用两个基于 BERT 的编码器分别对对话中的话语和模式描述进行编码,一个注意者计算话语嵌入和模式嵌入之间的注意,以及一个解码器生成表示对话当前状态的指针。
AI 科技评论按:本文是由来自谷歌语音团队的科学家 Tara N. Sainath 和来自谷歌大脑团队的科学家 Yonghui Wu 共同撰写的,文中简单介绍了最新论文《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》的主要思想与取得的成果以及 Listen-Attend-Spell(LAS)的端到端体系结构。AI 科技评论根据原文进行了编译。 提升语音识别的端到端模型 在谷歌各式各样的语音搜索应用中,都是基于传统的自
来源:research.googleblog.com 【新智元导读】谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改进。新方法利用联合训练,结合多种优化算法显著提升LAS模型的性能,在多语言/方言识别方面有令人瞩目的潜在应用。 论文:https://arxiv.org/pdf/1712.01769.pdf 在谷歌的各种语音搜索应用中使用的传统的自动语音识别(ASR)系统,包括一个声学模型(AM),一个发音模型(PM)和一个语言模型(L
我今天演讲主要分四个部分,第一个是分享语音识别概述,然后是深度神经网络的基础;接下来就是深度学习在语音识别声学模型上面的应用,最后要分享的是语音识别难点以及未来的发展方向。
领取专属 10元无门槛券
手把手带您无忧上云