全方位解读语音识别理论与技术

文章来源：企鹅号 - 数据宝平台

自然界的声音有很多种，包括风声、雨声、鸟叫声等，而语音特指人类发出的声音。语音是语言的声学表现，是人类交流信息最直接、有效的方式，语音的产生及感知应用，代表的就是人与人之间双向的交互过程。

随着物联网、智能设备等技术的快速发展，人与机器的交互，逐步从对鼠标和键盘的依赖转移到语音方式，其中的关键技术就是自动语音识别（Automatic Speech Recognition，简称“ASR”）。语音识别，简单地说，就是在人与机器通过语音交流时，让机器能够听懂你在说什么。自20世纪50年代以来，对语音识别的研究已有近70年的历史，技术理论获得多方突破，越来越多的应用也出现在我们生活中，如语音输入法、语音搜索、智能音箱等。这些成果的成功落地激励着更多的企业和科研机构参与进来，对人才储备的需求也不断扩大。

语音识别技术的发展日新月异，新的理论和方案不断涌现，除了基本原理，相关从业人员也亟须了解语音识别的前沿技术，例如加权有限状态转换器（WFST）、端到端（E2E）语音识别等。

今天就为大家推荐一本全方位解读语音识别的新书：

《语音识别：原理与应用》

作者：洪青阳，李琳

本书围绕语音识别的原理和应用讲解，理论结合实际，采用大量插图，并辅以实例，力求深入浅出让读者能较快地理解语音识别的基础理论和关键技术。为帮助读者动手操作，提高实战技能，本书最后还结合Kaldi和Espnet等开源工具，介绍了具体的工程实践方法。

第一作者洪青阳承担过大量的语音识别项目研究和开发工作，有丰富的工业应用经验。另外，作者从事本科生、研究生的语音识别教学十多年，从最早的动态时间规整（DTW）、隐马尔可夫模型（HMM）到最新的E2E语音识别框架，积累了丰富的教学经验，深感理论知识讲解的困难，特别是语音识别原理比较复杂，从声学特征提取到HMM建模和解码过程，涉及信号处理、概率模型和神经网络等多个领域知识，要做到浅显易懂尤为不易，因此作者希望通过本书弥补高校人工智能等专业语音教材的匮乏，同时也为产业界工程师的语音识别入门提供经验参考。

全书共包含15个章节：

语音识别概论，介绍人类语音的产生和感知过程、语音识别的关键技术、发展历史等。

语音信号基础，介绍声音的采集和量化过程，以及编码和存储格式。

语音特征提取，介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。

HMM，介绍双重随机过程，以及HMM的三大问题。

GMM-HMM，介绍高斯混合模型的定义和重估计公式，并结合例子讲解GMM如何与HMM结合，以及对应的具体参数形式。

基于HMM的语音识别，介绍单音子声学模型和Viterbi解码过程。

音素的上下文建模，介绍双音子和三音子模型，并基于问题集和决策树讲述三音子的训练过程。

语言模型，介绍语言模型训练过程及在语音识别中的作用。

WFST 解码器，介绍动态和静态解码网络，以及WFST、HCLG等关键技术。

DNN-HMM，介绍深度学习在语音识别中的应用，包括CNN、LSTM、TDNN等网络。

序列区分性训练，介绍 MMI/BMMI、MPE/sMBR等准则，以及Lattice-free MMI训练方法。

端到端语音识别，介绍CTC、RNN-T、Attention和Transformer等端到端语音识别系统。

Kaldi实践，首先介绍Kaldi的下载安装步骤，然后以aishell-1中文数据库为例，介绍如何训练和测试模型。

Espnet实践，介绍使用Espnet进行目前主流的端到端语音识别模型的训练和解码过程。

工业应用实践，介绍如何封装语音识别动态库，如何调用和调优。

（内页展示）

本书理论知识充沛，并兼顾工程实践，是高校学生和初级技术人员的绝佳选择，欢迎大家阅读。

发表于: 2020-10-242020-10-24 00:00:00
原文链接：https://kuaibao.qq.com/s/20201023A07LJ900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

全方位解读语音识别理论与技术

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐