原创内容
No.764
认真聊AI | 语音处理
认真聊AI系列12/15,这个系列终于快完成了~
图片由夸克AI绘制
语音信号是人类进行交流的主要途径之一,语音处理涉及许多学科,以心理、语言和声学等为基础,以信息论、控制论和系统论等理论作为指导,通过应用信号处理、统计分析和模式识别等现代技术手段,发展成为新的学科。
从物理基础上来说,语音具有音高、音强、音长、音色四要素构成。语音经过采样以后,在计算机中以波形文件的方式进行存储,这种波形文件反映了语音在时域上的变化,但是对音色差别的辨别度不高,为了更好地反映不同语音的音色差别,需要对语音进行频域上的转化,即提取语音频域的参数。常见的语音频域参数包括傅里叶谱、梅尔频率倒谱系等。
语音识别
语音识别是语言处理技术中非常重要的一个应用,也就是将语音内容自动转化为文字的过程。在实际应用中,通常与自然语言理解、自然语言生成及语音合成等技术想结合,提供一个基于语音的自然流畅的人机交互系统。一般来说构成的框架是这样的:
语音识别的难点之一在于语言信号的复杂性和多变性,除了语音识别要识别的内容之外还包含了大量的干扰信息,比如周围的环境、说话人的情绪等等,语音特征提取这个环节就是把其他无关的内容排除在外的过程。
声学模型承载着声学特征与建模单元之间的映射关系。在训练声学模型之前需要选取建模单元,建模单元可以是音素、音节、词语等,其元素粒度依次增加。比较经典的声学模型是混合声学模型,大致可分两种,基于高斯混合模型和基于深度神经网络的模型。相比之下,基于深度神经网络的技术更为主流,一是因为基于深度神经网络的模型能够利用语音特征的上下文信息,二是因为深度神经网络能学习非线性的更高层次特征表达。
至于语言模型,就是一个根据语言客观事实而进行的语言抽象数学模型。也就是把句子当作一个分布模型P,用于计算任何句子S的概率。在语音识别系统中,语言模型的作用是在解码的过程中从语言层面上限制搜索路径。
解码搜索的主要任务是在由声学模型、发音词典和语言模型构成的搜索空间中寻找最佳路径。构建解码空间的方法分为两种,动态解码和静态解码。静态解码相比动态解码占用的内容更大,动态解码耗时更长,只能说各有利弊了。
语音合成
语音合成也叫文语转换,就是将输入的任意文本内容转换成流畅的语音输出。和语音识别一样,都是我们日常生活中经常接触到的内容。
对于中文的语音合成系统,通常由下面的部分组成:
语音合成系统的合成阶段可以简单概括为两种方法,一种是基于时域波形的拼接合成方法,另一种是基于语音参数的合成方法,声学处理模块的主要任务是根据韵律和文本信息的指导来得到语音参数,然后通过语音参数合成器生成自然语音波形。
基于拼接的语音合成方法的基本原理是根据文本分析的结果,从预先录制并标准化的语音库中挑选合适基元进行适度调整,最终拼接得到合成语音波形。这种拼接方法相对来说比较成熟,短板也很明显,那就是只能合成特定的音色(建库人的声音)。
由于基于波形拼接的语音合成方法存在着一些固有的缺陷,限制了其在多样性话语音合成方面的应用,因此基于参数的合成方法被提出。这种方法可以在不需要人工干预的情况下自动快速地构建合成系统,且对于不同的发音人、发音风格甚至不同语种的依赖性非常小,非常符合对央行语音合成方面的需求,因此逐渐得到大家的认可并成为主流的方法。
因为传统的语音合成流程非常复杂,今年来的热点是端到端的语音合成方法,表现还是很不错的,基本已经媲美人类说话的水平。
语音增强
语音增加的最终目标是实现丝滑的人机交互。真实的环境中包含着背景噪音、人声、混响、回声等多种干扰源,如何从混乱的信号中提取出有用的语音信号就是语音识别技术的关键。
语音增强主要包括回声消除、混响抑制、语音降噪等关键技术。
回声消除技术是指远端扬声器播放的声音经过空气或其他介质传播倒近端的麦克风形成的干扰。这在智能音箱和耳机的设计中都是很重要的考虑因素。回声消除算法虽然提供了扬声器信号作为参考源,但是由于扬声器放音时的非线性失真、声音在传输过程中的衰减、噪声干扰和回声干扰同时存在,使得回声消除问题仍具有一定挑战。
混响干扰是指声音在房间传输过程中,会经过墙壁或其他障碍物的反射后通过不同的路径达到麦克风形成的干扰源。房间大小、声源、麦克风的位置、室内障碍物、混响时间等因素均影响混响语音的生成。
噪声抑制可以分为基于单通道的语音降噪和基于多通道的语音降噪,前者通过单个麦克风去除各种噪声的干扰,后者通过麦克风阵列算法增强目标方面的声音。
语音转换
语音转换就是通过语音处理手段改变说话人的个性信息,使得改变后的声音听起来像是另一个人的声音。
语音转换首先提取说话人身份相关的声学特征参数,然后用改变后的声学特征参数合成出接近目标说话人的语音。基本是这么个模型:
最早应用于语音转化的方法是码本映射法,这是一种比较有效的频谱转换算法,优点在于,由于码本从原始语音片段中抽取,生成语音的单频语音保真度较高。但这种码本映射建立的转换函数是不连续的,容易导致语音内部频谱不连续,研究人员针对这个问题相继提出来模糊矢量量化技术以及分段矢量量化技术等解决方案。
针对码本映射方法带来的离散性问题,高斯混合模型算法中,源声学特征和目标声学特征被看作联合高斯分布发观点被引入,解决了离散性的问题。但是缺点是会给转换特征带来过度平衡的问题,导致转换语音的音质下降。
深度神经网络的比如长短时记忆递归神经网络等算法,由于具有较强的处理高维度数据的能力,因此通常直接使用原始的谱包络特征训练模型。从而有助于提高转换语音的语音质量。因此我们可以使用这种技术把说话人的语音变成机器声,保护说话人的隐私。
情感语音
语音作为人类交流的主要方式,不仅包含了文本信息,还包含了大量的情感信息。语音信号是语言的声音表现形式,情感是说话人所处环境和心理状态的反映。机器在和人的交互中,如果不能把情感因素反映出来就会显得冷冰冰,无法形成真正的人工智能。
研究语音信号的情感,就要根据某些特征标准对情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的特性。情感语音中可以提取很多特质,主要分为三类:韵律特质、音质特质以及频谱特征。
韵律特质具有比较强的情感辨别能力,已经得到研究者的广泛认同,比如语速、能量、基频等。欢快、愤怒、惊奇和平静状态相比,振幅将变大;相反的悲伤和瓶颈状态相比,振幅将减小。
语音情感识别本质上是一个典型的模式分类问题,因此模式识别领域中的诸多算法都可以用于语音情感识别研究,比如隐马尔可夫模型、高斯混合模型、支持向量机模型等。这也是近年来的热门研究方向之一,不同的模型在不同场景上各有优劣,不可一概而论。