采用深度神经网络的说话人特征提取方法
张涛涛,陈丽萍,蒋兵,戴礼荣
中国科学技术大学
在说话人确认中,通常采用的声学特征(如MFCC,PLP特征等)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息,极易受到语音信号中的文本信息及信道、噪声等干扰的影响.针对这个问题,提出一种基于深度神经网络提取语音信号中说话人特征的方法,该方法用语音识别深度神经网络各个隐层非线性输出值来提取说话人特征.在RSR2015数据库上开展了GMMUBM文本无关和文本相关说话人确认实验,实验结果表明本文方法提取的特征相对于传统的MFCC特征,系统等错误率(Equal Error Rate,EER)有了明显的下降.
小型微型计算机系统
2017, 38(1): 142-146
作者简介张涛涛,男,1989年生,硕士研究生,研究方向为说话人识别;陈丽萍,女,1990年生,博士研究生,研究方向为说话人识别;蒋兵,男,1987年生,博士研究生,研究方向为多媒体信息处理; 戴礼荣,男,1962年生,博士,教授,博士生导师,研究方向为语音信号处理和模式识别.
http://xwxt.sict.ac.cn/CN/Y2017/V38/I1/142
领取专属 10元无门槛券
私享最新 技术干货