首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

声纹识别发展综述

本文主要围绕几个主题展开:

声纹识别的发展历程

目前的主流方向,基于深度学习的声纹识别

最后介绍一下相关的其他语音技术

首先我们来看下声纹的概念及为什么可用于识别

声音就是一段波,声纹就是携带了信息的声波频谱

声纹特征与其他生物特征的对比及特点

声纹识别在产品上的本质主要就是以下两种工作方式: 1比1 和 1比N

工作流程大致如下:

1. 提取语音,预处理,提取特征

2. 利用训练好的模型,计算该语音对应的声纹模型或者声纹特征

3. 最后进行相似度打分,得到结果

由此我们可以看出声纹识别主要就是三大部分:特征,模型,得分。下面根据这三大要素分别阐述

声纹识别三大部分:特征,模型,得分

首先看下这三大部分的整体技术流派和技术发展路线

语音特征介绍

声纹模型的衍进

传统的声纹识别 主要是基于统计思想和概率论,结合声学,信号学,机器学习等算法

2012年,跨入了以deep learning 为主线的算法,DNN-based系统陆续出现,并基于深度学习领域的新思想持续改良

近两年发展起来的End-to-End 端到端系统,代表:2018年谷歌百度的相关论文

可以参考回答

https://www.zhihu.com/question/53707809/answer/316946465

基于深度学习的声纹技术

上面的网络结构中,有一个Statistics Pooling Layer,负责将Frame-level Layer,Map到Segment-Level Layer,计算frame-level Layer的Mean和standard deviation。TDNN是时延架构,Output Layer可以学习到Long-Time特征,所以x-vector可以利用短短的10s左右的语音,捕捉到用户声纹信息,在短语音上拥有更强的鲁棒性。

其他语音技术介绍

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191127A0NPT900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券