首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于自相关算法的语音基音估计

是一种用于语音信号处理的算法,用于估计语音信号中的基音周期。基音周期是指语音信号中重复的基本单位,通常对应于声带的振动周期。基音估计在语音合成、语音识别、语音编码等领域具有重要的应用。

自相关算法是一种常用的基音估计方法,它通过计算语音信号与其自身在不同时间延迟下的相关性来寻找基音周期。具体而言,自相关算法首先将语音信号分帧,并对每一帧进行预处理,如加窗和预加重。然后,对每一帧的语音信号进行自相关计算,得到自相关函数。自相关函数的峰值对应于基音周期的候选值。最后,通过一系列的后处理步骤,如峰值选择和插值,确定最终的基音周期。

基于自相关算法的语音基音估计具有以下优势:

  1. 算法简单易实现,计算效率高。
  2. 对于清晰的语音信号,基音估计精度较高。
  3. 适用于不同语种和不同说话人的语音信号。

基于自相关算法的语音基音估计在以下场景中得到广泛应用:

  1. 语音合成:基音估计可以用于合成自然流畅的语音。
  2. 语音识别:基音估计可以提供语音信号的基本单位,有助于识别语音中的音素。
  3. 语音编码:基音估计可以用于压缩语音信号,减小存储和传输开销。

腾讯云提供了一系列与语音处理相关的产品,如语音识别、语音合成和语音转写等。其中,腾讯云的语音识别产品(https://cloud.tencent.com/product/asr)可以将语音转换为文本,支持多种语种和领域的语音识别需求。腾讯云的语音合成产品(https://cloud.tencent.com/product/tts)可以将文本转换为自然流畅的语音,支持多种语种和声音风格。腾讯云的语音转写产品(https://cloud.tencent.com/product/asr)可以实时转写语音内容,适用于会议记录、语音笔记等场景。这些产品可以帮助开发者实现基于自相关算法的语音基音估计的应用。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

基音周期估计

这是语音信号数字处理课程课程作业,这里采用了自相关法对基音周期进行估计。语料采样率:8kHz;量化精度为16bits/sample; 1、 算法描述 本次实验选择了自相关方法对基音周期进行估计。...算法主要包括以下几个步骤 预处理:包括语料读取和分帧、滤波。 阈值设定:对每帧数据选择合适阈值进行设定 削波处理:提高检测准确性 互相关基音频率:通过求解互(相关得到基音周期检测值。...实验代码 MATLAB代码如下所示 1 %% 基音检测-语音信号数字处理作业 2 % 本代码实现了语音信号基音检测功能,采用了自相关方法处理。...语音只有短期平稳特性,譬如对整个语料做谱估计结果如下图所示,这样信号是完全无法辨别基音频率 ? (3). 为何要分前后段求最大幅度?...基音估计每帧要有两个周期,而幅度是会改变,如果我们求最大值,那么阈值选择很有可能是不合适。 ? (4). 互(相关求解是什么?

89020

再也不用担心网吧开黑队友听不清了!降噪解决方案了解一下?

而这个VAD算法和常规意义语音检测有所不同,因为它不但要排除掉非语音,还要排除掉主讲人以外语音,否则队友附近的人的话音甚至环境较远处嘈杂语音仍会被发送给耳机这头你。...针对这样情况,GME朝着满足诉求方向,给出了这个“VAD”算法,流程如下: 1.png 在判断声音性质时,一个要进行过程是,计算语音相关性,相关性测度定义如下: 其中 为增益因子,...在一些参数编码原理语音编码器中,会用LPC过程残差来估计基音周期,就是因为残差经过“白化”排出了共振峰影响。...我们最终关心是,周期性水平度量,我们定义如下 当这个周期性水平满足条件后,还要看周期是否满足语音信号基音周期范围:语音信号基音频率范围是60Hz到500Hz;对于8k采样,用采样周期表示区间为...通过研技术,GME已经能在复杂网吧环境下也准确检测到特定的人声并有效去掉环境音或其他玩家带来噪声,给玩家带来了极致开黑体验,让好友之间语音互动不再有噪点,目前游戏多媒体引擎GME 已正式登陆腾讯云

4.2K80
  • 语音信号处理习题

    相关基本原理是浊音信号相关函数在基音周期整数倍位置上出现峰值; 而清音相关函数没有明显峰值出现。 因此检测是否有峰值就可判断是清音或浊音, 检测峰值位置就可提取基音周期值。?...而对于清音语音信号, Fn(k)却没有这种周期特性。利用 Fn(k)这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音基音周期。...简化逆滤波法 (SIFT)先对语音信号进行 LPC分析和逆滤波, 获得语音信号预测残差,然后将残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。...对语音信号作小波变换则其极值点对应于声门开启或闭合点, 相邻极值点之距离就对应着基音周期。 因而, 采用音信号小波变换可以检测基音周期。 2、论述线性预测系数如何用于共振峰估计。...基于线性预测系数共振峰提取方法。 一种有效频谱包络估计方法是从线性预测分析角度推导出声道滤波器 ,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定缺点 ,如其频谱林灵敏度于人耳不想匹配。

    73830

    金融语音音频处理学术速递

    这种响应分析需要可靠和精确基音提取。我们发现,现有的基音提取无法正确地分析信号用于听觉刺激使用所提出方法。因此,我们提出了两种基于瞬时频率分析和多分辨率功率谱分析参考基音提取方法。...建议提取器正确分析测试信号。我们开放源代码MATLAB来测量基音提取器,并在我们GitHub存储库上进行语音基音响应实验。...SOI估计是盲,通过独立向量提取来执行。最近提出常数分离向量(CSV)采用了改进运动源估计模型。盲算法通过帧式说话人识别引导至SOI,该识别以有监督方式进行训练,与特定场景无关。...SOI估计是盲,通过独立向量提取来执行。最近提出常数分离向量(CSV)采用了改进运动源估计模型。盲算法通过帧式说话人识别引导至SOI,该识别以有监督方式进行训练,与特定场景无关。...这种响应分析需要可靠和精确基音提取。我们发现,现有的基音提取无法正确地分析信号用于听觉刺激使用所提出方法。因此,我们提出了两种基于瞬时频率分析和多分辨率功率谱分析参考基音提取方法。

    28820

    【AAAI2022】基于特征纯化视线估计算法

    来源:专知本文为论文,建议阅读5分钟我们提出了一种基于特征纯化视线估计算法。 视线估计算法基于用户面部图片计算其视线方向。...然而,面部图片中除包含有效的人眼区域信息外,仍包含众多视线无关特征,如个人信息、光照信息。这些视线无关特征损害了视线估计泛化性能,当使用环境更改时,视线估计算法性能也会出现大幅度下降。...在本工作中,我们提出了一种基于特征纯化视线估计算法算法利用对抗训练实现了视线特征纯化。在纯化过程中,算法保留了视线相关特征而消除视线无关特征。...通过利用此特征纯化算法,方法在多个数据集上达到了领先性能。

    35030

    网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备

    基于信号处理传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好降噪效果。...目前也有一些开源基于神经网络低开销降噪算法[1,2,3],能够在大部分终端设备上达到实时运行标准。...由此我们可以得出公式(3), 代表估计语音信号, 表示估计 Gain 大小。至此,我们降噪问题就是需要去估计出一个准确 。...方法 [1] 中用到了 Pitch Correlation(基音相关性), 表示求信号相关性, 表示 Pitch Correlation。...其次,把自相关换成和前 帧 Magnitude 做互相关(Cross-Correlation)可以增加帧间信息,语音信号谐波相比一些突发噪声具有更长连续性,以此可以将一些突发噪声从语音信号中区分开

    1.6K41

    专栏 | 极限元语音算法专家刘斌:基于深度学习语音生成问题

    可以通过计算目标代价和拼接代价评估这两个准则;然后通过维特比算法计算最优路径确定最终候选基元;最后通过波形相似重叠相加算法找出最佳拼接时刻,因此生成平滑且连续合成语音。...二、深度学习在语音增强中应用 通过语音增强可以有效抑制各种干扰信号,增强目标语音信号;有效语音增强算法一方面可以提高语音可懂度和话音质量,另一方面有助于提高语音识别和声纹识别的鲁棒性。...基于盲分离非负矩阵分解方法也得到了一定关注,但是这类方法计算复杂度相对较高;近年来,基于深度学习语音增强方法得到了越来越多关注,接下来重点介绍几种典型基于深度学习语音增强方法。 1....预测幅值谱信息 这类方法通过深层神经网络模型建立带噪语音和干净语音谱参数之间映射关系,模型输入是带噪语音幅值谱相关特征,模型输出是干净语音幅值谱相关特征,通过深层神经网络强大非线性建模能力重构安静语音幅值谱相关特征...;一种典型相位重构方法是利用基音周期线索对浊音段相位进行有效修复,但是这类方法无法有效估计清音段相位信息;复数神经网络模型可以对复数值进行非线性变换,而语音复数谱能够同时包含幅值谱信息和相位谱信息

    1.3K80

    音视频开发之旅(67) - 变速不变调之sonic源码分析

    目录 基音周期、浊音概念 Sonic源码分析 资料 收获 上一篇我们学习了音频变速不变调原理以及WSOLA波形相似叠加算法进行时域压扩处理。...一、基音周期、浊音概念 图片 图片来自:[清音or浊音 ] 人体发音器官可以分为三大部分:动力区 声源区 调音区 1.动力区—— 肺 、横膈膜、气管 肺部呼出气流是语音原动力。...故浊音波形呈现一定准周期性。 所谓基音周期,就是对这种准周期而言,它反映了声门相邻两次开闭之间时间间隔或开闭频率。 基音周期是语音信号最重要参数之一,但是基音提取是比较困难。...引用:[语音识别 08 基音周期估算方法](https://zhuanlan.zhihu.com/p/454283094) 基音检测方法主要有自相关函数法,平均幅度差函数法等。...我们下一篇来对其进行分析 三、资料 音频变速变调 -sonic 源码分析 语音识别 08 基音周期估算方法 四、收获 通过本篇学习 了解了人是如何发生,以及什么是基音周期 分析Exoplayer

    77620

    LeCun预言监督模型来了:首个多模态高性能监督算法语音、图像文本全部SOTA

    这种差异限制了监督学习广泛应用,例如为理解图像而设计强大算法不能直接应用于文本,因此很难以相同速度推动多种模态进展。...data2vec 是首个适用于多模态高性能监督算法。...Meta AI 将 data2vec 分别应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,并且在 NLP 任务也能取得具有竞争力结果。...data2vec 是如何工作? 大部分 AI 仍然基于监督学习,它只适用于具有标注数据任务。但是,假如我们希望机器可以完更多任务,那么收集所有的标注数据将变得不现实。...研究者希望机器不仅能够识别训练数据中显示动物,而且还能通过给定描述识别新生物。 data2vec 证明其监督算法可以在多种模态下良好执行,甚至比现有最佳算法更好。

    74620

    学界 | 一文概览基于深度学习监督语音分离

    本文作者对今年相关研究进行概述,介绍了语音分离背景、监督语音分离形成和组成部分,从历史角度叙述了监督语音分离技术发展过程。本文对监督语音分离概述还包括分离算法和泛化等问题。...过去十年内已经有很多监督分离算法被提出,特别是最近提出基于深度学习监督语音分离有很多进步之处,在分离任务中表现有很大提高。这篇论文对最近几年基于深度学习监督语音分离研究进行了概述。...例如,tandem 算法通过交换 pitch 估计基于 pitch 聚类进行语音分离 [65]。 由两个或更多麦克风组成阵列使用不同语音分离方法。...监督语音分离算法可以大体上分为以下几个部分:学习机器、训练目标和声学特征。本文,我们首先回顾这三个部分。然后介绍代表性算法,包括单声道方法和基于阵列算法。...AE 堆叠在 DNN 顶部作为纯度检测器,估计来自 DNN 清晰语音。 ? 图 7. 基于 LSTM 语音分离系统结构展示 [16]。 ? 图 8.

    1.6K110

    【SLAM】开源 | 港科大&腾讯YouTu—非光度损失监督运动定位估计算法

    实验室 论文名称:Beyond Photometric Loss for Self-Supervised Ego-Motion Estimation 原文作者:Tianwei Shen 内容提要 精确相对姿势是视觉里程计...(VO)和SLAM关键组成部分之一。...近年来,合优化相对姿态和目标图像深度监督学习框架引起了社会各界关注。以前工作依赖于相邻帧之间深度和姿态产生光度误差,这在现实场景中由于反射表面和遮挡造成了很大系统误差。...在本文中,我们在一个监督框架中引入了受极几何约束匹配损耗,从而弥补了几何损耗和光度损耗之间差距。在KITTI数据集上进行评估,我们方法大大优于最新无监督自我运动估计方法。

    41110

    基于局部直方图相关算法近似优化和提速。

    基于局部直方图算法有很多很多,我们已经研究这类算法有以下一些:    1、中值滤波   2、表面模糊   3、选择性模糊   4、中值锐化   5、图像局部熵        这类算法有个通病,就是即使选择使用...一个简单方法就是减少直方图数量,常规状态下我们直方图有256个元素,因为基于局部直方图算法基本都是一些统计类算法,是大面积像素统计信息,所以最终结果其实也是个统计结果。...对于选择性模糊、局部熵等算法,也是同样道理。        上面的几个算法,其结果值都是某个权重累加值除以权重,其中间结果其实是个浮点数,因此,等级量化后对结果不是影响很大。        ...比如我们把色阶调整为64阶,那么细分则有64个元素,粗分有8个元素,这个时候算法速度大概能提高一倍,不过效果会有一定差异,实际使用时这个差异是否在容许范围,就要看具体应用了。   ...所以具体的如何优化以及是否值得优化还要看具体算法需求和应用场景。

    62030

    腾讯天籁:基于上下文语音丢包补偿算法

    随着深度学习发展,工业界和学术界均在偿试引入深度学习,解决连续丢包补偿问题。这些方案,包括基于谱回归或者生成模型等方式,预测出相关频谱或者信号。...有鉴于此,腾讯多媒体实验室基于上下文分析丢包补偿方案(cPLC, context-based PacketLoss Concealment),并在腾讯会议中获得应用。...cPLC加大了信号处理在算法建模过程中权重,特别地,对于语音这样一种高度结构化信号类型,每一个音从开始、到音延续、再到结束,在时间轴上存在稳定上下文关系。...cPLC基于上下文建模,基于历史包语音数据,预测出丢失包对应上下文特征向量;最后,利用历史信息,预测出丢失包语音数据。...主要研究方向包括:语音通信、语音增强、心理听觉建模、语音质量评估等。2018年加入腾讯,负责新一代语音算法引擎研究。

    3.9K60

    基于PPF方式改进物体检测与位姿估计算法

    摘要:本文基于原始点对特征对于三维目标识别与位姿估计提出了一种改进通道,该方法采用自相似点对表示三维目标对象,然后在简化位姿参数空间上使用高效霍夫投票方案将该模型与三维场景匹配,将目标检测与粗到细分割相结合...,其中每个分割都要进行不相交姿态估计,在匹配过程中,采用加权霍夫投票和位姿参数插值恢复。...其中表示两个表面点距离,表示两个向量之间角度 ? 1.1.2计算模型法线 本文使用特征大多都使用了法线,但总存在一些不太准确估计,针对该问题,协方差矩阵特征分解更好地解决了此问题。...然后将余弦加权平均值报告为顶点方向遮挡值。基于,本文建议对哈希表条目进行权衡。因此,给定哈希表容器,我们权重只是和标准化几何平均值。...点对特性映射到相同部分中并组合在一起放在同一bin里。为了降低计算复杂度,在下采样在这个阶段,要将所有的点整合到一起其至少为距离,本文使用泊松函数磁盘采样算法

    90730

    监督学习新思路!基于蒸馏损失监督学习算法 | CVPR 2021

    本文发现基于小网络前提下,基于蒸馏(distillation learning)监督学习得到模型性能远远强于对比学习(contrastive learning),同时他们还发现同时使用蒸馏和对比学习效果反而不如单独使用蒸馏损失...基于这个疑问:作者首先使用默认参数MoCo V2作为监督学习基准算法(baseline),在使用ReActNet作为主干网时候在ImageNet上得到46.9%。...单纯使用对比学习(使用增强后MoCo V2作为对比学习算法); 2. 对比学习损失加上知识蒸馏损失(文章使用cross-entropy loss作为蒸馏损失)训练模型; 3....其次就是teacher在蒸馏过程中权重都是freeze,产生监督信号也跟精确更稳定,对于student收敛也会有帮助。 ? 下面是两种策略算法示意图: ?...同时期一些基于蒸馏监督学习方法: 最近基于知识蒸馏监督方法有不少,包括跟本文同时期SEED [2] (发表于ICLR 2021, 两者投稿相隔一个月,可以认为是同时期工作) 以及后续比较有名

    86230

    语音处理】声音产生机制和数学模型

    基音频率为声带振动频率,其数值由声带物理特性决定,例如声带大小、厚薄、松紧程度等。基音频率也决定了人音高,频率快则音调高,频率慢则音调低。...一般,男性基音频率为60-200Hz,而女性和小孩基因频率为200-450Hz。 第三部分中,声道是声门声带之后发音最重要因素。...因此,当一个人发不同音时,即使基音频率是固定,但是由于声道形状不同,从而导致谐振腔共振峰也不同,最终产生不同语音信号。 由于不同人声道差异较大,因而不同人共振峰也有较大差异。...对于上述模型构建语音信号,我们可使用基于Teaager能量算子能量分离算法(ESA)将信号中幅值调制部分与频率调制部分有效地分离开。 [1] 韩纪庆, 张磊, 郑铁然....下一节,我们将介绍语音信号听觉生理机制和相关数学模型。

    1.2K20

    基于MATLAB语音信号处理

    一方面是因为计算机计算能力有了迅速提高,计算机能够提供实现复杂算法硬件、软件;另一方面,数字信号处理在当时有了蓬勃发展,从而20世纪60年代末开始引起了语音识别的研究热潮。...同时,通过MATLAB可以对数字化语音信号进行估计和判别。例如,根据语音信号短时参数,一级不同语音信号短时参数性质对一段给定信号进行有无声和请浊音判断、对语音信号基音周期进行估计等。...自相关函数上述性质,完全可以适用于语音信号时域分析中。例如,浊音语音波形序列具有周期性,因此可用自相关函数求出这个周期,即是基音周期。此外,自相关函数也可用在语音信号线性预测分析中。...,如果是浊音,还可以得出它基音周期,它基音周期可由自相关函数波形中第一个峰值位置来估计。...所以,自相关函数常用作一下两种作用: (1) 区分语音信号是清音还是浊音; (2) 估计浊音语音信号基音周期[4]。

    1.4K10

    多模态情感识别_多模态融合情感识别研究「建议收藏」

    提出一种多模态融合情感识别算法,从面部图像序列和语音信号中提取表情和语音特征,基于隐马尔可夫模型和多层感知器设计融合表情和语音模态情感分类器。...建立面部表情图像主动外观模型,实现面部特征点定位和跟踪;根据面部特征点位移,计算面部动画参数作为表情特征。对语音信号作时域、和频域分析,提取各帧短时平均能量、基音频率和共振峰作为语音特征。...利用提取表情和语音特征,采用Viterbi算法训练各种表情和语音情感隐马尔可夫模型;利用特征向量关于各隐马尔可夫模型条件概率,采用反向传播学习算法训练多层感知器。...实验结果表明,融合表情和语音情感识别算法在识别样本中高兴、悲伤、愤怒、厌恶等情感状态时具有较高准确率。...提出多模态识别算法较好地利用了视频和音频中情感信息,相比于仅利用语音模态识别结果有较大提升,相比于表情模态识别结果也有一定改进,是一种可以采用情感识别算法

    1.1K10

    IJCAI2023 | 基于去噪增强社会化推荐算法

    TLDR: 本文提出一种通用去噪增强学习框架,该框架不仅结合了社会影响力来帮助理解用户偏好,而且还通过识别社会关系偏差和去噪跨视图监督来减轻噪声影响。...基于监督学习(SSL)增强会受到嘈杂社会关系严重阻碍。例如,人们可能与同事、同学或家庭成员建立社会联系,但他们彼此之间可能没有很多共同兴趣。...盲目依赖这种不相关社交关系来推断用户兴趣可能会损害社交推荐模型性能。为了解决这个问题,本文过滤掉不同用户之间关于他们交互偏好嘈杂社会影响,以进行无偏移监督。...同样,基于社交 GNN 编码得到用户表示 (\bar{\textbf{e}}^{(s)}_i, \bar{\textbf{e}}^{(s)}_{i'}) ,用户社交相似度定义为 \hat{z}_{...有了上述监督学习目标,综合用户关系预测任务将基于监督信号进行社会影响去噪指导。这样做,具有不同偏好用户之间嘈杂社会联系将导致可区分用户表示,以增强推荐。

    21610

    基于多目标视频图像边缘特征相关滤波跟踪算法

    基于多目标视频图像边缘特征相关滤波跟踪算法 1、算法原理 多目标捕获视频图像中全部视场内均包括捕获目标,捕获过程中应去除已稳定跟踪目标,且视频图像内目标的运动存在规律性,视频图像中随机噪声无规律...1.2.2 图像颜色特征提取 将视频图像梯度角度直方图与颜色信息相结合,获得梯度角度-色度饱和度直方图颜色特征,并将提取特征应用于核相关滤波跟踪算法中。...依据特征点聚类器创建各个特征点时空特征向量并对创建时空特征向量进行聚类,得到与各个分类相应构成区域,并基于此将视频图像划分为n 块区域,统计不同区域梯度角度直方图和色度饱和度直方图,将全部区域直方图串联...1.3 核相关滤波跟踪算法 在循环移位编码密集采样过程中,结合循环矩阵训练分类器即核相关滤波跟踪算法,通过核方法获取视频图像与分类器间相关系数[9-14] ,更新后目标位置即为最大相关系数所处位置...1.3.2 岭回归模型学习分类器 岭回归是有偏数据估计回归方法,可用封闭方程表示为: ?

    79220
    领券