开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

基于自相关算法的语音基音估计

是一种用于语音信号处理的算法，用于估计语音信号中的基音周期。基音周期是指语音信号中重复的基本单位，通常对应于声带的振动周期。基音估计在语音合成、语音识别、语音编码等领域具有重要的应用。

自相关算法是一种常用的基音估计方法，它通过计算语音信号与其自身在不同时间延迟下的相关性来寻找基音周期。具体而言，自相关算法首先将语音信号分帧，并对每一帧进行预处理，如加窗和预加重。然后，对每一帧的语音信号进行自相关计算，得到自相关函数。自相关函数的峰值对应于基音周期的候选值。最后，通过一系列的后处理步骤，如峰值选择和插值，确定最终的基音周期。

基于自相关算法的语音基音估计具有以下优势：

算法简单易实现，计算效率高。
对于清晰的语音信号，基音估计精度较高。
适用于不同语种和不同说话人的语音信号。

基于自相关算法的语音基音估计在以下场景中得到广泛应用：

语音合成：基音估计可以用于合成自然流畅的语音。
语音识别：基音估计可以提供语音信号的基本单位，有助于识别语音中的音素。
语音编码：基音估计可以用于压缩语音信号，减小存储和传输开销。

腾讯云提供了一系列与语音处理相关的产品，如语音识别、语音合成和语音转写等。其中，腾讯云的语音识别产品（https://cloud.tencent.com/product/asr）可以将语音转换为文本，支持多种语种和领域的语音识别需求。腾讯云的语音合成产品（https://cloud.tencent.com/product/tts）可以将文本转换为自然流畅的语音，支持多种语种和声音风格。腾讯云的语音转写产品（https://cloud.tencent.com/product/asr）可以实时转写语音内容，适用于会议记录、语音笔记等场景。这些产品可以帮助开发者实现基于自相关算法的语音基音估计的应用。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

基音周期估计

这是语音信号的数字处理课程的课程作业，这里采用了自相关法对基音周期进行估计。语料采样率：8kHz；量化精度为16bits/sample； 1、算法描述本次实验选择了自相关方法对基音周期进行估计。...算法主要包括以下几个步骤预处理：包括语料读取和分帧、滤波。阈值设定：对每帧数据选择合适的阈值进行设定削波处理：提高检测准确性互相关求基音频率：通过求解互（自）相关得到基音周期的检测值。...实验代码 MATLAB代码如下所示 1 %% 基音检测-语音信号的数字处理作业 2 % 本代码实现了语音信号的基音检测功能，采用了自相关方法处理。...语音只有短期的平稳特性，譬如对整个语料做谱估计结果如下图所示，这样的信号是完全无法辨别基音频率的 ? (3). 为何要分前后段求最大幅度？...基音估计每帧要有两个周期，而幅度是会改变的，如果我们求最大值，那么阈值选择很有可能是不合适的。 ? (4). 互（自）相关求解的是什么？

9092 0

再也不用担心网吧开黑队友听不清了！降噪解决方案了解一下？

而这个VAD算法和常规意义的语音检测有所不同，因为它不但要排除掉非语音，还要排除掉主讲人以外的语音，否则队友附近的人的话音甚至环境较远处的嘈杂语音仍会被发送给耳机这头的你。...针对这样的情况，GME朝着满足诉求的方向，给出了这个“VAD”算法，流程如下： 1.png 在判断声音性质时，一个要进行的过程是，计算语音的相关性，相关性测度定义如下：其中为增益因子，...在一些参数编码原理的语音编码器中，会用LPC过程的残差来估计基音周期，就是因为残差经过“白化”排出了共振峰影响。...我们最终关心的是，周期性水平的度量，我们定义如下当这个周期性水平满足条件后，还要看周期是否满足语音信号基音周期范围：语音信号的基音频率范围是60Hz到500Hz；对于8k采样，用采样周期表示的区间为...通过自研技术，GME已经能在复杂的网吧环境下也准确的检测到特定的人声并有效的去掉环境音或其他玩家带来的噪声，给玩家带来了极致的开黑体验，让好友之间的语音互动不再有噪点，目前游戏多媒体引擎GME 已正式登陆腾讯云

4.2K8 0

语音信号处理习题

自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值；而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音，检测峰值的位置就可提取基音周期值。?...而对于清音语音信号， Fn(k)却没有这种周期特性。利用 Fn(k)的这种特性，可以判定一段语音是浊音还是清音，并估计出浊音语音的基音周期。...简化逆滤波法（SIFT）先对语音信号进行 LPC分析和逆滤波，获得语音信号的预测残差，然后将残差信号通过自相关滤波器滤波，再作峰值检测，进而获得基音周期。...对语音信号作小波变换则其极值点对应于声门的开启或闭合点，相邻极值点之距离就对应着基音周期。因而，采用音信号的小波变换可以检测基音周期。 2、论述线性预测系数如何用于共振峰的估计。...基于线性预测系数的共振峰提取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器 ,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点 ,如其频谱林灵敏度于人耳不想匹配。

7673 0

金融语音音频处理学术速递

这种响应分析需要可靠和精确的基音提取。我们发现，现有的基音提取无法正确地分析信号用于听觉刺激使用所提出的方法。因此，我们提出了两种基于瞬时频率分析和多分辨率功率谱分析的参考基音提取方法。...建议的提取器正确分析测试信号。我们开放源代码MATLAB来测量基音提取器，并在我们的GitHub存储库上进行语音基音响应实验。...SOI的估计是盲的，通过独立的向量提取来执行。最近提出的常数分离向量（CSV）采用了改进运动源估计的模型。盲算法通过帧式说话人识别引导至SOI，该识别以有监督的方式进行训练，与特定场景无关。...SOI的估计是盲的，通过独立的向量提取来执行。最近提出的常数分离向量（CSV）采用了改进运动源估计的模型。盲算法通过帧式说话人识别引导至SOI，该识别以有监督的方式进行训练，与特定场景无关。...这种响应分析需要可靠和精确的基音提取。我们发现，现有的基音提取无法正确地分析信号用于听觉刺激使用所提出的方法。因此，我们提出了两种基于瞬时频率分析和多分辨率功率谱分析的参考基音提取方法。

2902 0

【AAAI2022】基于特征纯化的视线估计算法

来源：专知本文为论文，建议阅读5分钟我们提出了一种基于特征纯化的视线估计算法。视线估计算法基于用户的面部图片计算其视线方向。...然而，面部图片中除包含有效的人眼区域信息外，仍包含众多的视线无关特征，如个人信息、光照信息。这些视线无关特征损害了视线估计的泛化性能，当使用环境更改时，视线估计算法的性能也会出现大幅度的下降。...在本工作中，我们提出了一种基于特征纯化的视线估计算法，算法利用对抗训练实现了视线特征的纯化。在纯化过程中，算法保留了视线相关特征而消除视线无关特征。...通过利用此特征纯化算法，方法在多个数据集上达到了领先的性能。

3593 0

网易云信神经网络音频降噪算法：提升瞬态噪声抑制效果，适合移动端设备

基于信号处理的传统音频降噪算法对于 Stationary Noise（平稳噪声）有比较好的降噪效果。...目前也有一些开源的、基于神经网络的低开销降噪算法[1,2,3]，能够在大部分终端设备上达到实时运行的标准。...由此我们可以得出公式（3），代表估计出的语音信号，表示估计出的 Gain 大小。至此，我们的降噪问题就是需要去估计出一个准确的。...方法 [1] 中用到了 Pitch Correlation（基音相关性），表示求信号的相关性，表示 Pitch Correlation。...其次，把自相关换成和前帧的 Magnitude 做互相关（Cross-Correlation）可以增加帧间的信息，语音信号的谐波相比一些突发噪声具有更长的连续性，以此可以将一些突发噪声从语音信号中区分开

1.6K4 1

专栏 | 极限元语音算法专家刘斌：基于深度学习的语音生成问题

可以通过计算目标代价和拼接代价评估这两个准则；然后通过维特比算法计算最优路径确定最终的候选基元；最后通过波形相似重叠相加算法找出最佳拼接时刻，因此生成平滑且连续合成语音。...二、深度学习在语音增强中的应用通过语音增强可以有效抑制各种干扰信号，增强目标语音信号；有效的语音增强算法一方面可以提高语音可懂度和话音质量，另一方面有助于提高语音识别和声纹识别的鲁棒性。...基于盲分离的非负矩阵分解方法也得到了一定关注，但是这类方法计算复杂度相对较高；近年来，基于深度学习的语音增强方法得到了越来越多的关注，接下来重点介绍几种典型的基于深度学习的语音增强方法。 1....预测幅值谱信息这类方法通过深层神经网络模型建立带噪语音和干净语音谱参数之间的映射关系，模型的输入是带噪语音的幅值谱相关特征，模型的输出是干净语音的幅值谱相关特征，通过深层神经网络强大的非线性建模能力重构安静语音的幅值谱相关特征...；一种典型的相位重构方法是利用基音周期线索对浊音段的相位进行有效修复，但是这类方法无法有效估计清音段的相位信息；复数神经网络模型可以对复数值进行非线性变换，而语音帧的复数谱能够同时包含幅值谱信息和相位谱信息

1.3K8 0

音视频开发之旅（67) - 变速不变调之sonic源码分析

目录基音周期、浊音的概念 Sonic源码分析资料收获上一篇我们学习了音频变速不变调的原理以及WSOLA波形相似叠加算法进行时域压扩处理。...一、基音周期、浊音的概念图片图片来自：[清音or浊音 ] 人体的发音器官可以分为三大部分：动力区声源区调音区 1.动力区—— 肺、横膈膜、气管肺部呼出的气流是语音的原动力。...故浊音波形呈现一定的准周期性。所谓基音周期，就是对这种准周期而言的，它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。基音周期是语音信号最重要的参数之一，但是基音的提取是比较困难的。...引用：[语音识别 08 基音周期的估算方法](https://zhuanlan.zhihu.com/p/454283094) 基音检测的方法主要有自相关函数法，平均幅度差函数法等。...我们下一篇来对其进行分析三、资料音频变速变调 -sonic 源码分析语音识别 08 基音周期的估算方法四、收获通过本篇的学习了解了人是如何发生的，以及什么是基音周期分析Exoplayer的

8242 0

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

这种差异限制了自监督学习的广泛应用，例如为理解图像而设计的强大算法不能直接应用于文本，因此很难以相同的速度推动多种模态的进展。...data2vec 是首个适用于多模态的高性能自监督算法。...Meta AI 将 data2vec 分别应用于语音、图像和文本，在计算机视觉、语音任务上优于最佳单一用途算法，并且在 NLP 任务也能取得具有竞争力的结果。...data2vec 是如何工作的？大部分 AI 仍然基于监督学习，它只适用于具有标注数据的任务。但是，假如我们希望机器可以完更多的任务，那么收集所有的标注数据将变得不现实。...研究者希望机器不仅能够识别训练数据中显示的动物，而且还能通过给定描述识别新生物。 data2vec 证明其自监督算法可以在多种模态下良好执行，甚至比现有最佳算法更好。

7512 0

学界 | 一文概览基于深度学习的监督语音分离

本文作者对今年相关研究进行概述，介绍了语音分离的背景、监督语音分离的形成和组成部分，从历史的角度叙述了监督语音分离的技术发展过程。本文对监督语音分离的概述还包括分离算法和泛化等问题。...过去十年内已经有很多监督分离算法被提出，特别是最近提出的基于深度学习的监督语音分离有很多进步之处，在分离任务中的表现有很大的提高。这篇论文对最近几年基于深度学习的监督语音分离的研究进行了概述。...例如，tandem 算法通过交换 pitch 估计和基于 pitch 的聚类进行语音分离 [65]。由两个或更多的麦克风组成的阵列使用不同的语音分离方法。...监督语音分离算法可以大体上分为以下几个部分：学习机器、训练目标和声学特征。本文，我们首先回顾这三个部分。然后介绍代表性算法，包括单声道方法和基于阵列的算法。...AE 堆叠在 DNN 的顶部作为纯度检测器，估计来自 DNN 的清晰语音。 ? 图 7. 基于 LSTM 的语音分离系统的结构展示 [16]。 ? 图 8.

1.6K11 0

【SLAM】开源 | 港科大&腾讯YouTu—非光度损失的自监督运动定位估计算法

实验室论文名称：Beyond Photometric Loss for Self-Supervised Ego-Motion Estimation 原文作者：Tianwei Shen 内容提要精确的相对姿势是视觉里程计...（VO）和SLAM的关键组成部分之一。...近年来，合优化相对姿态和目标图像深度的自监督学习框架引起了社会各界的关注。以前的工作依赖于相邻帧之间的深度和姿态产生的光度误差，这在现实场景中由于反射表面和遮挡造成了很大的系统误差。...在本文中，我们在一个自监督的框架中引入了受极几何约束的匹配损耗，从而弥补了几何损耗和光度损耗之间的差距。在KITTI数据集上进行评估，我们的方法大大优于最新的无监督自我运动估计方法。

4241 0

基于局部直方图相关算法的近似优化和提速。

基于局部直方图的算法有很多很多，我们已经研究这类算法有以下一些：　　 1、中值滤波　　2、表面模糊　　3、选择性模糊　　4、中值锐化　　5、图像局部熵这类算法有个通病，就是即使选择使用...一个简单的方法就是减少直方图的数量，常规状态下我们直方图有256个元素，因为基于局部直方图的算法基本都是一些统计类算法，是大面积像素的统计信息，所以最终的结果其实也是个统计结果。...对于选择性模糊、局部熵等算法，也是同样的道理。上面的几个算法，其结果值都是某个权重累加值除以权重，其中间结果其实是个浮点数，因此，等级量化后对结果不是影响很大。 ...比如我们把色阶调整为64阶，那么细分则有64个元素，粗分有8个元素，这个时候算法的速度大概能提高一倍，不过效果会有一定差异，实际使用时这个差异是否在容许的范围，就要看具体的应用了。　　...所以具体的如何优化以及是否值得优化还要看具体的算法需求和应用场景。

6293 0

腾讯天籁：基于上下文的语音丢包补偿算法

随着深度学习的发展，工业界和学术界均在偿试引入深度学习，解决连续丢包补偿的问题。这些方案，包括基于谱回归或者生成模型等方式，预测出相关的频谱或者信号。...有鉴于此，腾讯多媒体实验室自研基于上下文分析的丢包补偿方案（cPLC, context-based PacketLoss Concealment），并在腾讯会议中获得应用。...cPLC加大了信号处理在算法建模过程中的权重，特别地，对于语音这样一种高度结构化的信号类型，每一个音从开始、到音的延续、再到结束，在时间轴上存在稳定的上下文关系。...cPLC基于上下文建模，基于历史包语音数据，预测出丢失包对应的上下文特征向量；最后，利用历史信息，预测出丢失包的语音数据。...主要研究方向包括：语音通信、语音增强、心理听觉建模、语音质量评估等。2018年加入腾讯，负责新一代语音算法引擎研究。

4.1K6 0

基于PPF方式改进的物体检测与位姿估计算法

摘要：本文基于原始点对特征对于三维目标识别与位姿估计提出了一种改进的通道，该方法采用自相似点对表示三维目标对象，然后在简化的位姿参数空间上使用高效的霍夫投票方案将该模型与三维场景匹配，将目标检测与粗到细的分割相结合...，其中每个分割都要进行不相交的姿态估计，在匹配过程中，采用加权霍夫投票和位姿参数插值恢复。...其中表示两个表面点的距离，表示两个向量之间的角度 ? 1.1.2计算模型法线本文使用的特征大多都使用了法线，但总存在一些不太准确的估计，针对该问题，协方差矩阵的特征分解更好地解决了此问题。...然后将余弦加权平均值报告为顶点方向的遮挡值。基于，本文建议对哈希表的条目进行权衡。因此，给定哈希表容器，我们的权重只是和的标准化几何平均值。...点对特性映射到相同的部分中并组合在一起放在同一bin里。为了降低计算复杂度，在下采样在这个阶段，要将所有的点整合到一起其至少为距离，本文使用泊松函数磁盘采样算法。

9473 0

自监督学习新思路！基于蒸馏损失的自监督学习算法 | CVPR 2021

本文发现基于小网络的前提下，基于蒸馏(distillation learning)的自监督学习得到的模型性能远远强于对比学习(contrastive learning)，同时他们还发现同时使用蒸馏和对比学习效果反而不如单独使用蒸馏损失...基于这个疑问：作者首先使用默认参数的MoCo V2作为自监督学习基准算法(baseline)，在使用ReActNet作为主干网的时候在ImageNet上得到46.9%。...单纯使用对比学习（使用增强后的MoCo V2作为对比学习算法）； 2. 对比学习损失加上知识蒸馏损失(文章使用cross-entropy loss作为蒸馏损失)训练模型； 3....其次就是teacher在蒸馏过程中权重都是freeze的，产生的监督信号也跟精确更稳定，对于student的收敛也会有帮助。 ? 下面是两种策略的算法示意图： ?...同时期一些基于蒸馏的自监督学习方法：最近基于知识蒸馏的自监督方法有不少，包括跟本文同时期的SEED [2] (发表于ICLR 2021, 两者投稿相隔一个月，可以认为是同时期的工作) 以及后续比较有名的

8923 0

【语音处理】声音的产生机制和数学模型

基音频率为声带振动的频率，其数值由声带的物理特性决定，例如声带的大小、厚薄、松紧程度等。基音频率也决定了人的音高，频率快则音调高，频率慢则音调低。...一般，男性的基音频率为60-200Hz，而女性和小孩的基因频率为200-450Hz。第三部分中，声道是声门声带之后发音的最重要因素。...因此，当一个人发不同的音时，即使基音频率是固定的，但是由于声道形状的不同，从而导致谐振腔的共振峰也不同，最终产生不同的语音信号。由于不同人的声道差异较大，因而不同人的共振峰也有较大的差异。...对于上述模型构建的语音信号，我们可使用基于Teaager能量算子的能量分离算法（ESA）将信号中的幅值调制部分与频率调制部分有效地分离开。 [1] 韩纪庆, 张磊, 郑铁然....下一节，我们将介绍语音信号的听觉生理机制和相关的数学模型。

1.3K2 0

基于MATLAB的语音信号处理

一方面是因为计算机的计算能力有了迅速的提高，计算机能够提供实现复杂算法的硬件、软件；另一方面，数字信号处理在当时有了蓬勃发展，从而自20世纪60年代末开始引起了语音识别的研究热潮。...同时，通过MATLAB可以对数字化的语音信号进行估计和判别。例如，根据语音信号的短时参数，一级不同语音信号的短时参数的性质对一段给定的信号进行有无声和请浊音的判断、对语音信号的基音周期进行估计等。...自相关函数的上述性质，完全可以适用于语音信号的时域分析中。例如，浊音语音波形序列具有周期性，因此可用自相关函数求出这个周期，即是基音周期。此外，自相关函数也可用在语音信号的线性预测分析中。...，如果是浊音，还可以得出它的基音周期，它的基音周期可由自相关函数波形中的第一个峰值的位置来估计。...所以，自相关函数常用作一下两种作用： (1) 区分语音信号是清音还是浊音； (2) 估计浊音语音信号的基音周期[4]。

1.5K1 0

多模态情感识别_多模态融合的情感识别研究「建议收藏」

提出一种多模态融合的情感识别算法,从面部图像序列和语音信号中提取表情和语音特征,基于隐马尔可夫模型和多层感知器设计融合表情和语音模态的情感分类器。...建立面部表情图像的主动外观模型,实现面部特征点的定位和跟踪;根据面部特征点的位移,计算面部动画参数作为表情特征。对语音信号作时域、和频域分析,提取各帧的短时平均能量、基音频率和共振峰作为语音特征。...利用提取的表情和语音特征,采用Viterbi算法训练各种表情和语音情感的隐马尔可夫模型;利用特征向量关于各隐马尔可夫模型的条件概率,采用反向传播学习算法训练多层感知器。...实验结果表明,融合表情和语音的情感识别算法在识别样本中的高兴、悲伤、愤怒、厌恶等情感状态时具有较高的准确率。...提出的多模态识别算法较好地利用了视频和音频中的情感信息,相比于仅利用语音模态的识别结果有较大的提升,相比于表情模态的识别结果也有一定改进,是一种可以采用的情感识别算法。

1.1K1 0

IJCAI2023 | 基于去噪自增强的社会化推荐算法

TLDR: 本文提出一种通用的去噪自增强学习框架，该框架不仅结合了社会影响力来帮助理解用户偏好，而且还通过识别社会关系偏差和去噪跨视图自监督来减轻噪声影响。...基于自监督学习（SSL）的增强会受到嘈杂的社会关系的严重阻碍。例如，人们可能与同事、同学或家庭成员建立社会联系，但他们彼此之间可能没有很多共同兴趣。...盲目依赖这种不相关的社交关系来推断用户的兴趣可能会损害社交推荐模型的性能。为了解决这个问题，本文过滤掉不同用户之间关于他们的交互偏好的嘈杂的社会影响，以进行无偏移的自监督。...同样，基于社交 GNN 编码得到的用户表示 (\bar{\textbf{e}}^{(s)}_i, \bar{\textbf{e}}^{(s)}_{i'}) ，用户社交相似度定义为 \hat{z}_{...有了上述的自监督学习目标，综合用户关系预测任务将基于自监督信号进行社会影响去噪的指导。这样做，具有不同偏好的用户之间的嘈杂的社会联系将导致可区分的用户表示，以增强推荐。

2841 0

基于多目标视频图像边缘特征的核相关滤波跟踪算法

基于多目标视频图像边缘特征的核相关滤波跟踪算法 1、算法原理多目标捕获视频图像中全部视场内均包括捕获目标,捕获过程中应去除已稳定跟踪的目标,且视频图像内目标的运动存在规律性,视频图像中的随机噪声无规律...1.2.2 图像颜色特征的提取将视频图像梯度角度直方图与颜色信息相结合,获得梯度角度-色度饱和度直方图的颜色特征,并将提取的特征应用于核相关滤波跟踪算法中。...依据特征点聚类器创建各个特征点的时空特征向量并对创建的时空特征向量进行聚类,得到与各个分类相应的构成区域,并基于此将视频图像划分为n 块区域,统计不同区域的梯度角度直方图和色度饱和度直方图,将全部区域直方图串联...1.3 核相关滤波跟踪算法在循环移位编码密集采样过程中,结合循环矩阵训练分类器即核相关滤波跟踪算法,通过核方法获取视频图像与分类器间的相关系数[9-14] ,更新后的目标位置即为最大相关系数所处的位置...1.3.2 岭回归模型学习分类器岭回归是有偏数据估计回归方法,可用封闭方程表示为： ?

8042 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭