Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >音频算法之我思

音频算法之我思

原创
作者头像
cpuimage
发布于 2018-10-23 16:14:41
发布于 2018-10-23 16:14:41
1.9K2
举报
文章被收录于专栏:算法+算法+

很长一段时间,扎根在音频领域,各种玩耍。

渐渐上了轨道。

一切的一切仅仅因为相信自己能做好,也必须做好。

不懂就去查,去问,去找资料,去找视频。

渐渐的,我开始懂了,也慢慢有了系统性的理解。

随后经常能发散思维。

最近,

在自动增益,

音频降噪,

语速检测,

相位谱重建各个算法之间穿梭。

慢慢有所产出,有所突破。

特别是在音频降噪领域,

不能算质的飞跃,

但是确实摸到了一些规律。

而写完相位谱重建算法之后,

我也突发奇想,

相位谱既然能通过高斯分布的思路进行重建,

那是不是可以说明,

高斯分布可以用来作为音频算法的信号标准化,归一化。

这是一个值得去研究的方向,

音频信号的高斯归一化。

前面面试了一家公司的时候,

提到说音频通过能量谱可以重建相位谱,

那面试官好像认定我是傻子,

就好像觉得我是在胡扯一样。

真的懒得解释,

实操是验证真理的唯一标准。

而语速检测,

其实有点类似音乐的节拍检测,

只不过一定要去除空白帧,

因为空白从另一个角度来说,

可以认为是停顿,或者说换气。

所以语速检测的思路也可以基本确认。

而自动增益方面,

找资料的时候发现一个神奇的标准,EBU R128,

这里就不科普展开了,感兴趣的可以维基一下。

这个算法在FFMPEG里面有很详细的实现,

抠出来算法代码,直接应用,

效果不要太好。

近期,终于回到广东,

在南京接受了太多的负能量,回来之后真的有获得新生的感觉。

世界顿时和平。

相对于深度学习而言,

我还是比较坚持采用传统算法去实现降噪增益等处理,

原因也很简单,音频时效性特别重要。

采用深度学习很多时候要做大量的工作才能保证时效性了,

从软件,硬件的角度来说,音频不比图像好处理。

自然挑战也多了起来,

不过庆幸的是,

在傻逼一样的坚持之后,

不采用深度学习方案的音频降噪,

终于达到近乎可以商用的程度了。

当然最近也在思考算法的下一步优化方案。

继续验证思路,继续改良。

这里放出linux系统下的可执行文件,供大家评测。

下载地址:https://files.cnblogs.com/files/cpuimage/denoise.zip

解压后采用命令行: ./denoise sample.wav 

执行后生成降噪后的文件sample_out.wav

现在是自适应降噪强度,

降噪后自动做增益,

后续计划加上降噪的强度控制。

噪声样本自行寻觅,

比较好找。就不提供了。

在音频这条路上,

如果我走偏了,大家记得把我拉回来。

当然若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是:  gaozhihan@vip.qq.com

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
2 条评论
热度
最新
大神 你发的demo已经无法下载了。
大神 你发的demo已经无法下载了。
11点赞举报
暂时不开放下载了.
暂时不开放下载了.
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
音频自动增益 与 静音检测 算法 附完整C代码
静音检测 在WebRTC中 是采用计算GMM (Gaussian Mixture Model,高斯混合模型)进行特征提取的。
cpuimage
2018/05/07
3.9K0
音乐旋律提取算法 附可执行demo
https://github.com/cpuimage/AudioFingerprinter
cpuimage
2018/10/06
6.3K3
音乐旋律提取算法 附可执行demo
音频增益响度分析 ReplayGain 附完整C代码示例
人们所熟知的图像方面的3A算法有: AF自动对焦(Automatic Focus) 自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure) 自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance) 白平衡的本质是使白色物体在任何光源下都显示白色 与之相对应的音频方面的3A算法是: AGC自动增益补偿(Automatic Gain Control) 自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者
cpuimage
2018/04/16
2K0
来源自rnnoise,但非rnn
https://files.cnblogs.com/files/cpuimage/denoise.zip
cpuimage
2018/12/02
2K0
WebRTC 音频算法 附完整C代码
AEC是声学回声消除(Acoustic Echo Canceller for Mobile)
cpuimage
2018/05/07
3.1K2
基于RNN的音频降噪算法 (附完整C代码)
前几天无意间看到一个项目rnnoise。 项目地址: https://github.com/xiph/rnnoise 基于RNN的音频降噪算法。 采用的是 GRU/LSTM 模型。 阅读下训练代码,可惜的是作者没有提供数据训练集。 不过基本可以断定他采用的数据集里,肯定有urbansound8k。 urbansound8k 数据集地址: https://serv.cusp.nyu.edu/projects/urbansounddataset/urbansound8k.html 也可以考虑采用用作者训练的模型
cpuimage
2018/04/12
9.4K0
音频降噪算法 附完整C代码
音频降噪目前感觉大有所为,像前面分享的《基于RNN的音频降噪算法 (附完整C代码)》
cpuimage
2018/05/07
9.5K5
音频识别算法思考与阶段性小结
主要是 回复 给我发邮件以及QQ上询问的朋友们的一些疑问和需求,这里稍作回复一下。
cpuimage
2018/09/20
2.2K0
IEEE ASRU 2023录用论文解读 | 打造极致听觉体验,腾讯云MPS音频处理能力及降噪算法原理
近期,语音与语言处理领域旗舰会议IEEE ASRU 2023论文入选结果公布。腾讯云媒体处理(MPS)在语音增强降噪方向的创新成果再获业界认可,《Magnitude-and-phase-aware Speech Enhancement with Parallel Sequence Modeling》(简称MPCRN)和《VSANet: Real-time Speech Enhancement Based on Voice Activity Detection and Causal Spatial Attention》(简称VSANet)两篇论文被IEEE ASRU 2023录用。本文将结合论文内容,与大家分享腾讯云媒体处理(MPS)在音频处理方面的最新能力、相关技术方案以及算法原理。
腾讯云音视频
2023/11/05
6830
IEEE ASRU 2023录用论文解读 | 打造极致听觉体验,腾讯云MPS音频处理能力及降噪算法原理
一种简单高效的音频降噪算法示例(附完整C代码)
<<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE.
cpuimage
2019/05/02
5.3K1
算法踩坑小记
反之,结果为最大值或者接近无穷大的数,甚至溢出有效范围,那就可能出现"梯度爆炸"的问题.
cpuimage
2018/12/31
5460
音频算法之小黄人变声 附完整C代码
前面提及到《大话音频变声原理 附简单示例代码》与《声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码》
cpuimage
2018/09/22
3.3K0
基于傅里叶变换的音频重采样算法 (附完整c代码)
如果特定情况下需要,我也可以上matlab,python,delphi,c#,c++等等。
cpuimage
2018/07/05
2.5K0
shazam音乐检索算法 附完整c代码
https://laplacian.wordpress.com/2009/01/10/how-shazam-works/
cpuimage
2018/08/07
2K0
音频基础知识
Nyquist 采样率大于或等于连续信号最高频率分量的 2 倍时,采样信号可以用来完美重构原始连续信号。
Gnep@97
2023/09/06
3.5K0
音频基础知识
如何做好游戏内实时语音体验
本文即针对移动游戏环境下实时语音所面对的挑战,介绍一些语音预处理、流媒体协议等通用的解决方案。
腾讯游戏云
2018/02/28
13.4K4
如何做好游戏内实时语音体验
WebRTC 音频采样算法 附完整C++示例代码
之前有大概介绍了音频采样相关的思路,详情见《简洁明了的插值音频重采样算法例子 (附完整C代码)》。 音频方面的开源项目很多很多。 最知名的莫过于谷歌开源的WebRTC, 其中的音频模块就包含有  AGC自动增益补偿(Automatic Gain Control) 自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点。 ANS背景噪音抑制(Automatic Noise Suppression) 探测出背景固定频率的杂音并消除背景噪音。 AEC是回声消除器
cpuimage
2018/04/24
4.4K0
腾讯会议如何保证语音质量?音频信号处理中有这些秘籍!
导读 | 腾讯会议在去年年底推出,集结腾讯在AI、云计算、安全等方面的能力,全方位满足不同场景下的会议需求,在短短两个月内就突破千万日活大关。面对多样且复杂的场景,比如开会环境嘈杂、同一地点多设备接入、房间声学参数不理想等,腾讯会议如何通过对音频信号的处理持续保障高品质通话,提升沟通效率?本文是腾讯多媒体实验室音频技术专家李岳鹏在「腾讯技术开放日·云视频会议专场」的分享整理。 点击视频,查看直播回放 一、TRAE技术降噪增益揭秘 先简单讲一下VOIP中语音数据实时传输路径图,我们可以看到远端的数据通过
腾讯多媒体实验室
2020/04/01
7.7K1
集 降噪 美颜 虚化 增强 为一体的极速图像润色算法 附Demo程序
在2015年8月份的时候,决心学习图像算法。 几乎把当时市面上的图像算法相关书籍都看了一遍, 资金有限,采取淘宝买二手书,长期驻留深圳图书馆的做法, 进度总是很慢,学习算法不得其法。 虽然把手上所有书籍都看完了,有那么一点点头绪, 但是感觉没有任何实战经验,或者说实际的产出。 那时候恰巧看到ImageShop的一篇文章,《一种具有细节保留功能的磨皮算法。》 羡慕至极,在此情况下,鉴于本人安全出身,逆向功底还算扎实。 对这个算法进行了,长达1个月的逆向工作。 当然其实更多时间,还是对算法流程的理解上花的较多。
cpuimage
2018/04/12
3.1K0
集 降噪 美颜 虚化 增强 为一体的极速图像润色算法 附Demo程序
大话音频变声原理 附简单示例代码
在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,
cpuimage
2018/08/26
2.7K0
推荐阅读
相关推荐
音频自动增益 与 静音检测 算法 附完整C代码
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档