Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >来源自rnnoise,但非rnn

来源自rnnoise,但非rnn

原创
作者头像
cpuimage
发布于 2018-12-02 04:32:32
发布于 2018-12-02 04:32:32
2K0
举报
文章被收录于专栏:算法+算法+

很快又一年过去了。

自学音频算法也近一年了。

不记得有多少个日日夜夜,

半夜醒来,就为验证算法思路。

一次又一次地改进和突破。

傻逼样的坚持,必然得到牛逼样的结果。

这一年,主要扎音频算法上。

经常有网友联系我,几乎都会问我同一个问题。

我是怎么学习的?

说起来,其实很简单。

就是先设一个小目标,而且必须是一个具有挑战性的目标。

例如两年前从原来做安全,转去做图像算法。

当年定的目标就是实现一键修图的算法。

当然,也是做到了。

虽然后来也有改进过多次,但是一直没有整理出最后的版本。

有各种各样的原因,一直没时间梳理。

一键智能降噪,智能白平衡,智能曝光,同时也兼顾了算法性能。

没有具体实测,但是实时是肯定没有问题的。

一直有一个心愿,就是将这个算法梳理整理,

调优后,合入到视频播放器中,

打造一个简单而简约的视频播放器。

这个目标也渐渐靠近了,

近期一直在做ffmpeg的编码转码方面的工作。

预计明年吧,也许这个播放器就可以跟大家见面了。

而今天写的标题,主要是音频降噪这个方向。

这个目标也是今年年初给自己定下的目标。

就在昨天 2018.12.1,这个音频算法,算是第一版完成了。

这之中经历了很多很多,有很多细节。

真的有无数次尝试和改进优化。

把学习的音频算法的精髓,运用起来。

最后,达到预期目标。

这里要稍微说一下,

我是怎么做的。

其实说简单也简单,说难也难。

定了一个目标之后,

肯定是去找最传统的算法资料。

一个一个算法实现。

从中学习到每个算法的优缺点,缺点当然就要尝试改进。

优点就要考虑变通,让优点更加突出。

每次都是从一个算法延伸出很多待解决的困难,

然后发现一个问题,就找相关的资料,

尝试解决,一次又一次攻克问题。

这里面最重要的一点就是,

一定要坚持每一个算法都要自己动手实现一遍。

而且除了编解码外,不允许调用第三方库。

纯C实现。

这里有一个我这一年最难啃的点,就是傅里叶变换。

整整花了我2-3个月时间,将所有开源的傅里叶变换看一遍。

重新用c语言实现他们的思路,

最后产出自用的傅里叶变换算法。

这之间得到过一些朋友的帮助。

当然主要是讨论,迸发思路。

最重要的经验,莫过于,向成功者学习,向业内大牛学习。

不论是开源项目还是资料论文。

rnnoise这个开源项目,既然能得到很好的效果,

那就证明有一些算法思路是可行的。

只不过深度学习的方案,

特征需要依赖数据去训练。

弊端特别明显。

不采用深度学习的方法去做,肯定可以。

我一直坚信,只要有一个清晰的头脑,

不需要依赖数据提取特征,

理清楚算法的思想,也能达到一定的效果。

就跟做图像算法一样,事实证明我是对的。

毕竟曾经做过智能修图的算法,

有一定的成功经验。

在做音频算法的时候,

就少走了不少弯路,

基本上都不用写代码就能知道思路的可行性。

如果不是有图像算法的积累和坚持,

音频算法,

真的不好啃。

但是,我一直坚信,一切都会落到实处。

千万不要偷懒,你偷的懒最后还是要补回来的。

这个社会是很公平的,只有不努力的人才会觉得社会不公平。

当然现在音频降噪算法还没达到我的最终要求。

但是作为一个阶段性的成果而言,它已经达到了。

欢迎大家试用,然后给我提需求也好,

提bug也好,我会抽时间好好看看的。

音频降噪算法 linux示例程序:

https://files.cnblogs.com/files/cpuimage/denoise.zip

我这个降噪算法真的算是集传统算法优点,RNN深度学习算法思路于一身。

向rnnoise学了不少思路,致敬!

整个算法实现不到200行,

却同时拥有高速性能和不错的效果,

鲁棒性极佳,

内存占用也极低。

并且支持实时帧算法,支持多通道。

由此,大家也能看出来,我在这个算法上花了多少心血。

下层建筑搭好了。

之于图像,之于音频。

还有很多工作要做,好多方向的问题还没攻克。

路漫漫其修远兮。

近三年的杀毒软件开发经验,

不到2年图像算法经验,

不到1年的音频算法经验。

投过一些公司,

看了我的学历,

近些年的研究方向,

短而杂。

然后就说一句,

学的东西太杂,

经验不够,

深度不够。

人无完人,

确实不想发表太多评论,

我只做我自己。

国内太浮躁了,

从来没想过要跟谁去争什么。

也不想评论谁好谁坏。

是的,我本人开源的代码都很垃圾。

那又怎么样呢,你有你的评论和观点。

我有我的生活态度。

有些人翻垃圾桶的习惯真不好。

吃相太丑。

没那个兴趣和精力去做讨论和点评,

因为没有半点实际的意义。

更多的精力用来学习成长和分享。

独乐了不如众乐乐。

希望以此结交一些有志之士,一起玩耍。

吹吹水,唠唠嗑,打打吨。

巴普诺夫,很忙,很忙。

我还能睡,不要叫醒我。

若有相关问题或者需求可以邮件联系俺探讨。

有空回得快一些,没空可能就.......

邮箱地址是:  gaozhihan@vip.qq.com

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
音频识别算法思考与阶段性小结
主要是 回复 给我发邮件以及QQ上询问的朋友们的一些疑问和需求,这里稍作回复一下。
cpuimage
2018/09/20
2.2K0
学习图像算法阶段性总结 (附一键修图Demo) 2016.04.19更新demo
今天特别感慨,自己从决定研究图像处理,势必要做出一键修图算法。 经历了,三个多月的书籍积累,三个多月的算法调整以及优化。 人是一种奇怪的动物,当你做不到的时候,你以为做到了,自己会感觉很爽,很有成就感。 而当你做到了,却会觉得也就那么回事。 一开始自己只是很意外性地做到了一种劣质的颜色矫正算法,就觉得自己牛上天了。 再到后来一次又一次改进算法,最后那个最原始的算法,烂到我自己都不好意思说。 仅仅一个颜色的修复我就耗费了四五个月,再到半个月做完智能曝光算法,一切好像就是那么顺理成章,自然而然。 跟大多数人不同
cpuimage
2018/04/12
6000
学习图像算法阶段性总结 (附一键修图Demo) 2016.04.19更新demo
集 降噪 美颜 虚化 增强 为一体的极速图像润色算法 附Demo程序
在2015年8月份的时候,决心学习图像算法。 几乎把当时市面上的图像算法相关书籍都看了一遍, 资金有限,采取淘宝买二手书,长期驻留深圳图书馆的做法, 进度总是很慢,学习算法不得其法。 虽然把手上所有书籍都看完了,有那么一点点头绪, 但是感觉没有任何实战经验,或者说实际的产出。 那时候恰巧看到ImageShop的一篇文章,《一种具有细节保留功能的磨皮算法。》 羡慕至极,在此情况下,鉴于本人安全出身,逆向功底还算扎实。 对这个算法进行了,长达1个月的逆向工作。 当然其实更多时间,还是对算法流程的理解上花的较多。
cpuimage
2018/04/12
3.1K0
集 降噪 美颜 虚化 增强 为一体的极速图像润色算法 附Demo程序
【多媒体】多媒体架构(面向GPT的学习笔记记录)
不同的平台、系统以及应用程序可能具有不同的架构层次结构,但总体来说,这三个层次是构成多媒体架构的核心。
天天Lotay
2023/04/16
2K0
【多媒体】多媒体架构(面向GPT的学习笔记记录)
算法踩坑小记
反之,结果为最大值或者接近无穷大的数,甚至溢出有效范围,那就可能出现"梯度爆炸"的问题.
cpuimage
2018/12/31
5460
音视频技术开发周刊 | 274
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 ---- 「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期 各位LVSer们: 因疫情影响,北京近期不再允许举办大型线下活动,我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办,延期至2023年第一季度召开,具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们,相见是肯定的,非常情况下
LiveVideoStack
2023/04/04
6750
音视频技术开发周刊 | 274
音视频技术开发周刊 | 268
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 ---- 【LiveVideoStackCon】是时候展现“真正”的技术了! 11月25日至26日即将在北京举办的LiveVideoStackCon 2022音视频技术大会,邀请业内众多企业及专家学者,将他们在过去一年乃至更长时间里对音视频在更多领域和场景下应用的探索、在实践中打磨优化技术的经验心得、对技术与商业价值的思考,与大家一同分享和探讨。为此,我们还邀请大会各专题出品人,对音视频部分关键
LiveVideoStack
2023/04/04
5960
音视频技术开发周刊 | 268
音视频技术开发周刊 | 269
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 ---- 「延期通知」LiveVideoStackCon 2022 音视频技术大会北京站 亲爱的LiveVideoStack伙伴们:感谢大家一直以来对LiveVideoStackCon 2022 音视频技术大会 北京站活动的关注与支持。根据近期多方沟通结果,受到目前各地疫情情况及进京防控政策影响,为保证大会各方参与人员的参会体验,本次活动将延期至2022年11月25日-26日举办,给您带来的不便
LiveVideoStack
2023/04/04
7480
音视频技术开发周刊 | 269
李大龙:音视频技术是互联网品质生活的连接器
LiveVideoStack:李大龙你好,请介绍下自己,包括正在研究的技术领域以及感兴趣的方向。
LiveVideoStack
2021/09/01
3920
基于傅里叶变换的音频重采样算法 (附完整c代码)
如果特定情况下需要,我也可以上matlab,python,delphi,c#,c++等等。
cpuimage
2018/07/05
2.5K0
音视频技术开发周刊 | 273
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 ---- 「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期 各位LVSer们: 因疫情影响,北京近期不再允许举办大型线下活动,我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办,延期至2023年第一季度召开,具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们,相见是肯定的,非常情况下
LiveVideoStack
2023/04/04
4740
音视频技术开发周刊 | 273
如何学会傅里叶变换?
作者:张苏 链接:https://www.zhihu.com/question/22202980/answer/20973635 来源:知乎 著作权归作者所有,转载请联系作者获得授权。
bear_fish
2018/09/19
1.5K0
如何学会傅里叶变换?
一种简单高效的音频降噪算法示例(附完整C代码)
<<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE.
cpuimage
2019/05/02
5.4K1
音视频技术开发周刊 | 264
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 ---- 为什么参与LiveVideoStackCon 2022 北京站 距离2022年11月4日至5日召开的LiveVideoStackCon 2022 音视频技术大会 北京站 还有一个多月的时间,在我们紧锣密鼓地筹备下,又有一波精彩的演讲内容、新颖的互动环节、神秘的幕后团队等信息上线啦。现在,马上开启剧透模式,让大家一睹为快! ⏰ 活动时间:2022年11月4-5日 🌏 活动地点:北京丽亭华
LiveVideoStack
2022/09/26
7860
音视频技术开发周刊 | 264
音视频知识图谱 2022.09
前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面试题集锦,你可以看看这个合集:音视频面试题集锦。再比如:循序渐进地归纳总结音视频技术知识,绘制一幅音视频知识图谱,你可以看看这个合集:音视频知识图谱。
关键帧
2022/11/29
4660
音视频知识图谱 2022.09
69 篇文章带你系统性的学习音视频开发(收藏起来假期看)
距离我们发出第一篇音视频技术文章已经过去一年了,回顾这一年,我们发了几十篇文章,覆盖了音视频基础知识、工具使用、工程示例、实战经验等主题,这些文章基本上构成了入门音视频开发并做一些功能实现和指标优化工作所需要的知识框架,这里我们来回顾下这些文章,做一下内容简介,给需要的朋友提供一些指引。
关键帧
2023/02/14
3.5K0
69 篇文章带你系统性的学习音视频开发(收藏起来假期看)
如何利用深度学习实现单通道语音分离?
大家好,我是来自大象声科的闫永杰,接下来我会从以下六个方面为大家介绍深度学习在单通道语音分离中的应用:
LiveVideoStack
2019/07/10
3.9K0
如何利用深度学习实现单通道语音分离?
音视频技术开发周刊 | 247
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 QoS和QoE初学者指南 本篇文章从宏观角度向大家介绍QoS和QoE。我会先从它们的定义开始,然后讨论它们之间的关联。接着,我们再来简单了解公司如何衡量和使用QoS和QoE。 视频修复:无监督流对齐的序列对序列学习方法S2SVR(ICML 2022) 本文将 Seq2Seq 的架构引入到了视频超分中,其次针对光流不准的问题,之前的文章选择使用DCN进行替代,本篇论文『Unsupervised F
LiveVideoStack
2022/05/30
8130
音视频技术开发周刊 | 247
工程实践,淘宝直播高画质低延时技术探索
目前5G新基建正在迈入起航阶段,5G相比目前广泛使用的4G,它具有更高的速率,更大的容量,同时延迟更低,可靠性更高。在5G时代,视频得益于网络带宽的提升,未来将成为主流的传播媒介。越来越多的业务和应用将视频化,直播化。大量互动的内容将通过5G以低延时的方式以视频的形式传输。
CV君
2020/11/09
1.3K0
工程实践,淘宝直播高画质低延时技术探索
原创干货 | 入门或者转行音视频,应该要怎么做?
很多人对此都有疑惑,不光有工作多年的职场老司机,也有求学期间的研究生同学们,摘录了其中一部分提问,可以看到大家的疑惑是有类似的。
音视频开发进阶
2022/04/08
5530
原创干货 | 入门或者转行音视频,应该要怎么做?
相关推荐
音频识别算法思考与阶段性小结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档