首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于深度学习语音增强-极简源代码

最近忙里偷闲,想把博士期间基于深度学习语音增强代码整理下。想当初需要在C++,perl和matlab之间来回切换,同时需要准备pfile这个上世纪产物,十分头疼。...我最终目的是想实现一个通用鲁棒语音增强工具,同时研究如何让语音增强这个前端可以真正服务于语音识别的后端模型。...简单说下,什么是语音增强语音增强,就是将带噪语音噪声去掉,这是一个古老问题,却至今难以解决。...相比较图像增强语音增强是一维信号,轮廓性差;由于声音本质是震动,噪声和语音同时可听(不像图像是遮挡)。...我提出基于DNN回归方法(参见参考文献4): 参考文献: 1、我早期语音增强代码:https://github.com/yongxuUSTC/DNN-for-speech-enhancement

4.5K70

基于深度学习图像增强综述

近年来,卷积神经网络在很多低层次计算机视觉任务中取得了巨大突破,包括图像超分辨、去模糊、去雾、去噪、图像增强等。对比于传统方法,基于CNN一些方法极大地改善了图像增强质量。...Classification-Driven Dynamic Image Enhancement 这是CVPR2018一篇文章,基于分类动态图像增强,这个论文首次将图像增强任务与分类结合起来,不同于现有的图像增强方法去评判增强后图像感知质量...从整体上来说,这篇文章创新不是很大,在baseline基础上网络结构没有特别大改动,但它计算速度明显提升,这就表明了基于卷积神经网络图像增强已经可以产生适用于移动设备高质量结果。...标准下采样操作如max pooling, average pooling, strided convolutional 是不可逆,但本文中提出这种方式没有改变任何像素值,即没有丢失输入信息,这是提高深度学习模型性能关键之一...Low-Light Image Enhancement via a Deep Hybrid Network 这是TOG2019年一篇论文,感觉创新点还是比较多,第一,提出了一种深度混合网络来增强低光照图像

6.4K61
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于深度学习图像增强综述

    近年来,卷积神经网络在很多低层次计算机视觉任务中取得了巨大突破,包括图像超分辨、去模糊、去雾、去噪、图像增强等。对比于传统方法,基于CNN一些方法极大地改善了图像增强质量。...现有的方法大多是有监督学习,对于一张原始图像和一张目标图像,学习它们之间映射关系,来得到增强图像。但是这样数据集比较少,很多都是人为调整,因此需要自监督或弱监督方法来解决这一问题。...Classification-Driven Dynamic Image Enhancement 这是CVPR2018一篇文章,基于分类动态图像增强,这个论文首次将图像增强任务与分类结合起来,不同于现有的图像增强方法去评判增强后图像感知质量...从整体上来说,这篇文章创新不是很大,在baseline基础上网络结构没有特别大改动,但它计算速度明显提升,这就表明了基于卷积神经网络图像增强已经可以产生适用于移动设备高质量结果。...标准下采样操作如max pooling, average pooling, strided convolutional 是不可逆,但本文中提出这种方式没有改变任何像素值,即没有丢失输入信息,这是提高深度学习模型性能关键之一

    1K20

    基于深度学习图像增强综述

    近年来,卷积神经网络在很多低层次计算机视觉任务中取得了巨大突破,包括图像超分辨、去模糊、去雾、去噪、图像增强等。对比于传统方法,基于CNN一些方法极大地改善了图像增强质量。...现有的方法大多是有监督学习,对于一张原始图像和一张目标图像,学习它们之间映射关系,来得到增强图像。但是这样数据集比较少,很多都是人为调整,因此需要自监督或弱监督方法来解决这一问题。...Classification-Driven Dynamic Image Enhancement 这是CVPR2018一篇文章,基于分类动态图像增强,这个论文首次将图像增强任务与分类结合起来,不同于现有的图像增强方法去评判增强后图像感知质量...本文目标是学习一种动态图像增强网络来提高分类准确度,但不是近似特定增强方法。为此,文中给出了三种CNN结构。 动态增强滤波器: ?...标准下采样操作如max pooling, average pooling, strided convolutional 是不可逆,但本文中提出这种方式没有改变任何像素值,即没有丢失输入信息,这是提高深度学习模型性能关键之一

    2K10

    基于深度学习图像增强综述

    近年来,卷积神经网络在很多低层次计算机视觉任务中取得了巨大突破,包括图像超分辨、去模糊、去雾、去噪、图像增强等。对比于传统方法,基于CNN一些方法极大地改善了图像增强质量。...现有的方法大多是有监督学习,对于一张原始图像和一张目标图像,学习它们之间映射关系,来得到增强图像。但是这样数据集比较少,很多都是人为调整,因此需要自监督或弱监督方法来解决这一问题。...Classification-Driven Dynamic Image Enhancement 这是CVPR2018一篇文章,基于分类动态图像增强,这个论文首次将图像增强任务与分类结合起来,不同于现有的图像增强方法去评判增强后图像感知质量...从整体上来说,这篇文章创新不是很大,在baseline基础上网络结构没有特别大改动,但它计算速度明显提升,这就表明了基于卷积神经网络图像增强已经可以产生适用于移动设备高质量结果。...标准下采样操作如max pooling, average pooling, strided convolutional 是不可逆,但本文中提出这种方式没有改变任何像素值,即没有丢失输入信息,这是提高深度学习模型性能关键之一

    98740

    基于深度学习视频增强平台:SUPERNOVA

    本文来自IBC2020,介绍了一篇论文,这篇文章介绍了一种称为SUPERNOVA解决方案,该解决方案由基于深度学习方法组成,可以大大提高低质量媒体内容质量。...随着媒体处理领域中技术进步,各种类型媒体服务引起了极大关注,对媒体内容可访问性增加,并且对消费高质量媒体内容需求也增加。但是仍然存在许多需要增强低质量媒体内容。...从本世纪10年代中期开始,基于深度学习方法已应用于计算机视觉和媒体处理领域,以提高质量,但这需要大量GPU计算能力,随着GPU成本逐渐降低,深度学习网络复杂性将会逐渐增加。...近期IBC发布一篇论文提出了一种名为“ SUPERNOVA”解决方案,该平台使用基于深度学习媒体处理方法来提高媒体内容视觉质量。...文章中介绍了一种基于长短期记忆(LSTM)和基于卷积神经网络(CNN)HFR方法,可以通过有效地捕获快速局部和全局运动时间动态来准确地插补快速运动帧,学习如何在两个连续输入帧(上一个帧和下一个帧)

    93930

    基于深度学习低光照图像增强

    之前在做光照对于高层视觉任务影响相关工作,看了不少基于深度学习低光照增强(low-light enhancement)文章[3,4,5,7,8,9,10],于是决定简单梳理一下。...deep autoencoder approach to natural low-light image enhancement 2017 Pattern Recognition 这篇文章应该是比较早深度学习方法完成低光照增强任务文章...,它证明了基于合成数据训练堆叠稀疏去噪自编码器能够对低光照有噪声图像进行增强和去噪。...(2)探索了两种类型网络结构:(a) LLNet,同时学习对比度增强和去噪;(b) S-LLNet,使用两个模块分阶段执行对比度增强和去噪。...(3)在真实拍摄到低光照图像上进行了实验,证明了用合成数据训练模型有效性。 (4)可视化了网络权值,提供了关于学习特征insights。

    1.8K30

    技术解码 | 基于深度学习视频色彩增强

    腾讯云极速高清视频色彩增强技术方案基于深度学习技术,结合卷积网络、全连接网络和回归等算法,实现了通过自动化调整视频亮度、对比度、饱和度来达到色彩增强效果。...目前视频色彩自动增强算法在深度学习领域遇到问题在于没有有效监督信息,由于需要提升是人类视觉系统对视频色彩主观感受, 而不是客观信噪比明暗度等指标,因此在学术和工业界都没有形成成熟方法来提升整体色彩效果...而在落地性上,目前深度学习对色彩增强方式没有考虑在视频应用场景稳定可控性。我们提出方法采用深度回归网络方式,通过亮度、对比度、饱和度不同变化取值来生成不同色彩数据对进行色彩调整参数学习。...目前,与本中心方案比较接近是 Distort-and-Recover 算法和 Exposure 算法,它们是基于深度强化学习白盒方法。...这里展示一些我们落地色彩增强前后对比视频 可以看出,我们提出基于深度学习色彩增强方案效果稳定,提升明显。

    1.9K40

    Dialog+ : 基于深度学习音频对话增强技术

    来源:IBC2021 主讲人:Matteo Torcoli 内容整理:陈梓煜 研究者通过调研发现,现今观众经常会受到听不清音频中人物对话困扰,为给观众提供个性化声平衡方案,这篇文章主要提出了一种利用深度学习改善音频中人物对话和环境声相对水平声平衡方案...Dialog+ Dialog+ 利用了深度学习方法最新进展,考虑到算法鲁棒性为了得到更好算法表现,使用到训练数据是现实世界广播内容,大部分来自于WDR和BR。...基于 HbbTV2 BR 实地测试:HbbTV2 可以基于 DVB 广播常规视频和语音,同时在网络中可以添加额外声音版本,研究者在此添加了两种额外 Dialog+ 版本音源,一种为对话突出版本...,一种为对话突出增强版本,为光中提供了更多选择使得观众可以根据自己喜好来选择对话突出程度。...但是现有的广播机制难以提供高度个性化语音平衡方案以满足不同年龄段观众对于听清音频中人物对话需求,基于此问题,本工作研究者提出了 Dialog+,这是一种通过深度学习方法,从原始声音片段中先分离出环境音和人物对话音后

    96920

    深度学习黑客竞赛神器:基于PyTorch图像特征工程深度学习图像增强

    ---- 磐创AI出品 概述 当我们没有足够数据时,图像增强是一个非常有效方法 我们可以在任何场合使用图像增强进行深度学习——黑客竞赛、工业项目等等 我们还将使用PyTorch建立一个图像分类模型...,以了解图像增强是如何形成图片 介绍 在深度学习黑客竞赛中表现出色技巧(或者坦率地说,是任何数据科学黑客竞赛) 通常归结为特征工程。...不同图像增强技术 选择正确增强技术基本准则 案例研究:使用图像增强解决图像分类问题 为什么需要图像增强深度学习模型通常需要大量数据来进行训练。通常,数据越多,模型性能越好。...我们可以使用图像增强技术,而无需花费几天时间手动收集数据。 图像增强是生成新图像以训练我们深度学习模型过程。这些新图像是使用现有的训练图像生成,因此我们不必手动收集它们。...其余四幅图像分别使用不同图像增强技术(旋转、从左向右翻转、上下翻转和添加随机噪声)生成。 我们数据集现在已经准备好了。是时候定义我们深度学习模型结构,然后在增强训练集上对其进行训练了。

    94220

    专栏 | 极限元语音算法专家刘斌:基于深度学习语音生成问题

    本文将重点分享近年来深度学习语音生成问题中新方法,围绕语音合成和语音增强两个典型问题展开介绍。 一、深度学习语音合成中应用 语音合成主要采用波形拼接合成和统计参数合成两种方式。...二、深度学习语音增强应用 通过语音增强可以有效抑制各种干扰信号,增强目标语音信号;有效语音增强算法一方面可以提高语音可懂度和话音质量,另一方面有助于提高语音识别和声纹识别的鲁棒性。...基于盲分离非负矩阵分解方法也得到了一定关注,但是这类方法计算复杂度相对较高;近年来,基于深度学习语音增强方法得到了越来越多关注,接下来重点介绍几种典型基于深度学习语音增强方法。 1....基于对抗网络语音增强深度学习生成模型方面的最新突破是生成对抗网络,GAN 在计算机视觉领域生成逼真图像上取得巨大成功,可以生成像素级、复杂分布图像。GAN 还没有广泛应用于语音生成问题。...虽然深度学习快速发展推动了智能语音产品落地,但是仍有些问题不能依赖于深度学习方法彻底解决,例如提高合成语音表现力、提高增强语音可懂度,需要在对输入输出特征物理含义深入理解基础上,有效表征信息

    1.3K80

    Pinterest推出基于深度学习PinSage以增强其推荐系统

    来自Pinterest开发人员以及斯坦福大学研究人员合作推出PinSage,这是一种基于深度学习高级推荐框架,用于社交网络中广告和购物推荐。...该框架使用图形卷积网络(GCN)来学习Web尺度图中引脚或节点。每个引脚与图像和一组文本注释相关联,例如标题和描述。...团队使用英伟达 Tesla GPU和cuDNN -accelerated TensorFlow深度学习框架,用大约18TB字节数据,或曲线图上75亿例子图表训练卷积网络,30亿个节点代表画板和Pin...该框架有可能增强产品挖掘后端并为购物未来提供动力。总之,该工作分析了比标准深度学习模型更多信息。...据我们所知,这是迄今为止最大深度图嵌入应用,并为基于图卷积结构新一代网络级推荐系统铺平了道路。”

    1.9K40

    ·深度学习进行语音识别-简单语音处理

    深度学习进行语音识别-简单语音处理 吴恩达教授曾经预言过,当语音识别的准确度从95%提升到99%时候,它将成为与电脑交互首要方式。 下面就让我们来学习深度学习进行语音室识别吧!...机器学习并不总是一个黑盒 如果你想知道神经机器翻译是如何工作,你应该猜到了我们可以简单地将一些声音送入神经网络,然后训练它使之生成文本: ?...这是使用深度学习进行语音识别的最高追求,但是很遗憾我们现在还没有完全做到这一点(至少在笔者写下这一篇文章时候还没有–我敢打赌,再过几年我们可以做到) 一个大问题是语速不同。...解决问题诀窍是将这些基于发音预测与基于书面文本(书籍、新闻文章等)大数据库可能性得分相结合。扔掉最不可能结果,留下最实际结果。...当然可能有人实际上说是「Hullo」而不是「Hello」。但是这样语音识别系统(基于美国英语训练)基本上不会产生「Hullo」这样转写结果。

    2.8K20

    深度学习之图像数据增强

    在图像深度学习中,为了丰富图像训练集,更好提取图像特征,泛化模型(防止模型过拟合),一般都会对数据图像进行数据增强, 数据增强,常用方式,就是旋转图像,剪切图像,改变图像色差,扭曲图像特征,...改变图像尺寸大小,增强图像噪音(一般使用高斯噪音,盐椒噪音)等....但是需要注意,不要加入其他图像轮廓噪音.   对于常用图像数据增强实现,如下: 1 # -*- coding:utf-8 -*- 2 """数据增强 3 1....ImageFile.LOAD_TRUNCATED_IMAGES = True 23 24 25 class DataAugmentation: 26 """ 27 包含数据增强八种方式...53 :param image: PIL图像image 54 :return: 剪切之后图像 55 56 """ 57

    2.1K70

    学界 | 一文概览基于深度学习监督语音分离

    选自arXiv 机器之心编译 参与:刘晓坤、路雪 近年来,基于深度学习监督语音分离发展很快。...过去十年内已经有很多监督分离算法被提出,特别是最近提出基于深度学习监督语音分离有很多进步之处,在分离任务中表现有很大提高。这篇论文对最近几年基于深度学习监督语音分离研究进行了概述。...在过去十年内,通过运用大型训练数据和增加计算资源,监督语音分离大幅提高了最先进性能 [17]。监督分离从深度学习发展中受益良多,这也是本文主题。...监督语音分离算法可以大体上分为以下几个部分:学习机器、训练目标和声学特征。本文,我们首先回顾这三个部分。然后介绍代表性算法,包括单声道方法和基于阵列算法。...语音增强基于 DNN 频谱映射方法图示 [161]。 ? 图 6. 配置自动编码器以进行无监督调试语音增强 DNN 架构 [182]。

    1.6K110

    Github项目推荐 | Cheetah - 基于深度学习设备端语音转文本引擎

    项目地址: https://github.com/Picovoice/cheetah Cheetah 是一种设备上语音到文本引擎。 它可以: 离线并在本地运行,无需连接互联网。...允许添加新单词并适应不同上下文。 License 本项目仅用于非商业用途。 有关详细信息,请参阅 LICENSE 。 本项目中许可证文件是有时间限制。...如果你希望在商业产品中使用Cheetah,请发送电子邮件至sales@picovoice.ai,并附上你产品用例简要说明。 下表描述了引擎免费版和商业版之间功能比较。...No Yes 支持 社区支持 专业支持 性能 此处提供了Porcupine和其他两个广泛使用库:PocketSphinx和Mozilla DeepSpeech准确性和运行时指标之间比较。...如果可以的话,请使用其中一个演示应用程序作为你自己实现起点。最后,resources文件夹是项目仓库中各种应用程序使用数据占位符。

    2.1K20

    深度学习数据增强技术:Augmentation

    概念 数据增强(Data Augmentation)是一种通过利用算法来扩展训练数据技术。人工智能三要素之一为数据,但获取大量数据成本高,但数据又是提高模型精度和泛化效果重要因素。...,复杂度高5000 GPU hours RandAugment:减小搜索空间,所有变换采用相同幅度 Refinement:在增强训练后再用原始数据训练一段时间 基于GAN数据增强:利用原始数据分布生成新数据...发展 数据增强最简单方式是各种几何变换和颜色变换,在imgaug库(https://github.com/aleju/imgaug)中有非常多函数。...但一个关键问题是:针对特定数据集、网络,哪一种增强方式是最适合?...展望 数据增强是增大数据规模,减轻模型过拟合有效方法,最近研究也特别活跃。但目前研究显示,最优增强方式和数据集、网络都有关系,如何低成本地找到最优增强方式,是一个非常难问题。

    4.6K10

    Nature子刊 | 纽约大学团队提出基于深度学习语音生成技术脑电-语音解码

    神经信号语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型数据在时间上是非常有限,通常只有十分钟左右,而深度学习模型往往需要大量训练数据来驱动。...近期基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音中间潜在表示和合成后语音质量两个关键维度上展开。...该框架能产生非常接近说话人自己声音自然语音,并且ECoG解码器部分可以插入不同深度学习模型架构,也支持因果操作(causal operations)。...研究人员共收集并处理了48名神经外科病人ECoG数据,使用多种深度学习架构(包括卷积、循环神经网络和Transformer)作为ECoG解码器。...基于语音合成器,本文设计了一个高效语音重合成框架以及神经-语音解码框架,相应框架结构可以参考原文图6. 02、研究结果分析 首先,研究者直接比较不同模型架构(卷积(ResNet)、循环(LSTM)

    25410

    深度学习语音识别上应用

    我今天演讲主要分四个部分,第一个是分享语音识别概述,然后是深度神经网络基础;接下来就是深度学习语音识别声学模型上面的应用,最后要分享语音识别难点以及未来发展方向。...下面讲深度学习和声学模型上应用,语音识别最主要工作集中在声学模型建模,主要是人发音以后,到底识别出来音速是什么样,到底是什么声音?...深度学习语音识别上面的工作,主要是有DNN、LSTM、CLDNN,看起来是一些英文字母,其实都是深度学习神经网络。...下面讲深度学习和声学模型上应用,语音识别最主要工作集中在声学模型建模,主要是人发音以后,到底识别出来音速是什么样,到底是什么声音?...深度学习语音识别上面的工作,主要是有DNN、LSTM、CLDNN,看起来是一些英文字母,其实都是深度学习神经网络。

    7.5K40

    深度学习系列 | 诺亚面向语音语义深度学习研究进展

    特别是2012年来,深度学习语音、图片、视频识别,包括自然语言处理方面取得重大突破等。...语音识别方面:基于深度神经网络声音模型替隐马尔可夫框架下基于混合高斯分布升学模型,使语音识别取得了突破性进展。...目前完全融合了声学模型、语言模型和声学词典基于深度学习端到端语音识别系统也开始出现,并有可能演进为下一代语音识别系统。...二、诺亚语音语义方面深度学习相关研究 华为诺亚方舟实验室已经成为中国在深度自然语言处理研究(deep learning for NLP)领域最好实验室之一。...不再拘泥于一个简单模型,而是多个不同功能神经网络耦合而成系统,这个系统可以和现实世界完成对接和交互,能够接受延迟和曲折监督信号(和增强学习结合),是“可微”,或者至少是可以被优化(譬如基于抽样优化

    76860
    领券