开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

librosa.feature.delta()内部None的第4个参数中的值非法

librosa.feature.delta() 是一个用于计算音频信号特征（如梅尔频谱图）的时间变化率的函数。这个函数的签名如下：

librosa.feature.delta(data, width=9, order=1, axis=-1, mode='interp', cval=0.0)

参数解释：

data: 输入数据，通常是音频信号的特征矩阵。
width: 滑动窗口的宽度，默认值为9。
order: 差分的阶数，默认值为1。
axis: 计算差分的轴，默认值为-1，表示最后一个轴。
mode: 边界处理模式，默认值为'interp'，表示使用插值法。
cval: 当使用边界处理模式时，用于填充的值，默认值为0.0。

如果你在使用 librosa.feature.delta() 时遇到了 None 的第4个参数中的值非法的错误，这通常意味着你在调用这个函数时传递了一个不合法的参数值。具体来说，可能是以下几种情况：

data 参数为 None：确保你传递给 data 的值不是 None，而是一个有效的音频特征矩阵。
width 参数不合法：width 应该是一个正整数，如果传递了一个非正整数或者非整数类型，会导致错误。
order 参数不合法：order 应该是一个非负整数，如果传递了一个负数或者非整数类型，会导致错误。
axis 参数不合法：axis 应该是一个整数，如果传递了一个非整数类型，会导致错误。
mode 参数不合法：mode 应该是 'nearest', 'reflect', 'wrap', 或 'interp' 中的一个，如果传递了一个不在这些值中的字符串，会导致错误。
cval 参数不合法：cval 应该是一个数值类型，如果传递了一个非数值类型，会导致错误。

以下是一个正确的使用示例：

import librosa

# 加载音频文件
y, sr = librosa.load('path_to_your_audio_file.wav')

# 计算梅尔频谱图
mel_spectrogram = librosa.feature.melspectrogram(y=y, sr=sr)

# 计算梅尔频谱图的时间变化率
delta = librosa.feature.delta(mel_spectrogram, width=9, order=1, axis=-1, mode='interp', cval=0.0)

如果你仍然遇到问题，请确保你传递的参数值符合上述要求，并且检查是否有其他代码逻辑错误。如果问题依然存在，可以提供更多的错误信息以便进一步诊断。

参考链接：

librosa.feature.delta 官方文档

相关搜索:无效参数: flutter中隔离消息中的非法参数 Solr 7.2.1中的group.format参数非法隔离消息中的参数非法：(对象为FunctionType)访问内部函数参数中的参数(javascript)Python替换嵌套JSON中的None值如何替换JSON响应中的None值？不带return语句的Some/None中的垃圾值防止ElasticSearch中数组内的对象出现非法参数异常无法使用apply()更改SFrame中的None值迭代kotlin中的枚举内部值更改项目列表中的内部值在python中传递外部函数的参数作为内部函数的参数？如何将MySQL中的None值替换为特定值？在python中调用函数的参数内部的函数将pandas数据框中的值替换为None 如果参数的默认值不是None，是否应该使用Typing.Optional？在Spock中捕获闭包内部的参数如何更改C++中的第n个模板参数？显示矩阵中除第2行和第3列交叉处的值之外的所有值将列表中的None替换为从邻居传播的值

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

人工智能下的音频还能这样玩！！！！

Librosa是一个用于音频、音乐分析、处理的python工具包，一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有，功能十分强大。本文主要介绍librosa的安装与使用方法。

03

librosa怎么安装_librosa保存音频

Librosa是一个用于音频、音乐分析、处理的python工具包，一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有，功能十分强大。本文主要介绍librosa的安装与使用方法。

04

使用Tensorflow实现声纹识别

本章介绍如何使用Tensorflow实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上，我们训练一个声纹识别模型，通过这个模型我们可以识别说话的人是谁，可以应用在一些需要音频验证的项目。

02

音频数据建模全流程代码示例：通过讲话人的声音进行年龄预测

大多数人都熟悉如何在图像、文本或表格数据上运行数据科学项目。但处理音频数据的样例非常的少见。在本文中，将介绍如何在机器学习的帮助下准备、探索和分析音频数据。简而言之：与其他的形式（例如文本或图像）类似我们需要将音频数据转换为机器可识别的格式。

01

音频数据建模全流程代码示例：通过讲话人的声音进行年龄预测

来源：DeepHub IMBA本文约6100字，建议阅读10+分钟本文展示了从EDA、音频预处理到特征工程和数据建模的完整源代码演示。大多数人都熟悉如何在图像、文本或表格数据上运行数据科学项目。但处理音频数据的样例非常的少见。在本文中，将介绍如何在机器学习的帮助下准备、探索和分析音频数据。简而言之：与其他的形式（例如文本或图像）类似我们需要将音频数据转换为机器可识别的格式。音频数据的有趣之处在于您可以将其视为多种不同的模式：可以提取高级特征并分析表格数据等数据。可以计算频率图并分析图像数据等数据。

04

基于Tensorflow实现声音分类

本章我们来介绍如何使用Tensorflow训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。话不多说，来干。

05

音频时域特征的提取

在音频领域中，我们可以使用深度学习提取和分析这些音频的频率和时域特征以了解波形的属性。在时域内提取特征时，通常将研究每个样本的幅度。我们如何操纵幅度为我们提供了有关信号的某些细节。

02

使用PaddlePaddle实现声纹识别

本章介绍如何使用PaddlePaddle实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于PaddlePaddle实现声音分类》

00

librosa音频处理教程

Librosa是一个 Python 模块，用于分析一般的音频信号，是一个非常强大的python语音信号处理的第三方库，根据网络资料以及官方教程，本文主要总结了一些重要且常用的功能。

01

基于PaddlePaddle实现声纹识别

本章介绍如何使用PaddlePaddle实现简单的声纹识别模型，本项目参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。

02

张海腾：语音识别实践教程

作为智能语音交互相关的从业者，今天以天池学习赛：《零基础入门语音识别：食物声音识别》为例，带大家梳理一些自动语音识别技术（ASR）关的知识，同时给出线上可运行的完整代码实践，供大家练习。

03

基于Pytorch实现的声纹识别模型

本章介绍如何使用Pytorch实现简单的声纹识别模型，本项目参考了人脸识别项目的做法Pytorch-MobileFaceNet ,使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。

01

基于Pytorch实现的声音分类

本章我们来介绍如何使用Pytorch训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。

04

基于Kersa实现的中文语音声纹识别

本项目说是使用Keras，但使用的都是Tensorflow下的keras接口，本项目主要是用于声纹识别，也有人称为说话人识别。本项目包括了自定义数据集的训练，声纹对比，和声纹识别。

02

基于PaddlePaddle实现声音分类

本章我们来介绍如何使用PaddlePaddle训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。

01

使用pytorch和卷积实现stft/istft

语音项目中我们通常会使用stft对特征进行提取，很多python库也提供了接口。本文主要介绍使用librosa,torch,以及卷积方式进行stft和istft的运算。

基于Tensorflow2实现的中文声纹识别

本章介绍如何使用Tensorflow实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上，我们训练一个声纹识别模型，通过这个模型我们可以识别说话的人是谁，可以应用在一些需要音频验证的项目。不同的是本项目使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。

02

基于声音信号的工业设备异常检测

异常检测主要目标是将异常事件与正常事件区分开来，因此才有了“异常”一词。本文将介绍基于声音信号的工业机械异常检测，使用的数据集是MIMII声音数据集，该数据集很容易在网上获得。

03

可视化语音分析：深度对比Wavenet、t-SNE和PCA等算法

选自Medium 作者：Leon Fedden 机器之心编译参与：Nurhachu Null、刘晓坤这篇文章基于 GitHub 中探索音频数据集的项目。本文列举并对比了一些有趣的算法，例如 Wavenet、UMAP、t-SNE、MFCCs 以及 PCA。此外，本文还展示了如何在 Python 中使用 Librosa 和 Tensorflow 来实现它们，并用 HTML、Javascript 和 CCS 展示可视化结果。 Jupyter Notebook：https://gist.github.com/f

听音识情绪 | 程序员手把手教你搭建神经网络，更快get女朋友情绪，求生欲max！⛵

《礼记·乐记》中说：“凡音之起，由人心生也。人心之动，物使之然也。感于物而动，故形于声。声相应，故生变。”

03

Python语音信号处理

原文链接：http://www.chenjianqu.com/show-44.html

02

基于Pytorch实现的语音情感识别

在语音情感识别中，我首先考虑的是语音的数据预处理，按照声音分类的做法，本人一开始使用的是声谱图和梅尔频谱。声谱图和梅尔频谱这两种数据预处理在声音分类中有着非常好的效果，具体的预处理方式如下，但是效果不佳，所以改成本项目使用的预处理方式，这个种预处理方式是使用多种处理方式合并在一起的。

05

WMCTF2020 部分Writeup&招新帖

在这次的xctf分站赛-WMCTF2020中，Timeline Sec队内大部分师傅终于有空来玩，最终取得了第16名的成绩。在这个过程中我们不得不去反思队伍建设几个月以来产生的一些问题，所以决定再次开启全面招人的决定。希望有更多积极且愿意付出精力学习的师傅加入我们的队伍，向着更高的目标冲击。具体招新事项附在文末：

03

R语言与机器学习（分类算法）神经网络

人工神经网络（ANN），简称神经网络，是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具，常用来对输入和输出间复杂的关系进行建模，或用来探索数据的模式。人工神经网络从以下四个方面去模拟人的智能行为: 物理结构：人工神经元将模拟生物神经元的功能计算模拟：人脑的神经元有局部计算和存储的功能，通过连接构成一个系统。人工神经网络中也有大

05

TensorFlow和Pytorch中的音频增强

来源：Deephub Imba本文约2100字，建议阅读9分钟本文将介绍如何将增强应用到 TensorFlow 中的数据集的两种方法。对于图像相关的任务，对图像进行旋转、模糊或调整大小是常见的数据增强的方法。因为图像的自身属性与其他数据类型数据增强相比，图像的数据增强是非常直观的，我们只需要查看图像就可以看到特定图像是如何转换的，并且使用肉眼就能对效果有一个初步的评判结果。尽管增强在图像域中很常见，但在其他的领域中也是可以进行数据增强的操作的，本篇文章将介绍音频方向的数据增强方法。在这篇文章中，将介绍

03

TensorFlow和Pytorch中的音频增强

对于图像相关的任务，对图像进行旋转、模糊或调整大小是常见的数据增强的方法。因为图像的自身属性与其他数据类型数据增强相比，图像的数据增强是非常直观的，我们只需要查看图像就可以看到特定图像是如何转换的，并且使用肉眼就能对效果有一个初步的评判结果。尽管增强在图像域中很常见，但在其他的领域中也是可以进行数据增强的操作的，本篇文章将介绍音频方向的数据增强方法。

04

使用 FastAI 和即时频率变换进行音频分类

目前深度学习模型能处理许多不同类型的问题，对于一些教程或框架用图像分类举例是一种流行的做法，常常作为类似“hello, world” 那样的引例。FastAI 是一个构建在 PyTorch 之上的高级库，用这个库进行图像分类非常容易，其中有一个仅用四行代码就可训练精准模型的例子。随着v1版的发布，该版本中带有一个data_block的API，它允许用户灵活地简化数据加载过程。今年夏天我参加了Kaggle举办的Freesound General-Purpose Audio Tagging 竞赛，后来我决定调整其中一些代码，利用fastai的便利做音频分类。本文将简要介绍如何用Python处理音频文件，然后给出创建频谱图像(spectrogram images)的一些背景知识，示范一下如何在事先不生成图像的情况下使用预训练图像模型。

04

音频处理效率测评：audioflux、torchaudio、librosa和essentia库哪个更快？

音频信号处理在各种应用中都发挥着重要的作用，如语音识别、音乐信息检索、语音合成等。其中，Mel频谱是一种常用的频域特征表示方法，用于描述人类听觉系统对频率的敏感程度。

08

歌声合成相关的数据集

GTZAN数据集是一个非常流行的音乐数据集，包含10个音乐流派，每个流派有100首30秒的音频片段。

01

R语言与分类算法-神经网络

人工神经网络(ANN)从以下四个方面去模拟人的智能行为: 物理结构：人工神经元将模拟生物神经元的功能计算模拟：人脑的神经元有局部计算和存储的功能，通过连接构成一个系统。人工神经网络中也有大量有局部处理能力的神经元，也能够将信息进行大规模并行处理存储与操作：人脑和人工神经网络都是通过神经元的连接强度来实现记忆存储功能，同时为概括、类比、推广提供有力的支持训练：同人脑一样，人工神经网络将根据自己的结构特性，使用不同的训练、学习过程，自动从实践中获得相关知识神经网络是一种运算模型，由大量的

歌声合成：world 声码器的demo

world 声码器的demo 安装要求 1. python3 2. pip3 install numpy pyworld librosa -i -i https://pypi.tuna.tsinghua.edu.cn/simple 3. os :ubuntu or macos 源代码 #!/usr/bin/env python3 # -*- coding: utf-8 -*- # import import pyworld as pw import numpy as np import lib

02

机器学习中的音频特征：理解Mel频谱图

如果你像我一样，试着理解mel的光谱图并不是一件容易的事。你读了一篇文章，却被引出了另一篇，又一篇，又一篇，没完没了。我希望这篇简短的文章能澄清一些困惑，并从头解释mel的光谱图。

02

使用Python实现语音识别与处理模型

语音识别与处理是一项重要的人工智能技术，它可以将人类语音转换成文本形式，从而实现语音命令识别、语音转写等功能。在本文中，我们将介绍语音识别与处理的基本原理和常见的实现方法，并使用Python来实现这些模型。

01

用 Python 训练自己的语音识别系统，这波操作稳了！

近几年来语音识别技术得到了迅速发展，从手机中的Siri语音智能助手、微软的小娜以及各种平台的智能音箱等等，各种语音识别的项目得到了广泛应用。

02

简单的语音分类任务入门（需要些深度学习基础）

上次公众号刚刚讲过使用 python 播放音频与录音的方法，接下来我将介绍一下简单的语音分类处理流程。简单主要是指，第一：数据量比较小，主要是考虑到数据量大，花费的时间太长。作为演示，我只选取了六个单词作为分类目标，大约 350M 的音频。实际上，整个数据集包含 30 个单词的分类目标，大约 2GB 的音频。第二：使用的神经网络比较简单，主要是因为分类目标只有 6 个。如果读者有兴趣的话，可以使用更加复杂的神经网络，这样就可以处理更加复杂的分类任务。第三：为了计算机能够更快地处理数据，我并没有选择直接把原始数据‘’喂“给神经网络，而是借助于提取 mfcc 系数的方法，只保留音频的关键信息，减小了运算量，却没有牺牲太大的准确性。

02

一名Java开发的Rust学习笔记

笔者的主力语言是Java，近三年Kotlin、Groovy、Go、TypeScript写得比较多。早年间还写过一些Python和JavaScript。总得来说落地在生产中的语言都是应用级语言，对于系统编程级语言接触不多。但这不妨碍我写下这么一篇笔记，说不定也有一些常年在应用层的同学想领略一下Rust的风采呢。

01

音频处理入门：Python 库与工具使用指南

音频处理是数字媒体和人工智能领域中的一个重要分支，它涉及到音频的录制、播放、编辑和分析等多个方面。Python 作为一种强大的编程语言，提供了多种库和工具来帮助开发者进行音频处理。本文将介绍几个常用的 Python 音频处理库，并提供相应的使用示例，以帮助读者快速入门。

01

解决xgboost\core.py", ValueError: feature_names may not contain [, ] or <

这是因为xgboost在设置特征名称时，要求特征名称不能包含方括号"[]"或小于号"<"这两个符号。这种限制是为了确保特征名称的一致性和正确性。为了解决这个错误，我们可以采取以下步骤：

02

[机器学习|理论&实践] 强化学习在语音识别技术的演变与部署

语音识别技术的演进一直受益于不断发展的机器学习算法，其中强化学习作为一种强大的学习范式，逐渐在语音识别领域崭露头角。本文将深入研究强化学习在语音识别中的演变过程，结合实例详细探讨其部署过程，包括数据处理、模型训练与部署等方面。

01

机器学习线性分类算法：感知器原理

感知器PLA是一种最简单，最基本的线性分类算法（二分类）。其前提是数据本身是线性可分的。模型可以定义为，sign函数是阶跃函数，阈值决定取0或1。模型选择的策略，利用经验损失函数衡量算法性能，由

06

全球音频领域哪家强--盘点音频领域常用的python库

计算机音频领域，有近百年的历史，论起这个行业的翘首，DAW(数字音频工作站)当之无愧，集行业各种顶尖技术和人才，产生出工业级标准如Pro Tools，各方一霸如Cubase, Logic, FL Studio ......

使用Audio Slicer 进行高效音频切割

今天我要和大家分享一个非常酷的 Python 工具，它叫做 Audio Slicer。这个小工具的主要功能是利用沉默检测技术来切割音频文件。在最新的 2.0 版本中，它的速度有了显著的提升（比之前的版本快了 400 倍！），并且切割逻辑也得到了改进，错误率大大降低。如果你对 1.0 版本感兴趣，可以在 GitHub 上找到旧版本的代码库。此外，还有一个带有图形用户界面的版本，让操作更加方便。

01

《deep learning》学习笔记（4）——数值计算

http://blog.csdn.net/u011239443/article/details/78048424 对于机器学习的问题，有一部分可以通过数学推导的方式直接得到用公式表达的解析解，但对绝大多数的问题来说，解析解是不存在的，需要使用迭代更新的方法求数值解。然而实数的精度是无限的，而计算机能够表达的精度是有限的，这就涉及到许多数值计算方法的问题。 4.1 上溢和下溢由于计算机表达实数的精度的有限，在某些情况下许多复杂的复合运算中的四舍五入会导致一个接近0的小数变为0或者一个非常大的数被认为是无穷，

05

零基础入门深度学习 | 第四章：卷积神经网络

无论即将到来的是大数据时代还是人工智能时代，亦或是传统行业使用人工智能在云上处理大数据的时代，作为一个有理想有追求的程序员，不懂深度学习这个超热的技术，会不会感觉马上就out了？现在救命稻草来了，《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识，只要会写程序就行了，没错，这是专门为程序员写的文章。虽然文中会有很多公式你也许看不懂，但同时也会有更多的代码，程序员的你一定能看懂的（我周围是一群狂热的Clean Code程序员，所以我写的代码也不会

08

使用PyTorch对音频进行分类

对对象进行分类就是将其分配给特定的类别。这本质上是一个分类问题是什么，即将输入数据从一组这样的类别，也称为类分配到预定义的类别。

03

从视频到音频：使用VIT进行音频分类

就机器学习而言，音频本身是一个有广泛应用的完整的领域，包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法，这些方法已被证明是有效的，但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品，OpenAI的Whisper就是一个很好的例子。本文中，我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。

02

从视频到音频：使用VIT进行音频分类

来源：Deephub Imba 本文约2000字，建议阅读5分钟本文中，我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。就机器学习而言，音频本身是一个有广泛应用的完整的领域，包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法，这些方法已被证明是有效的，但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品，OpenAI的Whisper就是一个很好的例子。本文中，

05

零基础入门深度学习 | 第三章：神经网络和反向传播算法

无论即将到来的是大数据时代还是人工智能时代，亦或是传统行业使用人工智能在云上处理大数据的时代，作为一个有理想有追求的程序员，不懂深度学习这个超热的技术，会不会感觉马上就out了？现在救命稻草来了，《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识，只要会写程序就行了，没错，这是专门为程序员写的文章。虽然文中会有很多公式你也许看不懂，但同时也会有更多的代码，程序员的你一定能看懂的（我周围是一群狂热的Clean Code程序员，所以我写的代码也不会

从视频到音频：使用VIT进行音频分类

就机器学习而言，音频本身是一个有广泛应用的完整的领域，包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法，这些方法已被证明是有效的，但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品，OpenAI的Whisper就是一个很好的例子。

03

使用Python实现深度学习模型：语音合成与语音转换

语音合成和语音转换是语音处理中的重要任务，广泛应用于语音助手、语音导航、语音翻译等领域。通过使用Python和深度学习技术，我们可以构建一个简单的语音合成与语音转换系统。本文将介绍如何使用Python实现这些功能，并提供详细的代码示例。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭