首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Tensorflow实现声音分类

    y1, sr1 = librosa.load(data_path, duration=2.97) ps = librosa.feature.melspectrogram(y=y1, sr=sr1) 创建训练数据...在创建训练数据之前,我们最好清理一下数据,因为有一些音频包含了静音,这些静音会影响模型的训练,我们需要把这些静音片段都裁剪掉,保证数据集的干净。...我们搭建简单的卷积神经网络,通过把音频数据转换成梅尔频谱,数据的shape也相当于灰度图,所以我们可以当作图像的输入创建一个深度神经网络。然后定义优化方法和获取训练和测试数据。...最后把这些文件按照训练数据的要求创建数据列表,和生成TFRecord文件。..., sr = librosa.load(data_path) intervals = librosa.effects.split(wav, top_db=20) wav_output =

    3.9K54

    提取视频中的音频——python三行程序搞定「建议收藏」

    可以使用 librosa 包来分析音频,这里是librosa 的 github 地址 安装 python 包 安装 librosa,cmd 或 bash 输入 pip install librosa...官网上说使用 conda 安装则自动安装 MP3 支持的相关包。具体请去librosa 的 github 地址了解。...读取音频 假设有一个 wav 文件路径为”e:/chrome/my_audio.wav”。科普一下音频数据的内容,可以认为记录采样频率和每个采样点的信号强度两个部分即可构成一个音频文件。...下面我们读取音频 import librosa audio, freq = librosa.load('e:/chrome/my_audio.wav') time = np.arange(0, len(...画信号强度图 当然我们可以使用 librosa 库的工具来分析,可以修掉音频首尾的其他信息,画信号强度图的方式如下: import librosa.display audio, _ = librosa.effects.trim

    1.4K20

    基于Pytorch实现的声纹识别模型

    首先是创建一个数据列表,数据列表的格式为,创建这个列表主要是方便之后的读取,也是方便读取使用其他的语音数据集,语音分类标签是指说话人的唯一ID,不同的语音数据集,可以通过编写对应的生成数据列表的函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式的,作者发现这种格式读取速度很慢,所以笔者把全部的mp3格式的音频转换为wav格式,在创建数据列表之后,可能有些数据的是错误的...主要是把语音数据转换短时傅里叶变换的幅度谱,使用librosa可以很方便计算音频的特征,如梅尔频谱的API为librosa.feature.melspectrogram(),输出的是numpy值,可以直接用...wav, sr_ret = librosa.load(audio_path, sr=sr) linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_2.wav 不是同一个人,相似度为:-0.259855 声纹识别 在上面的声纹对比的基础上,我们创建infer_recognition.py实现声纹识别。

    2.2K10

    基于PaddlePaddle实现声纹识别

    首先是创建一个数据列表,数据列表的格式为,创建这个列表主要是方便之后的读取,也是方便读取使用其他的语音数据集,语音分类标签是指说话人的唯一ID,不同的语音数据集,可以通过编写对应的生成数据列表的函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式的,作者发现这种格式读取速度很慢,所以笔者把全部的mp3格式的音频转换为wav格式,在创建数据列表之后,可能有些数据的是错误的...主要是把语音数据转换短时傅里叶变换的幅度谱,使用librosa可以很方便计算音频的特征,如梅尔频谱的API为librosa.feature.melspectrogram(),输出的是numpy值,可以直接用...wav, sr_ret = librosa.load(audio_path, sr=sr) linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_2.wav 不是同一个人,相似度为:0.020499 声纹识别 在上面的声纹对比的基础上,我们创建infer_recognition.py实现声纹识别。

    1.5K20

    基于Kersa实现的中文语音声纹识别

    首先是创建一个数据列表,数据列表的格式为,创建这个列表主要是方便之后的读取,也是方便读取使用其他的语音数据集,语音分类标签是指说话人的唯一ID,不同的语音数据集,可以通过编写对应的生成数据列表的函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式的,作者发现这种格式读取速度很慢,所以笔者把全部的mp3格式的音频转换为wav格式,在创建数据列表之后,可能有些数据的是错误的.../zhmagicdata/5_970/5_970_20170616000122.wav3241数据读取有了上面创建的数据列表和均值标准值,就可以用于训练读取。...wav, sr_ret = librosa.load(audio_path, sr=sr)linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_2.wav 不是同一个人,相似度为:0.020499声纹识别在上面的声纹对比的基础上,我们创建infer_recognition.py实现声纹识别。

    2.8K20
    领券