使用具有MFCC特征的kohonen网络进行语音识别。我如何设置神经元和它们的权重之间的距离？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我不知道如何在map中设置每个神经元的位置。这是一个神经元和映射：{ char *name; double *weights;，如何计算模式输入(单词)和神经元之间的距离。我对重量不太确定。我将<em

浏览 1提问于2016-08-15得票数 0

回答已采纳

3回答

比较两个录制的语音

、、

我需要找到一些文献如何比较实时录制的声音(从麦克风)与预先录制的声音数据库。在比较之后，我需要输出它的匹配百分比。我正在研究音频指纹识别，但我无法从任何关于这种实现的文献中得出任何结论。这里有什么专家可以很容易地指导我实现这一点吗？

浏览 5提问于2015-01-12得票数 8

3回答

使用MFCC进行语音识别

、、、、

我目前正在使用傅里叶变换结合Keras进行语音识别(说话人识别)。我听说MFCC是语音识别的更好的选择，但我不确定如何使用它。我在python (3)中使用librosa来提取20个MFCC特征。我的问题是:我应该使用哪

浏览 4提问于2018-12-04得票数 0

1回答

MFCC特征在说话人识别和语音识别中的区别？

、、

我有个概念上的问题。我知道什么是MFCC。但是，我无法找到用于说话人识别和语音识别的mfcc特征向量之间的区别，即使用mfcc特征的哪一部分作为两者的区分因子？以及如何根据mfcc矢量区分两个说话人？

浏览 0提问于2016-12-07得票数 1

2回答

使用什么数据结构来编码经过训练的语音模型？

、

一个受过训练的声音模型是什么样子？这就是：如何将语音样本与评估模型进行比较，以确定是否匹配？我知道实现中可能有一些变化，所以来自学术文献或成功实现的任何流行示例都将是很棒的。

浏览 3提问于2017-01-04得票数 1

2回答

用于音频的卷积神经网络

、、、、

我一直在学习关于DeepLearning.net的教程，以学习如何实现从图像中提取特征的卷积神经网络。本教程解释得很好，易于理解和遵循。然而，我并不真正理解什么是音频，它是如何工作的，或者它是如何分解成网络的。我读过几篇关于这个主题的论文(多模特征提取/表示)，但是没有人解释过音频是如何</

浏览 3提问于2014-03-18得票数 34

回答已采纳

3回答

关于kohonen神经网络的几个问题

我有大数据集(时间序列，大约50个参数/值).我想使用Kohonen网络对类似的数据行进行分组。我读过一些关于Kohonen神经网络的文章，我理解Kohonen网络的概念，但是：我不知道如何实现这么多维度的Kohonen。我在CodeProj

浏览 6提问于2013-01-02得票数 2

回答已采纳

1回答

用DTW设置处理MFFC中的离群点

、、

我有一个小型的命令识别系统，在这个系统中，用户首先记录他的命令，然后系统尝试识别它们。前端特征向量是MFCC系数。后端使用DTW对齐这些特征向量并输出分数(0 ->命令相等)进行识别。此设置的问题在于将命令(用户记录的命令)与其他命令区分开来。选择最大分数作为识别命令的阈值并不能给出好<

浏览 4提问于2013-04-24得票数 0

1回答

用于训练HMM的MFCC数据格式

、、、

我正在尝试开发一个使用mfcc特征和隐马尔可夫模型的java音频分类系统。我正在关注这篇研究论文：。它对算法的描述如下：对应于声音事件的样本的每个声音文件在预先强调的帧中被处理，并由具有50%重叠的汉明窗口(25ms)开窗。由13阶MFCC组成的特征向量表征了每一帧。我已经有了第一部分<em

浏览 5提问于2012-05-29得票数 2

回答已采纳

3回答

基于mfcc和动态时间规整(dtw)的声音分类

我的目标是在java中使用mfcc和dtw对非语音信号进行分类。然而，我被卡在了中间。如果有任何帮助，我将不胜感激。我已经为每个帧评估了13个mfcc值，但是有些值是负值，我很困惑我所遵循的过程是正确的还是错误的。目前我使用的是JAudio提供的</

浏览 1提问于2012-07-17得票数 2

回答已采纳

2回答

Keras如何读取输入数据？

、、、、

我在一个项目中使用Keras，我不明白Keras如何使用数据输入，也就是说，Keras在创建第一层时如何读取我们的输入数据。model = Sequential() 在这个模型中，有10个神经元和一个三维输入意味着什么如果输入数据有100个示例(矩阵数据中的行数)，那么Keras如

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

我想知道是否有任何技术/API可以用于快速屏幕字体OCR？以下是理所当然的： OCR的文本应来自屏幕截图，并应使用屏幕字体呈现，文本可以或不使用RGB抽取(也可以或不使用RGB抽取(又称亚像素AA aka ClearType等)，屏幕快照可能是RGB或RBG顺序，基线查找很简单(只需查看所有屏幕字体:基线显示非常清楚，并且很容易找到algorithmically)a )，允许许多错误(字符识别不需要100 )。基本上我们知道的是，它将是非常常

浏览 2提问于2011-06-30得票数 3

1回答

神经网络在变长语音段MFCC中的应用

、、、

我目前正在尝试创建和训练一个神经网络来使用MFCC进行简单的语音分类。目前，我正在为每个样本使用26个系数，总共有5个不同的类--这是五个不同的单词，有不同的音节数。虽然每个样本有2秒长，但我不知道如何处理用户可以非常慢或非常快地发音的情况。例如，在1秒内说出的“电视”一词与在两秒钟内说出的单词产生不同<em

浏览 2提问于2014-02-08得票数 2

2回答

如何在识别过程中改变未识别语音信号的长度？

、

正如几本书所述，孤立词的识别过程包括以下几个方面：通过训练模型识别测试信号。由于语音信号具有不同的持续时间，它们的长度通过动态时间扭曲(DTW)技术对齐，使得N对所有

浏览 3提问于2015-12-18得票数 0

回答已采纳

2回答

深信念网络与卷积神经网络

、、、、

我是神经网络领域的新手，我想知道深层信念网络和卷积网络之间的区别。另外，是否有一个深卷积网络，它是深信念和卷积神经网络的结合？到目前为止，这是我收集到的。如果我错了，请纠正我。，HL1 =1000个神经元(比如说)，HL2 =100个神经元(比如)

浏览 8提问于2014-07-03得票数 44

回答已采纳

4回答

神经网络，它们在编码中是什么样子的？

基本上，我知道神经网络的概念和它是什么，但我不知道它在编码时是什么样子，也不知道如何存储数据，我在谷歌上找到了许多教程，但找不到任何代码，只有概念和算法。谁能给我一段简单的神经网络代码，比如"Hello World!"？

浏览 0提问于2010-07-02得票数 13

1回答

音频与R的比较

、

我在一个项目中工作，我的任务是处理语音/音频/声音比较。这个项目被用来判断比赛的胜利者(模仿)。实际上，我需要捕获用户的语音/声音，并将其与原始音频文件进行比较，并返回一个百分比匹配。我需要用R语言开发这个。我已经在R (tuneR，音频，seewave)中尝试过与语音相关的软件包，但是在我的搜索

浏览 2提问于2015-12-14得票数 8

2回答

如何对MFCC系数数组执行DTW？

、、、、

目前我正在做MATLAB的语音识别项目。我取了两个语音信号，并提取了它们的MFCC系数。据我所知，我现在应该计算两者之间的欧几里得距离，然后应用DTW算法。这就是为什么我计算了两者之间的距离，并得到了一个距离数组。所以我的问题是如何在结果数

浏览 2提问于2016-09-29得票数 1

1回答

深度学习中的全连通层

、、、、

如何确定CNN中的最佳连接层数？我可以在CNN中只使用一个完全连接的层吗？如何确定完全连接层输出的尺寸？

浏览 0提问于2018-09-21得票数 5

回答已采纳

1回答

语音聚类的聚类算法

、、、、

我们在语音域中可以使用的最佳聚类方法是什么？例如，如果我们有来自多个说话者的语音发声，并且我们需要将它们聚类到特定的篮子中，其中每个篮子对应一个speaker.For，那么我们可以使用的最佳聚类算法是什么？

浏览 2提问于2020-03-06得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云