腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
具有
MFCC
特征
的
kohonen
网络
进行
语音
识别
。
我
如何
设置
神经元
和
它们
的
权重
之间
的
距离
?
、
、
、
我
不知道
如何
在map中
设置
每个
神经元
的
位置。这是一个
神经元
和
映射:{ char *name; double *weights;,
如何
计算模式输入(单词)
和
神经元
之间
的
距离
。
我
对重量不太确定。
我
将<em
浏览 1
提问于2016-08-15
得票数 0
回答已采纳
3
回答
比较两个录制
的
语音
、
、
我
需要找到一些文献
如何
比较实时录制
的
声音(从麦克风)与预先录制
的
声音数据库。在比较之后,
我
需要输出它
的
匹配百分比。
我
正在研究音频指纹
识别
,但我无法从任何关于这种实现
的
文献中得出任何结论。这里有什么专家可以很容易地指导
我
实现这一点吗?
浏览 5
提问于2015-01-12
得票数 8
3
回答
使用
MFCC
进行
语音
识别
、
、
、
、
我
目前正在
使用
傅里叶变换结合Keras
进行
语音
识别
(说话人
识别
)。
我
听说
MFCC
是
语音
识别
的更好
的
选择,但我不确定
如何
使用
它。
我
在python (3)中
使用
librosa来提取20个
MFCC
特征
。
我
的
问题是:
我
应该
使用
哪
浏览 4
提问于2018-12-04
得票数 0
1
回答
MFCC
特征
在说话人
识别
和
语音
识别
中
的
区别?
、
、
我
有个概念上
的
问题。
我
知道什么是
MFCC
。但是,
我
无法找到用于说话人
识别
和
语音
识别
的
mfcc
特征
向量
之间
的
区别,即
使用
mfcc
特征
的
哪一部分作为两者
的
区分因子?以及
如何
根据
mfcc
矢量区分两个说话人?
浏览 0
提问于2016-12-07
得票数 1
2
回答
使用
什么数据结构来编码经过训练
的
语音
模型?
、
一个受过训练
的
声音模型是什么样子?这就是:
如何
将
语音
样本与评估模型
进行
比较,以确定是否匹配?
我
知道实现中可能有一些变化,所以来自学术文献或成功实现
的
任何流行示例都将是很棒
的
。
浏览 3
提问于2017-01-04
得票数 1
2
回答
用于音频
的
卷积神经
网络
、
、
、
、
我
一直在学习关于DeepLearning.net
的
教程,以学习
如何
实现从图像中提取
特征
的
卷积神经
网络
。本教程解释得很好,易于理解
和
遵循。然而,
我
并不真正理解什么是音频,它是
如何
工作
的
,或者它是
如何
分解成
网络
的
。
我
读过几篇关于这个主题
的
论文(多模
特征
提取/表示),但是没有人解释过音频是
如何</
浏览 3
提问于2014-03-18
得票数 34
回答已采纳
3
回答
关于
kohonen
神经
网络
的
几个问题
我
有大数据集(时间序列,大约50个参数/值).
我
想
使用
Kohonen
网络
对类似的数据行
进行
分组。
我
读过一些关于
Kohonen
神经
网络
的
文章,
我
理解
Kohonen
网络
的
概念,但是:
我
不知道
如何
实现这么多维度
的
Kohonen
。
我
在CodeProj
浏览 6
提问于2013-01-02
得票数 2
回答已采纳
1
回答
用DTW
设置
处理MFFC中
的
离群点
、
、
我
有一个小型
的
命令
识别
系统,在这个系统中,用户首先记录他
的
命令,然后系统尝试
识别
它们
。前端
特征
向量是
MFCC
系数。后端
使用
DTW对齐这些
特征
向量并输出分数(0 ->命令相等)
进行
识别
。此
设置
的
问题在于将命令(用户记录
的
命令)与其他命令区分开来。选择最大分数作为
识别
命令
的
阈值并不能给出好<
浏览 4
提问于2013-04-24
得票数 0
1
回答
用于训练HMM
的
MFCC
数据格式
、
、
、
我
正在尝试开发一个
使用
mfcc
特征
和
隐马尔可夫模型
的
java音频分类系统。
我
正在关注这篇研究论文:。它对算法
的
描述如下: 对应于声音事件
的
样本
的
每个声音文件在预先强调
的
帧中被处理,并由
具有
50%重叠
的
汉明窗口(25ms)开窗。由13阶
MFCC
组成
的
特征
向量表征了每一帧。
我
已经有了第一部分<em
浏览 5
提问于2012-05-29
得票数 2
回答已采纳
3
回答
基于
mfcc
和
动态时间规整(dtw)
的
声音分类
我
的
目标是在java中
使用
mfcc
和
dtw对非
语音
信号
进行
分类。然而,
我
被卡在了中间。如果有任何帮助,
我
将不胜感激。
我
已经为每个帧评估了13个
mfcc
值,但是有些值是负值,
我
很困惑
我
所遵循
的
过程是正确
的
还是错误
的
。目前
我
使用
的
是JAudio提供
的</
浏览 1
提问于2012-07-17
得票数 2
回答已采纳
2
回答
Keras
如何
读取输入数据?
、
、
、
、
我
在一个项目中
使用
Keras,
我
不明白Keras
如何
使用
数据输入,也就是说,Keras在创建第一层时
如何
读取我们
的
输入数据。model = Sequential() 在这个模型中,有10个
神经元
和
一个三维输入意味着什么如果输入数据有100个示例(矩阵数据中
的
行数),那么Keras
如
浏览 3
提问于2017-12-27
得票数 0
回答已采纳
2
回答
快速屏幕字体OCR技术还是API?
、
、
我
想知道是否有任何技术/API可以用于快速屏幕字体OCR?以下是理所当然
的
: OCR
的
文本应来自屏幕截图,并应
使用
屏幕字体呈现,文本可以或不
使用
RGB抽取(也可以或不
使用
RGB抽取(又称亚像素AA aka ClearType等),屏幕快照可能是RGB或RBG顺序,基线查找很简单(只需查看所有屏幕字体:基线显示非常清楚,并且很容易找到algorithmically)a ),允许许多错误(字符
识别
不需要100 )。基本上我们知道
的
是,它将是非常常
浏览 2
提问于2011-06-30
得票数 3
1
回答
神经
网络
在变长
语音
段
MFCC
中
的
应用
、
、
、
我
目前正在尝试创建和训练一个神经
网络
来
使用
MFCC
进行
简单
的
语音
分类。 目前,
我
正在为每个样本
使用
26个系数,总共有5个不同
的
类--这是五个不同
的
单词,有不同
的
音节数。虽然每个样本有2秒长,但我不知道
如何
处理用户可以非常慢或非常快地发音
的
情况。例如,在1秒内说出
的
“电视”一词与在两秒钟内说出
的
单词产生不同<em
浏览 2
提问于2014-02-08
得票数 2
2
回答
如何
在
识别
过程中改变未
识别
语音
信号
的
长度?
、
正如几本书所述,孤立词
的
识别
过程包括以下几个方面: 通过训练模型
识别
测试信号。由于
语音
信号
具有
不同
的
持续时间,
它们
的
长度通过动态时间扭曲(DTW)技术对齐,使得N对所有
浏览 3
提问于2015-12-18
得票数 0
回答已采纳
2
回答
深信念
网络
与卷积神经
网络
、
、
、
、
我
是神经
网络
领域
的
新手,
我
想知道深层信念
网络
和
卷积
网络
之间
的
区别。另外,是否有一个深卷积
网络
,它是深信念
和
卷积神经
网络
的
结合? 到目前为止,这是
我
收集到
的
。如果
我
错了,请纠正
我
。,HL1 =1000个
神经元
(比如说),HL2 =100个
神经元
(比如)
浏览 8
提问于2014-07-03
得票数 44
回答已采纳
4
回答
神经
网络
,
它们
在编码中是什么样子
的
?
基本上,
我
知道神经
网络
的
概念和它是什么,但我不知道它在编码时是什么样子,也不知道
如何
存储数据,
我
在谷歌上找到了许多教程,但找不到任何代码,只有概念
和
算法。谁能给我一段简单
的
神经
网络
代码,比如"Hello World!"?
浏览 0
提问于2010-07-02
得票数 13
1
回答
音频与R
的
比较
、
我
在一个项目中工作,
我
的
任务是处理
语音
/音频/声音比较。这个项目被用来判断比赛
的
胜利者(模仿)。实际上,
我
需要捕获用户
的
语音
/声音,并将其与原始音频文件
进行
比较,并返回一个百分比匹配。
我
需要用R语言开发这个。
我
已经在R (tuneR,音频,seewave)中尝试过与
语音
相关
的
软件包,但是在
我
的
搜索
浏览 2
提问于2015-12-14
得票数 8
2
回答
如何
对
MFCC
系数数组执行DTW?
、
、
、
、
目前
我
正在做MATLAB
的
语音
识别
项目。
我
取了两个
语音
信号,并提取了
它们
的
MFCC
系数。据我所知,
我
现在应该计算两者
之间
的
欧几里得
距离
,然后应用DTW算法。这就是为什么
我
计算了两者
之间
的
距离
,并得到了一个
距离
数组。所以我
的
问题是
如何
在结果数
浏览 2
提问于2016-09-29
得票数 1
1
回答
深度学习中
的
全连通层
、
、
、
、
如何
确定CNN中
的
最佳连接层数?
我
可以在CNN中只
使用
一个完全连接
的
层吗?
如何
确定完全连接层输出
的
尺寸?
浏览 0
提问于2018-09-21
得票数 5
回答已采纳
1
回答
语音
聚类
的
聚类算法
、
、
、
、
我们在
语音
域中可以
使用
的
最佳聚类方法是什么?例如,如果我们有来自多个说话者
的
语音
发声,并且我们需要将
它们
聚类到特定
的
篮子中,其中每个篮子对应一个speaker.For,那么我们可以
使用
的
最佳聚类算法是什么?
浏览 2
提问于2020-03-06
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在机器学习中经常使用的6种人工神经网络
用神经网络识别歌曲流派
用神经网络识别歌曲流派
用神经网络识别歌曲流派、国外首提“千脑智力理论”或颠覆AI:理解人类新大脑皮层
人工智能–SOM算法
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券