我在寻求建议,为了一个个人项目。
我正在尝试创建一个用于创建自定义语音命令的软件。目标是允许用户/我录制一些音频数据(2/3秒),用于定义命令/宏。然后,当用户要说话(录制相同的音频数据)时,将执行命令/宏。该软件必须能够在低成本计算机(例如RaspberryPi)中在不到1秒的处理时间内检测到命令。
我已经通过两种方式进行了搜索:- Speech Recognition (CMU-Sphinx,Julius,simon):有很好的开源解决方案,但它们通常需要大型数据库文件,而语音识别并不是我真正想要做的。对于一个很小的特征来说,语音识别可能会消耗太多的能量。详细说明:音频指纹识别(Chromaprint -> http://acoustid.org/chromaprint):这似乎就是我想要的。其原理是从原始音频数据中创建指纹,然后比较指纹以确定它们是否相同。然而,这种软件/库似乎是为歌曲识别而设计的(就像智能手机上的著名软件):我正在尝试配置一个好的“比较器”,但我认为我走错了路。
你知道一些专门的软件或代码包做类似的事情吗?
任何建议都将不胜感激。
发布于 2013-03-09 17:09:51
歌曲指纹对于该任务来说不是一个好主意,因为命令时间可能会有所不同,而指纹需要精确的时间匹配。然而,利用CMUSphinx库Sphinxbase对时间序列和特征提取的时间序列进行匹配是非常容易的。有关详细信息,请参阅维基百科关于DTW的条目。
http://en.wikipedia.org/wiki/Dynamic_time_warping
http://cmusphinx.sourceforge.net/wiki/download
发布于 2013-10-18 18:54:14
我有一个或多或少类似的项目,我打算向机器人发送语音命令。语音识别软件对于这样的任务来说太复杂了。我使用C++中的快速傅立叶变换实现提取采样语音的傅立叶分量,然后创建主要频率的直方图(目标语音命令具有最高振幅的频率)。我尝试了两种方法:
我希望这能帮助你实现你自己的声控软件。
https://stackoverflow.com/questions/15304768
复制相似问题