如果有多个人在说话,有没有一种实时检测的方法?我需要一个语音识别api吗?
我不想分离音频,我也不想转录它。我的方法是经常使用一个麦克风(-> mono)进行记录,然后分析这些录音。但是我怎么才能察觉和辨别声音呢?我会缩小范围,只看相关的频率,但是.
我明白这并非一件小事。这就是为什么我确实希望有一个api能够做到这一点,最好是一个移动/网络友好的api。
现在,这可能听起来像是圣诞节的购物清单,但正如前面提到的,我不需要知道任何有关内容的信息。因此,我的猜测是,一个成熟的语音识别将对性能造成很大影响。
发布于 2016-07-11 14:49:54
大多数类似的问题(成人/儿童分类器、语音/音乐分类器、单音/语音混合分类器)都是标准机器学习问题。你可以用GMM这样的分类器来解决它们。您只需要为任务构造培训数据,因此:
您可以在这里找到一些代码示例:
https://github.com/littleowen/Conceptor
例如,你可以尝试
https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb
https://stackoverflow.com/questions/38304540
复制相似问题