我试图用Python编写一个程序,它将接受.wav (声音)文件的输入,并确定用户是说“是”还是“不是”。
问题是声音文件并不总是相同的长度。
我担心有一个静态输入维度(即5秒的音频),我可能有一个超过该维度的样本。
我最近读过谷歌的Deepmind写的本论文,它使用声音,但我不知道他们是如何处理这个问题的。
任何关于如何允许我的神经网络处理可变大小的输入的洞察力将不胜感激。
发布于 2017-03-26 21:53:09
一般来说,大多数声音处理与其他自然语言处理类似,因为第一步之一是将数据分割成基本的标记,即单词--在人类声音处理中,我们根据它们之间的沉默来分割单词。因此,您可以预先处理以下内容:
这相当于视觉深度学习系统标准化了图像的大小和位深度。
对于一些人,谁把他们的话在彼此之间,软件将有一些问题,但也是大多数听众。
https://softwareengineering.stackexchange.com/questions/344980
复制相似问题