我一直在使用这个脚本:
spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)去获取一些立体声音乐音频的频谱图。我期望得到的频谱图具有[2,257,shape o.shape1/32]的形状,然而,事实并非如此。例如,大小为2, 199488的音频剪辑生成大小为2, 257, 6241的语谱图。为什么会这样呢?以及如何将帧位置转换为示例位置?
发布于 2021-10-04 20:30:12
请参见center参数。
是否在两侧填充
waveform,以便t-th框架在时间t x hop_length处居中。(默认值:True)
因此,默认情况下,信号是用零填充的。填充长度可能是(win_length - hop_length)。这最终使得(win_length - hop_length) / hop_length的结果变得更长,在您的例子中是7。
https://stackoverflow.com/questions/68354602
复制相似问题