你好,我是一个初学者,有两个问题有点不明白,希望可以指教.
1 attention,从文章中展示的图来看,所谓的attention就是一个输出对于输入的全连接,而全连接的参数可以理解为所谓的注意力,可以这样理解吗?还是attention还有其他的一些技巧?
2 时间卷积网络,比如对于语音识别,输入的是频谱信息,比如10s钟分成400帧,每帧求FFT,长度为1024,那么10s钟就变成400x1024,变成w二维的了,那么如何使用时间卷积?还是说直接输入原始的音频数据,这样还是一维的,如果zs输入的是原始的音频,那么对于不定长是怎么处理的?
希望可以指教!多谢
相似问题