如果我有一个1X2X3X3的输入(我先使用通道)和2X2X2X2的权重(如下图所示),我不能真正理解Keras Conv2D输出,有人能帮我理解输出特征图吗,滤波器如何卷积到输入上以获得输出?

下面是我的代码:
import os
import tensorflow as to
import tensorflow.python.util.deprecation as deprecation
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Conv1D, Conv2D
data = tf.range(3 * 3 * 2)
print(data)
data = tf.reshape(data, (1, 2, 3, 3))
print(data)
print('-------')
e = tf.range(2 * 2 * 2 * 2)
print(e)
e = tf.reshape(e, (2, 2, 2, 2))
print(e)
print('-------')
model = Sequential()
model.add(Conv2D(2, (2, 2), input_shape=(2, 3, 3), data_format='channels_first'))
weights = [e, tf.constant([0.0,0.0])]
model.set_weights(weights)
print(model.get_weights())
yhat = model.predict(data)
print(yhat.shape)
print(yhat)

发布于 2020-05-15 00:26:30
如果您在查看每个运算符时改变视角,则更容易理解。您有一个形状为1x2x3x3的输入。由于您使用的是data_format='channels_first',这意味着您有一个具有2个通道和3x3大小的图像。您可以将该图像可视化为:
| [ 0 9] [ 1 10] [ 2 11] |
| [ 3 12] [ 4 13] [ 5 14] |
| [ 6 15] [ 7 16] [ 8 17] |这是你的3x3图像,每个“像素”都有两个通道。滤镜形状为2x2x2x2,这意味着2x2滤镜从2个通道变为2个通道。这可以表示为:
| 0 1 | | 4 5 |
| 2 3 | | 6 7 |
| 8 9 | | 12 13 |
| 10 11 | | 14 15 |这是您的2x2滤波器,其中每个滤波器位置包含一个2x2矩阵。结果,形状为1x2x2x2,是一个具有2个通道的图像,大小为2x2:
| [456 508] [512 571] |
| [624 700] [680 764] |为了理解该操作是如何工作的,我将遍历对输出的第一个“像素”[456 508]的计算。此输出是从输入图像中的第一个2x2窗口计算得出的:
| [ 0 9] [ 1 10] |
| [ 3 12] [ 4 13] |你需要做的就是将每个“像素”(两个元素向量)乘以滤波器中相应位置的矩阵:
# Top-left
| 0 1 |
[ 0 9] x | | = [18 27]
| 2 3 |
# Top-right
| 4 5 |
[ 1 10] x | | = [64 75]
| 6 7 |
# Bottom-left
| 8 9 |
[ 3 12] x | | = [144 159]
| 10 11 |
# Bottom-right
| 12 13 |
[ 4 13] x | | = [230 247]
| 14 15 |然后,您只需将所有结果向量相加:
[18 27] + [64 75] + [144 159] + [230 247] = [456 508]其余的输出以相同的方式计算,例如,输出[512 571]将通过将滤波器应用于下一个图像窗口来计算:
| [ 1 10] [ 2 11] |
| [ 4 13] [ 5 14] |诸若此类。
https://stackoverflow.com/questions/61801338
复制相似问题