三个正方体:特征向量,比如说图像的特征,H表示图片高度、W表示图片宽、C表示通道(黑白1通道、彩色3通道)
字母:
这是我学完SENET之后的个人理解,傻瓜式理解,不喜勿喷。
需要注意的是,这个模块非常的灵活,非常的通用,如果想水一个创新点,往已有模型里加东西,这个模块可能是一个不二之选。
最后附上代码和网络结构图(对着前面模型结构图能看懂),如果模型结构懂了,看代码就是时间问题。
在图中根据上面说的对应着应该能看懂,需要说明的是r是一个给定数,主要是怕C太大,参数太多。
源代码:SEnet.pytorch 有caffe实现的,但是配一个caffe环境,我能重装十个系统,尽量用pytorch吧。
核心模块代码(对着网络结构图看看能懂):
from torch import nn
class SELayer(nn.Module):
def __init__(self, channel, reduction=16):
super(SELayer, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.fc = nn.Sequential(
nn.Linear(channel, channel // reduction, bias=False),
nn.ReLU(inplace=True),
nn.Linear(channel // reduction, channel, bias=False),
nn.Sigmoid()
)
def forward(self, x):
b, c, _, _ = x.size()
y = self.avg_pool(x).view(b, c)
y = self.fc(y).view(b, c, 1, 1)
return x * y.expand_as(x)