目录
Inception 家族成员:Inception-V1(GoogLeNet)、BN-Inception、Inception-V2、Inception-V3、Inception-ResNet-V1、Inception-V4、Inception-ResNet-V2。
Inception系列网络结构可以模块化为:
\[Input \rightarrow Stem \rightarrow A \rightarrow ReducitonA \rightarrow B \rightarrow ReductionB \rightarrow C \rightarrow Avg\ Pooling (+ Linear) \rightarrow feature \]
Inception系列的演化过程就是上面各环节不断改进(越来越复杂)的过程,其进化方向大致为
性能进化如下图所示,single model通过center crop 在ImageNet上 Top1 和 Top5 准确率,
具体如下。
Inception-V1,更被熟知的名字为GoogLeNet,意向Lenet致敬。
通过增加网络深度和宽度可以提升网络的表征能力。
增加宽度可以简单地通过增加卷积核数量来实现,GoogLeNet在增加卷积核数量的同时,引入了不同尺寸的卷积核,来捕捉不同尺度的特征,形成了multi-branch结构——这是GoogLeNet网络结构的最大特点,如下图所示,然后将不同branch得到的feature map 拼接在一起,为了让feature map的尺寸相同,每个branch均采用SAME padding方式,同时stride为1(包括max pooling)。为了降低计算量,又引入了1×1卷积层来降维,如下图右所示,该multi-branch结构称之为一个Inception Module,在GoogLeNet中采用的是下图右的Inception Module。
直接增加深度会导致浅层出现严重的梯度消失现象,GoogLeNet引入了辅助分类器(Auxiliary Classifier),在浅层和中间层插入,来增强回传时的梯度信号,引导浅层学习到更具区分力的特征。
最终,网络结构如下,主体三段式A B C 即 3x、4x、5x,
GoogLeNet网络结构的特点可以概括为,
BN-Inception网络实际是在Batch Normalization论文中顺带提出的,旨在表现BN的强大。
与GoogLeNet的不同之处在于,
卷积,如上图所示
BN-Inception网络结构如下
Inception V2和V3出自同一篇论文Rethinking the Inception Architecture for Computer Vision。
GoogLeNet和BN-Inception网络结构中Inception Module可分为3组,称之为3x、4x和5x(即主体三段式A B C),GoogLeNet和BN-Inception这3组采用相同Inception Module结构,只是堆叠的数量不同。
Inception V2和V3与以往最大的不同之处在于3组分别使用了不同结构的Inception Module,分别如下图从左到右所示,
具体地,
除此之外,
据论文所述,V2的网络结构如下
据论文所述,V3与V2的差异在于,
但是,实际发布的Inception V3完全是另外一回事,参见pytorch/inception,有人绘制了V3的网络架构如下——网上少有绘制正确的,下图中亦存在小瑕疵,最后一个下采样Inception Module中1×1的stride为1。
需要注意的是,起下采样作用两个Inception Module并不相同。
有的时候,Inception-V2和BN-Inception是混淆的。从Inception-V3开始,Inception架构变得越来越不像人搞的……
Inception-V4,Inception-ResNet-v1 和 Inception-ResNet-v2出自同一篇论文Inception-V4, Inception-ResNet and the Impact of Residual Connections on Learning,
Inception-V4相对V3的主要变化在于,前处理使用更复杂的multi-branch stem模块,主体三段式与V3相同。
Inception-ResNet-V1与Inception-ResNet-V2,将Inception与ResNet结合,使用Inception结构来拟合残差部分,两者在A B C部分结构相同,只是后者channel数更多,两者的主要差异在前处理部分,后者采用了更复杂的multi-branch stem结构(与V4相同)。相比纯Inception结构,引入ResNet结构极大加快了网络的收敛速度。
以上。