一、图像分类模型:
1.LeNet-5: 每一个卷积核都会形成一个特征图,3个通道则是每个通道是不同的卷积核,但是最后是将三通道的卷积值相加,最后变成一个通道,所以5564的卷积核,感知范围是5*5,最后出来是64层(个特征图)。每个卷积核都包括w(权重)和b(bias偏置)。LeNet-5最初用于手写数字识别。
2.AlexNet:5个卷积层和3个全连接层 最后输出层是1000类的Softmax。
使用如下创新:
1) ReLU 非线性激活函数
2) 多GPU训练
3) 局部响应归一化
image.png
4) 重叠池化
3.降低过拟合的方法:
1) 数据增强:对图像数据进行变换
2) Dropout 随机的关闭一定比例的节点(神经元)
4.VGGnet:最后输出为4096维,全连接层是1000维(1000类别)。最后一层是Softmax层
隐层使用ReLU
5.GoogleNet:2014ILSVRC分类任务冠军。22层
创新点:用全局平均池化层取代全连接层,借鉴了NIN(network in network)的做法
MLP网络能够更好的拟合局部特征,也增强了输入局部的表达能力,NIN不在分类层前使用全连接,而是采用全局平均池化。
提高深度网络效果的方式是:增大网络尺寸。但是带来了更多的参数和计算资源需求。
改善方案:
1) 引入稀疏性
2) Hebbin原则:两个神经元同步激发,则他们之间的权重增加,如果单独激发,则权重减少。
GoogleNet就是利用Inception 自动构建非一致结构的神经网络。
ResNet:残差网络 shortcut 一定程度上解决了过深模型梯度发散导致无法训练的问题。
DenseNet 从第一层开始每层都作为后面各层的输入。
Dual Path Network:双通道神经网络