卷积神经网络又称作(ConvNet, CNN),它的出现解决了人工智能图像识别的难题,图像识别数据量大,并且在识别的过程中很难保留原有的信息,因此卷积的作用就体现在这里。比如我们经常说的像素,100W像素,那就是,1000X1000个像素点,同时每个像素点上有3个颜色参数,分别为红、绿、蓝。那么处理一张100w像素的图片,就需要输入300w个参数,这还是100w像素的图片,现在看看自己手机的照片,随便一张都是千万级别的,因此图片数据需要降维。
典型的 CNN 由3个部分构成:
其中卷积层用来提取图像的局部信息,池化层用来对数据进行降维,全连接层为普通的神经网络,用于输出想要的结果。 从整体的结构上看,卷积神经网络类似与我们大脑对图像的处理过程,我们在观察一个事物或者一个人的时候,总是先从局部提取一些关键的信息,比如现在脑海里想一个人的头像,这个人的脸并不是全部很清晰的,但是他脸上的关键信息是很清楚的,比如孙红雷。
I为输入的信息,K为卷积核(3X3),convolved为卷积结果,卷积核通过不断的滑动最终生成最后的卷积结果。比如卷积结果的左上角数字4,就是通过i的阴影部分和k进行逐元素相乘得到。同时在卷积的过程中需要注意滑动的步幅,这里的步幅为1. 在实际应用中,可以使用不同的卷积核,卷积出的值越大,保留的信息越多。
池化运算就是下采样的过程,通过卷积之后得到的图片虽然缩小了,但是还是很大,因为卷积核比较小,为了降低数据维度,因此采用下采样的方式,如图所示,一开始的图片为44的图片,通过22的采样窗口,将数据压缩为2*2的数据,这里每次采样采用的最大池化原则,同时在实际中也存在平均采样的方法。
前面进行了一个卷积和池化的过程,在实际的人工智能的操作中,研究者通常采用多个卷积和池化操作,最后使得数据达到要求的大小进行运算。
这部分的就是卷积神经网络的神经网络部分了,通过前面的卷积和池化之后,图片已经缩小的足够进行神经网络运算了,对于神经网络的部分我后面会专门进行一次学习,这里不过介绍
N = (W − F+2P)/S + 1
比如 32x32大小的图片,卷积核大小为5x5,卷积核个数为6,那么它的输出大小为 N=32-5+1= 28,这样就形成了28x28x6的神经元。这个处理其实就是经典的LeNet5神经网络的C1层
上图就是经典的LeNet5的网络
LeNet-5是一种用于手写体字符识别的非常高效的卷积神经网络,也是比较经典的神经网络学习架构,后续会专门对这个结构进行详细解析和重现。
love&peace
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有