这几天,又把这一节反复看了几遍,深入理解后,我尽量用我自己的话,把这一节的内容组织复述一下。
第三章 识图认物
3.1 基于手工特征的图像分类
一,分类任务包含两个核心步骤:
特征提取与特征分类。
二,计算机眼中的图像
计算机要提取图像特征,必须先要知道计算机眼中的图像是什么?是数字。
我这里补充个小知识,我们用的数码相机技术从何而来?上世纪美国航天局向外太空发射了人类的第一台光学天文望远镜——哈勃望远镜。当时的照相技术还停留在胶片技术上,那时柯达胶片卖的可火了!但哈勃在地球轨道上,人不可能每次都上去取底片吧,于是,就发明了数码相机,把照片变成数字信息,通过无线电传输下来。
我们常听人们说,你的相机是多少像素的?这是什么意思。比如这台相机是600万像素(30*20)。这代表照片是由30万行和20万列的点(小色块)组成。
每一张照片都是一个三阶张量——立方体排列的数字列阵。如(x,y,z),x表示行,y表示列,z表示色彩。如果是黑白照片,用0表示黑,用255表示白,数字介于0到255之间代表不同亮度的灰色。
如果是彩色的,则z是用三个数字组成的向量表示的,由三原色原理——红,绿,蓝可以调出所有颜色。
(255,0,0)代表纯红色,(135,206,255)代表天蓝色。
三阶张量的长(x)和宽(y)代表照片的分辨率,高度(z)代表色彩,如果z是由三个数字组成,则称高度为3,就是彩照,如果是一个数字,则称高度为1,就是黑白照。高度也称为通道,彩色图像有3个通道,黑白图像只有一个通道。
三,图像特征概述
提取图像的特征——有没有翅膀和眼睛,就要分辨图像的边界,要区分特征的边界,就要用到一种运算——卷积运算。
四,卷积运算
我们先来回顾向量的内积(数量积)运算。内积运算的结果是数量,不是向量。内积的口诀是对应乘积的和。
卷积运算的结果是向量,不是数量。我们先来看一阶的卷积。
用短向量(1,2,3)和长向量的前部分(5,4,3)做内积运算得22。短向量向下滑动一位,用短向量(1,2,3)和长向量的中间部分(4,3,2)做内积得16。短向量再向下滑动一位和长向量的后一部分做内积得10。这样卷积得到向量(22,16,10)。
二阶的矩阵的卷积
对应乘积的和。
小矩阵不断纵横滑动做卷积运算得到新矩阵。
五,卷积提取图像特征
利用卷积运算提取图像的特征,关键是图像的边缘特征。我们用一个小矩阵也称为卷积核。
提取列边界的卷积核,列的数字是正1,0,负1,泾渭分明。
提取行边界的卷积核,行的数字是正1,0,负1,天壤之别。
经过卷积运算后,在边界的数字只差被放大了。
在此基础上,我们再经过画出方向梯度直方图,这样就提取出了图像的特征。
领取专属 10元无门槛券
私享最新 技术干货