文章/答案/技术大牛

发布

社区首页 >专栏 >【计算机视觉】OpenCV图像处理基础

【计算机视觉】OpenCV图像处理基础

蒙娜丽宁

发布于 2023-03-08 12:00:41

2.4K00

代码可运行

文章被收录于专栏：极客起源极客起源

运行总次数：0

代码可运行

1. OpenCV简

OpenCV是目前最流行的计算机视觉处理库之一，受到了计算机视觉领域众多研究人员的喜爱。计算机视觉是一门研究如何让机器“看”的科学，即用计算机来模拟人的视觉机理，用摄像头代替人眼对目标进行识别、跟踪和测量等，通过处理视觉信息获得更深层次的信息。例如，通过拍摄环绕建筑物一周的视频，利用三维重建技术重建建筑物三维模型；通过放置在车辆上方的摄像头拍摄前方场景，推断车辆能否顺利通过前方区域等决策信息。对于人类来说，通过视觉获取环境信息是一件非常容易的事情，因此有人会误认为实现计算机视觉是一件非常容易的事情。但事实不是这样的，因为计算机视觉是一个逆问题，通过观测到的信息恢复被观测物体或环境的信息，在这个过程中会缺失部分信息，造成信息不足，增加问题的复杂性。例如，当通过单个摄像头拍摄场景时，因为失去了距离信息，所以常会出现图像中“人比楼房高”的现象。因此，计算机视觉领域的研究还有很长的路要走。

无论是图像处理还是计算机视觉，都需要在计算机中处理数据，因此研究人员不得不面对一个非常棘手的问题：将自己的研究成果通过代码输入计算机，进行仿真验证。而在这个过程中会重复编写基本的程序，这相当于为了制造一辆汽车，需要重新发明轮子。为了给所有研究人员提供“车轮”，英特尔(Intel)提出了开源计算机视觉库(Open Source Computer Vision Library，OpenCV)的概念，通过在计算机视觉库中包含图像处理与计算机视觉的通用算法，避免重复无用的工作。因此，OpenCV应运而生。OpenCV由一系列C语言函数和C++类构成，除支持使用C/C+语言进行开发之外，它还支持很多其他编程语言，如Java、Python、C#、Ruby等。OpenCV可以在Linux、Windows、macOS、Android、iOS等系统上运行。OpenCV的出现极大地方便了计算机视觉研究人员的算法验证，得到了众多研究者的喜爱。经过20多年的发展，OpenCV已经成为计算机视觉领域最重要的研究工具之一。图1是OpenCV的Logo。

2. OpenCV开发环境搭建

本节会介绍如何搭建OpenCV-Python的开发环境。OpenCV-Python目前最新版本是4.5.5.62。安装OpenCV-Python可以直接使用下面的命令安装：

pip install opencv-python

或者直接到下面的页面下载whl文件安装OpenCV-Python：

https://pypi.org/project/opencv-python/#files

下载页面如图2所示。

在该页面包含了多个操作系统的OpenCV-Python版本，读者应该根据当前使用的操作系统下载相应的OpenCV-Python版本，假设读者使用的是Windows10，需要下载opencv_python-4.5.5.62-cp36-abi3-win_amd64.whl文件，然后使用下面的命令安装whl文件。

pip install opencv_python-4.5.5.62-cp36-abi3-win_amd64.whl

安装完OpenCV-Python后，进入Python的REPL环境，执行import cv2，如果没有报错，说明OpenCV-Python已经安装成功，如图3所示。

3. 读取图像

OpenCV提供了用于读取图像的imread函数，该函数的原型如下：

cv.imread( filename[,flags])->retval

参数说明：

filename：待读取图像的文件名（绝对路径或相对路径）。
flags：读取文件的类型，默认值是1，表示读取的是彩色图像（RGB格式），如果为0，表示灰度类型的图像。其中彩色图像也可以用cv2.IMREAD_COLOR表示，灰度图像可以用cv2.IMREAD_GRAYSCALE表示。
retval：imread函数的返回值，一个由数字组成的矩阵，用于表示图像中的数据（颜色值），如果图像不存在或不可读，imread函数返回None。

注意：imread函数通过文件内容确定文件格式，而不是通过文件扩展名确定文件格式。例如，如果将png格式的图像文件book.png改名为book.jpg，imread函数仍然会按png格式读取book.jpg文件。

下面的例子使用imread函数读取了当前目录中的book.png文件，并输出返回结果。

import cv2
# 读取book.png文件
image = cv2.imread("images/book.png")
// 也可以使用下面的代码读取book.png文件
// image = cv2.imread("images/book.png", cv2.IMREAD_COLOR)
print(image) # 打印book.png中的数据（颜色值）

执行这段代码，会输出如图4所示的内容。

由于图像文件数据过大，所以只是输出了一部分数据，其余部分用省略号代替。

4. 读取png文件出现警告

在执行上一节代码时，尽管可以正常输出图像的数据，但还会输出如下的警告：

libpng warning: iCCP: known incorrect sRGB profile

一般情况下，忽略这个警告并不影响OpenCV的正常工作，不过对于有强迫症的同学就太碍眼了，所以在这一节会将这个警告去掉。出现这个警告的原因是从libpng 1.6开始在检查ICC配置文件方面更为严格，所以可以删除png图像的iCCP块。下面先解释一下什么是ICC配置文件和iCCP块。

ICC配置文件：ICC是International Color Consortium（国际色彩联盟）的缩写。ICC配置文件是描述如何正确地将图像文件从一个颜色空间转换到另一个颜色空间的文件。ICC 配置文件有助于为图像获取正确的颜色。通过ICC配置文件，无论单个设备的色彩特性如何，都可以通过标准化的色彩空间正确显示色彩。
iCCP块：嵌入式ICC配置文件。在PLTE和IDAT之前。如果存在iCCP块，则不应该存在sRGB块。另外，PNG数据流最多应包含一个嵌入式配置文件。如果违反这些原则，在检测iCCP块时就可能会输出前面提到的警告。

去除这个警告的方法也很简单，就是去除iCCP块即可，如果使用macOS、Linux或Unix非常简单，在终端直接使用convert命令即可：

convert book.png book1.png

执行这行命令，可以去除book.png文件中的iCCP块，并生成新的book1.png文件，再使用上一节的代码读取book1.png文件，就不会输出这个警告了。

如果使用的是Windows，可以通过第三方图像编辑工具去除iCCP块，如跨平台的ImageMagick（https://imagemagick.org），安装完ImageMagick后，在终端执行下面的命令即可：

magick convert book.png book1.png

5. 显示图像

将图像以矩阵形式输出是给分析程序用的，如果要想给人展示图像，就应该将图像显示出来，而不是输出密密麻麻的数字。为此，OpenCV提供了imshow函数用来显示图像。imshow函数会弹出一个窗口，并在窗口中显示图像。如果只使用imshow函数显示窗口，那么这个窗口闪一下就退出了，所以还需要使用waitKey函数让阻止窗口提出。waitKey函数的作用是等待任意一个按键按下，如果有按键按下，waitKey函数就会执行完毕，继续执行下面的代码，否则waitKey函数将一直处于等待状态。尽管Python程序执行完后会释放所有资源，但一个好的习惯是在程序执行完后，主动释放资源，如果使用imshow函数打开一个窗口，那么这个窗口就是资源，所以在程序执行完毕后，需要使用destroyAllWindows方法释放通过imShow函数创建的窗口，当然，如果还有其他窗口，也会一起释放。

下面看一下这几个函数的原型：

(1) imshow函数

cv.imshow( winname, mat)-> None

参数说明：

winname：显示图像的窗口名称。
mat：要显示的图像的矩阵数据，也就是imread函数返回的值。
imshow函数的返回值是None。

(2) waitKey函数

cv.waitKey([delay])-> retval

参数说明：

delay：可选参数，表示用户等待按下键盘上按键的时间，单位是毫秒（ms）。如果超过了这个时间，用户仍然未按下键盘上的任何键，那么waitKey函数将自动结束。如果不指定delay参数，默认值是0，表示无限等待，也就是说，只要用户不按下键盘上的键，waitKey函数将一直处于阻塞状态。
retval：waitKey函数的返回值。如果用户按下键盘上的按键，那么waitKey函数返回按键对应的ASCII码，例如，用户按下了a键，那么waitKey函数的返回值是97。如果在等待delay毫秒后，用户仍然未按下任何按键，那么waitKey函数自动结束运行，并返回-1。

(3) destroyAllWindows函数

cv.destroyAllWindows()-> None

destroyAllWindows函数没有参数，返回值是None。该函数用于销毁所有正在显示图像的窗口。下面的代码使用imread函数读取了当前目录中的book.png文件，并通过imshow函数显示book.png，最后通过waitKey函数输出用户按键的ASCII值。

import cv2
image = cv2.imread("images/book.png")    # 读取book.png文件
cv2.imshow("book", image)          # 在名为book的窗口中显示book.png
print(cv2.waitKey())            # 窗口将一直显示图像，按任意键关闭窗口，并输出按键值
cv2.destroyAllWindows()          # 销毁所有窗口

执行这段代码，会弹出如图5所示的窗口。

阅读这段代码应注意如下几点：

(1) 显示图像的窗口名称不能是中文，例如，将“book”改成“我写的书”，再运行程序，窗口左上角的标题就会呈现乱码，如图6所示。

(2) imshow函数的作用只是显示窗口，但如果整个Python程序都退出了，那么imshow函数显示的窗口也会自动关闭，所以要在imshow函数后面使用waitKey函数阻止Python程序退出。

如果想将彩色图像变成灰度图像，只需要将imread函数的第2个参数指定为cv2.IMREAD_GRAYSCALE或0即可，代码如下：

image = cv2.imread("images/book.png",cv2.IMREAD_GRAYSCALE)

重新执行程序，会看到如图7所示的效果。

如果想让窗口在等待10秒后自动关闭，可以通过waitKey函数指定等待时间，代码如下：

cv2.waitKey(10000)

6. 保存图像 OpenCV提供了用于保存图像的imwrite函数，该函数可以将一个图像保存为另外一个图像文件，imwrite函数的原型如下：

imwrite(filename, img[, params]) -> retval

参数说明：

filename：保存图像时使用的绝对或相对路径，如file.jpg、d:\pic\test.png等。
img：待保存图像的数据，也就是imread函数返回的图像矩阵。
params：可选参数，图像的特殊格式，需要成对的数据。params参数是一个列表，列表元素个数需要是偶数。列表索引为偶数的元素（从0开始）表示格式ID，列表索引为奇数的元素表示格式值。这些格式ID都在cv2中定义，所有以cv2.IMWRITE开头的都是格式ID，例如，cv2.IMWRITE_JPEG_QUALITY表示jpeg格式图像的质量，值从0到100，默认是95。

下面的代码将images目录中的book.png文件以新文件名new_book.png再重新保存到images目录，然后分别以10、30、50、80、100五个质量等级将book.png转为jpg格式的图像，并以不同文件名保存着5个jpg图像。

import cv2
 
image = cv2.imread("images/book.png")         # 读取book.png
cv2.imwrite("images/new_book.png", image)      # 保存为new_book.png
params = []                    # 定义参数列表
params.append(cv2.IMWRITE_JPEG_QUALITY)        # 指定参数
params.append(10)                  # 指定参数（jpg图像质量为10）
cv2.imwrite("images/new_book1.jpg", image,params)    # 以质量为10保存为jpg图像
params[1] = 30                    # 修改参数（jpg图像质量为30）
cv2.imwrite("images/new_book2.jpg", image,params)   # 以质量为30保存为jpg图像
params[1] = 50                    # 修改参数（jpg图像质量为50）
cv2.imwrite("images/new_book3.jpg", image,params)    # 以质量为50保存为jpg图像
params[1] = 80                    # 修改参数（jpg图像质量为80）
cv2.imwrite("images/new_book4.jpg", image,params)   # 以质量为80保存为jpg图像
params[1] = 100                  # 以质量为100保存为jpg图像
cv2.imwrite("images/new_book5.jpg", image,params)    # 以质量为100保存为jpg图像

执行这段程序，会在当前目录生成6个图像文件，其中有5个jpg文件，这5个jpg文件的尺寸是不断增大的，本例的尺寸分别是23KB、38KB、49KB、73KB和202KB，这说明质量越高，图像尺寸越大。

阅读这段代码应注意如下几点：

(1) 尽管imwrite函数的效果与复制文件类似，但并不是文件复制，就算原图像文件与目标图像文件都是同一个格式，但根据复制时使用的参数不同，这两个文件的尺寸也可能不同，而且原图像文件中的隐藏信息（非图像数据）也有可能丢失。

(2) imwrite函数可以进行图像格式转换，转换后的图像格式由图像文件的扩展名绝对。例如，本例文件名使用了new_book1.jpg，那么就会将book.png图像文件转换为jpg格式的图像文件。

(3) 如果图像矩阵包含多个图像，那么可以使用imwrite函数将图像保存为TIFF格式的图像文件。

7. 获取图像属性

在处理图像的过程中，经常需要使用图像的各种属性，例如，图像的尺寸、类型等。为此，OpenCV提供了shape、size和dtype这3个常用属性，这3个常用属性代表的含义如下：

shape：元组类型的值。如果是彩色图像，元组中有3个值，分别表示像素行数，像素列数和通道数。如果是灰度图像，元组中有2个值，分别表示像素行数和像素列数。我们通常所说的图像分辨率就是“像素列数×像素行数”，如1920×1080。所以通过shape属性可以得到图像的分辨率。
size：图像包含的像素个数，其值是shape元组中3个值的乘积，也就是“像素行数×像素列数×通道数”，灰度图像的通道数为1。
dtype：图像数据使用的位数。灰度图像通常是8位单通道图像（通道数为1），大多数彩色图像是8位3通道图像（通道数为3），也就是我们常说的RGB格式的图像。这里的8位是指二进制的位数，也就是说，8位图像就是用1个字节表示最基本的像素数据。当然，还有16位、32位图像，这样的图像尺寸更大，展现的效果会更好。

下面的代码通过imread函数读取当前目录中的book.png文件，然后从imread函数返回值获取彩色图像和对应的会读的图像的不同属性。

import cv2
 
image_Color = cv2.imread("images/book.png")    # 读取book.png
print("获取彩色图像的属性：")
print("shape =", image_Color.shape)     # 获取彩色图像的像素行数、像素列数和通道数
print("size =", image_Color.size)       # 获取彩色图像包含的像素个数
print("dtype =", image_Color.dtype)     # 获取彩色图像的数据位数
# 读取与book.png（彩色图像）对应的灰度图像
image_Gray = cv2.imread("images/book.png", cv2.IMREAD_GRAYSCALE)
print("获取灰度图像的属性：")
print("shape =", image_Gray.shape)      # 获取灰度图像的像素行数和像素列数
print("size =", image_Gray.size)        # 获取灰度图像包含的像素个数
print("dtype =", image_Gray.dtype)      # 获取灰度图像包含的数据位数