导读:本文主要介绍了机器视觉的主要应用场景,目前绝大部分数字信息都是以图片或视频的形式存在的,若要对这些信息进行有效分析利用,则要依赖于机器视觉技术的发展,虽然目前已有的技术已经能够解决很多问题,但离解决所有问题还很遥远,因此机器视觉的应用前景还是非常广阔的。
我们热切地期盼更多的读者投身到该领域,与我们一起探索图像数据的无尽潜力。
▲图1-1 人工智能相关领域关系图
00 什么是机器视觉?
机器视觉是人工智能的一个重要分支,其核心是使用“机器眼”来代替人眼。机器视觉系统通过图像/视频采集装置,将采集到的图像/视频输入到视觉算法中进行计算,最终得到人类需要的信息。这里提到的视觉算法有很多种,例如,传统的图像处理方法以及近些年的深度学习方法等。
图1-2a展示了一个由彩色图像组成的、分类的数据集Cifar10,其中有飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车10个类别,且每个类别中都有1000张32×32的彩色图片。图1-2b展示的是不同算法在Cifar10数据集上的分类效果。
▲图1-2a Cifar10数据集展示
▲图1-2b 传统图像处理方法与深度学习方法在Cifar10数据集上的效果对比
从中我们可以看出,在深度学习出现以前,传统的图像处理和机器学习方法并不能很好地完成这样一个简单的分类任务,而深度学习的出现使得机器有了达到人类水平的可能。事实上,AlphaGo的出现已经证明了在一些领域,机器有了超越人类的能力。
由于深度学习技术的发展、计算能力的提升和视觉数据的增长,视觉智能计算技术在不少应用当中都取得了令人瞩目的成绩。
图像视频的识别、检测、分割、生成、超分辨、captioning、搜索等经典和新生的问题纷纷取得了不小的突破。这些技术正广泛应用于城市治理、金融、工业、互联网等领域。
以下将以9个场景为例,对一些常见的应用场景进行介绍,让读者直观地理解机器视觉都能解决哪些问题。
01 人脸识别
人脸识别(Face Recognition)是基于人的面部特征信息进行身份识别的一种生物识别技术。它通过采集含有人脸的图片或视频流,并在图片中自动检测和跟踪人脸,进而对检测到的人脸进行面部识别。人脸识别可提供图像或视频中的人脸检测定位、人脸属性识别、人脸比对、活体检测等功能。
人脸识别是机器视觉最成熟、最热门的领域,近几年,人脸识别已经逐步超过指纹识别成为生物识别的主导技术。人脸识别分为4个处理过程——人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别,其主要应用及说明如下:
▲图1-3 人脸识别应用场景
由于人脸识别产业的需求旺盛,众多大型科技公司和人工智能创业公司均有涉足该领域,目前该技术已经处于大规模商用阶段,未来3~5年仍将继续保持高速增长。
02 视频监控分析
视频监控分析是利用机器视觉技术对视频中的特定内容信息进行快速检索、查询、分析的技术。由于摄像头的广泛应用,由其产生的视频数据已是一个天文数字,这些数据蕴藏的价值巨大,靠人工根本无法统计,而机器视觉技术的逐步成熟,使得视频分析成为可能。
通过这项技术,公安部门可以在海量的监控视频中搜寻到罪犯;在拥有大量流动人群的交通领域,该技术也被广泛应用于人群分析、防控预警等。
城市治理是视频监控分析应用价值最高的领域之一,以下列举了一些典型的应用场景及说明:
▲图1-4 交通异常事件监测
视频/监控领域盈利空间广阔,商业模式多种多样,将视觉分析技术应用于视频监控领域正在形成一种趋势,目前已率先应用于交通、安防、零售、社区、楼宇、校园、工地等场合。
03 工业瑕疵检测
机器视觉技术可以快速获取大量信息,并进行自动处理。在自动化生产过程中,人们将机器视觉系统广泛应用于工业瑕疵诊断、工况监视和质量控制等领域。
工业瑕疵诊断是指利用传感器(如工业相机、X光等)将工业产品内外部的瑕疵进行成像,通过机器学习技术对这些瑕疵图片进行识别(如图1-5),确定瑕疵的种类、位置,甚至对瑕疵产生的原因进行分析的一项技术。目前,工业瑕疵诊断已成为机器视觉的一个非常重要的应用领域。
▲图1-5 工业瑕疵诊断应用场景
随着制造业向智能化、无人化方向发展,以及人工成本的逐年上升,广泛存在于制造业的产品外观检测迫切需要通过机器视觉技术替代人工外检人员。
一方面图像外检技术可以运用到一些危险环境和人工视觉难以满足要求的场合;另一方面,更重要的是,人工检测面临检测速度慢、检测准确率不稳定(随着人眼检测时间的增加,检测准确率明显下降)、不同质检员的检测水平不一致的情况,同时,质检员的责任心、状态也会影响检测水平,这些都会直接影响产品的品质。
而图像外检技术可以大大提高生产效率、速度和生产的自动化程度,降低人工成本。
04 图片识别分析
这里所说的图片识别是指人脸识别之外的静态图片识别,图片识别可应用于多种场景,目前应用比较多的是以图搜图、物体/场景识别、车型识别、人物属性、服装、时尚分析、鉴黄、货架扫描识别、农作物病虫害识别等。
这里列举一个图像搜索的例子:拍立淘。拍立淘是手机淘宝的一个应用,主要通过图片来代替文字进行搜索,以帮助用户搜索无法用简单文字描述的需求。
比如,你看到一条裙子很好看,但又很难用简单的语言文字来描述这条裙子的样子,那么这个时候就可以使用拍立淘,通过图片轻松地在淘宝上搜出同款裙子,或者是与它非常接近的款式,如图1-6所示。
▲图1-6 图片识别应用效果
05 自动驾驶/驾驶辅助
自动驾驶汽车是一种通过计算机实现无人驾驶的智能汽车,它依靠人工智能、机器视觉、雷达、监控装置和全球定位系统协同合作,让计算机可以在没有任何人类主动操作的情况下,自动安全地操作机动车辆(如图1-7)。机器视觉的快速发展促进了自动驾驶技术的成熟,使无人驾驶在未来成为可能。
▲图1-7 自动驾驶汽车应用场景
自动驾驶技术链比较长,主要包含感知阶段、规划阶段和控制阶段三个部分。机器视觉技术主要应用在无人驾驶的感知阶段,其基本原理可概括如下。
06 三维图像视觉
三维图像视觉主要是对三维物体进行识别,其主要应用于三维机器视觉、双目立体视觉、三维重建、三维扫描、三维测绘、三维视觉测量、工业仿真等领域。三维信息相比二维信息,能够更全面、真实地反映客观物体,提供更大的信息量。
近年来,三维图像视觉已经成为计算机视觉领域的重要课题,在虚拟现实、文物保护、机械加工、影视特技制作、计算机仿真、服装设计、科研、医学诊断、工程设计、刑事侦查现场痕迹分析、自动在线检测、质量控制、机器人及许多生产过程中得到越来越广泛的应用。
07 医疗影像诊断
医疗数据中有90%以上的数据来自于医疗影像。医疗影像领域拥有孕育深度学习的海量数据,医疗影像诊断可以辅助医生做出判断(如图1-8),提升医生的诊断效率。目前,医疗影像诊断主要应用于如下场景中:
图1-8是肝脏及结节分割技术的影像分析结果。
▲图1-8 肝脏及结节分割技术,从左至右:CT原始影像、真实结果、算法结果
08 文字识别
计算机文字识别,俗称光学字符识别(Optical Character Recognition),是利用光学扫描技术将票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。该技术可应用于如下场景中:
▲图1-9 文字识别技术的应用场景
09 图像/视频的生成及设计
人工智能技术不仅可以对现有的图片、视频进行分析、编辑,还可以进行再创造。机器视觉技术可以快速、批量、自动化地进行图片设计,因此其可为企业大幅度节省设计人力成本。
人工智能可以从艺术作品中抽象出视觉模式,然后将这些模式应用于具有该作品的标志性特征的摄影图像的幻想再现。这些算法还可以将任何粗糙的涂鸦转换成令人印象深刻的绘画,看起来就像是由描绘真实世界模型的专家级人类艺术家创建的一样。
人工智能技术可以手绘人脸的草图,并通过算法将其转化为逼真的图像;还可以指导计算机渲染任何图像,使其看起来好像是由特定人类艺术家以特定风格创作的一样;甚至可以对任何图像、图案图形和其他不在源头中的细节化腐朽为神奇。
关于作者:魏溪含 ,爱丁堡大学人工智能硕士,阿里巴巴达摩院算法专家,在计算机视觉、大数据领域有8年以上的算法架构和研发经验。
涂铭,阿里巴巴数据架构师,对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究,积累了丰富的实践经验。
张修鹏,毕业于中南大学,阿里巴巴技术发展专家,长期从事云计算、大数据、人工智能与物联网技术的商业化应用,在阿里巴巴首次将图像识别技术引入工业,并推动图像识别产品化、平台化。
本文摘编自《深度学习与图像识别:原理与实践》,经出版方授权发布。
延伸阅读《深度学习与图像识别:原理与实践》