最近,上海人民的日子真的不太好过。
相信大家已经了解到,这次“垃圾分类运动”是动真格的了。上海作为垃圾分类“新时尚”的引领者,从 7 月 1 日起,已正式实施 《上海市生活垃圾管理条例》。条例规定,个人混合投放垃圾今后可最高罚 200 元,单位混装混运,最高可罚至 5 万元,而且违规还将会列入征信,堪称“史上最严垃圾分类措施”。
而计划到2020年底,全国会有46个城市实施垃圾分类。
垃圾分类的浪潮轰轰烈烈的袭来,引得无数网友既紧张又纠结,值得庆幸的是,为了解决市民关于垃圾分类的烦恼,支付宝“AR智能识别”垃圾分类小程序日前上线了,上支付宝AR扫便可以识别垃圾。
支付宝垃圾分类小程序集AR、图像、语音、文字4种识别方式。打开支付宝首页-扫一扫-AR模式,对准垃圾就能识别。如遇到未识别出的物品,也可手动或语音输入垃圾名称。
根据官方公布的数据显示,AR识垃圾试运行第1周,已经有超过300万人查询,其中虾壳、面膜、瓜子壳、包裹着猫屎的猫砂等荣登十大“拎不清”垃圾,市民查询次数最多。
这次支付宝“AR智能识别”垃圾分类小程序借助计算机视觉技术和可视化技术,可以实现在物理世界叠加虚拟信息,并将虚拟信息准确“放置”在物理世界中。这样也是人机互换的重要形态。所以是AI+AR?
那么,AR究竟属不属于我们认知中的人工智能?AR和AI之间到底是什么关系?
先让我们看看AI和AR分别能做什么。
声音:语音输入法、通话语音转为文字、视频语音翻译为多国语言、机器人语音等
图像:证件和牌照的识别、判断植物动物的图像分类、相似图像搜索、图像审核等
自然语言:词法分析、文字相似度、机器翻译、情感倾向分析、文字审核等
人脸和人体:眼睛鼻子嘴巴等位置、实名制的人脸对比、人体四肢动作、活体检测等
AR内容:身边有只精灵跟着转、地面上有座古堡可以进去看、包装盒不用打开就看见里面等
AR互动:在房间里照顾虚拟的起司猫、多人用虚拟的玩具玩游戏等
AR+AI:人脸贴纸、人脸美颜、体感游戏、拍照实时翻译等
AR增强现实(Augmented Reality)技术是一种将虚拟信息与真实世界巧妙融合的技术,通过多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,让人们在感官上实现对真实世界的“增强”。
这种增强主要是针对视觉、听觉甚至是触觉,其中人们对现实世界的认知主要是来自于视觉,所以通常是需要通过摄像机来帮助获取信息,以图片或视频的形式呈现。通过视频,实现对三维世界环境的感知理解。
典型AR流程
在人工智能领域有几个概念常被提及,如深度学习(DL)、机器学习(ML),在学术领域包括人工智能(AI)在内几大领域均有自己的研究界限,而在普遍意义上,我们常说的是泛意的人工智能,涵括所有“让机器像人一样”的技术的应用方向。
从这张图也可以简单一窥三者的关系,深度学习是实现机器学习的一种技术方式,而机器学习是为了让机器变得智能,去达到人工智能。可以说人工智能是最终目标,而机器学习是为了实现这个目标延伸出的一个技术方向。在这其中,还有另一个重要概念为计算机视觉(CV),主要来研究如何让机器像人去“看”,是目前人工智能概念中的一个重要分支,这也是因为人类获取信息最主要的方式之一就是视觉,目前计算机视觉已经在商业市场发挥价值,比如人脸识别;自动驾驶中读取交通信号和注意行人以导航;工业机器人用来检测问题控制过程;三维环境的重建图像的处理等等。这些概念既有区分也有一定范围的重叠。
在AR的核心技术中,3D环境理解、3D交互理解和计算机视觉、深度学习都有着紧密的联系。3D环境理解在学术界里主要对应的是计算机视觉领域,而近年来深度学习在计算机视觉中得到广泛应用。交互方面,更趋自然的交互方式如手势和语音在硬件终端的使用,得益于近几年深度学习在相关领域的突破。也可以说,深度学习在AR中应用主要在视觉关键技术。
目前,AR最常见的形式是2D图片扫描识别,如腾讯QQ-AR火炬活动、支付宝五福等多数AR营销中所见,用手机扫描识别图出现叠加的内容,但主要的研发方向还在3D物体识别和3D场景建模。
现实的物体是以3D形态存在的,有不同的角度和空间方位。所以一个自然的扩展就是从2D图片识别到3D物体识别,识别物体的类别和姿态,深度学习可以用在这里。以水果识别为例,识别不同类别的水果,并且给出定位区域,即集成了物体识别与检测的功能。
3D场景建模,从识别3D物体扩大到更大更复杂的3D区域。比如识别场景里面有哪些东西、它们的空间位置和相互关系等等,这就是3D场景建模,是AR比较核心的技术。这其中涉及目前热门的SLAM(实时定位与地图构建)。通过扫描某个场景,然后在上面叠加虚拟战场等三维虚拟内容。如果只是基于普通2D图像识别就需要有特定的图片,而在图片不可见时会识别失败。而在SLAM技术里面,即使特定平面不存在,但是空间定位依然非常精确,就是因为有周围3D环境的帮助。
这里想探讨下深度学习和SLAM技术的融合,计算机视觉大体上可以分两个流派,一种基于学习的思路,例如特征提取-特征分析-分类,目前深度学习技术在这一路线上取得了主导性的地位。另外一种路线是基于几何的视觉,从线条、边缘、3D形状推出物体的空间结构信息,代表性的技术就是SFM/SLAM。基于学习的方向上深度学习基本上一统天下,但是在基于几何视觉的领域,目前相关的进展还很少。从学术界而言,深度学习技术的研究进展可以说日新月异,而SLAM技术最新十年的进展相对较少。在国际视觉顶级会议ICCV 2015年度组织的SLAM技术专题讨论会上,基于近年深度学习在视觉其它领域的快速发展,有与会专家曾提出SLAM中采用深度学习的可能性,但是目前还没有成熟的思路。总体而言,短期内将深度学习和SLAM融合是一个值得研究的方向,长远来看联合语义和几何信息是一个非常有价值的趋势。因此,SLAM+DL值得期待。
图片来源:百度
在交互方式方面,主要的包括语音识别和手势识别,语音识别在目前已经取得了较大进展,国内如百度、科大讯飞、云知声等都是其中的佼佼者,AR公司更想突破的是手势识别的成熟商业化。
以上不难看出,AR的底层技术或者说基础部分是计算机视觉以及关联领域的融合,而当下热门的深度学习和AR的结合,也是算法工程师们的努力方向。这也是AR为计算机视觉与人机交互的交叉学科,AR的基础是人工智能和计算机视觉等说法的依据。
计算机视觉与AR流程关联
未来,AR技术可以在众多的领域实现应用,比如,医疗、军事、教育、娱乐、游戏等等。而众所周知的是,传统的AR应用,只能把虚拟或者脑洞大开设想出的物体静止的呈现出来,而在行为形态和感知上毫无作用,也就是说,只能在视觉上产生真实感,仅此而已。
然而,如果将AI技术融入到AR应用上,其整体的真实感无论是从视觉还是从意识形态和行为上会更加生动,接近真实。
AR+AI结合的流程:
AR采集现实物体信息–>AI处理并返回信息–>AR叠加虚拟信息在现实物体上
AR+AI组合的角色:
AR不一定依赖AI,但拥有AI能有个聪明的大脑。
AI不依赖AR,但拥有AR会有个漂亮的外貌。
我倒觉得,与其说AR和AI是科技下不同类型的产物,倒不如说他们是一对亲密的恋人。
虽然把它们分开,各自也都可以有更好的发展,而一旦他们强强联合,其所绽放出的光彩足够让你震撼。
End