在安防领域,摄像头已经得到大规模的使用,但监控的有效性依然面临两个严峻的挑战:
1)摄像头只能起到记录功能,识别还要依靠人眼,真正能实时监控到的场景非常有限。一个像机场大小的公共场所,摄像头的数量要达到几万台,而同一时间负责监控视频的安保人员大概只有几个人;此外,视频监控往往都采用画面轮播机制,每过一定时间自动切换屏幕上显示的监控视频画面。所以,那些真正有信息价值的画面被人看到、注意到的几率就很小。
2)难以有效查询历史记录。据估计全球监控视频记录的存储已经消耗了75%的硬盘资源,以某广场为例,每天产生的监控视频数据,刻成光盘摞起来,甚至超过埃菲尔铁塔的高度。要在如此庞大的数据库里依靠人眼寻找某个特定画面或犯罪嫌疑人,需要动用大量的人力资源,并且效率低下。
开发基于人工智能的计算机视觉技术,致力于让计算机像人一样主动获取视觉信息并进行精确的实时分析。传统的计算机视觉研究都是基于二维相机捕捉的图片信号,对于计算机视觉系统来说,这是非常困难且不科学的。我们人类是如此聪明的生物,既然我们都需要用双眼去看懂这个三维的世界,计算机难道能利用二维的图片就看懂这个世界吗?这显然是不可能的,因为在这个过程中,我们丢失了很重要的一维信息,三维变二维,深度信息被直接舍弃了,这种方法有严重的缺陷。
所以为了能够理解精确的尺度概念,包括对尺寸、速度、距离等概念的把握,三维深度视觉是一条我们必须选择的道路。利用三维深度视觉,对于提高计算机的视觉感知技术,尤其是实时的、对精度要求很高的技术,至关重要。
通过研发三维视觉感知技术,实现对人物的精确检测、跟踪,对动作姿态(包括暴力、跌倒等危险行为)和人物运动轨迹(包括越界、逆行、徘徊等可疑轨迹)的检测和分析。在自动场景和人物检测的基础上,自动给安保人员提供预警信号,主动提醒、报告异常,保证让安保人员“看得到”。同时,利用感知技术抽象出人物的特征,从非时间的维度进行监测、跟踪、搜索,真正做到“找得到”。
智能安防系统上一共装有3个镜头,一个是和普通安防系统一样的RGB摄像头,另外两个用来发射和接收激光。激光发射镜头能够在1/30秒的时间里发送36万束激光,安防系统借助它们扫描出现实世界的三维立体图像。这3个镜头就相当于计算机的“眼睛”,所做的不仅是给计算机装上“眼睛”,而且给计算机设置了一套“视网膜神经系统”,让计算机能够看懂“眼睛”里出现的东西。
借助机器学习算法,系统能够同时分辨多人的运动轨迹和行动速度,并一一精确记录。比如早上8时的北京地铁站,人群正处于早高峰极端拥挤的状态,可以从中分辨出一个穿红衣服的女孩,精确跟踪她在人群中的行走轨迹。同时,系统还能够监测人类肢体的运动幅度和速度,从而精确识别人们的姿势和正在做的事情。
目前,视频监控系统已经在对安防要求较高的银行进行应用测试,如果该技术投入大规模商业化应用,将有效改善现有视频监控的缺陷,是人工智能改变世界迈出的非常积极的一步。
领取专属 10元无门槛券
私享最新 技术干货