导语:当一名警察开始举手交通时,人类驾驶员意识到该警官即将发出警告他停下来。但计算机发现根据当前的行为来制定人们下一个可能的行动更加困难。现在,A*STAR研究人员和同事们已经开发出一种探测器,可以几乎实时地成功地找出视频中人类行为发生的位置。
A*STAR信息通信研究所的计算机科学家朱宏远表示,图像分析技术需要更好地理解人类的意图才能广泛应用。他解释说,无人驾驶汽车必须能够快速准确地检测警察并解释他们的行为,以确保驾驶安全。还可以训练自治系统识别可疑活动,例如打仗,盗窃或丢弃危险物品,并提醒安保人员。
由于采用人工神经网络处理复杂图像信息的深度学习技术,计算机已经非常擅长检测静态图像中的对象。但是带有移动物体的视频更具挑战性。“了解视频中的人为行为是构建更智能,更友好的机器的必要步骤,”朱说。
朱先生说,以前在视频中定位潜在人类行为的方法并没有使用深度学习框架,而且速度慢,容易出错。为了解决这个问题,该团队的YoTube探测器并行地结合了两种类型的神经网络:静态神经网络,已经证明在处理静止图像时是准确的;以及反复出现的神经网络,通常用于处理变化的数据,用于语音识别。“
我们的方法是第一个在一个深度学习管道中将检测和跟踪结合在一起的方法,”朱说。
该团队对计算机视觉实验中常用的3,000多个视频进行了YoTube测试。他们报告说,它的表现优于最先进的探测器,正确选择潜在的人类行为约20%用于显示一般日常活动的视频,约6%用于体育视频。如果视频中的人很小,或者背景中有很多人,则检测器偶尔会出错。
领取专属 10元无门槛券
私享最新 技术干货