编译:chux
出品:ATYUN订阅号
来自加州大学洛杉矶分校Samueli工程学院和斯坦福大学的研究人员开发了一种计算机系统,该系统可以基于人类使用的视觉学习方法,发现和识别它“看到”的真实世界物体。
该系统是计算机视觉技术的进步,计算机视觉使计算机能够读取和识别视觉图像。这是迈向通用AI系统的重要一步,计算机可以自己学习,直观,基于推理做出决策,并以更人性化的方式与人类互动。尽管当前的AI计算机视觉系统越来越强大和能力,但它们是特定于任务的,这意味着它们识别所看到的内容的能力受到人类训练和编程的程度的限制。
即使是当今最好的计算机视觉系统,在只看到物体的某些部分之后,也无法创建出物体的全貌,而且在不熟悉的环境中观看物体,也会使系统产生错觉。
研究者的目标是使计算机系统具备这些能力,就像人类只能看到椅子后的爪子和尾巴,也能辨认出它是什么动物。当然,人类也可以很容易地直觉到狗的头部及其身体的其他部位,但这种能力AI系统仍未掌握。
当前的计算机视觉系统不是为了自己学习而设计的。它们必须接受有关学习内容的训练,通常是通过成千上万的图像来识别它们试图识别的对象。基于AI的系统不像人类那样建立内部图像或学习对象的常识模型。
研究人员在《美国国家科学院院刊》中描述了可以解决这些问题的方法。该方法由三个主要步骤组成。首先,系统将图像分割成小块,研究人员将其称为“viewlet”。其次,计算机学习这些视图如何组合在一起以形成问题中的对象。最后,它会观察周围区域中的其他对象,以及有关这些对象的信息是否与描述和识别的主要对象相关。
为了帮助新系统学习时更像人类,工程师决定将其浸入人类生活环境的互联网版本中。加州大学洛杉矶分校电气与计算机工程教授和该研究的首席研究员Vwani Roychowdhury说,“幸运的是,互联网提供了两个有助于大脑启发的计算机视觉系统用人类相同的方式学习的东西,第一,互联网提供大量描绘同一类型物体的图像和视频。第二,这些物体从很多角度呈现——模糊的,鸟瞰的,近距离的,它们被放置在不同的环境中。”
为了开发框架,研究人员从认知心理学和神经科学中汲取了见解。Roychowdhury表示,“从婴儿开始,我们学习某样东西是因为我们在很多情境中看到了很多例子,这种情境学习是我们大脑的一个关键特征,它可以帮助我们建立强大的对象模型,这些模型是集成世界观的一部分,在这里,所有东西都是功能连接的。”
研究人员用大约9000张图像对系统进行了测试,包括人和其他物体。该平台能够在没有外部指导且没有标记图像的情况下构建人体的详细模型。
研究者使用摩托车,汽车和飞机的图像进行了类似的测试。他们发现系统表现得更好,至少与通过多年训练开发的传统计算机视觉系统一样好。
论文:
领取专属 10元无门槛券
私享最新 技术干货