近日,DeepMind在Science上发表论文,提出了Generative Query Network(简称为GQN)。DeepMind创始人Hassabis在推文中表示:这个模型能从一个场景的少量2D照片中重新生成3D表示,并且能从新的摄像头视角将它渲染出来。
当我们理解一个视觉场景时,大脑会利用经验进行推理。比如进入一个房间,只能看到一张桌子的三条腿时,我们会推断,第四条桌子腿隐藏在我们的视线之外,而我们很容易能勾画出这张桌子的全部场景。
类似的场景视觉和认知任务对人类来说很简单,但机器理解起来就十分困难。目前的计算机视觉系统,大都是监督学习的成果,系统需要用大规模标记了数据的图像集来训练,这会限制数据集包含的场景范围,更别说脑补视线范围之外的场景。
与传统的计算机视觉系统不同,GQN与婴儿和动物非常相似,能通过理解对周围环境的观察来学习。
GQN由两部分组成,一个是表示网络,一个是生成网络。表示网络负责输入智能体观察到的图像,并生成描述潜在场景的表示。生成网络负责从表示网络没有观察到的角度中,预测背后潜在的场景。
DeepMind在对GQN的实验中发现,只要给出一个场景表示、新的摄像机试点,GQN就能生成清晰的图像,即便内容不是完全可见,GQN也能将多个局部视图加以组合,形成整体。
DeepMind这套GQN模型的意义在于,它可以不依赖带标记的数据,能够推广到各种不同的场景中。
领取专属 10元无门槛券
私享最新 技术干货