DeepMind新技能：GQN模型使2D照片变3D场景无需大量数据集

文章来源：企鹅号 - 72铪

近日，DeepMind在Science上发表论文，提出了Generative Query Network(简称为GQN)。DeepMind创始人Hassabis在推文中表示：这个模型能从一个场景的少量2D照片中重新生成3D表示，并且能从新的摄像头视角将它渲染出来。

当我们理解一个视觉场景时，大脑会利用经验进行推理。比如进入一个房间，只能看到一张桌子的三条腿时，我们会推断，第四条桌子腿隐藏在我们的视线之外，而我们很容易能勾画出这张桌子的全部场景。

类似的场景视觉和认知任务对人类来说很简单，但机器理解起来就十分困难。目前的计算机视觉系统，大都是监督学习的成果，系统需要用大规模标记了数据的图像集来训练，这会限制数据集包含的场景范围，更别说脑补视线范围之外的场景。

与传统的计算机视觉系统不同，GQN与婴儿和动物非常相似，能通过理解对周围环境的观察来学习。

GQN由两部分组成，一个是表示网络，一个是生成网络。表示网络负责输入智能体观察到的图像，并生成描述潜在场景的表示。生成网络负责从表示网络没有观察到的角度中，预测背后潜在的场景。

DeepMind在对GQN的实验中发现，只要给出一个场景表示、新的摄像机试点，GQN就能生成清晰的图像，即便内容不是完全可见，GQN也能将多个局部视图加以组合，形成整体。

DeepMind这套GQN模型的意义在于，它可以不依赖带标记的数据，能够推广到各种不同的场景中。

相关快讯