今天介绍一个AI3D重建工具:DUSt3R
背景介绍
3D重建是指从二维图像中恢复出三维场景或物体的形状、纹理、光照等信息的过程。它是计算机视觉领域的一个重要研究方向,也是许多应用场景的基础
它需要解决很多难题,比如如何从平面的像素中提取出深度信息,如何从多张图片中找出对应的点,如何从不同的视角中对齐和融合三维信息,如何处理遮挡、噪声、运动等干扰因素等。
为了解决这些问题,研究者们提出了很多不同的方法,其中一种比较常见的是多视图立体重建(Multi-view Stereo Reconstruction,简称MVS)。
MVS的缺点是需要知道每张图片的相机参数,比如内参(焦距、畸变等)和外参(位置、方向等),这些参数通常是很难获取的,而且会影响重建的质量和效率。
那么,有没有一种方法,可以不需要相机参数,就能从任意的图像集合中,快速地重建出三维模型呢?答案是有的,这就是最近在GitHub上火爆的一款AI工具,叫做DUSt3R。
DUSt3R是什么?
DUSt3R是由法国纳威尔实验室(Naver Labs Europe)的研究者们开发的,它是一款基于深度学习的3D重建工具,它的特点是可以处理任意的图像集合,无论是单张、两张还是多张,无论是同一视角还是不同视角,无论是有相机参数还是没有相机参数,都可以在短短几秒钟内,生成场景的三维模型,而且还可以同时输出深度信息、像素匹配、相对和绝对相机姿态等多种任务的结果
DUSt3R的原理是使用了一种新颖的点图回归方法,以及基于Transformer的编码器和解码器,来学习从像素到三维空间的映射。点图回归方法是指将每个像素的三维坐标作为回归目标,而不是像传统的MVS方法那样,将深度值作为回归目标。
Transformer是一种基于自注意力机制的神经网络结构,它最初是用于自然语言处理领域的,但后来也被广泛应用于计算机视觉领域。DUSt3R使用了两个Transformer,一个是编码器,一个是解码器,来提高模型的性能和效率。
DUSt3R的另一个亮点是它还提供了一种简单而有效的全局对齐策略,用于处理多张图片的情况。全局对齐策略的目的是将所有的点图都转换到一个公共的参考系下,从而实现多视图的融合。
如果你对DUSt3R感兴趣,你可以访问它的GitHub页面,查看更多的细节和示例,甚至可以下载它的代码,自己试一试。
项目地址:
https://github.com/naver/dust3r
领取专属 10元无门槛券
私享最新 技术干货