
深度估计是计算机视觉的基石,广泛应用于自动驾驶、机器人、AR/VR等领域。传统深度估计方法一直受限于一个根本性约束:它们只能在预设的离散像素网格上输出深度。
这导致了两个核心问题:
来自浙江大学、理想汽车和深圳大学的研究团队提出了InfiniDepth。它将深度建模为神经隐式场,实现了真正意义上的任意分辨率、细粒度深度估计。

项目主页:zju3dv.github.io/InfiniDepth 论文链接:https://arxiv.org/abs/2601.03252
想象一下,传统的深度图像就像一张由固定格子组成的“点阵图”,你只能知道每个格子中心的深度。而InfiniDepth的理念,则是学习一个连续的数学函数。给定任意一个图像上的连续坐标(x,y),这个函数都能直接输出该点的深度值。

InfiniDepth的数学模型简洁而强大:
深度=F(图像,坐标)
这里,F是一个由神经网络参数化的隐式函数。这种表示方式带来了根本性优势:
InfiniDepth的架构主要包含两个创新部分:
如何为图像上的任意点提取特征?

这项技术还解决了一个新视角合成(NVS)中的关键难题。传统方法将每个像素的深度反投影到3D时,由于透视投影(近大远小)和表面倾斜,会导致3D点云密度严重不均,从而在渲染新视角时产生空洞和伪影。

InfiniDepth的解决方案非常巧妙:

为了公正地评估高分辨率、细粒度深度估计的能力,作者从五款3A游戏中,精心采集并构建了一个高质量的4K RGB-D基准测试集——Synth4K。

Synth4K的特点:
在Synth4K和KITTI、NYUv2等真实数据集上的大量实验表明,InfiniDepth在相对深度估计和稀疏深度引导的度量深度估计任务上,均达到了最先进的性能。

量化指标领先:在Synth4K上,无论是全图还是高频细节区域,InfiniDepth在δ0.5,δ1,δ2等严格指标上均大幅领先于DepthAnything、MoGe、Marigold等强劲基线。


视觉质量出众:生成的深度图边缘锐利、细节清晰,点云更加稠密和均匀。
应用效果显著:结合高斯泼溅渲染器,InfiniDepth为单张图像新视角合成带来了质的提升,即使在大视角变换下,也能生成完整、伪影少的视角。


InfiniDepth的核心贡献在于思维的转变——将深度从离散的网格表示,解放为连续的隐式场表示。这不仅在理论上更加优雅,更在实践中带来了分辨率自由和细节增强的双重突破。
未来方向:
InfiniDepth为高精度深度感知打开了新的大门,其“隐式场”的思想或许将启发更多视觉任务走向连续化、精细化的未来。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。