文章:Deep Learning for Camera Calibration and Beyond: A Survey
作者:Kang Liao, Lang Nie, Shujuan Huang, Chunyu Lin, Jing Zhang, Yao Zhao
编辑:点云PCL
欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。
公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载,欢迎各位同学积极分享和交流。
摘要
相机标定涉及估计相机参数,以从捕获的序列图像中推断几何特征,这在计算机视觉和机器人领域至关重要。然而传统标定过程繁琐且需要专门的数据采集。最近的研究表明,基于学习的解决方案有潜力替代重复性的手动标定工作。在这些解决方案中,各种学习策略、网络结构、几何先验和数据集都得到了探索。本文对基于学习的相机标定技术进行了全面综述,分析了它们的优点与局限性。我们的主要标定类别包括标准针孔相机模型、畸变相机模型、跨视角模型和跨传感器模型,这些类别遵循了研究趋势及其扩展应用。由于该领域尚无统一的基准数据集,本文收集了一个全面的标定数据集,旨在作为一个公共平台,用于评估现有方法的泛化能力。该数据集包含合成和真实世界的数据,包括由不同相机在多种场景中拍摄的图像和视频。最后,我们讨论了这一领域面临的挑战,并提出了进一步的研究方向。据我们所知,这是首个针对基于学习的相机标定(涵盖近8年研究)的综述。文中总结的方法、数据集和基准将持续更新,并可在以下地址访问:
https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration
图 1. 相机标定中的常见标定目标、模型及其扩展应用。
主要贡献
相机标定是计算机视觉和机器人技术中的基础任务,用于估计相机的内参(图像传感器参数和畸变参数)和外参(旋转和平移参数),以支持计算摄影、多视几何和三维重建等任务。标定技术涉及针孔相机模型、鱼眼相机、立体相机、光场相机、事件相机以及LiDAR-相机系统等多种设备,其应用领域包括虚拟现实、自动驾驶和神经渲染等。传统方法依赖于手动设计的特征和模型假设,可分为三大类:
- 标定目标法:使用校准目标(如棋盘格),通过多视角拍摄角点计算相机参数,但步骤繁琐且难以自动化。
- 几何先验法:利用几何结构(如线条和消失点)进行标定,但对几何丰富的人造场景依赖较强,在普通环境中表现不佳。
- 自标定法:通过多视几何估计相机参数,但易受特征检测器性能限制。
随着深度学习的兴起,基于学习的方法为相机标定提供了更灵活的解决方案,这些方法摆脱了传统手工设计的限制,可以实现无目标、模型无关和自动化的标定,为未知场景和单张图像的标定提供了新方向。本文总结了过去60年的相机标定技术发展,尤其是过去8年中基于深度学习的方法,覆盖了超过100篇文献。以下是主要贡献和内容摘要:
- 深入分析了基于深度学习的相机标定方法的不同方面,包括网络架构、损失函数、数据集、评估指标和学习策略等。比较了传统的物理模型与神经网络的非参数化方法。
- 拓展研究范围,在传统参数(如焦距、旋转、平移)的基础上,还涵盖了图像失真校正(径向畸变、滚动快门畸变)、跨视角映射估计、相机与LiDAR联合标定等扩展应用。
- 数据集与评测平台,构建了一个综合数据集,包括由不同相机在多种环境中捕获的图像和视频,支持现有方法的泛化能力评估。
- 未来研究方向,总结了基于学习的相机标定在精度、鲁棒性、通用性等方面的挑战,并提出了一些未来的研究方向。
- 开源平台,创建了一个开源资源库,提供所有研究的分类和基准,定期更新并公开发布于https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration
主要内容
图 2. 基于深度学习的相机标定的结构化与层次化分类法。每个类别下列出了一些经典方法。
标准模型
在基于深度学习的相机标定中,内参标定的目标通常包括焦距和光心,而外参标定的目标主要是旋转矩阵和平移向量。
内参标定
- Deepfocal:作为学习型相机标定的开创性工作,旨在估计“自然场景”中任意图像的焦距。其方法基于针孔相机模型,利用深度卷积神经网络回归水平视场角(Hθ)。
- MisCaliDet:针对因组件磨损、温度波动或外部干扰引起的相机内参变化,提出一种新标量度量指标 APPD(平均像素位置差异),用于衡量相机失准程度。
外参标定
- PoseNet:首次使用深度卷积神经网络实时回归相机的6自由度位姿(3D位置 xxx 和四元数表示的方向 qqq)。
- DeepFEPE:设计端到端的基于关键点的框架,模仿传统管道以检测、特征提取、匹配和排除异常点。
- 其他方法利用中间表征(如表面几何、深度图、方向概率分布等)和几何约束,引导网络感知几何相关特征以优化外参估计。
联合内外参标定
几何表征:
- 消失点:如 DeepVP和 NeurVPS提出了从单张图像中检测消失点的深度学习方法,结合几何先验实现高效学习。
- 地平线线条:如 DeepHorizon通过深度学习估计图像中的地平线位置,尤其应用于图像测量与3D场景理解。
复合参数标定:
- Hold-Geoffroy et al. :通过大规模全景数据集训练,实现内外参的联合标定。还开展了人类感知研究,以评估校准精度对3D对象真实性的影响。
- CTRL-C:结合语义特征和几何线索,引导网络理解图像的透视结构。
早期工作分别研究内参和外参标定,后续研究逐渐关注全面标定及联合优化方法。几何先验在减轻深度学习对大数据需求方面展现潜力。未来方向:
- 探索更多模型先验:利用非参数模型直接编码3D射线与图像像素之间的关系,减少对特定相机模型的假设。
- 解耦学习阶段:将特征提取与目标估计分离,可提高学习效率并推广至更广泛的标定问题。
- 基于几何差异的误差度量:构建统一的几何属性测量空间,以平衡不同参数误差。
- 基于NeRF的标定:尽管NeRF技术在同时优化相机参数和位姿方面取得进展,但其计算需求高且在稀疏视图或低纹理场景中存在挑战。
畸变模型
在基于深度学习的相机标定中,由于广角镜头和CMOS传感器的广泛应用,径向畸变和滚动快门畸变的校正受到越来越多的关注。这里主要回顾这两种畸变的标定与校正方法。径向畸变针对基于深度学习的径向畸变校正方法,文献大致分为两类:基于回归的解决方案和基于重建的解决方案。
基于回归的解决方案
- 经典方法:Rong等人和DeepCalib是学习型广角相机标定的开创性工作,他们将相机标定建模为监督分类或回归问题,通过卷积层和全连接层的网络学习输入图像的畸变特征,并预测相机参数,其中DeepCalib提出了三种学习策略,实验表明简单的单网络架构(SingleNet)在准确性和效率方面表现最佳。后续改进:一些研究引入了语义特征和几何特征,以增强网络对畸变的感知能力。此外,方法如无监督学习、自监督学习和强化学习进一步提升了泛化能力。
- 动态生成:RDC-Net通过在训练过程中随机生成畸变图像,提升了校正性能并防止模型过拟合。
- 可解释性:一些研究探索了径向对称特性,开发了位置感知的权重层,如Shi等人的固定权重层和PSE-GAN的可学习权重层,从而使网络显式感知畸变。
基于重建的解决方案
受到条件图像到图像转换技术和密集视觉感知的启发,重建方法从传统回归方法中逐渐发展出来。例如DR-GAN首次直接建模失真图像和校正图像之间的逐像素映射,摆脱了对相机模型假设的依赖,实现了无相机参数训练和单阶段校正。
- 统一模型:DDM通过畸变分布图将不同相机模型统一到一个领域,并结合几何先验实现图像校正。
- 减少伪影:后续研究开发了位移场来减少像素级伪影生成。例如FE-GAN将几何先验和自监督策略相结合,提出了一种适用于广角相机标定的失真流学习方法。
- 改进架构:PCN设计了校正层,避免跳跃连接造成的模糊问题,而PolarRecNet通过将失真图像从笛卡尔坐标系转换到极坐标系,进一步提高了对径向对称性的感知能力。
- 滚动快门畸变:深度学习在滚动快门(RS)畸变校正方面分为两类:基于单帧的解决方案和基于多帧的解决方案。
基于单帧的解决方案
经典方法是URS-CNN是首个针对滚动快门校正的学习型工作,通过长核卷积网络提取场景结构和行扫描相机运动的交互特性。RSC-Net进一步提升自由度至6-DoF,提出了结构与运动感知校正模型。事件相机EvUnroll利用事件相机的高时间分辨率特性,将RS校正问题转化为事件流处理。
基于多帧的解决方案
运动估计:DeepUnrollNet首次使用两帧RS图像构建端到端网络,通过前向映射模块估计RS到全局快门(GS)的位移场。联合校正:JCD结合RS校正和去模糊技术,设计了双向映射流以补偿位移并恢复细节。对齐改进:SUNet通过上下文感知的校正流消除连续帧之间的错位问题,而AW-RSC利用多头注意力机制和可学习卷积块进一步提升了校正精度。基于回归的解决方案逐渐被基于重建的方法替代,后者通过学习位移场实现更高效的校正,越来越多的研究引入几何先验和多样化特征,推动了深度学习模型的快速收敛和解释能力的提升。未来方向
- 将滚动快门和广角相机标定的技术互相借鉴,如多帧校正策略和几何先验的应用。
- 设计更高效的训练数据采样策略,减少冗余标注数据对模型训练效率的影响。
- 引入高精度传感器(如事件相机)或多模态传感器,实现跨模态联合标定,提高标定的精度和稳定性。
跨视图模型的深度单应估计方法
跨视图模型处理多相机场景中的复杂参数表示,如基础矩阵、基本矩阵和单应矩阵。单应矩阵(Homography)是最常用于描述不同视角间像素级对应关系的工具,并在深度学习研究中得到了广泛探讨。针对深度单应估计方法,可分为直接解决方案、级联解决方案和迭代解决方案。
直接解决方案,直接解决方案通过不同参数化方法直接估计单应矩阵,包括经典的4点参数化和其他形式。
- 点参数化:早期方法(如DHN)使用VGG网络预测4点参数化,随后通过DLT算法计算3×3单应矩阵。后续发展包括:
- 无监督方法(如UDHN):以像素级光度误差为损失,避免真实标注数据的依赖。
- 轻量化网络(如ShuffleHomoNet):通过多尺度特征表示应对大位移。
- 处理视差方法:如CA-UDHN设计注意力掩码忽略视差区域,改进背景对齐。
- 拓展:将4点参数化拓展为网格流以实现更精确的非平面对齐。
级联解决方案,级联方法通过复杂网络架构逐步改进单应估计性能。
- HierarchicalNet:堆叠网络减少误差。
- 多尺度学习:通过图像金字塔结构逐步增强对大位移的适应能力,但特征冗余问题仍需优化。
- 跨分辨率问题:如LocalTrans通过局部Transformer网络解决不同分辨率输入的对齐问题。
- 低重叠图像处理:修改无监督约束以适应真实低重叠场景。
迭代解决方案,迭代方法通过逐步优化提升单应估计的准确性。
- 基于Lucas-Kanade(LK)算法的优化,使用反向组合形式(IC-LK)避免重复计算梯度。
- CLKN通过CNN提取语义特征并在特征图上迭代优化单应参数。
- IHN受RAFT启发,通过更新代价体积反复优化单应矩阵,具备处理动态场景的能力。
- 参数化方面:从经典4点参数化扩展到视角场、运动基等形式,改进了收敛性和性能。
- 网络设计方面:级联和迭代方法逐步优化,解决实际问题如分辨率差异、多模态输入、动态对象和非平面场景。
挑战与未来方向
- 分辨率灵活性:现有方法多为固定分辨率,需探索分辨率无关的参数化形式。
- 低重叠率场景:扩大网络感受野,如通过Transformer模块引入长程相关性。
- 动态场景和视差问题:需在特征提取后进行离群点剔除,并结合全局与局部相关性增强学习。
图 11. 收集的基准数据集概览,涵盖了本文中回顾的所有模型。该数据集中,图像和视频来自不同环境下的各种相机,每个样本均提供了精确的真实值和标签。
跨传感器模型
多传感器标定是为多种传感器(如相机、LiDAR 和 IMU)估计内外参的过程,目的是确保不同传感器的数据在统一坐标系中同步并配准,以实现数据融合,从而更准确地表示环境信息。这对于自动驾驶和机器人等需要传感器融合的场景至关重要。以下主要综述基于学习的相机-LiDAR标定方法,目标是预测相机与 3D LiDAR 的 6 自由度(6-DoF)刚体变换,无需依赖特定特征或地标。基于学习的标定方法分为三类:像素级方法、语义级方法和目标/关键点级方法。
像素级方法,这类方法利用深度学习框架,从图像与点云的像素特征出发完成标定:
- RegNet 首创像素级深度学习标定方法,通过 CNN 提取 RGB 和深度图特征并完成全局回归,得到 6-DoF 外参。
- CalibNet 通过最大化图像与点云的几何和光度一致性,使用 3D 空间变换器优化标定。
- CalibRCNN 引入了时序信息,用 LSTM 学习多帧之间的几何和光度误差。
- RGGNet 在损失函数中引入 SE(3) 流形几何约束。
- LCCNet 借助成本体积层学习图像与点云的相关性。
- FusionNet 直接从点云中提取 3D 特征并结合注意力机制进行特征融合。
- CFNet 提出标定流的概念,优化 2D 点和 3D 点的配准精度。
- DXQNet 引入不确定性模型和可微分姿态估计模块。
语义级方法,语义级方法基于深度学习提取的高层语义特征,确保多传感器间的语义对齐:
- SOIC 利用语义质心解决初始化问题,构造语义成分约束损失。
- SSI-Calib 将标定问题转化为优化问题,通过非单调子梯度算法优化参数。
- 利用现成的分割网络最小化语义对齐误差,采用单向或双向优化。
目标/关键点级方法,目标或关键点级方法通过检测与匹配2D/3D目标来完成标定:
- ATOP 使用 YOLOv4 和 PointPillar 提取 2D/3D 目标,结合粒子群优化算法计算外参。
- RGKCNet 将几何求解器与网络结合,使用深度声明式网络(DDN)实现 2D-3D 数据关联和姿态估计。
技术总结
- 像素级方法一般采用端到端框架,但泛化能力较弱。
- 语义级和目标级方法结合传统算法,具有良好的泛化能力,但依赖特征提取质量。
研究趋势
- 网络架构趋于复杂,采用多尺度特征提取、跨模态交互、成本体积等技术。
- 标定流等中间表示提高了泛化能力并可处理非刚性变换。
- 几何求解与学习方法的结合日益深入。
- 数据集改进:利用仿真系统生成更真实的相机-LiDAR数据,突破当前基于噪声模拟的假设。
- 端到端优化:开发更紧凑的网络框架,整合特征提取与几何求解。
- 2D-3D匹配优化:探索 Transformer 等跨模态技术,直接学习图像和点云特征。
- 统一模型:基于深度学习的隐式非参模型可能替代传统参数化模型,实现像素级标定,避免特征提取和几何求解。
总结
综述涵盖了传统相机模型、分类学习范式与学习策略、对最先进方法的详细回顾、公开基准测试以及未来研究方向。为了展示研究的发展过程并建立现有工作的联系,我们提供了一个精细化的分类体系,从相机模型和应用的角度对文献进行了分类。此外,针对每一类别,我们深入讨论了其内在关系、优势、区别及局限性。一个开源仓库将定期更新新研究成果和数据集。我们希望本综述能够促进该领域的未来研究。