首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每日学术速递3.17

人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。...Lagun 文章链接:https://arxiv.org/abs/2303.08096 项目代码:https://melon-nerf.github.io/ 摘要: 神经辐射场可以从几张图像中实现具有逼真质量的新视图合成和场景重建...,但需要已知且准确的相机姿势。...传统的姿态估计算法在平滑或自相似场景上失败,而从未姿态视图执行逆向渲染的方法需要对相机方向进行粗略初始化。...使用神经网络来规范姿势估计,我们证明了我们的方法 - MELON - 可以从未摆姿势的图像中以最先进的精度重建神经辐射场,同时需要的视图比对抗方法少十倍。

17320

单视角下AI也可以计量长高距离

我们提出了一种新的单视图度量方法,该方法可以仅使用在无约束条件下获取的单眼图像来恢复由物体的3D高度或地面以上的相机高度以及相机的方向和视野参数表示的场景的绝对比例。...02 背景 从图像重建3D场景是计算机视觉中的一个基本问题。尽管在这项任务上取得了许多成功,但以前的大多数作品只重建了未知规模的场景。...特别是,我们计划通过具有绝对比例估计的几何相机校准来实现这一点,即恢复相机方向(或者,图像中的地平线)、视野和相机离地面的绝对3D高度。给定这些参数,可以将图像空间中的任何2D测量转换为3D测量。...我们的目标是利用现代深度网络构建一种适用于各种图像的稳健、自动的单视图计量方法。解决这个问题的一种方法可以是训练深度神经网络,使用具有已知绝对3D相机参数的图像数据库来预测场景的规模。...在下图中,直立比例计算为lactual/lupright,考虑到人的姿势的3D中实际比例的近似值。将其乘以预测直立高度以获得实际高度,并将高度先验应用于预测直立高度。

41021
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    识别自动驾驶的深度

    此方法不需要训练的基本事实数据集。相反,它们使用图像序列中的连续时间帧来提供训练信号。为了帮助限制学习,使用了姿势估计网络。在输入图像与从姿势网络和深度网络的输出重建的图像之间的差异上训练模型。...U-Net的样本图像[2] ? 6自由度 作者使用来自ResNet18的姿势网络,该姿势网络经过修改,可以将两个彩色图像作为输入来预测单个6自由度相对姿势或旋转和平移。...重建过程通过使用姿势网络从源帧(帧+1或帧-1)计算转换矩阵开始。这意味着正在使用有关旋转和平移的信息来计算从源帧到目标帧的映射。...然后,使用从深度网络预测的目标图像的深度图和从姿势网络转换的矩阵,将其投影到具有固有矩阵K的摄像机中,以获取重建的目标图像。...损失是图像中对象的输出深度图与通过使用相机的焦距,基于对象类别的先验高度和图像中分割后的对象的实际高度计算出的近似深度图之间的差,两者均按目标图片的平均深度进行缩放: ?

    1.1K10

    对极几何概论

    数字图像是真实世界中的对象通过光学成像设备在光敏材料上的投影。在3D到2D的转换过程中,深度信息会丢失。从单个或多个图像中恢复有用的3D信息需要使用立体视觉知识进行分析。...在实际计算中,我们首先将3D点转换成4维向量(在结尾填充1),然后在左面乘以变换矩阵。这个矩阵P被称为相机投影矩阵,它是完全由相机参数决定的。 上式假定主点p在坐标的原点。...我们可以在世界坐标系X中的点和图像平面中的点x之间做一个映射,表示为 ? K中的参数称为相机内部参数,其余参数R和C称为相机外部参数。 对极几何 对极几何是两个视图之间固有的射影几何。...当两个视点之间的空间位置关系已知时,由于对极几何的几何模型定义的约束条件,立体图像对上的搜索空间仅位于两个图像中。需要在相应的对极线搜索,并且原始的二维搜索问题直接简化为一维搜索。...第二个是确定两个目标点的相对位置和姿态。在未知视角位置的情况下,通过在图像对中搜索匹配点,可以获得两个位置和姿势之间的相对关系。这通常用于机器人导航,地图生成,三维重建等。

    56220

    Google AI提出物体识别新方法:端到端发现同类物体最优3D关键点——NeurIPS 2018提前看

    这会是个艰难的决定。但就这篇文章而言,我倾向于说 YES!...在训练阶段,当输入同一个物体的两个不同视角图像,以及已知的刚体变化 T (rigid transformation T),目标是输出用于物体姿势识别的最优关键点预测列表,P1 和 P2。...此外,我们已知它们的相对刚性变换 T。T 用于从 I 到 I' 的 3D 形状转换。...关键点 [u,v,z] 从图像 I 到 I'(反之亦然)的投影是通过下面的投影运算得到的: 式中 u'^表示 u 到第二张图片的投影,而 u^ 代表 u』 到第一张图片的投影。...利用等式(2),可以利用空间分布的期望值(expected values of the spatial distributions),计算出恢复后的像素坐标。

    1K40

    AI「脑补」画面太强了!李飞飞团队新作ZeroNVS,单个视图360度全场景生成

    表示视图综合的对象 如下图,3DoF相机姿势捕获指向原点的相机的相机仰角、方位角和半径,但无法表示相机的滚动(如图)或空间中任意方向的相机。...具有这种参数化的模型无法在现实世界数据上进行训练,其中许多相机姿势不能用3DoF姿势充分表示。...表示视图合成的通用场景 对于场景,研究人员应该使用具有6个自由度的相机表示,可以捕获所有可能的位置和方向。 捕获六个自由度的相机参数化的一种直接选择是相对位姿参数化。...M 6DoF+1的一个吸引人的特性是它对于场景的刚性变换具有不变性,因此可以得到: 对于每个归一化方案,ZeroNVS中多个样本的Sobel边缘图方差的热图。...由于PSNR和SSIM有已知缺点,研究人员更看重LPIPS,并确认PSNR和SSIM与问题设置中的性能没有很好的相关性,如图7所示。 结果如表1所示。

    48640

    ECCV 2022|面向精确的主动相机定位算法

    主动相机定位通常涉及三个问题: 1. 如何定位:如何定位相机以获得最准确的相机姿势 2. 去哪里:相机在环境中未知位置的初始化,之后它应该怎么移动以进行精确的主动定位。...场景不确定性属性完全由场景模型和被动定位模块决定,因此预先计算并对主动定位过程保持不变,而估计的相机姿态和世界坐标是在相机移动期间从捕获的RGB-D帧立即计算得出的。...为了缓解上述困难,通过将表示真实相机姿态的捕获深度观测和从3D场景模型Dscene投影的深度图像(其表示估计的相机姿态)进行比较来计算相机不确定性值。...给定观察到的深度和投影的深度图像,首先使用已知的相机固有参数将两个图像反向投影到相机空间中的点云中。...具体而言,认为当相机不确定度分量在 范围内时,可以成功定位以停止相机移动 为了证明相机不确定性分量的有效性,评估了估计的相对姿态与真实姿态的接近程度,图3包含了一个室内场景中随机采集的4500个样本。

    33720

    基于消失点的相机自标定(1)

    相机校准的最后一步是计算平移向量t。假设我们已知场景中已知长度的一小段,其两个端点中的第一个位于世界原点。在不失概括性的情况下,世界的中心可以在场景中的任何一点上选择。...由于旋转矩阵R已知,我们可以将线段与其在相机坐标系中的图像对齐: ? 现实世界的线段由相机通过投影变换成像,产生两个图像点pi1px和pi2px,以像素表示。...在针孔模型中,可以通过不做像素变换来计算图像中任何点的公制坐标,则第三个坐标是焦距: ? 现在可以在图像平面上进行线段平移,方法是将其第一个点设置在其图像PI1m上并计算第二个点的位置。...用三个消失点标定相机 该方法使用了从场景中正交方向确定的三个vp。假设图像中的三个消失点可以由已知的图像确定,例如两个正交的方格图案。...当从场景中得到相互正交的方向的三个消失点时,可以使用另一种方法计算主点(u0,v0)的坐标,方法是找到由消失点形成的三角形的正交中心。

    4K21

    一种基于相位靶标的摄像机标定迭代畸变补偿算法

    此外,由于从正弦条纹中获得的相位对失焦图像[26,27]的影响较小,因此相位靶标可以有效地标定对焦深度小、工作距离长的相机。...如果已知LCD像素间距的大小 和每个条纹周期的LCD像素数 ,则一个摄像机像素可以根据公式(1)和(2)的相位值,唯一地定位其在世界坐标系中的相应的物理位置,。...由于一个标定姿态可以根据公式(4)提供两个约束条件,因此内部参数A可以从至少三个姿态中计算出来。...变形来自于液晶屏幕上记录的像素网格,以及由相机像素和液晶像素之间的干涉所产生的摩尔条纹。取计算得到的相位图中间的一个小区域,从相位值与其拟合平面的差值可以看出影响,如图4b所示。...可以从张的文章 [1] 中使用的棋盘或其他标定靶标中检测到特征点。为避免不同标定靶标提取精度的差异,采用相同的相机像素和对应的物理点对两种方法进行测试。

    89210

    CVPR 2022 | OVE6D:用于基于深度的6D对象姿势估计的对象视点编码

    在本文中,我们提出了一种新的方法,称为OVE6D,用于从单个深度图像和对象分割模板估计6D对象姿势。我们进一步假设可以访问目标对象的三维网格模型。...在这里,我们假设对象ID已知,3D网格模型可用,并且提供了对象分割遮罩。任务是预测从对象坐标系到相机坐标系的刚体变换。这种变换可以用旋转R和平移t来表示。...首先,使用输入深度图像和对象分割掩模计算初始位置估计,并应用于深度图像的预处理(参见图3A)。其次,我们从对象视点码本中检索多个视点候选(参见图3B)。...在推理时,首先使用视点编码器从预处理的深度图像V_real中提取对象视点表示v_real。然后,我们利用v_real计算对应视点码本(用已知对象ID索引)中所有条目的余弦相似性分数。...平面内方向回归 已知视点后,可以使用深度图像的2D旋转来近似相机光轴周围的平面内旋转(对于正交相机精确)。

    82320

    RadarSLAM:可用于全天候的大规模场景的毫米波雷达SLAM

    ,雷达图像可以提供距离的绝对度量信息,这与丢失深度的相机图像不同,原始极坐标扫描可以转换为笛卡尔空间,由灰度图像表示。...因此,在极坐标图像上给定一个点(a,r),其中a和r分别表示方位角和距离,其笛卡尔坐标P可以通过 其中θ=2π•a/N是笛卡尔坐标中的测距角度,γ是图像像素空间和世界度量空间之间的比例因子。...图3 系统概述 A、 位姿跟踪 为了跟踪当前雷达帧t在世界坐标系中的姿态Ct,相对变换Tt 需要计算当前帧t和具有姿势Ck的关键帧k之间的SE(2),SE(2)表示特殊的欧氏群,然后,假设已知关键帧姿势...从雷达图像生成点云后,采用M2DP,一种为3D点云设计的旋转不变全局描述子,对其进行描述以进行环路闭合检测,M2DP计算平面上点云的密度特征,并使用这些特征的左右奇异向量作为描述子。...右下:相机、激光雷达和雷达上覆盖了大量积雪。 相反,基于激光雷达的方法会受到雾和雪的影响。由于相机在雾天/雨天会被水滴挡住,基于视觉的方法也会失败。在夜间序列中,相机图像具有严重的运动模糊,见图10。

    1.7K40

    MC-NeRF: 多相机神经辐射场

    因为相机内参可以反映图像的真实比例,没有标准比例参考,很难为每个相机获取单独的内参。这需要导入额外的信息进行比例校准。此外,在内在参数回归过程中,我们遇到了一个退化问题,阻止我们获取有效的参数。...通过给定世界坐标系中的标定点和对应的像素坐标,可以使用单应性矩阵 H 进行投影关系的建模。通过 SVD 分解和 RQ 分解,可以从 H 中获取摄像机的内参矩阵 K 和外参矩阵 [R | T]。...还解释了在这一部分中同时优化所有相机参数和单独优化外参之间的差异。最后介绍了如何设计整个网络并将其从2D图像对齐空间过渡到3D空间的细节。 图6:内参和外参之间的耦合问题。...1) 第一行说明了姿态和NeRF的联合优化。在BARF或L2G-NeRF等方法中,其中内部参数已知,可以缓解摄像机参数耦合的问题。2) 第二行展示了所有参数的联合优化。...值得注意的是,从校准立方体获得的摄像机初始化姿势能够满足L2G-NeRF和BARF的需求。

    32610

    每日学术速递4.25

    ,其目标是从可能被大运动分开的所需相机姿势生成场景的新视图。...我们的方法以基于自回归条件扩散的模型为中心,该模型能够以几何一致的方式内插可见场景元素,并外推视图中未观察到的区域。调节仅限于捕获单个相机视图的图像和新相机视图的(相对)姿势。...虽然先前的方法已被证明可以在成对的视图中产生高质量的图像和一致的语义,但我们根据我们的指标凭经验表明它们通常与所需的相机姿势不一致。相比之下,我们证明我们的方法可以产生逼真的图像和视图一致的图像。...与以前的重建方法不同,它从输入视图中聚合每个体素的特征而不考虑其可见性,我们的目标是通过从每个图像对中的投影特征计算出的相似性矩阵明确推断其可见性来改进特征融合。...在这项工作中,我们引入了一个分解的神经场景表示,它可以直接从单目 RGB-D 视频中学习,以生成对象级神经表示,并带有对象运动(例如,刚性轨迹)和/或变形(例如,非刚性运动)。

    22820

    ECCV 2020 | PHOSA:一种基于单目图像的人-物重建方法

    相关工作 从单张图片恢复人体的三维形状和姿势:这是以一个非常模糊的任务,现在的大多数方法都是采用统计的三维人体模型,这些模型具有强大的形状先验,并使用已知的运动结构来建模关节。...三维人体-物体交互:在这方面也有大量的方法,与本文中的工作最相关的是【2】,它实现了一种可以从单个图像中恢复3D人体姿势、3D物体和场景布局的方法,但是需要较强的三维监督。...估计3D人体模型:通过检测算法提供的人体包围框,估计SMPL的三维形状和姿态参数、3D人体由姿态θ、形状β和一个弱相机视角π(将网格投影到图像坐标中)。...3D空间布局的建模:独立推理人类和物体的3D姿势可能产生不一致的3D场景排列,例如物体受到深度模糊的困扰:距离远的大物体可以投射到与距离近的小物体相同的图像坐标上,例如下图的冲浪板。...因此,作者使用了特定类别的平均尺度,在同一类别实例的内在尺度上加入一个高斯先验: ? 从3D位置推断出的深度顺序应该与图像的深度顺序相匹配,使用顺序深度可以为遮挡器和被遮挡对象提供更平滑的梯度。

    91330

    基于视觉和惯性传感器的移动机器人手遥操作系统

    Transteleop通过低成本的深度相机观察人的手,并通过图像到图像的转换过程,不仅生成关节角度,而且还生成配对的机器人手姿势的深度图像。...考虑到数据集中的IH和IR中的像素区域不匹配,文章中使用完全连接的层而不是卷积层连接编码器和解码器。 解码器旨在根据潜在姿势特征Zpose从固定视点重建机器人手的深度图像。...4.2手臂支架设计 手臂的移动比较大会导致遥控操作员的手很容易从摄像机的视野中消失,研究中通过便宜的3D打印摄像机支架解决了这个问题,该摄像机支架可以安装在远程操作员的前臂上,因此,相机将随手臂一起移动...通过将该姿势输入到BioIK解算器中来计算机器人手臂的关节角度。此后,研究人员通过计算和缩放当前帧和前一帧的期望关节角度之间的前馈关节差异以及期望关节角度之间的反馈关节差异来设置每个关节的角速度。...研究中使用手姿势估计中的标准指标评估了测试数据集上Transteleop和四个基线的回归性能:a.最大关节角度误差低于阈值的帧比例;b.最大关节距离误差低于阈值的帧比例;c.在所有角度上的平均角度误差。

    67920

    交互式相机标定的高效位姿选择方法

    此外,他们会自动计算一个“最佳的下一个姿势”,并将其作为图案的叠加投影作为用户指导。通过在大约60个候选姿态的固定集合中进行穷举搜索来选择姿态。...为此,我们将姿态与单个参数的约束联系起来,这样所产生的姿态序列就可以约束所有的校准参数,并确保准确的校准。与[10]的穷举搜索相比,这将计算时间从秒减少到毫秒。...表示仿射变换之后的深度 K:相机的标定矩阵包含焦距(和比例) 和主点:。...它的投影覆盖了图像宽度的33%。 我们设置了上述的角范围和宽度限制,以便使用罗技C525相机可以可靠地检测到标定板。...我们只使用一个广泛而简单的失真模型,在未来的工作中需要考虑薄棱镜[15]、径向[8]和倾斜传感器。最终,我们可以加入对未使用的参数的检测。这将允许从最复杂的失真模型开始,它可以在校准过程中逐渐减少。

    1K20

    一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真

    不满足于只是自己在纸上照着自己的想法去写写画画,但是又没精力去学习专业的3D建模技能,怎么破? 你有曾想过,仅仅通过文字描述自己的想象,就可以将其创造为分辨率高达4K的实体3D模型吗?...多视图扩散模型 创建多视图图像的过程类似于视频生成的设计的我们通过使用相机姿势调节文本到图像模型,将它们微调为姿势感知多视图扩散模型。...关于视图数量扩展的消融研究 在训练过程中,研究者会对每个训练对象抽取1、4或8个视图,为每个视图分配不同的抽样比例。...使用四个视图的图像进行训练的模型 使用八个视图的图像进行训练的模型 重建模型 从图像观测中提取3D结构通常被称为摄影测量,该技术已被广泛应用于许多3D重建任务中。...由于表面法线计算相对昂贵,所以需要仅在表面计算法线并对真实情况进行监督。 他们发现将SDF的不确定性与其对应的渲染分辨率对齐可以提高最终输出的视觉效果。

    8100

    SemSegMap :基于3D点云语义信息的定位

    的高精度和更少的全局定位,同时还可以实时提供精确的6自由度姿势估计。...3D部分作为路标,并允许从大比例尺地图中的稠密的描述子中检索6D姿势,与SegMap[1]不同,在SemSegMap中,如图1所示,首先点云使用语义分割RGB图像的反投影来丰富颜色和语义信息。...主要内容 A.丰富的语义信息 整个方案的输入由彩色图像流和点云组成,彩色图像通过语义分割网络获得每个像素的语义类别,使用相机和激光雷达之间的外参以及相机的内参,将每个像素的颜色和语义分割投影到点云数据上...可以使用增量欧几里德分割,每一步都不需要在整个点云书中上重新运行,而是只在新激活的体素上增量的计算。...,这种非常粗糙的描述就足够了,因为由于语义分割过程,大多数片段中的类标签是相同的,为了提高计算效率,该类表示由一个小型三维卷积网络单独处理,其输出随后与Pointnet++主干连接,最后,我们还向网络中输入了点云坐标归一化的比例因子

    1.1K50

    基于视觉和惯性传感器的移动机器人手遥操作系统

    Transteleop通过低成本的深度相机观察人的手,并通过图像到图像的转换过程,不仅生成关节角度,而且还生成配对的机器人手姿势的深度图像。...考虑到数据集中的IH和IR中的像素区域不匹配,文章中使用完全连接的层而不是卷积层连接编码器和解码器。 解码器旨在根据潜在姿势特征Zpose从固定视点重建机器人手的深度图像。...4.2手臂支架设计 手臂的移动比较大会导致遥控操作员的手很容易从摄像机的视野中消失,研究中通过便宜的3D打印摄像机支架解决了这个问题,该摄像机支架可以安装在远程操作员的前臂上,因此,相机将随手臂一起移动...通过将该姿势输入到BioIK解算器中来计算机器人手臂的关节角度。此后,研究人员通过计算和缩放当前帧和前一帧的期望关节角度之间的前馈关节差异以及期望关节角度之间的反馈关节差异来设置每个关节的角速度。...研究中使用手姿势估计中的标准指标评估了测试数据集上Transteleop和四个基线的回归性能:a.最大关节角度误差低于阈值的帧比例;b.最大关节距离误差低于阈值的帧比例;c.在所有角度上的平均角度误差。

    65020
    领券