首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文简述 | FlowFusion:基于光流的动态稠密RGB-D SLAM

我们的创新之处在于使用光流残差来突出RGBD点云中的动态语义,并为摄像机跟踪和背景重建提供更准确和有效的动态/静态分割.在公共数据集和真实动态场景上的密集重建结果表明,与现有方法相比,该方法在动态和静态环境下均取得了准确和高效的性能....当动态障碍物出现或观测环境发生变化时,这些方法不能提取足够可靠的静态视觉特征,从而导致特征关联不足,导致不同摄像机姿态之间的运动估计失败.为了处理动态环境,可视化SLAM的一个简单的想法是从输入数据中提取动态部分...,在当前的RGB-D帧中有效地提取动态片段,然后精确地重建静态环境.此外,在真正具有挑战性的人形机器人SLAM场景上的演示表明,所提出的方法优于其他先进的动态SLAM解决方案....(b)是根据(a)的图像对估计的光流.颜色表示流动方向,强度表示像素位移.蓝色的流动是相机自我运动的结果.我们从光流中减去自我流,得到像平面上的场景流分量,如(c)所示.在(b)中迭代地移除场景流和...下图是TUM fr3_walking xyz序列的比较实验.比较了JF、SF、PF和提出的FF方法的动态分割性能.蓝色部分在JF和SF是静态的.红色部分在PF和FF中是静态的.第一行是输入的RGB帧,其他行是每种方法的动态

1.6K10

TrafficVLM | 车辆第一视角多模态视频标题生成模型 ,AI City Challenge 2024 表现优异!

这不仅有助于紧急响应工作,也促进了更安全、更智能的交通解决方案的发展。 大多数针对这一特定领域的传统深度学习系统实际上采用了监督训练方法来预测帧或定位事件片段[21, 47, 50]。...TrafficVLM从车辆摄像头帧中提取不同层次的视觉特征,以定位交通事件的不同阶段,然后为不同的目标提供详细描述。...根据作者新的微调目标,作者提出了一种在不同层次上建模视频特征的方法,使作者的模型能够有效地捕捉到空间和时间上的细粒度视觉细节。...作者利用数据集中不同目标带有标题的可获取性,设计了一个多任务微调范式,这使得TrafficVLM能够有效地学习所有阶段视频特征与文本特征之间的对齐。...图1:作者的方法概述。首先从车辆摄像头视频中提取子全局和局部帧序列。根据事件段中边界框的可用性,某些局部帧可能会缺失。

21810
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    ICCV2023 室内场景自监督单目深度估计

    对于两者,我们基于“Optim t”和“Optim R”计算重构损失,并在第3列中给出。...对于第一个样本,由于不准确的粗略旋转,仅优化平移(“Optim t”,第1行)无法补偿错误旋转,从而产生高的重投影误差。在精炼旋转之后,基于“Optim R”的重构(第2行)产生了更低的光度误差。...最后,作者还与现有的先进方法进行了比较,证明了GasMono在室内自监督单目深度估计中的优势。 表1. 消融研究。 表2. 在室外KITTI数据集上测试了我们的ISD和不同基线方法。 表3....注意,Monoindoor++从每个视频序列中提取每30帧的第一张图像作为测试集,而我们遵循SC-Depthv2,从每10帧中提取第一张图像。 表6. 在RGB-D 7场景上微调后的结果。...我们的方法通过缩放和精炼两个步骤,解决了自监督训练中由于姿态估计不准确而导致的尺度不一致和深度不精确的问题,并有效地利用了几何方法提供的粗略姿态。

    92810

    基于多传感器融合的定位和建图系统

    FAST-LIO框架如图4(a)所示,首先以雷达点云作为数据,然后进行特征提取后进行去帧内点云模糊(图4(b)),一帧内的点云通过IMU预积分的方式将其统一到帧末,以此消除掉真正的点云运动模糊。...LIC-Fusion 是19年提出的雷达-惯导-相机的多传感器融合算法,可以有效地融合IMU测量,稀疏的视觉特征和提取的激光雷达点。...随后,LIC-Fusion 2.0又提出了一种新的平面特征跟踪算法来更加有效地处理激光雷达测量,以进一步提高算法的精度和鲁棒性。...光度学模型如图11所示,在建图中,认为一个点在不同相机观测中的颜色值是一样的,但是没有考虑相机曝光的影响或镜头阴影及响应应函数的影响,导致它有可能一个点插在不同的相机帧里。...在不同的数据集上测试了这个算法的性能,结果如图19所示。可以发现在不同的数据集,不同的场景和不同的雷达上对该算法进行测试,结果表明这个算法都能够在这些测试区域中实现一个实时的重建。

    98840

    DenseTrack,利用视觉语言模型提升密度图个体识别能力 !

    最初,DenseTrack使用视觉语言模型(VLM)从密度图中提取复杂的外观特征,确保对个体的准确描述。从而将提取的外观数据与运动和位置数据无缝集成,以解决运动不准确的问题,增强运动线索的准确性。...这种策略性的集成有效地克服了无人机场景中物体定位的挑战,同时将运动和外观信息巧妙地融合到跟踪过程中。...这一整合显著提高了密度图的描述能力,使得在拥挤场景中能够更细致、更准确地表示个体。 作者使用DronaCrowd数据集展示了作者方法的优势性能,在人群跟踪领域超越了现有方法。 2....Individual Representation 在获取到每帧中个体的精确位置后,提取用于帧间关联的有效表征至关重要。为了融合外观和运动信息,采用同时提取外观特征和运动偏移量作为关联线索。...BLIP2在不同精确度阈值下的一致性优势突显了其在捕捉复杂视觉和语言线索以实现更准确追踪方面的鲁棒性和有效性。

    14810

    来瞧瞧webp图像强大的预测算法

    通过图像关键帧运算,使用宏块中已解码的像素来绘制图像中未知部分,从而去除冗余数据,实现更高效的压缩。...A 和列 L 的像素的平均值作为宏块唯一的值来填充宏块; TM_PRED(TrueMotion预测):除了行 A 和列 L 之外,用宏块上方和左侧的像素P、A(从P开始)中像素块之间的水平差异以列 L...WebP 无损压缩 WebP 无损压缩采用了预测变换、颜色变换、减去绿色变换、彩色缓存编码、LZ77 反向参考等不同技术来处理图像,之后对变换图像数据和参数进行熵编码。...预测变换有 13 种不同的模式,使用较多的是左、上、左上以及右上的像素预测模式,其余为左、上、左上和右上组合的平均值预测模式。 颜色变换 借助颜色变换去除每个像素的 R,G 和 B 值。...减去绿色变换 “减去绿色变换”从每个像素的红色、蓝色值中减去绿色值。当此变换存在时,解码器需要将绿色值添加到红色和蓝色。 彩色缓存编码 无损 WebP 压缩使用已经看到的图像片段来重构新的像素。

    2.9K21

    ICRA 2021| 具有在线校准功能的高效多传感器辅助惯性导航系统

    所提出的 LiDAR 平面patch算法(包括提取、数据关联和更新)被证明是高效且一致的。...接下来,我们详细解释了从激光雷达点云中提取pp、合并pp、查找数据关联和执行更新/校准的方法。 A....我们利用kd-tree快速找到邻近的点。一旦有了pi,我们利用[34]方法快速提取pp,并进一步扩展该方法来计算提取平面块的噪声协方差。我们首先通过减去云的中心点pc: ?...Data Association 与前面的步骤不同,所有的操作都是在相同的参考帧内完成的,在需要状态信息的数据关联/更新过程中,pp必须将一帧转换为另一帧。...基于 VIO,不同的传感器组合与校准一起进行测试,每种算法的结果轨迹如图 6 所示。与数据集提供的地面实况相比,每种算法的方向和位置的均方根误差 (RMSE) 为 总结在Table III中。 ?

    1.2K40

    【干货】基于视频的行人再识别新进展:区域质量估计方法和高质量的数据集

    其方法使用一种巧妙的训练方法,能够提取不同帧之间的互补的区域信息,从而更好地进行训练。其数据集包含7,694个tracklets,超过590,000个图片,并具有年龄跨度大、姿态多样性等特点。...由于单个帧的不同区域具有不同的质量,并且相同区域的质量也在逐帧之间变化,所以解决该问题比较好的方法是有效地聚集序列中所有帧的互补信息。...与单个图像相比,视频序列中的帧提供了更丰富的互补信息(Zheng et al 2016)。...第一行是一系列行人图像,第二行使第一个卷积层提取的feature map(特征图)。...RQEN可以学习每个图像的局部质量,并聚合图像序列中不同帧互补的图像局部信息。这篇文章采用巧妙的梯度设计来设计端到端的训练策略,并通过分类和验证损失联合训练网络。

    97170

    基于视频的行人再识别新进展:区域质量估计方法和高质量的数据集

    其方法使用一种巧妙的训练方法,能够提取不同帧之间的互补的区域信息,从而更好地进行训练。其数据集包含7,694个tracklets,超过590,000个图片,并具有年龄跨度大、姿态多样性等特点。...由于单个帧的不同区域具有不同的质量,并且相同区域的质量也在逐帧之间变化,所以解决该问题比较好的方法是有效地聚集序列中所有帧的互补信息。...与单个图像相比,视频序列中的帧提供了更丰富的互补信息(Zheng et al 2016)。...第一行是一系列行人图像,第二行使第一个卷积层提取的feature map(特征图)。...RQEN可以学习每个图像的局部质量,并聚合图像序列中不同帧互补的图像局部信息。这篇文章采用巧妙的梯度设计来设计端到端的训练策略,并通过分类和验证损失联合训练网络。

    1.1K60

    VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!

    然而,由于模态差距,RGB视频和4D点云理解被视为两个不同的问题。RGB视频和4D点云模型构建了不同的架构,并训练在不同的数据类型上。目前,将RGB视频模型用于识别4D点云尚未得到广泛探索。...X-CLIP 在 CLIP 的基础上融入了跨帧注意力机制和视频特定的提示技术。这些增强功能分别使得能够提取时间跨帧交互信息,并生成实例 Level 的判别性文本表示。...与PSTNet训练和测试所有潜在片段段的方法不同,作者采用了一种针对帧采样的数据增强策略,显著减少了训练和测试的时间。具体来说,作者首先将每个点云视频划分为时长相等的 T 个片段。...im-PSTNet的结构。空间提取器 被设计用来从每帧中的N个点提取初始特征,它由四个子模块组成:点采样、分组、MLP层和最大池化。...在分组模块中,邻近点的数量K和空间搜索半径 r 分别设置为9和0.1。遵循PSTNet,作者将剪辑长度和帧采样步长分别设置为23和2。

    36110

    用GNN和GAN的方式来强化Video Captioning的学习!

    现有的生成模型,如编码器-解码器框架,不能明确地从复杂的时空数据中探索对象级的交互和帧级的信息,以生成语义丰富的caption。...视频字幕的主要挑战之一是,视频帧和caption中的文字之间没有明确的对应关系 。视频字幕模型需要在更高的语义水平上提取总结出来的视觉单词。上图展示了视频字幕的数据流。...首先,在增强对象建议任务中,从视频帧中提取时空上下文,并将这些信息合并到视觉对象中。 第二,因为,视频中的帧和对象建议的数量远远多于生成句子中的单词。...作者采用2D CNNs和3D CNNs分别提取外观特征和运动特征。R-CNN提取对象建议(Object proposals),从每帧捕获的区域特征为,其中,表示每帧中区域特征的数量。...这一步的目的是将从不同模态的特征投影到一个共同的特征空间,并计算相似性来表示图中区域特征和帧级特征之间的连通性程度。

    90620

    OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

    不同数据集间的格式差异也是跨域文本端到端识别重要的问题,如Total-Text和ICDAR2015使用词级注释,CTW1500使用行级注释。...相比之前的视频文本端到端识别方法,我们的方法通过统一框架和组合查询,在跟踪过程中更有效地利用不同帧的识别信息。...然后,CoDeF用于有效地重建视频中的刚性和非刚性对象,同时精心恢复运动细节的微妙复杂性。...所有方法都使用相同的图片级别的训练集,并对视频的每一帧评估端到端识别的结果。 图8 通过t-SNE在不同帧中文本实例的分布。 可以看出,在本文提出的方法中,同一文本在不同帧间的特征相似度更高。...因此,在我们的方法中,使用前一帧的特征作为当前帧的输入查询,即使只使用图像级训练数据,也可以有效地定位、识别和跟踪相同的文本实例。

    16310

    Canny-VO: 基于几何3D-2D边缘对准的RGB-D视觉里程计

    摘要 本文回顾了自由曲线配准的经典问题, 并将其应用于一个有效的称为Canny-VO的RGBD视觉里程计系统, 因为它能有效地跟踪从图像中提取的所有Canny边缘特征....考虑到边缘检测器是在不变关键点提取器之前发现的, 毫不奇怪, 计算机视觉领域的开创性工作, 如[13]设想了整个3D曲线的映射和配准, 虽然基于稀疏点的方法已被证明非常有效地从运动的结构反问题中减去对应问题..., 基于曲线的估计仍然是有趣的, 这是由于以下几何上的优势: 图像中的边缘构成了要配准到模型中的大量数据点, 因此导致卓越的信噪比和提高的整体精度 在人造环境中, 边缘代表一种更自然的选择, 在人造环境中...因此参考系的姿态由t和R决定, 一旦提取3D边缘点, 参考帧的位置被干扰, 并使用EDF、ANNF或ONNF重新优化....图像的高级平滑进一步有助于改善边缘检测. 为了确定最佳鲁棒权重函数, 我们首先定义序列中的参考帧, 然后使用每一帧和最近的参考帧之间的地面真实相对姿态来计算残差.

    60420

    SORT新方法AM-SORT | 超越DeepSORTCO-SORTCenterTrack等方法,成为跟踪榜首

    1 Introduction 基于运动的多目标跟踪(MOT)方法利用运动预测器提取时空模式,并估计未来帧中的物体运动,以便后续的物体关联。...编码器从历史轨迹编码中提取时空特征,使预测标记能够估计当前帧中的边界框。值得注意的是,AM-SORT使用边界框序列作为输入,省略了物体的视觉特征,这使得模型可以在低计算成本下处理。...作者引入了历史轨迹嵌入,可以有效地从一系列边界框的序列中捕获运动特征。 定性结果表明,AM-SORT准确地预测了物体运动中的非线性变化,展示了与最先进方法竞争的能力。...这些示例说明了OC-SORT中黄色标记物体的身份切换。在图5的行1中,由于卡尔曼滤波器固有的线性假设,OC-SORT在中间帧中估计了标记物体的细长边界框。它无法预测宽大边界框的突然变化,导致错误匹配。...为了展示在匈牙利匹配步骤中关联成本的影响,作者在不同的关联成本组合(包括IoU,运动方向差异 \Delta\theta 和L1距离)下比较OC-SORT和AM-SORT。

    65010

    Day5:R语言课程(数据框、矩阵、列表取子集)

    学习目标 演示如何从现有的数据结构中取子集,合并及创建新数据集。 导出数据表和图以供在R环境以外使用。...1.数据框 数据框(和矩阵)有2个维度(行和列),要想从中提取部分特定的数据,就需要指定“坐标”。和向量一样,使用方括号,但是需要两个索引。在方括号内,首先是行号,然后是列号(二者用逗号分隔)。...---- 注意:有更简单的方法可以使用逻辑表达式对数据帧进行子集化,包括filter()和subset()函数。这些函数将返回逻辑表达式为TRUE的数据帧的行,允许我们在一个步骤中对数据进行子集化。...我们将filter()在后面的课程中更详细地探讨该功能。 2.列表 从列表中选择组件需要略有不同的表示法,即使理论上列表是向量(包含多个数据结构)。...从random列表中提取向量 age的第三个元素。 从random列表中的数据框 metadata中提取基因型信息。 ---- 3.导出文件 到目前为止只修改了R中的数据; 文件保持不变。

    17.8K30

    TMM 2022 | 基于深度特征融合和概率估计的高效 VVC 帧内预测

    在 VVC 中,输入视频帧被分成称为编码树单元 (CTU) 的块。CTU 由不同级别的编码单元 (CU) 组成,这些编码单元共享相同的预测风格(即帧内或帧间)。...模型训练 本文从 LIVE 数据集、UVG 数据集和 AVS2/AVS3 的标准序列中收集了 58 个视频序列。...在压缩过程中,收集所有 CU 的深度值,并将其重组为预测深度和相应参考深度图对。这些数据对构成了一个大数据集,以 4:1 的比例分为训练集和测试集。...\quad(4) 其中 ∆x 和 ∆y 的取值范围为 -1 至 1。该参考集与深度预测的参考集相似,但有两点不同: 在当前帧和左侧帧中收集顶部和左侧 CU 的分区。...考虑到帧内和帧间预测的不同分区分布,还可以进一步完善该模型以提高 RD 性能。 表5 算法在随机接入和低时延配置下的结果

    39010

    基于在线光度校准的混合稀疏单目视觉里程计

    但是,HSO实现了双赢的局面,既实现了更准确的在线光度校准,又提升了VO性能:(i) HSO的VO模块直接提供了在线校准所需的所有信息,包括关键帧、数据关联和曝光时间先验,这些信息在我们的VO模块中进行联合和准确的优化...当一帧完成运动估计的所有任务后,它将被插入到建图线程中,使用距离滤波器更新先前关键帧中提取的所有候选点的逆距离概率模型,并将其与新帧进行合并,同时,将地图点的收敛速度传递给前端,用于关键帧选择和其他阈值设定...它接收新的关键帧并将其添加到关键帧队列中。为了减少由帧间传递引起的漂移,当前关键帧的曝光时间在关键帧队列中进行优化,然后,通过解决窗口化优化问题,估计相机的光度参数,从而实现更准确的光度校准。...,以确保能够提取足够的特征点,特别是对于ICL-NUIM数据集,以避免跟踪失败。...定性示例,第一行是EuRoC MAV数据集中的V103和V203序列,第二行是TUM Mono VO数据集中的sequence_26,所有示例都包括地图构建的结果以及VO运行期间的跟踪状态。

    22110

    轻量级实时三维激光雷达SLAM,面向大规模城市环境自动驾驶

    提出了一种在不同距离间隔内自适应选择阈值和特征点数量的方法。与传统的固定数特征提取方法相比,该方法在三维空间中提取了更均匀的稀疏特征点,从而提高了里程计的准确性并降低了时间成本。...循环的两个帧之间的相对位置作为约束边添加到图优化系统GTSAM[28]中。该优化系统可以有效地优化建图,消除累积误差。相应地更新历史位置和全局建图。...数据集是从包括城市、农村和公路在内的大型复杂场景中收集的。选择提供地面真实值的序列00-10来评估算法。11个序列中有23201帧和22km的轨道长度。...车辆从不同方向通过同一十字路口,导致环路检测困难。由于引入了旋转不变量描述子,扫描前后信息可以有效地检测上述场景中的环路。...在上述两个数据集的不同场景中,系统的定位精度可以接近地面实况。

    3.6K71

    顶刊 IJCV | 时空鲁棒跟踪器:搭载空间-通道Transformer与抖动抑制机制

    在本文中,我们提出了一种新颖的事件特征提取器,通过增强不同时刻状态之间的交互和区分变化来捕获事件基数据中的时空特征和运动线索。...(i)我们提出了一种名为GM-LSTM的新型基于事件的提取器,可以有效地从事件基数据中提取全局空间和丰富的时序特征及运动线索;(ii)我们进行了广泛的实验,并验证了我们提出的方法可以作为插件模块轻松扩展到其他基于帧的跟踪器...这些结果说明,即使一个模态缺乏可用信息,我们的方法仍然可以利用另一个模态有效地定位目标。图 10 中展示了在不同降级条件下的多个视觉示例,我们可以看到我们扩展的方法在所有条件下都能有效地跟踪目标。...我们认为这是因为是由 GM-LSTM 中的多次迭代生成的,它比存储了更丰富的时间信息。...6 讨论和结论 在本文中,我们引入了事件域到基于帧的跟踪方法中,以增强在不同挑战条件下的跟踪性能。我们提出的事件特征提取器可以有效提取事件数据中的时空信息和运动线索。

    17810

    用于自动泊车的鸟瞰图的边缘线的语义SLAM系统

    语义分割和对象检测模型广泛用于提取点级和对象级语义,这为SLAM带来了额外的语义和几何约束,以获得更稳定和准确的性能,然而,由于基于深度学习的模型通常需要大量手动标记的数据进行训练,因此这些方法可能需要很长时间才能转移到新的场景中...为了进一步利用鸟瞰图像中的语义,我们尝试提取地面上的边缘,这对于视觉SLAM系统来说更密集、更稳定。...图5,用于姿势估计的局部地图生成流程,包括(a)累积概率局部地图,(b)阈值局部地图和(c)配准到局部地图的提取边缘(绿色的鸟瞰图边缘和红色的可行驶空间边缘)。 其中不同帧的融合是概率的。...为了删除已添加到局部贴图的不正确分割的边,还应用了滑动窗口融合。本地映射的帧缓冲区长度限制为固定的数字。满时,将从局部贴图中减去最旧的边。...图6,通过不同的分割方法提取出鸟瞰图边缘 实验 A.数据收集 用于评估我们框架的数据序列是在一个地下车库中收集的,序列的详细信息见表一。

    96620
    领券