首页
学习
活动
专区
圈层
工具
发布

即将开源STD:用于3D位置识别的稳定三角形描述子

具体而言,我们的贡献如下: 设计了一个三角形描述子,一个六维向量,由三条三角形边的长度和连接到每个三角形顶点的相邻平面的法向量之间的角度组成,描述子对旋转和平移完全不变,同时保持高度的可区分性。...,这些关键帧具有从几次连续扫描中累积的点云数据,因此无论特定的激光雷达扫描模式如何,都会增加点云密度。...pb1、pb2、pb3)自然匹配,然后,通过此点对应关系,我们可以通过奇异值分解(SVD)轻松计算这两个关键帧之间的相对变换T=(R,T): 为了提高鲁棒性,我们使用RANSAC来找到最大化正确匹配描述子数量的变换帧...变换Bgi,然后在k-D树中搜索最近的点C_gj,并通过法向量差和点顶面距离判断两个平面是否重合: 其中σn和σd是预设的超参数,用于确定平面是否重叠。...所有数据都是在城市环境中使用具有不同扫描线的机械旋转激光雷达收集的。我们将我们的方法与其他两个全局描述符进行比较:Scan Context 和M2DP。我们每10帧将这些数据集累加为一个关键帧。

2.4K10

浙大蔡登团队:基于序列对比学习的长视频逐帧动作表征

最近,SimCLR使用实例鉴别作为网络前置任务,并引入了一个名为NT-Xent的对比损失,该对比损失最大化相同数据的两个增强视图之间的一致性。...对于时间数据增强,我们首先对V执行随机时间裁剪,以生成两个长度为[T,αT]帧的随机裁剪片段,其中α是控制最大裁剪长度的超参数。在此过程中,我们保证两个剪辑片段之间至少存在β%的重叠帧。...为了优化逐帧表征,我们提出了一种新的序列对比损失(SCL),它通过最小化两个增强视图的嵌入相似性和先验高斯分布之间的KL散度来实现,如图4所示。...具体来说,与SimCLR类似,我们使用一个由两层MLP组成的小型投影网络g,由FVE编码的帧表征H由该投影网络投影到潜在嵌入Z。...SCL通过最小化两个增强视图的序列相似性与先验高斯分布之间的KL散度来优化嵌入空间。我们在各种数据集和任务上的实验结果证明了该方法的有效性和通用性。

1.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    A full data augmentation pipeline for small object detection based on GAN

    我们的管流程将视频数据集作为输入,并返回相同的数据集,但带有新的合成小目标(图1)。假设是,从可以在大量数据集中找到的较大目标的视觉特征开始,可以生成高质量的合成小目标,并将其放入现有图像中。...该模型由两个网络组成,这两个网络在对抗性过程中训练,其中一个网络(生成器)迭代生成假图像,另一个网络在真图像和假图像之间进行区分。因此,对抗性损失迫使生成的图像原则上与真实图像无法区分。  ...因此,为了训练所提出的GAN,需要两个不同的图像集:(i)由真实大目标(HR目标)组成的HR子集和(ii)由真实小目标(LR目标)构成的LR子集。...考虑到SLR和LR子集,与每对 的运动相似性 , 由下式给出: •重叠:同样地, 大小可以从其原始HR目标 导出。然后,使用IoU计算 和 之间的重叠。...这导致共有18901个目标来自UAVDT训练集——这些对象是UAVDT子集的一部分,其中冗余实例已被丢弃。然而,为了模拟小目标稀缺的场景,LR子集将仅由UAVDT数据集的大约25%的视频组成。

    1.4K20

    ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务

    背景与挑战 当前的文本到视频检索(T2VR)方法通常是在面向视频描述生成任务的数据集(如MSVD、MSR-VTT和VATEX)上训练和测试的。...这些数据集存在共同的特性,即其包含的视频通常是以较短的持续时间进行预剪辑得到,同时提供的对应文本能充分描述视频内容的要点。因此,在此类数据集中所给出的文本-视频对呈完全相关的关系。...作者将长视频整体视为一个包,视频中的各帧或由不同大小帧组成的片段则被视为不同示例。若文本与长视频的某帧或者某个片段相关,则视为文本与该长视频相关。...3.5 可视化展示 下图作者给出了一些模型检索过程中的可视化实例,分别给出了查询文本在其对应视频中由模型检测出的关键片段范围与关键片段和所有视频帧之间的相似度曲线。...在前两个查询实例中,模型检测出的关键片段与正确相关片段完全重合。在后两个查询实例中,检测出的关键片段较为不准确,但是正确片段所包含的帧均具有较高的注意力权重。

    2.5K20

    CVPR2021 | 基于transformer的视频实例分割网络VisTR

    给定一个由多个图像帧组成的视频片段作为输入,VisTR直接输出视频中每个实例的掩码序列。其核心是一种新的、有效的instance sequence匹配与分割策略,它在序列级对实例进行整体监控和分割。...•VisTR从相似性学习的新角度解决了VIS。实例分割就是学习像素级的相似度,实例跟踪就是学习实例之间的相似度。因此,在相同的实例分割框架下,可以无缝、自然地实现实例跟踪。...它由四个主要部分组成:一个用于提取多帧压缩特征表示的CNN backbone、一个用于建立像素级相似性建模的编码-解码的transformer、一个用于监控模型的instance sequence matching...为了找到相应的ground truth并对instance sequence进行整体监控,引入了instance sequence匹配策略。...下图显示了YouTube VIS验证数据集上VisTR的可视化,每一行包含从同一视频中采样的图像。

    1.3K10

    AAAI-2024 | VadCLIP: 首个基于视觉-语言模型的弱监督视频异常检测方法

    我们提出的方法包括三个重要的组成部分,以应对新范式带来的新挑战。...根据之前的工作,我们使用GCN从特征相似性和相对距离的角度对全局时间依赖性进行建模,可以总结如下: 特征相似性分支通过计算两帧之间的特征的余弦相似度生成GCN邻接矩阵: H_{sim} = \frac{...对于每一个类别,我们选择top-K个相似度并计算所有帧的平均值,以测量该视频与当前类之间的对齐程度,然后我们获得一个向量 s={s_1,…,s_m} ,它表示这个视频和所有类之间的相似性。...WSVAD数据集UCF-Crime和XD-Violence中,我们的方法和之前的工作的对比结果,为了保证公平,上述列出结果的工作均使用CLIP特征进行重新训练,可以看出我们的方法在两个数据集中相较之前的工作有较大的提升...我们通过和最先进的工作对比和在两个WSVAD基准数据集上的充分消融,验证了VadCLIP的有效性。未来,我们将继续探索视觉语言预训练知识,并进一步致力于开放集VAD任务。

    80810

    AAAI-2024 | VadCLIP: 首个基于视觉-语言模型的弱监督视频异常检测方法

    我们提出的方法包括三个重要的组成部分,以应对新范式带来的新挑战。...根据之前的工作,我们使用GCN从特征相似性和相对距离的角度对全局时间依赖性进行建模,可以总结如下: 特征相似性分支通过计算两帧之间的特征的余弦相似度生成GCN邻接矩阵: H_{sim} = \frac{...对于每一个类别,我们选择top-K个相似度并计算所有帧的平均值,以测量该视频与当前类之间的对齐程度,然后我们获得一个向量 s={s_1,…,s_m} ,它表示这个视频和所有类之间的相似性。...WSVAD数据集UCF-Crime和XD-Violence中,我们的方法和之前的工作的对比结果,为了保证公平,上述列出结果的工作均使用CLIP特征进行重新训练,可以看出我们的方法在两个数据集中相较之前的工作有较大的提升...我们通过和最先进的工作对比和在两个WSVAD基准数据集上的充分消融,验证了VadCLIP的有效性。未来,我们将继续探索视觉语言预训练知识,并进一步致力于开放集VAD任务。

    1.9K10

    西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!

    2) 基于CLIP的大规模视频文本数据集的后预训练如何影响性能? 3) 对视频帧之间的时间依赖性建模的实用机制是什么? 4) 该模型对视频文本检索任务的超参数敏感性。...3) 基于强大的预训练CLIP,对于小数据集,最好不要引入新参数,对视频帧采用平均池化机制;对于大数据集,最好引入更多参数,以学习大型数据集的时间依赖性。...的目标是计算相关视频文本对的高相似度分数和不相关视频文本对的低相似度分数。 其中,视频(或视频片段)在本文中表示为一系列帧(图像)的集合,由个采样帧组成,使得。...而紧凑型相似性计算器使用变压器模型进行多模态交互,并通过线性投影进一步计算相似性,两者都包含新的权重以供学习。...无参数类型首先使用平均池化来聚合所有帧的特征,以获得“平均帧”,然后,将相似性函数定义为余弦相似性: Sequential type 平均池化操作忽略帧之间的顺序信息。

    2.8K40

    OCTruck:开放体多目标跟踪的基准,将 MOT 扩展到定位、关联和识别既见(基础)类别和未见类别的通用目标 !

    接着,作者计算这些编码特征之间的相似性,以选择高相似性类别标签,即匹配类别(LVIS中的一个类别名称),该标签可用于计算ClsA。...2) 识别: 识别头用于生成目标的类别名称。它主要由一个生成式语言模型组成,作者使用FlanT5-base [62]并使用其预训练权重进行初始化。...通过一个投影层,将从Deformable DETR获得的候选目标的视觉特征映射到生成模型的输入空间,然后由由自注意力层和前馈神经网络组成的生成编码器和解码器处理。...然后,通过每对图像之间的对比学习实现相似性学习,其中相同的目标作为正样本,其他目标和生成的目标作为负样本。第二阶段是学习原始视频的关联模型。...这验证了mgReA的可用性,它能正确反映目标识别性能。同时,作者也可以看到两个mgReA分数之间的差距通常大于两个ClsA分数之间的差距。这意味着mgReA能更好地反映不同方法之间的差距。

    63410

    【论文解读】使用有监督和无监督的深度神经网络进行闭环检测

    实验在5个常用数据集上,与DBoW2, DBoW3 和iBoW-LCD方法相比,所提出的方法在回环检测上更具鲁棒性,在计算效率上,所提方法比其他方法速度快8倍以上。 概述 ?...该层由一个CNN分类器组成,这个分类器有两个作用:其一为将场景中的物体分类成动态或静态两类,另一个作用是从分类器的中间层提取出静态对象的特征。...图 3 重构误差的变化 特征存储与相似性比较: 每张图像中提取的特征组成了字典D,以便后续的图像相似性比较。作者使用了两个字典:超级字典与普通字典。 ?...为当前帧查找回环帧的过程中,先在超级字典中进行查找,找到相似性评分最高的一帧后,再在普通字典中对最高评分帧附近的关键帧进行查找。查找过程如下图: ?...提出的方法在5个室外数据集上进行检验,并与现阶段在回环检测中广泛使用的DBoW2, DBoW3和最新的iBoW方法 进行比较,下表为比较啊结构,可以看出作者所提方法性能更好。 ?

    1.8K20

    伦敦大学提出 SAMa: 材料感知三维选择和分割 !

    Materialistic[56] 提供了一个包含50,000张合成高动态范围(HDR)图像的数据集,这些图像通过路径追踪从Archinteriors收藏集中100个室内场景和3,000种材料生成。...这些嵌入随后与 Mask 解码器中的编码条件 Query (例如,像素上的点击)结合,生成每帧的相似性 Mask 。...作者的新视频材料数据集含有稠密的逐帧材料标注,这使作者能够同时 Fine-tune SAM2 的记忆注意力模块和 Mask 解码器。...然而,Sharma等人[56]表明,通过计算初始点击的值与其他视图的值之间的交叉注意关系,选择操作可以在两个帧之间工作。...由于相似性直接投影到像素值上,作者在原SAM2论文[49]中描述的方法中发现,使用孔填充和斑点去除技术是有益的。 作者展示了由文本生成的网格资产及其与其他网格[65]的输出结果。

    55110

    打破视频标注成本壁垒,图像字幕引领文本到视频检索训练新趋势,超越零样本CLIP Baseline !

    作者的贡献有三方面: 作者提出了一种新的简单方法来训练视频检索模型,该方法使用自动帧标题,这些标题构成免费的标签进行监督(见图1)。据作者所知,在开展这项研究之前,现成的标题生成尚未用于此类目标。...给定一个由帧组成的 未标注 训练视频,作者从视频中选取帧(),并使用个图像字幕生成器提取字幕,形成一个初始标签集,其中。然后作者为每帧获得个文本描述,每个视频总共得到个标签。...MSR-VTT [78] 由10k个YouTube视频组成。视频长度从10秒到32秒不等,平均为15秒。...另一方面,标题质量之间的差异开始增加。作者经验发现,选择两个最佳标题构成了一个好的折中方案,总体上带来了有希望的性能。然而,前1、2或3名(最后三行)之间的差异并不显著。 (三)组合标题生成器。...作者看到,作者的方法在这些指标上也比 Baseline 有所改进。 与BLIP的前2名相比。可以看出,大约只有7%的情况下,两个字幕生成器的前两个字幕来自完全相同的两个帧。

    1.6K10

    小白系列(3)| 计算机视觉之直接视觉跟踪

    事实证明,当被跟踪目标的外观随时间变化时,这些更复杂的模型非常有用。在这种情况下,通常采用主成分分析和基于字典的方法。在这里,可以分解目标对象的参考图像。例如,假设我们有一个 100 人的图像数据集。...因此,给定前一帧运动模型的参数向量 ,我们的任务是找到与参考和当前图像最匹配的新向量。 3.1 相似性函数 这里面有一个很有意思的问题。参考图像和当前图像的最佳匹配项究竟是什么?...在下面的示例中,我们可以看到前两个图像之间的相似性应该大于后两个图像之间的相似性。 为了计算模板和原始图像之间的相似性,使用了几个相似性函数。...所以,给定前一帧的参数 ,我们需要设计一个搜索策略来查找当前时间的新模型参数。最简单的方法是围绕前面的参数 定义局部区域搜索。...因此,可以节省很多的计算工作量。 05 总结 在这篇文章中,我们了解到图像跟踪方法由四个主要组成部分组成:外观模型、Transformer模型、相似度度量和检索策略。

    98420

    基于点云描述子的立体视觉里程计快速鲁棒的位置识别方法

    其实就是使用激光雷达获取的点云计算全局的点云描述子,并记录成个一个数据集,而使用双目视觉三角化生成点云作为输入将这些三角化出来的三角点计算三种描述子,不断的与数据集进行检索和对比,最终匹配上的则是回环检测成功...为了确定两个位置是同一个位置的可能性,需要评估它们对应图像的相似性 。然而,本文提出的视觉里程计方法提供了可用于地点识别的附加信息。...我们在KITTI数据集和Oxford RobotCar数据集上评估了所提出的方法。通过对RobotCar数据集的分析,证明了该方法对季节变化的鲁棒性,并证明了该方法比现有方法具有更高的精度和计算效率。...在每个箱子中,找到最大高度并将其连接起来,以形成当前位置的描述子。 位置识别: 基于位置的描述子,确定位置之间的相似性,通过计算每个位置到参考数据库中每个位置描述子的最短距离获取相似性。...基于RobotCar数据集的位置识别精度统计 ●总结 本文提出了一种新的立体视觉里程计位置识别方法。我们不需要二维图像的相似性,而是依靠视觉里程计生成的三维点来确定地点之间的相关性。

    96610

    基于置信度的自上而下的多人姿态估计与跟踪方法

    自上而下的方法根据由姿态估计器预测的热图过滤关键点,这些估计器针对图像而非视频帧进行优化。估计器受到运动模糊的影响,因此很难产生准确的关节点。此外,相邻人员之间的遮挡可能会误导估计器做出错误的预测。...关键点预测模块由三个3×3反卷积层组成,生成K张热图,其中K为每个人的关键点数量。...在第一阶段,使用关键点置信网络检测人物并估计他们的姿势。然后,在跟踪阶段,(1)执行帧与帧之间的身份关联,(2)从前一帧生成不匹配轨迹的边界框。...然后附加关键点置信度模块(KAM)并一起微调。使用COCO数据集的训练集和验证集以及PoseTrack数据集的训练集进行模型训练。对于关键点置信度模块的训练,进行了20个epoch的微调。...使用欧几里得距离度量两个特征之间的相似性,当相似性小于阈值(例如100)时,认为是同一个人。

    32510

    X-Pool:多伦多大学提出基于文本的视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)

    检索与基于文本的搜索查询在语义上最相似的视频的能力使我们能够快速找到相关信息,并理解大量视频数据。 文本视频检索是解决这一问题的一种方法,其目标是让模型学习文本和视频之间的相似性函数。...这些帧描绘了国际新闻中的各种场景,表达了不同的视觉内容。此外,图1展示了与该视频相关的多个字幕,并观察到每个字幕最适合匹配不同的视频帧,但似乎与其他视频帧无关。...与之前的工作不同,本文的模型汇集了视频的整个帧,为文本提供了灵活性,以关注其语义最相似的帧,然后根据这些帧生成聚合视频表示。 03 方法 3.1....核心机制是在文本和视频帧之间调整scaled dot product attention。以这些帧为条件,生成一个视频嵌入,学习捕获给定文本中描述的语义最相似的视频子区域。...因此,文本可以通过点积注意中的参数推理来关注其语义最相似的帧。最终文本条件池化定义为: 其中FC是一个全连接的网络。 Loss 作者使用由N个文本和视频对组成的数据集D来训练模型。

    1.3K10

    用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!

    基于这样的背景,自然会出现一个问题: 我们如何才能最好地利用这些强大的视觉语言模型中的能力,并有效地使其适应以解决感兴趣的特定新的视觉任务?...这些提示向量完全由自由参数组成,这些参数不对应于任何真实的具体单词,并且文本编码器的后续层将参加优化这些向量,就好像它们是生成分类或嵌入的 “虚拟token” 序列一样。...Prompting CLIP for Video Understanding 2.2.1 Problem Scenario 给定由训练集和验证集组成的数据集,。...最终,这些学习的向量最终构造了文本编码器可以理解的 “虚拟” 提示模板,并生成所需的分类或查询嵌入。 Action Recognition 动作识别是对视频的动作进行分类。...为了生成分类文本,作者通过将标记化动作类别名称输入预训练文本编码器()来构建“虚拟”提示模板,如下所示: 其中,表示第i个提示向量,由可学习的参数组成,D是向量维数。

    2.7K20

    基于事件的光流矢量符号体系结构

    因此,开发利用事件数据独特特性的无监督光流方法至关重要,消除对昂贵且容易出错的地面实况的依赖Shiba等人(2022)。 光流估计涉及找到在不同时刻捕获的图像之间的像素对应关系。...在这项工作中,VSAs构成了我们新颖描述符的基础,该描述符由事件摄像头捕获的自然场景组成。...对于HRR,绑定操作是两个超向量的循环卷积,叠加操作是分量求和。此外,两个HRRs之间的相似性可以通过余弦相似性来衡量。 在这项工作中,从事件帧中提取特征需要基于VSA的2-D空间表示。...3.2.4 框架描述 光流估计涉及识别在两个不同时间点捕获的图像之间的像素对应关系。特征匹配方法的基础在于这样一个假设:与其他像素相比,准确估计的光流信息与伴随事件帧中相应像素之间的高相似性相对应。...因此,图4(蓝色曲线)显示,MVSEC数据集中流匹配点的相似性低于DSEC数据集。这一观察表明,与DSEC数据集相比,MVSEC数据集在事件帧中经历了更大的随机性,导致事件帧质量较低。

    45510

    基于深度学习的艺术风格化研究【附PDF】

    ,实现预测的功能;除此之外,有些APP还提供了一些譬如现稿上色和填充纹理这些便于艺术家进行艺术创作的工具; 前段时间的电影《至爱梵高》,是一部由125位艺术家花费6年时间,通过逐帧去模拟梵高的绘画风格所完成的...本次分享主要分成三个方面: 第一个方面从单张图像学习出发,提出使转化效果更好的新方法,以及如何设计网络结构提升转化速度,然后将图像的风格转化,扩展到视频以及立体视觉的图像和视频上; 第二个方面重点介绍如何让网络从多张图片组成的数据集中学习的同时...全局相似衡量图像之间统计意义上的相似性,跟局部对应没有关系;局部近似主要通过统计两个特征图的局部图像块之间的相似性。...当对视频进行风格转换时,逐帧处理视频帧会因为没有建立帧与帧之间的联系造成抖动和跳动,为了得到稳定的生成结果,向网络中加入时间上的约束,融合两帧之间的光流和置信度信息。 ?...网络由两个子网络构成,第一个子网络衡量黑白图像和单张参考图像的相似性,第二个网络从数据集中学习通用的上色技巧。 ? 最后的效果图。

    1.8K30

    打打字就能指挥算法视频抠图,Transformer掌握跨模态新技能,精度优于现有模型丨CVPR 2022

    接着,通过多模态Transformer对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。 接下来,生成相应的mask和参考预测序列。...精度优于所有现有模型 作者在三个相关数据集上对MTTR进行了性能测试:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。...前两个数据集的衡量指标包括IoU(交并比,1表示预测框与真实边框完全重合)、平均IoU和precision@K(预测正确的相关结果占所有结果的比例)。...结果如下: 可以看到,MTTR在所有指标上都优于所有现有方法,与SOTA模型相比,还在第一个数据集上提高了4.3的mAP值(平均精度)。...更具挑战性的Refer-YouTube-VOS数据集的主要评估指标为区域相似性(J)和轮廓精度(F)的平均值。 MTTR在这些指标上全部“险胜”。

    69220
    领券