在本文中,我们将讨论一个通用的预训练模型能否解决预测任务的范式转变。我们通过使用TimeGPT进行零样本学习并对模型的性能进行了彻底分析。...TimeGPT TimeGPT [1] 是时间序列预测的第一个基础模型,其特点是能够在不同领域之间进行泛化。它可以在训练阶段之外的数据集上产生精确的预测。...与Transformers的复杂架构不同,TiDE 基于一个简单的编码器-解码器架构,并使用了残差连接: 编码器负责将时间序列的过去目标值和协变量映射为特征的密集表示。特征投影降低了动态协变量的维度。...,可以将训练数据集和保留数据集输入 forecast() 函数。...需要设置以下参数: df- 包含历史数据的数据帧 time_col- 包含时间信息的列 target_col- 包含历史数据的列 X_df- 包含预测范围外生特征的数据帧 date_features-
,绿色箭头表示在线定位阶段的数据流 B.道路特征的选择 考虑到地图稀疏性和查询有效性,以下城市道路上的标准化目标对象是适合作为语义地标进行检测:1)道路旁灯杆顶部的灯具和交通标志稳定且高度足够高,可由前置摄像头捕捉...C.道路特征检测 本文两级级联检测模块首先执行实例级检测,将实例作为盒子(即极点和地面)对象上的索引代表像素和车道轮廓上的样本像素。...然后,沿着这些检测到的车道评估64×64图像块,以级联检测索引的虚线车道角,为了减少重复区域(如特征提取)上的重复计算,我们参考CenterNet,该方法将底层特征提取过程与顶层头部分离,以使这些头部能够适应不同的任务...B.感知模型的训练和表现 手动标注了从这四个KAIST序列中提取的3207幅图像(占所有图像的4.4%),这些标注包括图2中所示的2D对象框、车道轮廓和实例关键点,我们将标记图像随机分为训练集和测试集,...训练集和测试集的比例分别为85%和15%,并通过缩放和颜色增强对它们进行增强,生成512×512个模型输入。
然后,将前向和后向网络生成的特征输入到由多个像素 shuffle 操作和卷积组成的上采样网络中,获得恢复的帧 SR_t 。...在预训练阶段,我们训练了一个强大的 VSR 网络。由于当前的 VSR 网络不使用 BatchNorm,本文在预训练的 VSR 模型中引入缩放因子来调整每个通道和滤波器的稀疏性。...给定输入特征,将四个滤波器作为剪枝单元来评估它们的重要性,然后在滤波器上施加比例因子 γ_j 来增强稀疏性(见剪枝准则和正则化形式)。...实验 实验设置 采用 REDS 和 Vimeo-90K 数据集进行训练。对于 REDS,使用 REDS4 作为测试集,REDSval4 作为验证集,REDS 的剩余片段用于训练。...此外,采用 Vid4、UDM10、Vimeo-90K-t 与 Vimeo-90K 一起作为测试集。本文使用双三次(BI)和模糊下采样(BD)两种退化方法来训练和测试 4 倍下采样的模型。
在我们的模型中,我们利用运动矢量来对齐上一帧的特征。在网络的残差模块中我们应用稀疏处理来只处理具有残差的像素。 基于运动矢量的对齐模块 在视频超分辨率算法中,相邻帧之间的对齐对性能有着重要的影响。...因此,我们设计了一种模拟退火策略来缓慢减少训练中涉及的像素数量,这是我们稀疏处理中的一个关键技巧。...Res_t 是从压缩视频中提取的残差。训练时,我们使用一个轻量级的 CNN 来预测空间掩码;测试时,卷积只应用于残差不等于 0 的像素。...实验结果 论文采用 REDS 数据集进行训练,在 REDS4 和 Vid 数据集上进行测试。所有帧首先由标准差为 1.5 的高斯核平滑并下采样为原来的 1/4。...在实验中,我们将 CRF 值设置为 18、23 和 28,并使用 FFmpeg 编码器对数据集进行编码。
由于有限的角度扫描分辨率和遮挡,单帧扫描只能稀疏地覆盖场景。稀疏性限制了语义分割或表面重建等下游应用的性能。幸运的是,当传感器移动时,会从一系列不同的视点捕获多帧扫描。...将运动流估计应用到相关点云上则可以累积获得对齐的多帧点云。...3.3 移动物体分割为方便移动物体分割,所有 T 帧的 2D 特征图 Fbase 经过上一节提到的传感器运动估计校正后堆积成为一个 3D 特征张量,再通过 3D 卷积网络、时间尺度上的最大池化以及一个小的...基于Fmotion, 以下公式预测任意位置xi的发运动分割 :3.4 时空实例组合时空实例组合将移动点分割为独立的物体,并跨越多帧将同一物体组合在一起。...具体来说,通过预测每一帧每一点到其相应物体几何中心的偏移量,经过运动补偿后应用 DBSCAN 聚类算法,将跨越多帧的移动点聚类为不同的实例。
在本文中,我们将讨论一个通用的预训练模型能否解决预测任务的范式转变。我们通过使用TimeGPT进行零样本学习并对模型的性能进行了彻底分析。...TimeGPT TimeGPT [1] 是时间序列预测的第一个基础模型,其特点是能够在不同领域之间进行泛化。它可以在训练阶段之外的数据集上产生精确的预测。...与Transformers的复杂架构不同,TiDE 基于一个简单的编码器-解码器架构,并使用了残差连接: 编码器负责将时间序列的过去目标值和协变量映射为特征的密集表示。特征投影降低了动态协变量的维度。...然后,时间解码器将密集解码器的输出与该时间步的特征投影相结合,产生预测。 残差连接线性地将回溯映射为与预测时段大小相同的向量,将其添加到时间解码器的输出中以产生最终的预测。...,这将用作预测函数中的参数;外生特征需要一个单独的数据集用于预测时段。
为了获取用户个性化的兴趣,从客户端实时反馈回来的轨迹数据被用来截取出过去帧的 FoV 区域。然后将当前帧和截取后的过去帧输入到预训练的视频编码器中,以提取大多数用户的一般观看特征和当前用户的兴趣特征。...需要注意的是,ViT 将视频帧分割为不重叠的图像块,并利用Transformer 模型来捕捉这些块之间的相互作用,以获得最终的表示。...为了匹配预训练模型的输入大小并适应不同分辨率的视频,本文使用 openCV 将分辨率调整为 224×224。...实验 baseline 与实验设置 为了满足 ViT 的数据需求,本文从一个大型开放数据集中选择了107个视频,包括对齐的观看轨迹。训练集包含这些视频的 90%,剩余的 10% 用作测试集。...为了确保准确可靠的结果,使用了 CpuFrequtil 工具将 CPU 频率限制在 2.2GHz,结果是一个跨平台性能测试 GeekBench5 分数约为 1400 分。
我们假设一组来自不同实际问题的大型稀疏矩阵,它们代表了各种特征和非零模式。该数据集将作为SpMV基准测试和图像生成阶段的输入。第一步的目标是评估数据集中所有矩阵在考虑不同存储格式时SpMV内核的性能。...B.稀疏矩阵数据集 正如我们在第三节中指出的,为了训练网络,有必要有一个大的稀疏矩阵集。这个数据集应该包含来自不同实际问题和应用的矩阵。通过这种方式,我们期望这些矩阵涵盖广泛的特征和非零模式。...数据集的平均值、最小值和最大值的主要特征如表二所示。 ? C . SpMV基准测试 为了训练CNN,应该给数据集中的矩阵分配一个分类(最好的存储格式),这是SpMV基准测试阶段的目标。...为了训练AlexNet网络,我们使用了k-fold交叉验证(见第三节),特别是将数据集分为训练集(80%的矩阵)和测试集(20%的矩阵)。...我们着重于为gpu上的SpMV内核选择最佳存储格式,提出了一种将矩阵稀疏模式作为图像来考虑的新方法,将几个矩阵特征编码为图像中像素的RGB颜色,我们就可以生成具有足够信息的图像数据集来成功训练CNN。
考虑到视频扫描和测试图像序列{Iq},One-shot物体姿态估计的目标是估计物体的姿态{ξq}∈SE(3)定义在摄像机坐标系中,其中q是视频中的关键帧索引。 3.1....为了定义物体的典型姿势,在AR中对物体的边界框B进行了注释,摄像机的姿势{ξi}∈SE(3)由ARKit[2]或ARCore[1]等非自身AR工具箱跟踪,i是帧索引。捕捉界面如图4所示。...恢复运动结构:在映射阶段,给定一组从视频扫描中提取的图像{I},我们使用恢复运动结构(SfM)来重建物体的稀疏点云{Pj},其中j是点索引。由于B是有注释的,{Pj}可以在物体坐标系中被定义。...每个重建的点Pj都对应于一组匹配的二维关键点和描述符∈Rd,其中k是关键点。其中k是关键点索引,d是描述符的维度。对应图{Gj},也被称为特征轨迹,由的关键点索引形成,如图2(3,4)所示。...基于特征的在线姿势跟踪:上述姿势估计模块只接受稀疏的关键帧图像作为输入。为了在AR应用中获得稳定的物体姿态,我们进一步为OnePose配备了基于特征的姿态跟踪模块,该模块处理测试序列中的每一帧。
语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡的光流保证了语义分割的像素级别的时序一致性。作者提出的语义分割方案不仅可以利用视频中的所有图像帧,而且在测试阶段不增加额外的计算量。...一方面由于标注工作耗时耗力,一个视频片段往往只标注一帧,导致很多方法难以利用全部的数据,或者需要使用额外的数据集做预训练;另一方面由于对前后帧之间进行信息交互往往为模型引入额外的模块,导致视频分割效率低...(Fayyaz et al. 2016) ,Netwarp (Gadde,Jampani, and Gehler 2017),PEARL (Jin et al. 2017) 等通过光流/RNN等模块将前后帧的特征进行融合或添加约束以学习到更强的表示能力...然而上述方法面临两个问题,一方面其往往使用现成的在其他数据集上训练的光流模型(FlowNet),导致了分割效率的降低;另一方面上述方法往往只利用了标准帧附近的少数帧,没有充分利用整个数据集和发挥光流的作用...本文模型通过在视频中无监督学习光流并且使用光流对前后帧语义分割的特征图施加约束来使得两个任务互相增益并且没有显式的特征融合,这种隐式的约束可以帮助利用数据集中的全部数据并学到更鲁棒的分割特征以提高分割准确率
VSAs在各种领域展示了显著的能力,包括空间认知和视觉场景理解。通过空间索引向量的叠加,按其相应的图像像素值加权,实现了彩色图像和事件帧的超向量编码,包括人工形状Renner等人(2022b,a)。...经过单独训练后,分别在DSEC和MVSEC上对与VSA-Flow相同的测试集进行评估。两种方法都使用Pytorch库实现。...对于VSA-SM训练,我们将批量大小设置为1,优化器设置为Adam Kingma和Ba(2014),学习率设置为1e−2。...因此,图4(蓝色曲线)显示,MVSEC数据集中流匹配点的相似性低于DSEC数据集。这一观察表明,与DSEC数据集相比,MVSEC数据集在事件帧中经历了更大的随机性,导致事件帧质量较低。...与朱和袁(2018)以及Shiba等人(2022)一致,表2比较了一些使用相同训练和测试序列的主要方法。许多在其他户外序列或数据集上训练的基于学习的方法没有用于测试。
具体地说,它取消图像特征以形成三维特征体积,然后使用稀疏卷积处理特征体积以输出稀疏TSDF体积。通过从粗到精的设计,预测的TSDF在每个层次上逐渐细化。...图2NeuralRecon architecture..NeuralRecon采用三级从粗到精的方法预测TSDF,该方法逐渐增加稀疏体素的密度。首先将局部片段中的关键帧图像通过图像主干提取多级特征。...这些图像特征随后沿每条光线反向投影,并聚合成三维特征体积Flt,其中l表示水平索引。在第一层(l=1),预测了一个稠密的TSDF体积S 1t。...占用分数表示在TSDF截断距离λ内的体素的置信度。将占位分数小于稀疏阈值θ的体素定义为空洞空间,并进行稀疏化。...NeuralRecon不是为每个关键帧估计单个视图深度图,而是在局部片段窗口的边界体积内联合重建隐式曲面。该设计指导网络直接从训练数据中学习自然曲面的先验知识。
语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡得光流保证了语义分割的像素级别的时序一致性。作者提出的语义分割方案不仅可以利用视频中的所有图像帧,而且在测试阶段不增加额外的计算量。...一方面由于标注工作耗时耗力,一个视频片段往往只标注一帧,导致很多方法难以利用全部的数据,或者需要使用额外的数据集做预训练; 另一方面由于对前后帧之间进行信息交互往往为模型引入额外的模块,导致视频分割效率低...(Fayyaz et al. 2016) ,Netwarp (Gadde,Jampani, and Gehler 2017),PEARL (Jin et al. 2017) 等通过光流/RNN等模块将前后帧的特征进行融合或添加约束以学习到更强的表示能力...然而上述方法面临两个问题,一方面其往往使用现成的在其他数据集上训练的光流模型(FlowNet),导致了分割效率的降低;另一方面上述方法往往只利用了标准帧附近的少数帧,没有充分利用整个数据集和发挥光流的作用...本文模型通过在视频中无监督学习光流并且使用光流对前后帧语义分割的特征图施加约束来使得两个任务互相增益并且没有显式的特征融合,这种隐式的约束可以帮助利用数据集中的全部数据并学到更鲁棒的分割特征以提高分割准确率
然而,LiDAR点云的不规则性、稀疏性,以及大规模数据处理的实时性需求,使得高效且准确的语义分割成为技术难点。 现有方法主要分为点云、体素和投影(range-view)三类。...2)FLARES的核心设计 · 子点云分割:将完整点云分割为多个子点云,每个子点云投影为低分辨率图像(例如,完整点云分辨率64×2048分割为3个子点云,各子点云投影为64×512)。...粘贴稀有类别:从其他帧或合成数据(如Carla仿真数据)中采样稀有类别点云,粘贴到当前帧。 b. 丢弃冗余类别:减少高频类别(如地面、植被)的像素数量。...相比原方法,WPD+通过多帧采样和合成数据引入,更有效平衡类别分布。 · Multi-Cloud Fusion(MCF) 针对子点云投影的2D占用率下降问题,提出多子点云融合策略: a....首先,在标准模式下,作者将分辨率设置为64×512和32×480,将整个点云分成多个子云进行训练和推理。
通过多帧融合缓解点云稀疏性:为了缓解4D毫米波雷达点云的稀疏性,融合了来自三帧连续图像的点云。首先通过将前一帧的点云数据转换到世界坐标系并再转换回当前帧的自坐标系来应用运动补偿。...所需的转换和旋转矩阵来自车辆的GPS传感器。此外在融合过程中为每个点的逐点特征引入一个索引,表示每个点的帧来源:当前帧为0,前一帧为1,再前一帧为2。这个索引保留了道路路沿分割任务的时态信息。...驾驶测试与数据集描述 该真实世界驾驶数据集由50个数据片段组成,每个数据片段约40秒,总计30,424帧。...GPS和IMU传感器提供车辆的位置、速度和偏航率。在逐点道路路沿分割训练中,训练集包含40个数据片段,共24,291帧点云数据。为了增强模型性能,我们通过沿车辆的左右对称性水平翻转帧来进行数据增强。...经过数据增强后,训练集扩展至48,582帧。验证集和测试集各包含5个数据片段,其中验证集有3,076帧,测试集有3,057帧。该数据集涵盖了多种驾驶场景,包括高速公路、城市区域和弯曲道路。
与基于检测的跟踪方法不同,作者消除了数据关联和过滤的需要,将所有跟踪功能集成到检测器中。此外,与现有的联合检测和跟踪方法不同,作者的跟踪器不需要修改训练过程或损失函数。...此外,作者将上述的单帧噪声实例通过时间传播扩展,以更好地与稀疏循环训练过程对齐。在每一帧的训练中,作者从噪声实例中随机选择 M' 组,并将它们投影到下一帧。...训练、验证和测试的数据分布分别为700、150和150个场景。每个场景包含一个20秒的2帧/秒视频片段和6个视角图像。除了3D边界框标签外,该数据集还提供了车辆运动状态和相机参数的数据。...作者使用AdamW优化器训练模型100个周期,无需对跟踪任务进行任何微调。与大多数方法一样,作者采用顺序迭代训练方法。每次训练步骤从单个帧的输入数据和来自历史帧的实例缓存中获取数据。...因此,作者采用两种措施来进一步发挥Sparse4D的潜力,包括与未来帧的特征融合和更大、更预训练的Backbone网络。
在提交之时(2024/03/08),SparseLIF在nuScenes数据集上取得了最先进的性能,在验证集和测试基准上都排名第一,明显优于所有最先进的3D目标检测器。...作者进行了全面的实验来证明作者所提出方法的有效性。正如所看到的,SparseLIF在nuScenes数据集上超越了所有最先进的三维目标检测器,在验证集和测试基准上都排名第一。...受到DETR的启发,DETR3D通过使用稀疏的3D目标查询对2D特征进行索引,直接在3D空间中操作预测。PETR进一步减轻了索引操作的开销。...特别是,在没有使用任何外部训练数据的情况下,作者比最具竞争力的方法FusionFormer高出1.9% NDS 。...两个传感器的时间戳可能并不总是同步的,导致数据停滞,例如,检测器在时间t错误地接收到了时间戳为 t-1 的数据。遵循BEVFusion的方法,作者在50%的帧上模拟了这种不同步的情况。
[11]通过对2D光流矢量的消失点分析来估计场景中的3D动态点。然后,将三项能量函数最小化,以便将场景分割为不同的运动。...为了更清楚地表示,我们将展示一个只有一个自由移动的车辆的用例,因此省略了x索引。当观察者和其他车辆都在行驶时,每次从不同位置Ot + n看到自由车辆质心Ot + nCt + n。...IV、实验 A、测试数据 为了从主要框架和借口任务中训练提出的深度神经网络,我们将n设置为1,以便测量两个连续帧之间的车辆运动。...第二个基线衡量的是平均运动输出将获得的终点误差。 请注意,在我们的数据集中,每帧上只有几个激光雷达点落入移动的车辆中。...所有给定值仅在测试时通过验证集计算得出,在学习阶段,该验证集从未用于训练主网络或借口任务。回想一下,在测试过程中,仅使用激光雷达数据评估最终网络。
这些特征提取器通常对以固定帧率采样的视频帧进行操作,并且通常对图像/视频理解任务进行预训练,而没有适应视频字幕数据。...具体而言,多个特征提取器,通常在图像/视频理解任务 (例如,图像分类或动作识别) 上训练,用于从密集采样的视频帧中提取2D外观特征和3D运动特征。...虽然取得了不错的结果,但这些现成的特征提取程序和下游视频字幕在数据域和任务制定方面存在差异。在这样的情况下,使用多个特征提取器进行端到端训练密集的视频帧是计算密集型的,甚至是不可行的。...最近,CLIP BERT 指出连续视频帧中呈现的重复信息对于下游视频和语言任务不是必需的,并提出了一种稀疏采样策略,该策略可以对原始像素输入进行负担得起的端到端训练。...在学习过程中,稀疏性约束将正则化模型训练,以发现视频序列的基础结构。
领取专属 10元无门槛券
手把手带您无忧上云