Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/AMS-Regular.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文笔记31 -- (ReID)【ICCV2021】TransReID: Transformer-based Object Re-Identification

论文笔记31 -- (ReID)【ICCV2021】TransReID: Transformer-based Object Re-Identification

作者头像
对角巷法师
发布于 2021-12-08 08:14:46
发布于 2021-12-08 08:14:46
2.8K0
举报
文章被收录于专栏:对角巷对角巷

ICCV 2021,首个将Transformer用于Re-ID的工作 TransReID在行人和车辆重识别任务上均表现SOTA!

论文点这里 代码点这里

Shuting He,Hao Luo, Pichao Wang, Fan Wang, Hao Li, Wei Jiang Alibaba Group, Zhejiang University ICCV 2021

Abstract

提取鲁棒的特征表示是目标重新识别(ReID)的关键挑战之一。虽然基于卷积神经网络(CNN)的方法取得了巨大的成功,但它们一次只处理一个局部邻域,并遭受由卷积和降采样操作符导致的细节信息损失(e.g. pooling and strided convolution,池化和跨步卷积)。为了克服这些限制,我们提出了一个名为 TransReID 的纯基于 transformer 的目标 ReID 框架。具体来说,我们首先将一个图像编码为一个patch序列,并构建一个基于 transformer 的 strong baseline,并有一些关键的改进,用基于 CNN 的方法在几个 ReID 基准测试上取得了具有竞争力的结果。为了进一步改进 transformers 中上下文的鲁棒特征学习,我们精心设计了两个新的模块。(i)提出 the jigsaw patch module(JPM),通过位移操作(shift)和patch洗牌操作(patch shuffle)重新排列 patch embeddings,产生更强的识别能力和更多样化的覆盖范围。(ii)引入了 the side information embeddings(SIE) ,通过插入可学习的 embeddings 来合并这些非视觉线索,以减轻对相机/视角变化的特征偏差。据我们所知,这是第一个采用纯 transformer 进行 ReID 研究的工作。TransReID 的实验结果非常有前景,在人和车辆 ReID 基准上都取得了最先进的性能。

1. Introduction

目标重新识别(ReID)旨在跨不同场景和相机视图关联特定对象,例如在 person ReID 和 vehicle ReID 的应用中。提取具有鲁棒性和判别性特征是 ReID 至关重要的组成部分,长期以来一直被基于 CNN 的 [19,37,36,44,42] 方法所主导。

通过回顾基于 CNN 的方法,我们发现了两个在目标 ReID 领域没有得到很好解决的重要问题。(1)在全局范围内利用丰富的结构模式对于目标 ReID[54] 至关重要。然而,由于有效感受野的高斯分布,基于 CNN 的方法主要关注小的判别区域 [29]。最近,注意力模块 [54,6,4,48,21,2] 被引入来探索长距离依赖关系 [45],但它们大多嵌入到深层,并没有解决 CNN 的原理问题。因此,基于注意力的方法仍然更喜欢大的连续区域,并且难以提取多个不同的判别性部分(见图 1)。(2)具有详细信息的细粒度特征也很重要。然而,CNN 中下采样操作(e.g. pooling 和 strided convolution)降低了输出特征图的空间分辨率,这极大地影响了区分具有相似外观的物体的辨别能力 [37,27] 。如图2所示,背包的细节在基于 CNN 的特征图中丢失了,这使得很难区分这两个人。

最近,Vision Transformer (ViT) [8] 和 Data-efficient image Transformers (DeiT) [40] 表明,在图像识别的特征提取方面,纯 transformers 与基于 CNN 的方法一样有效。 随着 multi-head 注意力模块的引入以及卷积和下采样算子的去除,基于 transformer 的模型适合解决基于 CNN 的 ReID 中的上述问题,原因如下:(1)与 CNN 模型相比, multi-head self-attention捕获了长距离依赖性,并驱动模型关注不同的人体部位(例如图 1 中的大腿、肩部、腰部);(2)无需下采样算子,transformer可以保留更详细的信息。 例如,可以观察到背包周围特征图的差异(图 2 中的红色框标记)可以帮助模型轻松区分这两个人。这些优点促使我们在目标 ReID 中引入transformers。

尽管transformers有上面讨论的巨大优势,但仍然需要专门为目标 ReID 设计,以应对独特的挑战,如图像中大的变化(例如遮挡、姿态多样性、相机视角)。在基于 CNN 的方法中,已经做出了大量努力来解决这一挑战。其中,局部特征 [37,44,20,49,28] 和辅助信息(如相机和视点)[7,61,35,30] 已经被证明对于增强特征鲁棒性是至关重要且有效的。学习部分/条带(part/stripe)聚合特征使其能够对抗遮挡和错位 [50]。然而,将刚性 part/stripe 方法从基于 CNN 的方法扩展到纯基于 transformer 的方法可能会由于全局序列分裂成几个孤立的子序列而损害远程依赖关系。此外,考虑到辅助信息,如相机和视点特定的信息,可以构建一个不变的特征空间来减少辅助信息变化带来的偏差。然而,建立在 CNN 上的复杂的辅助信息设计,如果直接应用于 transformer,无法充分利用 transformer 的固有编码能力。因此,对于纯 transformer 成功应对这些挑战而言,特定设计的模块是不可避免且必不可少的。

因此,我们提出了一个新的目标 ReID 框架 TransReID 来学习鲁棒的特征表示。首先,通过进行几个关键的调整,我们构建了一个基于纯 transformer 的 strong baseline 框架。

其次,为了扩展远程依赖并增强特征鲁棒性,我们提出了一个 jigsaw patches module(JPM),通过移位和洗牌操作重新排列 patch embeddings,并对其重新分组以进行进一步的特征学习。在模型的最后一层上使用 JPM 与不包括此特殊操作的全局分支并行提取鲁棒特征。因此,网络倾向于提取具有全局上下文的扰动不变性和鲁棒性特征。第三,为了进一步增强鲁棒特征的学习,引入了 side information embeddings(SIE)。我们提出了一个统一的框架,通过可学习的 embeddings 有效地整合非视觉信息,以减轻相机或视点带来的数据偏差,而不是基于 CNN 的方法中使用这些非视觉线索的特殊和复杂的设计。以相机为例,提出的SIE有助于解决摄像机间和摄像机内匹配之间巨大的成对相似性差异(见图 6)。SIE 也可以很容易地扩展到包括除我们已经展示的那些以外的任何非视觉信息。

据我们所知,我们是第一个研究纯 transformers 在目标 ReID 领域的应用。论文的贡献如下:

  • 提出了一个 strong baseline,首次将纯 transformer 用于 ReID 任务,并实现了与基于 CNN 的框架相当的性能。
  • 设计了一个 jigsaw patches module(JPM),由移位和 patch 洗牌操作组成,它促进了目标的扰动不变和鲁棒特征表示。
  • 引入了一种 side information embeddings(SIE),它通过可学习的 embeddings 对辅助信息进行编码,并被证明可以有效地减轻学习特征的偏差。
  • 最终框架 TransReID 在行人和车辆 ReID 基准测试中都实现了最先进的性能,包括 MSMT17 [46]、Market-1501 [55]、DukeMTMC ReID [33]、Occluded Duke [31]、VeRi-776 [24] 和 VehicleID [23]。

2. Related Work

2.1. Object ReID

对目标 ReID 的研究主要集中在行人 ReID 和车辆 ReID 上,大多数最先进的方法都是基于 CNN 结构。目标 ReID 的一个流行 pipeline 是设计合适的损失函数来训练 CNN 主干(例如 ResNet [14]),该主干用于提取图像的特征。 cross-entropy loss(ID loss)[56] 和 triplet loss [22] 在深度 ReID 中使用最广泛。 Luo等人 [27] 提出了 BNNeck,以更好地结合 ID loss 和 triplet loss。 Sun等人 [36] 提出了 ID loss 和 triplet loss 的统一观点。

Fine-grained Features. 已经学习了细粒度特征来聚合来自不同部分/区域(part/region)的信息。 细粒度部分要么通过粗略的水平条纹自动生成,要么通过语义解析自动生成。像 PCB [37]、MGN [44]、AlignedReID++ [28]、SAN [32]等方法将图像划分为多个条带,并为每条带提取局部特征。使用解析或关键点估计来对齐不同的部分或两个目标也已被证明对人和车辆的 ReID 都是有效的 [25,30,47,31]。

Side Information. 对于在交叉相机系统中捕获的图像,由于不同的相机设置和目标视点,在姿势、方向、照明、分辨率等方面存在很大的变化。一些方法 [61, 7] 使用如相机 ID 或视点信息之类的辅助信息来学习不变特征。例如,基于相机的批量归一化(CBN)[61] 强制将来自不同相机的图像数据投影到相同的子空间,从而大大减少了 inter-camera和 intra-camera 对之间的分布差距。视点/方向不变特征学习 [7,60] 对人和车辆的 ReID 也很重要。

2.2. Pure Transformer in Vision

Transformer 模型在 [41] 中被提出,用于自然语言处理(NLP)领域中的顺序数据。也表明了它对计算机视觉任务的有效性。Han 等人 [11] 和 Salman 等人 [18] 调查了 transformer 在计算机视觉领域的应用。

纯 transformer 模型正变得越来越流行。例如,Image Processing Transformer (IPT) [3] 通过使用大规模预训练来利用 transformers,并在超分辨率、去噪和去雨等多个图像处理任务上实现了最先进的性能。ViT [8] 是最近提出的,它将纯 transformer 直接应用于图像块序列。然而,ViT 需要一个大规模数据集来预训练模型。为了克服这一缺点,Touvron 等人[40]提出了一个叫作 DeiT 的框架,该框架引入了一种针对 transformer 的师生策略,以在不需要大规模预训练数据的情况下加速 ViT 训练。

3. Methodology

我们的目标 ReID 框架基于基于 transformer-based 的图像分类,但有几个关键改进以捕获鲁棒的特征(第 3.1 节)。为了进一步提高在 transformer 上下文中的鲁棒特征学习,第 2 节中精心设计了 jigsaw patch module (JPM) 和side information embeddings (SIE)。3.2 和 3.3 节这两个模块以端到端的方式联合训练,如图 4 所示。

3.1. Transformer-based strong baseline

我们遵循目标 ReID 的通用 strong pipeline [27,44] 为目标 ReID 构建了一个基于 transformer 的 strong baseline。我们的方法有两个主要阶段,即特征提取和监督学习。如图 3 所示。给定图像  xRH×W×C ,其中 H,W,C 分别表示其高度、宽度和通道数,我们将其分成 N 个固定大小的 patches { }。一个额外的可学习 [cls] embedding token(表示为 )被预先添加到输入序列中。输出 [cls] token 用作全局特征表示 。通过添加可学习的位置 embeddings 来合并空间信息。然后,输入到 transformer 层的输入序列可以表示为:

其中, 表示输入序列 embeddings, 是位置 embeddings。 是将 patches 映射到 D 维的线性投影。此外, 个transformer 层用于学习特征表示。解决了基于 CNN 方法的有限感受野问题,因为所有 transformer 层都有一个全局感受野。也没有下采样操作,因此保留了详细信息。

Overlapping Patches. 纯基于 transformer 的模型(例如 ViT、DeiT)将图像切分为不重叠的 patches,从而丢失 patches 周围的局部相邻结构。相反,我们使用滑动窗口来生成具有重叠像素的 patches。将步长表示为 S,patch 的大小为 P(例如16),那么相邻两个 patch 重叠的区域的形状表示为(P-S)× P。分辨率为 H×W 的输入图像将被切分为 N 个 patches。

其中,[·] 是下取整函数,S 设置为小于 P。 分别表示高度和宽度上切分 patches 的数量。S 越小,图像切分成的 patches 就越多。直观地说,更多的 patches 通常会带来更好的性能,但需要更多的计算成本。

Position Embeddings. 由于 ReID 任务的图像分辨率可能与图像分类中的原始图像分辨率不同,因此不能在此直接加载 ImageNet 上预训练的位置 embedding。因此,引入了双线性 2D 插值来帮助处理任何给定的输入分辨率。与 ViT 类似,位置 embedding 也是可学习的。

Supervision Learning. 我们通过构建全局特征的 ID loss 和 triplet loss 来优化网络。ID loss 是没有标签平滑(label smoothing)的交叉熵损失。对于三元组 {a,p,n},具有 soft-margin 的 triplet loss 如下所示:

3.2. Jigsaw Patch Module

尽管基于 transformer 的 strong baseline 可以在目标 ReID 中获得令人印象深刻的表现,但它利用了目标的整个图像中的信息。然而,由于遮挡和错位等挑战,我们可能只能对物体进行部分观察。学习细粒度局部特征(如条带特征)已被广泛用于基于 CNN 的方法来应对这些挑战。

假设输入到最后一层的隐藏特征表示为 。为了学习细粒度的局部特征,一个简单的解决方案是将 分成 k 个组,依次连接共享token ,然后将 k 个特征组输入到一个共享的 transformer 层来学习 k 个局部特征,表示为 { }, 是第 j 个组的输出标记。但它可能无法充分利用 transformer 的全局依赖性,因为每个局部段仅考虑连续 patch embeddings 的一部分。

为了解决上述问题,我们提出了一个 jigsaw patch module (JPM) 来打乱 patch embeddings,然后将它们重新分组到不同的部分,每个部分都包含整个图像的几个随机 patch embeddings。此外,训练中引入的额外扰动也有助于提高目标 ReID 模型的鲁棒性。受 ShuffleNet [53] 的启发,patch embeddings 通过移位操作和 patch 洗牌操作进行洗牌。序列 embeddings 被打乱如下:

  • Step1: The shift operation. 前 m 个 patch(除了 [cls] token)移到最后,即 以 m 步移动变为
  • Step2: The patch shuffle operation. 移位的 patch 通过 k 组的洗牌操作进一步洗牌。隐藏的特征变成

通过 shift 和 shuffle 操作,局部特征 可以覆盖来自不同身体或车辆部件的 patches,这意味着局部特征具有全局判别能力。

如图 4 所示,与 jigsaw patch 并行,另一个全局分支是标准 transformer,将 编码为 ,其中 用作基于 CNN 方法的全局特征。最后,使用 训练全局特征 和 k 个局部特征。总 loss 计算如下:

在推理过程中,我们将全局特征和局部特征 concatenate 起来作为最终的特征表示。仅使用全局特征 是一种具有较低计算成本和轻微性能下降的变体。

3.3. Side Information Embeddings

在获得细粒度的特征表示后,特征仍然容易受到相机或视点变化的影响。换句话说,由于场景偏差,经过训练的模型可能很容易无法从不同的角度区分相同的目标。因此,我们提出了一种 Side Information Embedding(SIE),将相机或视点等非视觉信息合并到嵌入表示中,以学习不变特征。

受到采用可学习的 embeddings 来编码位置信息的位置 embeddings 的启发,我们插入可学习的一维 embeddings 来保留辅助信息。特别是,如图 4 所示,SIE 与 patch embeddings 和 position embeddings 一起插入到 transformer encoder 中。具体来说,假设总共有 相机 ID,我们将可学习的辅助信息 embeddings 初始化为 。如果图像的相机 ID 是 r,则其相机 embeddings 可以表示为 。与在 patch 之间变化的位置 embeddings 不同,相机 embeddings 对于图像的所有 patch 都是相同的。此外,如果目标的视点可用,无论是通过视点估计算法还是人工标注,我们也可以将视点标签 q 编码为 ,其中 表示图像所有 patch 视点 ID 的数量。

现在的问题是如何融合两种不同类型的信息。 一个简单的解决方案可能是直接将两个 embeddings 添加在一起,如

。但是,由于冗余或对抗性信息,它可能会使两个 embeddings 相互抵消。我们建议将相机和视点联合编码为

最后,具有相机 ID r 和视点 ID q 的输入序列被输入到 transformer 层,如下所示:

其中 是等式 2 中的原始输入序列。λ 是平衡 SIE 权重的超参数。由于每个 patch 的位置 embeddings 不同但在不同图像上相同,并且每个 patch 的 相同,但对于不同的图像可能具有不同的值。Transformer层能够对具有不同分布特性的 embeddings 进行编码,然后可以直接添加这些特性。

在这里,我们仅演示了 SIE 与相机和视点信息的用法,它们都是分类变量。 在实践中,SIE 可以进一步扩展以编码更多种类的信息,包括分类变量和数值变量。在我们对不同基准的实验中,相机和视点信息都包含在任何可用的地方。

4. Experiments

4.1. Datasets

我们在四个 person ReID 数据集 Market-1501 [55]、DukeMTMC-reID [33]、MSMT17 [46]、Occluded-Duke [31] 和两个 vehicle ReID 数据集 VeRi-776 [24] 和 VehicleID [23] 上评估了我们提出的方法。需要注意的是,与其他数据集不同,Occluded-Duke 中的图像是从 DukeMTMC-reID 中选择的, training/query/gallery 数据集分别包含 9%/100%/10% 遮挡图像。除了 VehicleID 之外的所有数据集都为每张图像提供了相机 ID,而只有 VeRi-776 和 VehicleID 数据集为每张图像提供了视点标签。表 1 总结了这些数据集的详细信息。

4.2. Implementation

除非另有说明,所有行人图像均 resize 为 256×128,所有车辆图像均 resize 为 256×256。训练图像通过 random horizontal flipping、padding、 random cropping 和 random erasing 进行增强 [57]。batch size 设置为 64,每个 ID 有 4 张图像。采用 SGD 优化器,momentum 为 0.9, weight decay 为 1e-4。 学习率初始化为 0.008,余弦学习率衰减。除非另有说明,我们分别为人和车辆 ReID 数据集设置

所有实验均使用一个 Nvidia Tesla V100 GPU,使用 PyTorch 工具箱和 FP16 进行训练。ViT 的初始权重在 ImageNet-21K 上预训练,然后在 ImageNet-1K 上进行微调,而 DeiT 的初始权重仅在 ImageNet-1K 上训练。

Evaluation Protocols. 遵循 ReID 社区的惯例,我们使用 CMC 曲线和 mAP 评估所有方法。

4.3. Results of Transform-based Baseline

在本节中,我们在表 2 中比较了基于 CNN 和基于 transformer 的 backbones。为了显示计算和性能之间的权衡,我们选择了几种不同的主干。 DeiT-small、DeiT-Base、ViT-Base 分别表示为 DeiT-S、DeiT-B、ViT-B。 ViT-B/16s=14 表示重叠 patch 设置中 patch 大小为 16 且步长 S=14 的 ViT-Base。为了进行全面比较,还包括每个主干的推理耗时。

我们可以观察到 ResNet 系列和 DeiT/ViT 之间的模型容量存在很大差距。与 ResNet50 相比,DeiT-S/16 在性能和速度上要好一些。DeiT-B/16 和 ViT-B/16 与 ResNeSt50 [51] 主干实现了相似的性能,推理时间比 ResNeSt50 少(1.79x vs 1.86x)。 当我们减小滑动窗口的步长时,可以提高 Baseline 的性能,同时推理时间也会增加。ViT-B/16s=12 比 ResNeSt200 快(2.81x vs 3.12x),并且在 ReID 基准测试中的表现略好于 ResNeSt200。 因此,ViT-B/16s=12 比 ResNeSt200 实现了更好的速度-精度权衡。此外,我们认为 DeiT/ViT 在计算效率方面仍有很大的提升空间。

4.4. Ablation Study of JPM

表 3 中验证了 JPM 模块的有效性。在 MSMT17 和 VeRi-776 上,与 baseline 相比,JPM 分别带来了 +2.6% mAP 和 +1.0% mAP 的改进。增加组数 k 可以提高性能,同时略微增加推理时间。在我们的实验中,k = 4 是一种权衡速度和性能的选择。比较 JPM 和 JPM w/o rearrange,我们可以观察到 shift 和 shuffle 操作在 MSMT17 和 VeRi-776 上分别获得 +0.5% mAP 和 +0.2% mAP 改进,有助于模型学习更多的判别性特征。还可以观察到,如果在推理阶段仅使用全局特征 (仍然使用完整的 JPM 训练),则性能(表示为“w/o local”)几乎与完整特征的版本相当,所以建议我们在推理阶段仅使用全局特征作为一种具有较低存储成本和计算成本的有效变体。图 5 中可视化的注意力图表明,带有 rearrange 操作的 JPM 可以帮助模型学习更多全局上下文信息和更多判别部分,这使得模型对扰动更加鲁棒。

4.5. Ablation Study of SIE

Performance Analysis. 在表 4 中,我们评估了 SIE 在 MSMT17 和 VeRi-776 上的有效性。 MSMT17 不提供视点标注,因此对 MSMT17 显示仅编码相机信息的 SIE 的结果。VeRi-776 不仅有每张图像的相机 ID,还根据车辆方向标注了 8 个不同的视点。因此,通过SIE编码摄像机 ID 和/或视点信息的各种组合来显示结果。

当 SIE 仅对图像的相机 ID 进行编码时,模型在 MSMT17 上获得了 1.4% 的 mAP 和 0.1% 的 rank-1 精度提升。在 Veri-776 上也可以得出类似的结论。当 SIE 对视点信息进行编码时,Baseline 获得了 78.5% 的 mAP。当同时编码相机 ID 和视点标签时,准确度增加到 79.6% mAP。如果将编码更改为 ,这是 3.3 节中讨论的次优编码,只能在 VeRi-776 上实现 78.3% 的 mAP。因此,提出的 是一种更好的编码方式。

Visualization of Distance Distribution. 如图 6 所示,在图 6a 和 6b 中,相机和视点变化的分布间隙分别很明显。当我们将 SIE 模块引入 Baseline 时,减少了相机间/视点和相机内/视点之间的分布差异,这表明 SIE 模块减弱了由各种相机和视点引起的场景偏差的负面影响。

Ablation Study of λ. 我们在图 7 中分析了 SIE 模块的权重 λ 对性能的影响。当 λ = 0 时,Baseline 在 MSMT17 和 VeRi-776 上分别达到 61.0% mAP 和 78.2% mAP。随着 λ 的增加,mAP 提高到 63.0%(MSMT17 的 λ = 2.0)和 79.9%(VeRi-776 的 λ = 2.5),这意味着 SIE 模块现在有利于学习不变特征。继续增加 λ,由于特征 embedding 和位置 embedding 的权重被削弱,性能下降。

4.6. Ablation Study of TransReID

最后,我们在表 5 中评估了引入 JPM 和 SIE 的好处。 对于 Baseline,JPM 和 SIE 在 MSMT17/VeRi-776 上分别将性能提高了 +2.6%/+1.0% mAP 和 +1.4%/+1.4% mAP。通过将这两个模块一起使用,TransReID 在 MSMT17 和 VeRi-776 上分别实现了 64.9% (+3.9%) 和 80.6% (+2.4%) 的 mAP。实验结果表明了我们提出的 JPM、SIE 和整体框架的有效性。

4.7. Comparison with State-of-the-Art Methods

在表 6 中,我们的 TransReID 在六个基准(包括 person ReID、occluded ReID 和 vehicle ReID)上与最先进的方法进行了比较。

Person ReID. 在 MSMT17 和 DukeMTMC-reID 上,TransReID* (DeiT-B/16) 相比之前的最先进方法有很大优势(+5.5%/+2.1% mAP)。在 Market-1501 上,TransReID∗ (256×128) 的性能与最先进的方法相当,尤其是在 mAP 上。与同样集成相机信息(如 CBN [61])的方法相比,我们的方法也显示出优越性。

Occluded ReID. ISP 通过迭代聚类隐式使用人体语义信息,HOReID 引入外部姿势模型来对齐身体部位。与上述方法相比,TransReID (DeiT-B/16) 不需要任何语义和姿势信息来对齐身体部位的情况下,实现了 55.6% 的 mAP(至少 +3.3% mAP),这显示了 TransReID 生成鲁棒特征表示的能力。此外,TransReID* 通过重叠 patches 的帮助,将性能提高到 58.1% mAP。

Vehicle ReID. 在 Veri-776 上,TransReID* (DeiT-B/16) 达到 82.3% mAP,超过 GLAMOR 2.0% mAP。当仅使用视点标注时,TransReID∗ 在 Veri-776 和 VehicleID 上的性能仍然优于 VANet 和 SAVER。我们的方法在 VehicleID 上实现了约 85.2% Rank-1 准确率的最新性能。

DeiT vs ViT vs CNN. TransReID∗ (DeiT-B/16) 在公平比较(ImageNet-1K 预训练)下与现有方法相比达到了具有竞争力的性能。表 6 中还报告了我们使用 ViT-B/16 的方法的额外结果,以供进一步比较。对于较短的图像 patch 序列,DeiT-B/16 实现了与 ViT-B/16 相似的性能。当输入 patch 数量增加时,ViT-B/16 的性能优于 DeiT-B/16,这表明 ImageNet-21K 预训练为 ViT-B/16 提供了更好的泛化能力。尽管基于 CNN 的方法主要报告 ResNet50 主干的性能,但它们可能包括多个分支、注意力模块、语义模型或​​其他增加计算消耗的模块。我们在相同的计算硬件上对 TransReID* 和 MGN [44] 之间的推理速度进行了公平的比较。与 MGN 相比,TransReID* 的速度提高了 4.8%。因此,在与大多数基于 CNN 的方法相当的计算下,TransReID* 可以实现更具前景的性能。

5. Conclusion

在本文中,我们研究了用于目标 ReID 任务的纯 transformer 框架,并提出了两个新模块,jigsaw patch module (JPM) 和 side information embedding (SIE)。最终的框架 TransReID 在几个流行的人/车 ReID 数据集(包括 MSMT17、Market-1501、DukeMTMC-reID、Occluded-Duke、VeRi-776 和 VehicleID)上优于所有其他最先进的方法。基于 TransReID 取得的可喜成果,我们相信 TransReID 任务具有进一步探索的巨大潜力。基于从 CNN 的方法中获得的丰富经验,基于 Transformer 的网络有望以更好的表示能力和更低的计算成本设计出更高效的网络。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/09/01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
达摩院首次将Pure Transformer模型引入目标重识别,论文入选ICCV 2021
机器之心专栏 作者:罗浩 阿里达摩院的研究团队首次成功将pure transformer架构应用于目标重识别(ReID)任务,提出了TransReID框架,在6个数据集上都取得了超过SOTA CNN方法的性能。 Transformer是一种自注意力模型架构,2017年之后在NLP领域取得了很大的成功。2020年,谷歌提出pure transformer结构ViT,在ImageNet分类任务上取得了和CNN可比的性能。之后大量ViT衍生的Pure Transformer架构(下文中简称为Transforme
机器之心
2023/03/29
3720
达摩院首次将Pure Transformer模型引入目标重识别,论文入选ICCV 2021
阿里达摩院将Transformer应用于目标重识别,效果显著(附源代码)
论文地址:https://arxiv.org/pdf/2102.04378.pdf
计算机视觉研究院
2022/01/28
7610
阿里达摩院将Transformer应用于目标重识别,效果显著(附源代码)
华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
人重识别(ReID)旨在从人类图像中学习视觉特征,能够区分不同的个体身份。这是一个重要且具有挑战性的计算机视觉问题,需要克服严重的遮挡、外观变化、形状变化和视点变化。人重识别技术能够在无接触和不合作的情况下实现跨摄像头检索行人,并广泛应用于公共安全、视频监控等领域,具有显著的应用价值。
未来先知
2024/08/29
5190
华中科技提出 PersonViT |  利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
论文笔记32 -- Conformer: Local Features Coupling Global Representations for Visual Recognition
在卷积神经网络(CNN)中,卷积操作擅长提取局部特征,但难以捕获全局表示。在Visual Transformer中,级联自注意力模块可以捕获长距离特征依赖关系,但不幸的是会破坏局部特征细节。在本文中,我们提出了一种称为 Conformer 的混合网络结构,以利用卷积运算和自注意力机制来增强表征学习。Conformer 源于特征耦合单元(FCU),它以交互方式融合不同分辨率下的局部特征和全局表示。Conformer 采用并行结构,以便最大程度地保留局部特征和全局表示。实验表明,在参数复杂度相当的情况下,Conformer 在 ImageNet 上的性能比Visual Transformer (DeiT-B) 高 2.3%。在 MSCOCO 上,它在目标检测和实例分割方面的性能分别比 ResNet-101 高 3.7% 和 3.6%,显示出作为通用骨干网络的巨大潜力。
对角巷法师
2021/12/08
1.7K0
论文笔记32 -- Conformer: Local Features Coupling Global Representations for Visual Recognition
NeurIPS 2021 | 图像损坏场景下行人重识别新基准
行人重识别(Person ReID)在安全部署领域有着广泛应用,当前的研究仅考虑ReID模型在干净数据集上的性能,而忽略了ReID模型在各种图像损坏场景(雨天、雾天等)下的鲁棒性。
CV君
2022/03/30
1.5K0
NeurIPS 2021 | 图像损坏场景下行人重识别新基准
Google新作 | 详细解读 Transformer那些有趣的特性(建议全文背诵)
近期Vision Transformer(ViT)在各个垂直任务上均表现出非常不错的性能。这些模型基于multi-head自注意力机制,该机制可以灵活地处理一系列图像patches以对上下文cues进行编码。
集智书童公众号
2021/05/28
1.4K0
ICCV2021 MIT-IBM沃森开源CrossViT:Transformer走向多分支、多尺度
今日分享 ICCV 2021 论文『CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification』, MIT-IBM 沃森人工智能实验室开源《CrossViT》,Transformer 开始走向多分支、多尺度(附目前多尺度ViT异同点对比)。
CV君
2021/09/28
2.1K0
超强Trick | 如何设计一个比Transformer更强的CNN Backbone
将这些组件结合在一起,作者能够构建纯粹的CNN架构,而无需任何像Transformer一样鲁棒甚至比Transformer更鲁棒的类似注意力的操作。作者希望这项工作能够帮助社区更好地理解鲁棒神经架构的设计。 代码:https://github.com/UCSC-VLAA/RobustCNN
集智书童公众号
2023/09/04
6480
超强Trick | 如何设计一个比Transformer更强的CNN Backbone
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
Transformer在自然语言处理的几乎所有任务中占据主导地位。近年来,基于Transformer的架构如Vision Transformer(ViT)被引入到计算机视觉领域,并在图像分类、目标检测和图像分割等任务中显示出巨大的前景。
集智书童公众号
2021/11/23
3.5K0
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
CNN+Transformer=Better,国科大&华为&鹏城实验室提出Conformer,84.1% Top-1准确率
在卷积神经网络(CNN)中,卷积运算擅长提取局部特征,但在捕获全局特征表示方面还是有一定的局限性。在Vision Transformer中,级联自注意力模块可以捕获长距离的特征依赖,但会忽略局部特征的细节。
CV君
2021/09/03
1.5K0
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
Visual Transformer在各种计算机视觉应用中取得了具有竞争力的性能。然而,它们的存储、运行时的内存以及计算需求阻碍了在移动设备上的部署。在这里,本文提出了一种Visual Transformer剪枝方法,该方法可以识别每个层中通道的影响,然后执行相应的修剪。通过促使Transformer通道的稀疏性,来使得重要的通道自动得到体现。同时为了获得较高的剪枝率,可以丢弃大量系数较小的通道,而不会造成显著的损害。
集智书童公众号
2021/05/28
3.5K0
Vision Transformer 必读系列之图像分类综述(二): Attention-based
https://github.com/open-mmlab/awesome-vit
OpenMMLab 官方账号
2022/02/28
2K0
Vision Transformer 必读系列之图像分类综述(二): Attention-based
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
VincentLee
2024/07/02
4190
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
搞懂Vision Transformer 原理和代码,看这篇技术综述就够了(三)
本文为详细解读Vision Transformer的第三篇,主要解读了两篇关于Transformer在识别任务上的演进的文章:DeiT与VT。它们的共同特点是避免使用巨大的非公开数据集,只使用ImageNet训练Transformer。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
godweiyang
2021/04/08
6.1K0
搞懂Vision Transformer 原理和代码,看这篇技术综述就够了(三)
行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024
目标重识别(Object Re-identification,简称Re-ID)旨在跨不同时间和场景识别特定对象。
新智元
2025/02/15
2110
行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024
港中文MMLab | 由简入难,即插即用:自步对比学习
今天,和大家分享一篇港中文MMLab发表于NeurIPS 2020的论文《Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID》,该工作提出自步对比学习框架及混合记忆模型,旨在解决无监督及领域自适应表征学习中数据无法被充分挖掘的问题。
AI科技评论
2020/11/09
1.2K0
港中文MMLab | 由简入难,即插即用:自步对比学习
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
大规模预训练的Vision TRansformer,如ViT, CvT和Swin,由于其高性能和下游任务的优越性能,最近引起了极大的关注。然而,它们通常涉及巨大的模型尺寸和大量的训练数据。例如,ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型,才实现了图像分类的最先进性能。同时,Swin使用2-3亿个参数,并在ImageNet-22K上进行了预训练,以在下游检测和分割任务上取得良好的性能。
集智书童公众号
2022/05/26
7090
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了(四)
本文为详细解读Vision Transformer的第四篇,主要包括2种vision Transformer的内部机制,即:1. 如何更好地利用图像patch内部信息?2. 如何设计更灵活的位置编码?附有超详细的代码解读。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
godweiyang
2021/04/08
3.8K0
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了(四)
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%。此次ICCV 2021接收的论文分为检测、分割、跟踪、视觉定位、底层图像处理、图像视频检索、三维视觉等多个方向。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。
优图实验室
2021/08/02
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
还在用ViT的16x16 Patch分割方法吗?中科院自动化所提出Deformable Patch-based方法,涨点显著!
目前,Transformer在计算机视觉方面取得了巨大的成功,但是如何在图像中更加有效的分割patch仍然是一个问题。现有的方法通常是将图片分成多个固定大小的patch,然后进行embedding,但这可能会破坏图像中的语义。
CV君
2021/09/03
2K0
推荐阅读
达摩院首次将Pure Transformer模型引入目标重识别,论文入选ICCV 2021
3720
阿里达摩院将Transformer应用于目标重识别,效果显著(附源代码)
7610
华中科技提出 PersonViT | 利用 Mask 图像建模的视觉 Transformer 提升人重识别性能 !
5190
论文笔记32 -- Conformer: Local Features Coupling Global Representations for Visual Recognition
1.7K0
NeurIPS 2021 | 图像损坏场景下行人重识别新基准
1.5K0
Google新作 | 详细解读 Transformer那些有趣的特性(建议全文背诵)
1.4K0
ICCV2021 MIT-IBM沃森开源CrossViT:Transformer走向多分支、多尺度
2.1K0
超强Trick | 如何设计一个比Transformer更强的CNN Backbone
6480
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
3.5K0
CNN+Transformer=Better,国科大&华为&鹏城实验室提出Conformer,84.1% Top-1准确率
1.5K0
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
3.5K0
Vision Transformer 必读系列之图像分类综述(二): Attention-based
2K0
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
4190
搞懂Vision Transformer 原理和代码,看这篇技术综述就够了(三)
6.1K0
行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024
2110
港中文MMLab | 由简入难,即插即用:自步对比学习
1.2K0
微软提出MiniViT | 把DeiT压缩9倍,性能依旧超越ResNet等卷积网络
7090
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了(四)
3.8K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
1.1K0
还在用ViT的16x16 Patch分割方法吗?中科院自动化所提出Deformable Patch-based方法,涨点显著!
2K0
相关推荐
达摩院首次将Pure Transformer模型引入目标重识别,论文入选ICCV 2021
更多 >
交个朋友
加入[腾讯云] DeepSeek开发者交流群
前沿技术深度讨论 发展开发者人脉圈
加入腾讯云技术交流站
洞悉AI新动向 Get大咖技术交流群
加入AICoding云开发技术交流群
智能编码实践分享 聚焦AI+云开发
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档