CCAF 新框架，利用 CLIP 学习细粒度语义特征，增强跨摄像头识别！

集智书童公众号

发布于 2024-06-25 12:15:23

1.1K0

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

对比语言-图像预训练（CLIP）在短期行人重识别（ReID）中表现出了令人印象深刻的性能，这是因为它能够提取行人的高级语义特征，然而直接将其应用于换衣行人重识别（CC-ReID）面临挑战，因为CLIP的图像编码器过于专注于衣物线索。为了解决这个问题，作者提出了一个新颖的框架，称为由CLIP驱动的衣物无关特征学习（CCAF）用于CC-ReID。相应地，作者定制设计了两个模块：不变特征提示（IFP）和衣物特征最小化（CFM）。这些模块指导模型积极提取衣物无关特征，并负向衰减衣物相关特征。具体来说，IFP旨在从原始图像中提取与衣物无关的细粒度语义特征，由衣物无关的文本提示引导。这个模块首先在像素 Level 上覆盖原始图像中的衣物以获得屏蔽图像，然后利用CLIP的知识生成衣物无关的文本提示。随后，它在特征空间中对齐原始图像-文本和原始图像-屏蔽图像，强调与身份相关但与衣物无关的判别性线索。此外，CFM旨在检查并削弱图像编码器提取衣物特征的能力。它首先生成与衣物像素对应的文本提示。然后，在这些衣物文本提示的引导下，它迭代检查并从行人特征中分离衣物特征，最终保留固有的判别特征。广泛的实验已经证明了所提出CCAF的有效性，在几个流行的CC-ReID基准测试上取得了最新的最先进性能，且无需任何额外的推理时间。

1. Introduction

行人重识别（ReID）旨在准确识别和检索在不同摄像机下具有相同身份的行人。这项技术在智能监控和智能安全（Zhu等人，2017）等领域具有巨大的应用前景。然而，现有方法主要局限于在有限的时间和空间范围内的短期ReID，假设行人穿着相同的衣服。实际上，具有相同身份的行人在更广阔的时间和空间范围内往往穿着不同的衣服。此外，为了逃避捕捉，阳性样本经常会更换衣服。因此，将这些短期ReID方法直接应用于这些场景，将显著降低它们的性能，因为这些方法过度依赖衣服信息（如图案、颜色等）作为行人的判别线索。

为了减轻衣服变化对ReID的影响，提出了CC-ReID，以改善在不同衣服条件下的ReID系统的性能。一些学者提出了许多优秀的方法，其中一些专注于提取生物特征，包括轮廓草图（Zhu等人，2017）、身体形状、面部和步态，而其他方法则专注于使用解耦方法将衣服特征从行人特征中分离出来（Li等人，2016；Li等人，2016；Li等人，2016）。这些方法通常遵循“图像编码器+来自ImageNet的预训练权重+独热标签”的结构。在这里，图像编码器使用从ImageNet训练得到的权重进行初始化，而ReID模型的训练通常由独热标签进行监督。如图1所示，与文本描述相比，独热标签包含的信息相对较少，限制了图像编码器学习细粒度语义特征的能力。

最近，对比语言-图像预训练（CLIP）[24]的引入为解决这一挑战提供了新的方法，因为它通过对比学习将视觉表示与高级语言描述联系起来。在行人ReID领域，CLIP-ReID [17]，一个杰出的提示学习者，开创了CLIP的应用，并在短期行人ReID中取得了成功。它通过冻结图像和文本编码器，并生成与行人身份相关的文本提示，解决了行人ReID中缺乏图像-文本对应的问题，如图2所示。为了探索CLIP在CC-ReID中的应用，作者采用了CLIP-ReID并将其直接应用于CC-ReID。然而，如图2所示，其性能显著下降。直观地说，提示的引入导致了性能的下降，这表明生成的提示并没有描述与身份相关的线索，而倾向于描述与衣服相关的线索（如衣服的颜色和图案）。在短期行人ReID中捕捉这些衣服线索显然是有利的，因为衣服本身就是一种判别线索。然而，在CC-ReID中，这些线索变成了噪声。因此，作者的主要任务是探索如何生成与衣服无关的文本提示，以及如何利用这些提示学习与衣服无关的特征。

在本文中，作者提出了CCAF框架，该框架有两个目标：（a）积极引导模型提取与衣物无关的特征；（b）负向削弱模型提取与衣物相关的特征。对于第一个目标，获得与衣物无关的文本提示至关重要。考虑到文本提示是基于输入行人图像生成的，如果输入图像中没有衣物线索，生成的文本提示将不会描述与衣物相关的线索。这意味着作者可以通过衣物无关提示的引导，微调模型以关注与衣物无关的视觉特征。为此，作者首先消除与衣物相对应的像素以获得屏蔽图像，从而生成与衣物无关的文本提示。然后，作者可以基于与衣物无关的文本提示引导模型关注与衣物无关的线索。其次，考虑到文本与图像之间的固有模态差异，作者利用与衣物无关的文本提示引导模型从屏蔽图像中提取与衣物无关的视觉特征。此外，作者在特征空间中将屏蔽图像与原始图像对齐，以进一步强化模型对与衣物无关的判别线索的关注。

为此，作者提出了不变特征提示（IFP）。具体来说，在IFP的第一阶段，作者使用SCHP[16]解析行人图像， Mask 衣物像素，并获得屏蔽图像。然后作者使用生成衣物无关文本提示（GCATP）为屏蔽图像生成相应的文本提示。在第二阶段，有两个分支：原始流和屏蔽流。在原始流中，作者通过图像文本对齐（I2T）建立原始图像的视觉特征与文本提示的文本特征之间的相关性。考虑到文本与图像之间的固有模态差异，作者训练屏蔽流学习屏蔽图像的视觉特征，并将这种能力通过图像图像对齐（I2I）转移到原始流分支。与之前的工作相比，提出的IFP鼓励模型直接从对应于衣物无关文本提示的原始图像中提取高级语义特征，增强特征的可区分性。

尽管衣物无关的文本提示可以引导模型学习如何从原始图像中提取与衣物无关的视觉特征，但缺乏检查行人特征中衣物相关线索缺失的机制意味着行人特征可能仍然包含与衣物相关的噪声。因此，作者还提出了一种新颖的方法来验证模型是否仍然能够提取与衣物相关的特征，并通过微调减轻这一点。具体来说，利用CLIP的强大能力，作者为只包含衣物像素的衣物图像生成文本提示。在这些提示的引导下，作者鼓励从行人特征中投射衣物特征，从而检查行人特征是否包含衣物线索。此外，通过微调图像编码器，作者鼓励生成的行人特征远离衣物特征。最终，这种方法通过“检查-分离-检查”的循环，迭代地削弱模型对衣物线索的依赖，并强化其提取与个体身份密切相关且独立于衣物的特征的能力。

为了检查行人特征中是否仍然存在衣物特征，作者引入了衣物特征最小化（CFM）。该模块首先在第一阶段使用生成衣物文本提示（GCTP）为衣物图像生成衣物文本提示，类似于GCATP。然后，特征分离（FD）使用投影矩阵基于衣物文本提示将原始图像的行人特征中的衣物特征投射出来，进一步将原始图像的行人特征推离衣物特征。这个过程不断迭代，CFM从相反方向削弱模型提取衣物特征的能力，有效地补充了IFP。它们共同解决了CLIP过度关注衣物线索的核心问题。

作者的主要贡献总结如下：

提出的CCAF成功提取了与衣物无关的特征。据作者所知，这是首次探索将CLIP的跨模态知识应用于CC-ReID。作者探索了一种简单而有效的方法来生成与衣物无关的文本提示和衣物文本提示，为微调图像编码器提供了明确的监督。作者提出的IFP和CFM通过生成的与衣物无关和衣物文本提示，从正面和负面增强了衣物无关行人特征的学习。在PRCC、LTCC、VC-Clothes和Deepchange数据集上的大量实验结果表明，提出的CCAF达到了最新的性能水平。

2. Related Work

计算机视觉领域因深度学习的出现而发生了变革，这导致了在图像分类、目标检测和图像分割等各项任务中取得了显著的改进。下面，作者回顾这些领域中的相关工作。

Cloth-changing Person Re-Identification

对于短期ReID方法，衣物通常被认为是一个有效的判别线索。然而，在跨摄像头ReID（CC-ReID）中，这一线索可能会阻碍行人检索性能。这是因为同一身份的个体可能在不同的场合或时间段更换衣物。因此，在CC-ReID任务中，作者需要探索更健壮和稳定的特征表示方法来应对衣物变化带来的挑战。为了克服这个问题，研究行人正在探索其他类型的特征，如身体形状，以及步态（Kumar等人，2017）来辅助行人ReID。此外，一些学者也尝试通过解纠缠来分离衣物特征，以保留与衣物无关的行人特征。特别是，为了关注与衣物无关的生物线索，Yang等人（Yang等人，2018）将空间极坐标变换层引入神经网络，从轮廓草图图像中提取身体形状的判别曲线线索。FSAM提出了一种双流网络框架，通过互学习将身体形状特征整合到外观特征中。此外，3DSL 直接从2D图像中提取与纹理不敏感的3D身体形状特征，通过执行从2D图像重建3D身体的辅助任务来抵抗衣物变化的干扰。为了从单张图像捕获和提取步态特征，GI-ReID（Kumar等人，2017）提出从单张行人图像重建前后帧的步态图像，并提取步态特征，然后将它们与外观特征融合。为了解纠缠衣物特征和行人特征，CAL 提出了一种基于衣物对抗损失来从原始RGB图像中提取与衣物无关的特征。AFD-Net 通过对抗学习实现类内重建和类间服装交换，以解纠缠与身份相关和与身份无关（衣物）的特征。考虑到对抗学习的稳定性问题，DCR提出了一种可控的方法来实现解纠缠，通过重建人体组成部分区域。然而，这些方法由于仅由单热标签监督，只能提取有限的特征，而没有充分利用更丰富的文本描述。

CLIP in Person Re-identification

视觉语言预训练旨在通过大规模的图像-文本对数据进行训练，建立语言与图像之间的紧密联系。视觉语言预训练的代表性工作对比语言-图像预训练（CLIP）已经在多个下游任务中显示出强大的能力，包括语义分割（Yang等人，2018年）、图像-文本检索和视频字幕生成。在行人重识别（ReID）社区，最近的研究探讨了CLIP在行人ReID中的应用；Wang等人，2019年），并取得了显著的成功。在ReID的各种子任务中，文本到图像行人检索（TI-ReID）自然拥有配对的文本-图像数据。考虑到CLIP的预训练过程主要依赖于实例级数据，可能缺乏学习细粒度特征的能力，Crime（Wang等人，2019年）基于引入CLIP图像编码器探索了多粒度行人特征学习。为了更全面地探索CLIP在TI-ReID中的潜力，IRRA 广泛引入了CLIP图像编码器和文本编码器，并实现了局部特征的隐式对齐。在基于图像的行人ReID中，由于缺乏对应于行人图像的文本描述，直接应用CLIP技术提取行人语义特征变得特别具有挑战性。为了应对这一挑战，CLIP-ReID 创新性地提出了通过训练一个提示学习器为行人图像生成与身份紧密相关的文本提示。TF-ReID 直接用CLIP记忆替换文本特征，探索CLIP在基于视频的行人重识别中的应用。认识到语言对模态变化的强大鲁棒性，CSDN首次将CLIP应用于可见光-红外行人ReID。通过巧妙地使用语言作为桥梁，CSDN成功地在红外图像和可见光图像之间建立了高级语义特征的对齐。然而，CLIP在推进学习针对CC-ReID的服装无关特征方面的巨大潜力尚未被充分探索。在本文中，作者提出了CCAF框架，它有效地利用了CLIP的跨模态知识，探索生成服装无关的文本提示和服装提示，并根据这些文本提示从正反两方面学习服装无关的语义特征。

3. Methodology

Preliminaries

令表示训练数据集，其中代表第张图像，表示行人图像的总数，代表其对应的人身标识标签，代表其对应的衣物标签。在现有的CC-ReID研究中，通常采用从ImageNet预训练权重标准图像编码器来从原始行人图像提取行人特征。为了确保行人特征具有身份的可辨别性，采用交叉熵损失 (Zhou et al., 2017) 和Triplet Loss (Zhou et al., 2017) 来约束：

其中表示批量大小，是一个独热向量，只有在的元素为，表示身份分类器，包括BN层和线性层，后面跟着BNNeck(Zhou et al., 2017)，经验设置为0.3，和分别是的难负样本和难正样本，是HINGE损失。整体优化目标定义为：

然而，如引言中所讨论的，仅依赖于一热标签进行模型训练不能完全利用与行人身份相关的语义信息。为了缓解这一限制，在本文中，作者用CLIP的视觉编码器替换了传统的视觉编码器，并将其作为作者的 Baseline 方法。在此基础上，作者提出了IFP和CFM，从正面和负面两个方面学习行人的内在高级语义特征。

Invariant Feature Prompting

不变特征提示（IFP）包括三个组成部分：生成不考虑衣物文本提示（GCATP），图像-文本对齐（I2T）和图像-图像对齐（I2I）。GCATP旨在生成不考虑衣物的文本提示。随后，I2T使得原始流网络能够直接从原始图像中学习不考虑衣物的特征。最后，I2I将的输出特征与屏蔽流网络的输出特征对齐，将后者的能力转移到前者。

生成不考虑衣物的文本提示。为了获得行人图像的身份特定文本提示，一种直接的方法是直接将CLIP-ReID方法应用于行人图像。然而，如图2所示，生成的纯文本提示可能会误导图像编码器，导致过分强调衣物线索。这种现象的主要原因是CLIP的图像编码器倾向于关注颜色和图案，这些主要来自行人图像中的衣物。"如果输入图像缺少衣物像素，生成的文本提示只关注区分性线索而不是衣物相关线索"。

为了实现这一目标，作者采用了一种先进的人体解析模型SCHP（Kirchhoff等人，2017）来解析输入的行人图像，并获得人体解析结果，其中包括20个类别，如背景、头发、上衣、连衣裙、外套、裤子、裙子、脸部、左臂等等。作者将衣物像素值改为0，其余改为1，得到衣物无关区域的 Mask 。然后，作者按照以下方式获得屏蔽图像：

其中表示哈达玛积。在像素 Level 消除了衣物信息的影响后，作者受到CLIP-ReID的启发，引入了与身份相关的可学习标记来学习不考虑衣物的文本提示。具体来说，作者为行人的身份设计了一个初始语言描述：'一个人的照片，其中代表可学习标记，表示可学习标记的数量。如图3所示，在训练的第一阶段，作者冻结了CLIP的图像编码器和文本编码器，然后将和输入到图像编码器和文本编码器中，得到图像特征和文本特征。为了确保可学习的能够描述行人的身份信息，作者通过图像到文本损失和文本到图像损失优化可学习的，如下所示：

(5) (6)

其中表示两个特征张量之间的相似性。

图像文本对齐。在第二阶段的微调阶段，作者冻结了文本编码器和，只训练图像编码器。具体来说，作者将第一阶段GCATP获得的提示语输入到文本编码器中，得到相应的文本特征，并将输入到中得到原始特征。然后，作者采用损失来约束原始特征使其接近对应的文本特征，同时远离其他身份的文本特征：

其中是身份的总数。

图像图像对齐。考虑到文本和图像之间固有的模态差异，仅通过I2T确保能够从原始图像中直接提取与衣物无关的行人线索是具有挑战性的。因此，作者还设计了图像图像对齐（I2I）来确保遮挡图像特征与原始图像特征之间的语义一致性，从而在同一模态内将遮挡流学到的知识转移到原始流中。具体来说，作者使用图像编码器提取特征，并通过以下方式微调：

其中和分别表示交叉熵损失和Triplet Loss。而表示文本提示的特征。这使得能够从遮挡图像中提取与衣物无关的判别特征，因为遮挡图像在像素 Level 上不包含这些衣物的信息。为了将的能力转移到，并进一步强化提取与衣物无关特征的能力，作者采用相互学习的方式（Chen et al., 2017; Chen et al., 2017）来确保和之间的语义一致性：

其中表示一批中的行人数量，每个行人有张图像。

Clothes Feature Minimization

尽管IFP通过布料无关的文本提示直接从原始图像中提取布料无关的特征，但由于缺乏检查布料特征的机制，可能会导致提取的行人特征中存在布料特征。因此，为了从负面角度进一步减弱模型对布料线索的依赖，提出了一个新的检查解耦模块——布料特征最小化（CFM），用于迭代检查并从行人特征中解耦布料特征。该模块主要由两部分组成：生成布料文本提示（GCTP）和特征解耦（FD）。

生成布料文本提示。与GCATP类似，通过使用布料无关区域 Mask ，作者可以获得只包含布料信息的布料图像：

然后，作者设计了一个属于类别的初始语言描述：'一张衣服的照片'。在训练的第一阶段，作者冻结了CLIP的图像编码器和文本编码器，然后获得了图像特征和文本特征。为了确保可学习的能够准确描述衣服，作者使用以下对比损失优化：

特征解耦。为了检查行人特征中包含的衣服特征，作者采用了一个可学习的投影矩阵（Chen等人，2017年），其中是的通道维度。然后，通过获得衣服特征。为了确保的可辨别性，作者通过将文本特征与衣服特征对齐，如下所示：

其中是衣服类别的总数。值得注意的是，损失只优化投影矩阵的权重。在获得衣服特征之后，作者优化以解耦这些衣服特征，确保行人特征与衣服特征不相似：

在这一过程中，损失持续提高投影矩阵提取衣物特征的能力。随后，损失优化图像编码器，确保提取的行人特征不包含由投影矩阵输出的衣物特征。这两个损失，和，交替执行，持续检验和分离衣物特征，从而实现衣物特征与行人特征的分离，最终获得内在的行人特征。

Training and Inference

训练。 整个训练过程分为两个阶段。在第一阶段，作者通过对比损失来训练模型生成衣物图像和遮挡图像的文本提示。总损失如下：

在训练的第二阶段，作者通过应用损失和分别实现图像-文本对齐和图像-图像对齐，以引导模型关注行人的与衣物无关的特征。随后，作者进一步应用损失和来检查并从负面特征中分离衣物特征。总损失如下：

其中和是用于平衡损失项的超参数。

推理。 注意，在推理阶段只使用，因此，所提出的IFP和CFM在推理阶段不引入额外的计算复杂性。在推理过程中，作者首先从 Query 集和图库集中提取行人图像的特征，然后计算它们之间的余弦相似度。

4. Experiments

Datasets and Evaluation Metrics

PRCC[35]包含来自221个身份的33,698张图像，这些图像是在3个不同的摄像机下拍摄的。个体在A和B摄像机中穿着相同的衣服，而在C摄像机中穿着不同的衣服。

LTCC[23]包含152个不同身份的17,138张图像，所有图像都是在12个不同的摄像机视角下拍摄的。其中，该数据集包含478套独特的衣服。

VC-Clothes[28]由512个行人组成，涵盖4个场景，每个场景平均有9张图像，总计19,060张行人图像。这些图像是从《侠盗猎车手5》（GTA5）中收集的。

Deepchange[31]是一个大规模的人体重识别数据集，跨越2年时间，包含来自17个摄像机的超过170,000张、1,121个行人的图像。其中，450个行人用于训练，150个用于验证集，521个用于测试。

评估指标。作者使用累积匹配特性（CMC）和平均精度（mAP）作为指标，来评估所提出CCAF的检索性能。

Implementation Details

作者在PyTorch深度学习框架上实现了提出的CCAF，所有实验都在单个A100 GPU上进行。作者使用了CLIP的图像编码器（ViT-B-16）作为主干网络，输入图像被统一调整为大小，并应用了常见的数据增强策略来增强输入图像，例如随机水平翻转、填充、随机裁剪和随机擦除（Vaswani等人，2017年）。在第一阶段，作者训练了两个提示学习者和，初始学习率设置为3.5e-4，批次大小设置为64，共训练120个周期。在第二阶段，作者对两个图像编码器（, ）和一个投影层进行了40个周期的微调，初始学习率设置为5e-6。两个阶段都采用了Adam优化器，并采用余弦学习率衰减策略（Kingma和Ba，2015年）动态调整学习率。批次大小设置为64，包括16个行人，每人4张图像。超参数和分别设置为0.1和1。

Comparison with State-of-the-Art Methods

在本节中，作者在PRCC、LTCC、VC-Clothes和Deepchange数据集上与其他最先进的方法进行了比较实验。具体来说，作者比较的方法包括短期行人重识别方法：在换衣设置下达到42.9%/20.1%。特别是关注换衣设置，作者的方法比排名第二的方法MCSC高出0.7%/0.7%。在PRCC数据集上，在相同服装设置下，作者的CCAF达到Rank-1/mAP为99.9%/98.4%，在换衣设置下达到70.4%/63.7%，超过排名第二的方法MBUNet，在Rank-1上高出1.7%。在更大规模的虚拟数据集VC-Clothes上，作者的CCAF在一般设置下达到Rank-1/mAP为95.4%/90.9%，在换衣设置下比排名第二的方法MCSC高出5.3%/4.0%。为了验证作者的CCAF在更复杂数据场景下的性能，作者还对大规模真实世界数据集DeepChange进行了实验，在那里作者的方法在Rank-1上比排名第二的方法MCSC高出2.7%。在小规模、大规模和合成数据集（特别是在换衣设置下）上的结果表明了所提出CCAF的有效性。这归功于CCAF对CLIP跨模态知识的有效利用，使其能够提取与衣服无关的高级语义特征。

Ablation Study

为了评估作者CCAF中每个组件的有效性，作者在衣物变化设置中对PRCC和LTCC数据集进行了一系列的消融实验，结果如表3所示。 Baseline 方法仅使用和损失来训练。评估的组件包括I2T和Invariant Feature Prompting（IFP）中的I2T，以及Clothes Feature Minimization（CFM）。

I2T的有效性。为了验证I2T的有效性，作者将它整合到 Baseline 方法中，形成了“B+I2I”。与 Baseline 相比，在LTCC和PRCC数据集上，Rank-1（mAP）分别提高了3.8%（1.2%）和3.8%（2.2%）。这些性能的提升表明，从屏蔽图像生成的与衣物无关的文本提示有效地描述了行人的细粒度语义特征。此外，在对齐过程中，模型被迫更多地关注与衣物无关的特征，并避免过分关注与衣物相关的线索。

I2I的有效性。为了评估I2I的有效性，作者将它整合到“B+I2T”中以获得“B+I2T+I2I”。与“B+I2”相比，在LTCC数据集上，“B+I2T+I2I”在Rank-1和mAP上分别实现了1.3%和1.2%的提升。在PRCC数据集上，“B+I2T+I2I”将Rank-1和mAP分别提高了2.9%和2.3%。这些结果表明，I2I可以通过在同一模态内实现特征 Level 的对齐，进一步限制模型过分关注衣物信息。

CFM的有效性。为了验证CFM的有效性，作者将它整合到“B+I2T+I2I”中以获得CCAF。与“B+I2T+I2I”相比，作者的CCAF在LTCC（PRCC）数据集上的Rank-1和mAP分别实现了2.6%（0.8%）和0.3%（0.1%）的提升。这表明CFM可以检查并减少模型对衣物特征的依赖。

表1. 在PRCC、LTCC和Ve-Clothes数据集上，作者提出的方法与最先进的Re-ID方法获得的mAP和CMC（%）结果。“R@1*”表示Rank-1。“.”和粗体值分别表示次优和最佳结果。

表2. 在DeepChange数据集上，作者提出的方法与最先进的Re-ID方法获得的mAP和CMC(%)结果。“R@1*”表示排名第一位。

\begin{table} \end{table}

在特征 Level 上进行匹配，使模型能够从原始图像中提取与衣物无关的特征，从负面的角度出发。

文本提示的有效性。 为了验证文本提示的有效性，如表4所示，作者首先在CFM中将衣物提示替换为一位有效编码标签，进一步移除了对屏蔽流的文本提示监督，最后移除了对原始流的文本提示监督。可以直观地观察到，文本提示监督在提出的AACF中起着作用。

超参数的影响。 所提出的方法涉及两个超参数和，分别用于平衡损失项和的权重。为了探索不同超参数值对性能的影响，作者在PRCC数据集上通过固定一个参数并调整另一个参数来进行参数分析实验。如图4所示，当设置为0.1且设置为1时，模型达到最佳性能。

5. Visualization

特征分布分析。 为了调查生成的文本提示是否与身份相关且与衣物无关，作者可视化了行人间CCAF（CLIP-ReID）的文本提示与遮挡图像之间的特征距离分布。如图5（a）（b）所示，从视觉上可以明显看出，作者的提示更具辨识性，而CLIP-ReID的提示由于描述衣物而缺乏辨识力。此外，如图5（c）（d）所示，作者可视化了CCAF（CLIP-ReID）的文本提示与相应衣物图像之间的距离分布，表明作者的提示与衣物无关，而CLIP-ReID的提示与衣物有关。

此外，作者在PRCC数据集上可视化了同类样本和跨类样本的特征距离分布。图6（a）展示了 Baseline 方法的同类和跨类距离分布，而图6（b）展示了作者CCAF的同类和跨类的距离分布。可以直观地观察到，应用作者的方法后，同类和跨类之间的平均距离（由垂直线表示）增加了（即），这表明增加了同类和跨类之间的平均距离，增强了不同类别之间的辨识性。因此，

提出的CCAF可以有效学习细粒度的衣物无关特征。

同时，作者还使用t-SNE [27]可视化了特征分布。在图7（a）中，作者可以看到同一行人的不同特征嵌入是分离的。但在图7（b）中，提出的CCAF有效地聚合了属于同一行人的特征嵌入，从而有效地减轻了衣物变化带来的负面影响。

检索结果分析。 为了进一步验证提出的CCAF的有效性，作者在图8中可视化了 Baseline 方法与作者CCAF在PRCC数据集上的行人检索结果。具体来说，给定一个 Query 的行人图像，作者检索出相似度最高的前5个行人图像。底部的绿色条表示正确检索到的同一身份的图像，而红色条表示错误检索的图像。从检索结果可以看出，与 Baseline 方法相比，作者提出的CCAF可以检索到穿着不同衣物的行人图像，而 Baseline 方法检索到了错误的行人图像。

6. Conclusion

在本文中，作者提出了一种名为CCAF的新框架，旨在利用CLIP的知识来学习与衣物无关的细粒度语义特征，从而增强跨摄像头行人重识别（CC-ReID）。

具体来说，作者通过探索CLIP的知识生成与衣物无关的文本提示和衣物文本提示。

借助这两种类型的文本提示，所提出的CCAF不仅从正面强调与身份相关但与衣物无关的特征，而且从负面检查行人特征中衣物特征的存在，并将衣物特征与行人特征分离，从而提高性能。

在四个公开可用的CC-ReID基准测试中观察到的优越性能，证明了所提出CCAF的有效性和优越性。

参考

[1].CLIP-Driven Cloth-Agnostic Feature Learning for Cloth-Changing Person Re-Identification.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-24，如有侵权请联系 cloudcommunity@tencent.com 删除

摄像头

本文分享自集智书童微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度