前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >CLFace:一个可扩展且资源高效的终身人脸识别持续学习框架 !

CLFace:一个可扩展且资源高效的终身人脸识别持续学习框架 !

作者头像
未来先知
发布2024-12-25 15:34:22
发布2024-12-25 15:34:22
1210
举报
文章被收录于专栏:未来先知未来先知

部署实感人脸识别(FR)算法在实际应用中的一个重要方面是它们从连续数据流中学习新人脸识别的能力。然而,现有基于深度神经网络的FR算法的在线训练,这些算法在大规模静止数据集上预训练并离线,面临两个主要挑战: (1)已学习识别的遗忘,以及(2)需要存储过去的数据以从头开始完全重训练,这导致存储约束和隐私问题。在本文中,作者介绍CLFace,这是一个持续学习框架,旨在保留并逐步扩展已学习的知识。 CLFace消除了分类层,导致了一种资源高效的FR模型,该模型在整个终身学习过程中保持不变,并为学生模型提供无标签的监督,使其适用于逐步增加的开放集人脸识别。 作者引入了一个使用特征 Level 蒸馏的目标函数,以减少学生模型和教师模型之间特征图在各阶段之间的漂移。此外,它还包含一个保持教师模型特征嵌入方向的保形蒸馏方案。 此外,作者还引入了一种对比知识蒸馏,通过匹配新身份之间的相似性,持续增强特征表示的判别力。在几个基准FR数据集上的实验表明,CLFace在未见身份上超过了 Baseline 方法和最先进的方法,使用域内和域外数据集。

1 Introduction

尽管近年来在面部识别(FR)方面取得了显著的进步 ,但为了使FR模型在实际监控应用中可行,仍需关注几个关键领域。在实际部署中,主要挑战是当数据流中不断出现新身份批次时,需要更新现有的FR模型,这些数据流中可能混有新的和之前学习过的身份。例如,在一个机场的智能监控系统中部署的FR模型必须不断学习识别每天成千上万的新身份。然而,最先进的基于深度神经网络的FR模型通常在离线情况下使用静态数据集进行训练,无法动态适应,需要完全重新训练。此外,在大规模数据集上重新训练这些网络面临实际挑战,包括计算需求高、存储限制和隐私问题 [20]。

微调学习到的模型与新身份可能是有效的途径。然而,这通常会导致模型体验到“灾难性遗忘”(CF)[11, 26, 31]以前学习的知识,因为特征空间变得偏斜于新任务。相反,存储或重放旧样本也可以作为增量学习的有效方法[9, 31, 35]。然而,对于像FR这样的生物识别应用,存储示例或原型是不切实际的,因为这些应用通常处理数百万个独特的身份[43]。因此,连续学习(CL)技术已经出现,使新模型(学生)可以在只用新身份批次的情况下随着时间的推移进行训练,同时有效地减轻了CF的风险。CL算法通常使用知识蒸馏[8, 13, 20]将源域数据上训练的基/教师模型的特征表示传递给学生模型,以指导学生模型复制某些方面,从而保留已学习的知识。

在生物识别(BI)系统中,理想的CL算法应具备以下特性::

(I)它可以处理新旧身份连续的批处理流;

(II)它应保持接近固定的参数数量,以保持计算需求和内存占用有限;

(III)它应保留过去的知识,同时逐步提高其特征表示能力;

(IV)它不应存储以前身份的示例、原型或模型。然而,在文献中提出的所有最先进的CL算法都未能满足这些标准。例如,尽管许多这些算法旨在减轻CF,但它们通常在新的一批类别中提高性能[9, 31]。此外,它们通常存储内存密集的示例或原型,对BI系统提出了巨大的挑战。

此外,SoTA CL算法通常处理有限的类别,并采用分类层来优化通用损失函数,其中需要标签监督,表示知识蒸馏损失。然而,在大规模生物识别应用中,在每次增量步对大量新身份进行分类是不切实际的,因为扩展的全连接(FC)分类层将超出可用的内存和计算资源[43]。因此,基于CL的传统方法无法产生可扩展的FR模型,尤其是在资源受限的系统中。为了解决这个问题,作者提出在增量学习过程中移除最后的全连接层,并仅在特征图和嵌入中依赖蒸馏损失。这种方法使作者能够开发出一种可扩展的模型,大大降低了终身学习的计算和内存需求。

在本文中,作者提出了一种连续学习框架CLFace,用于人脸识别(FR),它严格遵循了生物识别系统(BI)的所有基本属性。CLFace通过一个无分类的架构,通过持续学习新的身份批次,有效地保留并逐步提高学习到的表示,最小化了与标签监督模型相比的CF风险。与最先进的CL模型相比,它具有几个优势。首先,它通过使用固定网络持续学习新一批身份,实现了可扩展性。其次,它提供了无需示例和原型的终身FR解决方案,使其适用于具有严格隐私和资源限制的应用程序。第三,由于其无标签监督,可以在增量步骤上使用 未标注 的人脸数据集进行训练,从而能够处理开集人脸识别。第四,通过逐步适应已知身份中面部属性的变化,CLFace解决了FR中的概念漂移问题,确保了随着时间的持续准确性和可靠性。

在本研究中,作者实现了一种多尺度特征蒸馏(MSFD)损失,以最小化学生模型和教师模型之间的中间特征图漂移。此外,作者使用几何保持知识蒸馏(GPKD)损失,以使学生模型的方向与教师模型的嵌入空间对齐。此外,作者还使用对比知识蒸馏(CKD)损失,通过匹配新身份之间的相似性来提高特征表示的判别力。这些损失有效地将学习到的特征表示传递给学生模型,确保了尽管没有身份监督,CLFace仍然具有泛化性,这是生物信息系统的终身学习的关键。

典型的CL协议在同一数据集内的可见类别上评估模型。这种方法不仅与标准FR评估协议[7,16]相矛盾,而且导致CF最小化,因为模型在评估时使用的是它训练的数据集[43]。因此,作者从评估CLFace在可见身份上转向在域内和域外数据集上的未见身份,反映出CL面临的最具有挑战性的场景之一。实验结果表明,作者的方法在各种CL场景中均优于最先进的方法和 Baseline 方法。

总的来说,作者的贡献涵盖了三个方面:

  1. 作者提出了CLFace,一种可扩展的持续学习算法,旨在保留并逐步扩展已学习的知识。作者移除了分类层,开发了一种资源高效的模型,该模型在整个终身学习过程中保持不变。
  2. 作者提出了一个结合MFSD和GPKD损失的目标函数,以使学生模型能够有效地保留教师模型学习的表示。此外,该目标函数还引入了一个CKD损失,通过新身份之间的相似匹配不断优化判别表示。
  3. 作者还介绍了一种评估CLFace在未见过的身份上的性能的挑战性协议。在这个协议下,作者的CLFace在各种基准数据集上都优于最先进的方法和 Baseline 方法。

2 Related Work

持续学习也被称为增量学习,已在各个领域得到广泛应用,包括图像分类、图像生成、目标检测(Object detection)和重新识别(Re-identification)等。然而,许多这些算法在某种程度上仍然会遇到CF(过拟合)问题[11]。

关于缓解CF的文献广泛将CL算法分为四类:

(I)正则化技术(Regularization techniques);

(II)动态网络修改(Dynamic network modifications);

(III)存储示例(Storing exemplars)[9, 31];

(IV)生成模型(Generative modeling)[35]。iCaRL及其变体[9, 14]采用了一种基于示例的CL方法,包括示例选择中的群聚技术,以及特征提取器、最近均值分类器和将分类和蒸馏损失相结合的目标函数。然而,如第1节所述,对于大多数BI系统来说,在存储或重放示例,或动态扩展模型时,在每次增量步上都是不切实际的。因此,作者更喜欢基于正则化的CL方法,这些方法在映射函数上增加一个惩罚项,以防止变化[17]。例如,弹性权重聚合[17]通过限制更新重要权重来减少CF。

此外,这些方法利用知识蒸馏损失来最小化来自前一步的特征漂移[20]。学习不忘(Learning without Forgetting,LwF)[20]引入了一种任务增量方法,将知识蒸馏与保留过去步骤的先前知识相结合,而无需存储任何示例。接下来,[31]引入了一种称为LwF-MC的类别增量变体。

近年来,在基于边际损失的算法的推动下,人脸识别领域取得了显著的进步。然而,人们对于从连续数据流中学习新面部身份的关注度有限。虽然存在连续表情识别[4, 5, 37]和终身行人重识别[10, 24, 30]的研究,但这些方法依赖于存储示例,与作者的方法不同。相关工作,López等人[23]提出了一种在线增量学习方法,用于从视频监控中开放集人脸识别,同时使用自训练范式预测和更新一组支持向量机分类器。

作者提出了一种可扩展的CL方法,该方法利用连续表示学习(CRL)处理大规模生物识别应用,如FR和行人重识别。他们采用了一种灵活的知识蒸馏方案,包括邻居选择和一致性松弛技术,以节省计算资源。然而,CRL[43]通过分类层依赖标签监督,这可能限制了涉及大量身份的终身FR的可扩展性,导致在内存受限场景中实用性较差。此外,它对新数据表现出一定的过拟合,导致与域内数据集相比,在域外数据集上的性能较差。

知识蒸馏Knowledge Distillation (KD)旨在将一个大型的预训练模型(教师)的知识转移到一个更简单、更资源高效的模型(学生)中,以便实现高效部署[13]。这使得学生模型可以从教师模型中学习特征表示,并最小化它们之间的差异。KD最初由Li等人[20]在多任务框架内的持续学习中使用,其中来自之前训练的模型的知识被浓缩到当前模型中。

自那时以来,已经出现了许多方法,分为两大类:基于软对数its的KD[20]和基于特征的KD[19, 32, 36, 42]。在前一种技术中,教师模型的软对数its被蒸馏到学生模型中,以最小化它们的对数分布之间的KL差异。此外,还设计了许多其他指标,如修改后的交叉熵[20],距离[36],Gramian矩阵[41],等等,以减小教师和学生模型之间的差异。LwM[8]引入了一种注意力蒸馏损失,它惩罚分类器的注意力图中的信息损失,指导学生模型专注于输入图像的重要区域。FitNets[32]通过最小化教师网络和学生网络的中间特征图之间的距离来监督学生模型。

Douillard等人[9]采用了一种归一化池化输出蒸馏(POD)机制,该机制将模型中各个阶段的特征图(包括全连接层)的输出进行池化和蒸馏,以增强先验任务到新任务的知识传递。他们的蒸馏函数通过利用欧几里得距离,最小化了输入x的归一化池化特征图之间的差异,即

||~}f_{i}^{old}(\textbf{x})-f_{i}^{new}(\textbf{x})~{}|_{2^{2}

。这种蒸馏技术在减轻大规模增量步的CF方面被证明是有效的。然而,他们应用了对类嵌入的严格限制,这可能限制了模型的可塑性。在LUCIR[14]中,作者引入了一种仅关注归一化特征嵌入方向的蒸馏损失。通过最大化几何结构的相似性,他们的方法灵活地保留了新嵌入的空间配置,使其与旧嵌入相匹配。

3 Proposed Method

Problem formulation

在作者的协议中,作者将数据集 分为两部分: 和 ,其中作者使用 训练FR模型 ,并在不重叠身份的情况下,使用 测试模型 。模型 依次使用 进行训练,其中 表示第 个增量步的训练数据, 是总的增量步数。此外, 包含 个样本,,其中 表示身份 的图像。请注意,不同步骤中的身份可能重叠,即对于 ,有 。

在本研究中,作者的目标是逐步训练一个FR模型在T个任务上,以有效识别任何未见过的脸部图像。在每次增量步骤T=t之后,作者测试最新的模型M_{t}两次,以确定域内和域外性能。为了评估域内性能,作者在测试集D_{test}上测试M_{t},其中具有固定一组身份,即对于有。为了评估域外性能,模型在各种FR基准测试上进行测试,这些测试具有不同的图像质量。

Learning paradigm

首先,作者使用ArcFace损失[7]离线预训练基础模型,并利用每个数据集的基础数据。其余数据逐步引入后续步骤。作者提出的CLFace框架如图2所示,包括一个在旧数据上训练的教师模型和一个从初始化的学生模型。作者的目标是训练以持续学习新身份,同时保留之前学习到的知识。这对学生模型来说是一个相当大的挑战,因为它面临一组完全不同的身份。为了应对这个挑战,作者设计了一个目标函数,其中包括各种蒸馏损失[8, 14, 20],如算法1所示,以惩罚和之间的差异。这个目标是为了确保在识别旧人脸方面的能力与相当,同时提高其特征表示以有效识别未见过的 faces。一旦训练完成当前步骤,它将成为下一个增量步骤的教师。

Multiscale feature distillation

参考先前的研究,作者在作者的CLFace框架中应用特征 Level 的知识蒸馏到学生模型和教师模型之间的局部特征图。传统的CL算法通常在单层特征层[8, 14, 20]上传输知识,这可能限制学生模型的完全学习教师模型的能力。相反,不同阶段的特征图捕获输入图像的各个方面:低尺度捕获细粒度细节,而高尺度捕获更粗糙的信息。因此,作者使用多尺度特征蒸馏(MSFD)损失将多粒度信息传递到学生模型,使其能够从教师模型中学习更全面的知识。

让作者考虑特征提取器的中间输出,表示为 ,其中包含 个特征平面,每个特征平面的尺寸为 。针对这个阶段的映射函数 会对三维特征图进行处理,生成一个压缩的二维空间注意力图:

其中是通道池化操作,用于计算空间注意力图。作者在多个阶段(不包括第一个阶段)最小化当前模型和前一个模型对应的空间注意力图之间的范数距离。这种方法提供了更灵活的知识迁移形式,因为直接将欧几里得距离应用于旧模型的表示可能对学生的模型施加过度的刚性约束,从而可能负面影响性能[21]。因此,作者的MSFD损失,如公式2所示,在保留学习到的特征表示的基本信息的同时,有助于学习新表示:

其中, 表示通道平均池化操作后经过 归一化。 表示阶段数, 是总样本数。

Geometry-preserving knowledge distillation

作者还引入了对特征嵌入的较轻约束,以在CLFace框架内实现_塑性_和_刚性_之间的最优平衡。本研究在前期工作[14]的基础上,特别关注局部几何结构,尤其是归一化特征嵌入之间的方向。如图2所示,作者设计了一种保持几何结构不变的知识蒸馏(GPKD),以保持学生模型中教师模型特征嵌入的方向。GPKD施加了一个约束,防止特征嵌入完全旋转。这个约束对于FR至关重要,因为在推理过程中,它计算特征嵌入之间的相似性:

因此,通过强调特征方向而非幅度,这种损失提高了模型对新身份的适应性。

Contrastive knowledge distillation

之前的两个目标有助于学生在增量学习过程中保留所学的表示。然而,作者可以进一步利用新身份的批次来学习判别特征表示。尽管标签监督的身份(ID)损失可以用于学习判别特征,但在终身学习场景中变得不切实际。相反,对比知识蒸馏(CKD)允许作者通过最大化教师模型和学生模型之间的互信息来学习判别特征。类似于InfoNCE [29]损失,作者优化以下对比损失,记作,如下所示:

其中 表示归一化特征, 表示温度参数, 是批量大小。在每个批次中,正对包含来自学生模型和教师模型相同身份的特征嵌入。同一批次中的其他对作为负对,因为每个批次都包含唯一的身份。因此,CKD 通过增加正对之间的相似性并减少负对之间的相似性,通过自监督学习方法提高判别性特征。

Training objective

总损失CLFace,如公式5所示,是这些损失的加权求和:

其中,、 和 是用于平衡损失的权重。

4 Experimental Results

Datasets and baselines

当前最先进的连续学习算法通常使用小规模的训练和评估数据集,如CIFAR-10 [18]、CIFAR-100 [18]、CUB [38]和ImageNet-1K [6],这限制了它们的扩展性和通用性到大规模数据。相比之下,基于深度学习的FR算法需要使用大规模的数据集进行训练。此外,作者需要使用大规模的增量数据来评估作者的CLFace算法在域内和域外的性能。在本工作中,作者使用三种不同大小的FR数据集训练作者的CLFace算法以评估域内性能。首先,作者使用小型VGGFace2 [1],它包含9,131个身份的3.31M图像。作者在8,631个身份的图像上训练CLFace,并在一个独立的测试集上评估其在500个身份上的域内性能。MS1MV2数据集[7]包含5.78M图像,代表85,738个身份,是一个中等大小的数据集,用于训练FR算法。作者在85,000个身份上进行训练,并将738个身份保留用于评估。作者还实验了一百万规模的WebFace12M数据集,它是WebFace260M [48]的一个子集,包含617,970个身份的超过12M图像。

为了评估CLFace在域外性能,作者在各种FR基准测试中进行了实验,包括高质量、混合质量和低质量图像。对于高质量图像,作者使用了LFW [15]、AGEDB [28]、CALFW [45]、CFPFP [34]和CPLFW [44]。作者遵循了_unrestricted with labeled outside data_协议,其中特征使用额外的数据进行训练。作者还将在混合质量图像的IJB-B [39]和IJB-C [25]数据集上测试CLFace,以及使用TinyFace [3]进行低质量图像的测试。此外,作者将不同的训练方案,如_特征提取_、_微调_和_联合训练_作为 Baseline 方法。其中,特征提取涉及仅在基本身份上训练模型,然后在后续步骤中从新身份提取特征。微调涉及更新旧模型与新数据,这会导致过去知识的遗忘,从而导致_下界_性能。相反,联合训练使用所有学习步骤的组合数据,为任何CL算法提供_上界_性能。

Implementation Details

遵循标准做法[9, 14, 46],一半的身份用于基础训练,剩下的身份随机且平均地分为5或10个不重叠的集合。由于这些数据集上的每个身份图像数量不同,每个步骤中的图像数量也不同。其他方法[8, 9, 20, 43]也采用相同的协议和FR模型进行实现,以确保公平比较。每个数据集都通过裁剪和对齐使用五个关键点[7]处理人脸图像[7],得到的图像。作者使用ArcFace[7] FR模型,具有iResNet50[7, 12] Backbone ,设置尺度参数和边际参数。在每个增量步骤中,CLFace用SGD优化器(小批量大小为256,权重衰减为0.0005,动量因子为0.9)进行训练10个周期。在这里,初始学习率设置为0.01,并通过指数衰减进行减小。此外,基础模型仅使用ArcFace损失[7]进行训练20个周期,使用相同的学习率设置和初始学习率0.1,在第六和第十二个周期后除以10。

表1列出了在目标函数中使用的超参数(参见公式5),以及它们的优化值和搜索空间范围。每个超参数的优化值是通过在手动指定的范围内进行网格搜索确定的。实验结果通过提取的特征嵌入的余弦相似度进行评估,采用10倍交叉验证方案。其中,9折用于确定验证阈值,而第10折用于测试。结果使用最终增量步骤(第5或第10步)中训练的模型训练的验证准确性(VA)进行报告。为了考虑类序列对性能的可能影响,作者使用三种随机类顺序进行实验,并报告平均结果。

Evaluation on in-domain datasets

作者将所提出的CLFace与最先进的LwM [8]和CRL [43]等方法以及基准微调方法进行了比较,以评估在WebFace12M [48],MS1MV2 [7],和VGGFace2 [1]数据集上的域内性能,这些数据集分别采用了5步和10步的增量学习场景。作者选择LwM [8]和CRL [43]方法,因为它们可以按照作者的协议实现,而其他方法[14, 17, 31]在此类协议下不可扩展。如图3所示,提出的CLFace在所有三个数据集上实现了最高的VA(%)值,而微调方案在两种学习场景下表现更差。具体来说,CLFace在10步学习时,相对于CRL [43]的VA提高了0.04%,0.05%,和0.10%,在各个数据集上,而在5步学习时,相对于CRL [43]的VA提高了0.04%,0.05%,和0.10%。值得注意的是,VGGFace2上的性能改进高于WebFace12M在增量步骤上的改进。这种差异的原因在于WebFace12M更大的基础数据允许模型从零开始高效训练。因此,与VGGFace2相比,WebFace12M在增量数据上对特征表示的改善贡献较小。

Evaluation on out-of-domain datasets

此外,作者在各种FR基准测试中评估了CLFace在域外性能,包括高、混合和低质量图像。作者特别测试了CLFace在高质量基准测试中的性能,包括LFW [15],AGEDB [28],CALFW [45],CFPFP [34],以及CPLFW [44]在VA上。如表2所示,作者的方法在所有数据集上都优于 Baseline 方法和SOTA模型[8,9,20,43]。正如预期那样,微调方案产生了最低的VA,而联合训练方案由于其标准的多任务设置而不是增量训练而实现了最高的VA。与表现第二好的方法CRL [43]相比,作者的CLFace在10步学习中的VA提高了0.03%,0.17%,0.09%,0.14%,和0.22%,而在5步学习场景中的VA提高了0.0%,0.11%,0.02%,0.07%,和0.35%,在这些数据集中分别对应。然而,10步学习中的性能低于5步学习场景,表明当增量步骤包括大量身份的数据时,性能改进更高,无论这些身份是新旧与否。

此外,作者在具有高和低质量图像的IJB-B [39] 和 IJB-C [25] 基准测试上评估了CLFace,采用了1:1验证方案,使用TAR@FAR=0.0001的指标。作者还测试了CLFace在TinyFace数据集 [3] 上,在低质量、野外图像上的性能,使用Rank-5指标。尽管与上界相比,性能差距不断扩大,但CLFace仍优于 Baseline 方法,证明了其在实际设置中的泛化能力。

Ablation study

作者通过在框架的各个组件上进行消融研究来评估CLFace。所有实验均在[7]数据集上进行,该数据集采用5步增量学习场景,并使用VA(%)指标。

对目标函数的分析: 作者在CLFace框架中进行了消融研究,以分析每个损失函数的影响。如表3所示,每个损失函数都对整体性能有所贡献,最终目标函数实现了最高的VA(%)。尽管MSD在保留表示方面的效果不如GPKD,但MSD与GPKD的组合优于仅使用CKD。最终目标在LFW [15],AGEDB [28],CALFW [45],CFPFP [34]和CPLFW [44]上的MSD + GPKD上的改进分别为0.04%,0.20%,0.16%,0.38%和0.37%。这证明了这些损失函数的互补性。

CLFace框架的基础训练分析: 接下来,作者研究基础训练对CLFace框架的影响,具体见表4。作者在五个质量不同的基准FR数据集上进行了分析,得到了几个关键观察结果:(I) CLFace的性能随着基础数据的增加显著提高。例如,使用75%的基础数据在这些数据集上比只使用25%的基础数据提高了更多的性能。 (II) CLFace的性能随着增量更新得到改善,尽管改善不一致。这一观察结果证实了CLFace相对于其他方法有效地缓解了CF。 (III) 增量步骤的改善程度取决于每个步骤中使用的训练数据比例。例如,当增量数据占训练集的90%(第一行),在CALFW、CFPFP、CPLFW、IJB-C和TinyFace上的VA(%)提高0.25%,TAR@FAR=0.1%提高0.26%,Rank-1提高1.31%,而在增量数据占训练数据的25%(第四行)时,这些改善分别低0.25%、0.42%和1.31%。这些结果强调了优化CLFace性能的重要性,既包括基础训练,也包括增量数据的数量。

对身份监督的分析: 作者进一步进行了一项消融研究,以检查从CLFace框架中移除标签监督的影响。表5报告了在各种数据集上的VA(%)结果,表明当ID损失与GPKD损失相结合时,CLFace的表现更好。相比之下,ID+CKD损失会降低CLFace的性能。这两种损失都关注学习判别特征,这会导致对新的身份产生偏差,并最终导致CF。将所有损失结合在一起,性能适中,仍低于ID + GPKD组合。CKD损失比ID损失更适用于终身学习。此外,作者的目标MFSD + GPKD + CKD在AGEDB上的提高为0.53%,在CALFW上的提高为0.14%,但与使用ID损失的最佳性能目标(ID + GPKD)相比,在CFPFP上的降幅为1.06%,在CPLFW上的降幅为0.11%。这些结果表明,用CKD损失替换ID监督不会损害CLFace模型的泛化能力,同时还能在终身学习中获得无标签监督的优势。

Discussion

在实际BI系统中,传统的CL方法试图在可见身份上减轻CF,但在未见身份上效果不佳。联合训练可以获得更好的结果,但需要提前准备好所有训练数据。

相比之下,作者的CLFace方法通过(I)提供一个轻量级的CL框架,在终身学习过程中保持一致;

(II)在增量步骤上具有基础性能,同时优于 Baseline ;

(III)利用 未标注 的人脸数据进行开放集人脸识别。然而,CLFace存在局限性:随着增量步骤的增加,改进特征表示的能力逐渐减弱;与高质量图像相比,在低质量图像上的表现较差。

因此,终身人脸识别仍是一个开放挑战。未来的工作可以解决这些问题,并将该方法扩展到其他生物识别任务,如虹膜和指纹识别。

5 Conclusion

作者提出了CLFace,一种可扩展且资源高效的终身人脸识别算法,旨在从连续数据流中学习数百万身份,用于实际应用。

CLFace在特征空间中使用多尺度和几何保持蒸馏损失来学习和改进特征表示,无需存储示例或需要增量训练期间的标签监督。

在未见过的身份的广泛实验(包括域内和域外数据集)中,CLFace超过了最先进的方法和 Baseline 方法。

参考文献

[0]. CLFace: A Scalable and Resource-Efficient Continual Learning Framework for Lifelong Face Recognition.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • 3 Proposed Method
    • Problem formulation
    • Learning paradigm
    • Multiscale feature distillation
    • Geometry-preserving knowledge distillation
    • Contrastive knowledge distillation
    • Training objective
  • 4 Experimental Results
    • Datasets and baselines
    • Implementation Details
    • Evaluation on in-domain datasets
    • Evaluation on out-of-domain datasets
    • Ablation study
    • Discussion
  • 5 Conclusion
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档