到目前为止,高效的微调已经成为增强基础模型在下游任务能力的一种流行策略,通过学习即插即用的模块。 然而,现有方法忽略了一个关键问题:如果底层基础模型被更新,这些即插即用的模块是否仍然有效?在本文中,作者首先对CLIP上的各种微调方法进行了详细分析,考察它们与模型更新的兼容性。研究显示,许多高性能的微调方法无法与升级后的模型兼容。 为了解决这个问题,作者提出了一种新颖的方法,即类条件上下文优化(ContCoOp),该方法在将 Prompt 与类别嵌入结合使用前,通过一个注意力层进行学习,然后再输入到文本编码器中。 因此, Prompt 可以动态适应嵌入空间的变化(由于模型更新),确保持续的有效性。 在15个数据集上进行的广泛实验表明,作者的ContCoOp在 Baseline 方法中实现了最高的兼容性,并表现出强大的泛化能力。
随着人工智能技术的飞速发展,其在各个领域的应用日益广泛。本文旨在探讨人工智能技术在当前的研究进展、应用前景以及所面临的挑战。通过对现有文献的梳理和分析,本文将全面展示人工智能领域的最新研究成果和发展趋势。
在当前时代,基础模型已成为深度学习领域的基石。通过在极其庞大的数据集上进行预训练,这些模型展现出显著的零样本能力和泛化能力,使其在各个领域得到广泛应用。
高效微调已成为在大规模基础模型背景下研究的热点领域[周等,2022b,a,胡等,2022,李和李良,2021,豪尔斯比等,2019]。通过冻结基础模型的参数,这些方法训练轻量级的即插即用模块,以快速且低成本地将模型适应下游任务,例如学习残差矩阵[胡等,2022,德特梅尔等,2023]或额外的可学习 Prompt [周等,2022b,李和李良,2021,豪尔斯比等,2019]。因此,通过保持一个冻结的大模型和相应的轻量级模块,作者可以低成本地将基础模型应用于成千上万的下游任务。
现有的高效微调方法忽略了一个关键问题。为了提升模型性能或达到安全对齐,核心的基础模型经常被更新,例如从GPT-3到ChatGPT,CLIP到EVA-CLIP,以及稳定扩散的系列版本。然而,在模型更新之前,作者在当前版本的基础模型上训练了各种即插即用的模块。
考虑到重新训练大量插件模块所涉及的高昂成本,探讨这些模块的兼容性成为一个有意义的追求。
作者研究了在模型升级背景下,高效微调方法在视觉-语言模型(VLMs)中的兼容性。这些方法可分为两类:一类是在模型的浅层添加可学习的 Prompt ,另一类则是将学习模块融入以优化模型深层文本特征的。后一类方法在应用于下游任务时通常表现更优。
作者首先研究了现有方法的兼容性。作者在CLIP上对这些即插即用模块进行训练,并将它们直接整合到升级后的模型EVA-CLIP中。结果显示了一个有趣的观察:尽管深层微调方法表现出优异的性能,但它们与更新模型的兼容性不足,甚至表现不如升级模型的零样本性能。因此,作者提出,对于VLMs的模型升级而言,浅层比深层具有更好的迁移性。
图1:高效的微调方法使作者能够轻松训练即插即用模块,以提升基础模型的表现。然而,由于基础模型如Llama和CLIP等频繁更新,这一问题变得尤为突出。为升级模型重新训练这些模块会带来显著的成本。因此,作者的研究旨在探讨这些模块是否能够与升级后的模型兼容。
为了更深入地探究这一现象,作者计算了在模型升级前后,每层参数与输出特征之间的平均绝对变化和相对变化。分析表明,较浅层的变动始终较小,这证实了这些层的迁移性较好。为了解决可能涉及方法论影响的潜在担忧,作者进行了额外的实验。具体来说,作者在不同的层上训练了CoOp [周等,2022b]。结果显示,随着层深度的增加,重用性能持续下降,为作者的假设提供了经验支持。
为了解决这一问题,作者提出了一种新颖的方法——类条件上下文优化(ContCoOp),旨在提高兼容性。作者的方法涉及在文本编码器的输入端学习类条件 Prompt ,类似于浅层方法。在输入到文本编码器之前,作者通过一个注意力网络将类信息整合到可学习的 Prompt 中。因此,这些 Prompt 能够随着增强模型中类嵌入的更新而动态进化。这种动态适应性显著提升了 Prompt 在升级模型中的兼容性。
作者的贡献总结如下:
图2:(a)在11个数据集上的平均性能。作者评估了VLMs高效微调方法在模型升级方面的兼容性。这些方法基于ViT-B/16的CLIP进行训练,然后整合到相应的升级模型EVA-CLIP中。术语“基础”和“新”表示将模块插入CLIP和EVA-CLIP后测试的性能,H表示它们的调和平均值。加号“+”表示这是一个深层方法。(b)在模型升级前后,文本编码器每一层的参数平均绝对值和相对变化。(c)在模型升级前后,文本编码器每一层输出特征的平均绝对值和相对变化。(d)为了减轻方法学影响,作者在DTD数据集上对CoOp的不同层进行训练,并报告其在升级模型上的准确率。结果表明,较浅层比深层具有更好的迁移性。
作者针对15个数据集进行了广泛的实验,结果表明,与 Baseline 方法相比,作者的方法展现出更优越的兼容性。
在探讨人工智能(AI)在特定领域的应用之前,了解现有研究和技术发展状况至关重要。本部分将概述与本研究直接相关的现有工作,包括已发表的学术论文、技术报告以及行业应用案例。通过对这些文献的梳理和分析,作者可以识别出当前研究中的关键问题、技术挑战以及未来研究的潜在方向。
视觉-语言模型。视觉-语言模型(VLMs)作为一种新型的基础模型,旨在连接视觉和语言模态。这些模型在广泛的海量图像-文本数据集上进行训练,展现出卓越的无监督识别和泛化能力,并在开放世界识别和文本到图像生成等领域得到广泛应用。在本研究中,作者的重点是CLIP 及其升级版EVA-CLIP 。这两个模型都由图像编码器和文本编码器组成,通过对比损失训练以对齐不同模态的表示。EVA-CLIP利用了CLIP预训练的文本编码器,并在改进的视觉模型上进行进一步的对比学习,最终展现出更优异的性能。
高效微调VLMs。为了高效且经济地使模型适应下游任务,近期研究主要集中在VLMs中有效微调方法的发展。这些方法学习小的即插即用模块,通过无缝集成到冻结模型中,增强模型。总的来说,这些方法可以根据插入位置分为浅层和深层两种类型。浅层方法,例如CoOp,侧重于在CLIP文本编码器的初始层学习有效的、鲁棒的 Prompt 拼接。相比之下,深层方法通过 Adapter 网络或缓存模型来学习细化输出特征。虽然深层方法在下游任务上通常表现出更优越的性能,但作者的观察发现,在适应更新模型的环境中,浅层方法表现出更好的兼容性。模型升级。尽管基础模型表现出强大的性能并在多个领域得到应用,但持续的升级对于提升其性能和实现安全对齐至关重要。在NLP领域,模型更新无处不在。例如,GPT-3通过指令微调和带有人类反馈的强化学习演变为ChatGPT。Llama系列通过在各种数据集上的训练进行了多次升级,产生了 Alpaca 、Vicuna 、LLaVa[刘等,2023]等版本。同样,在生成模型领域,频繁的模型升级是常态,以Stable Diffusion的不同版本 为例。在VLMs领域,模型升级仍然很普遍。例如,CLIP[拉多夫等,2021]已升级为相应的EVA-CLIP[孙等,2023]。然而,在这些模型升级之前,作者已经训练了几个即插即用微调模块。在模型更新后重新训练这些模块需要付出高昂的成本。由于计算资源的限制,本文主要研究VLMs中的模块兼容性挑战。作者旨在设计一种高效的微调方法,该方法在VLMs中表现出良好的兼容性,以适应模型更新。
图3:作者方法的总览。为了提高兼容性,作者的目标是使模块能够动态适应模型更新。为此,作者采用基于类别的可学习 Prompt 。利用注意力网络,作者的方法将类别信息整合到可学习 Prompt 中。此外,在模型更新后, Prompt 也会自动更新,与类别嵌入的变化同步。作者还包含了CoOp和CoCoOp以供比较。
在本节中,作者将详细介绍所采用的研究方法,包括数据收集、模型构建和分析步骤。首先,作者将对数据集进行描述,随后阐述所使用的算法和模型,最后说明如何对实验结果进行评估。在描述过程中,作者将注重方法的科学性和实用性,以确保研究结果的可靠性和有效性。如遇不确定的专业术语,请提供 Query 或确认选项,以确保翻译的准确性。
本文主要关注研究高效微调模块在视觉语言模型(VLMs)中模型更新时的兼容性。这些高效微调模型基于CLIP模型进行训练,作者的目标是探究它们与更新后的模型EVA-CLIP的兼容性。
CLIP与EVA-CLIP。CLIP(Radford等人,2021年)和EVA-CLIP(Sun等人,2023年)是基于对比学习的视觉语言模型,包含一个图像编码器和一个文本编码器,用于对各自模态的输入进行编码。由于这些模型是在大规模图像-文本对上进行训练的,作者可以通过 Prompt 轻松地获得零样本分类器权重,其中,而是文本 Prompt ,例如-第类的“一张[类别]的图片”。作为CLIP的升级版,EVA-CLIP利用了CLIP的文本编码器,并通过在图像-文本对上进行训练进一步将其与改进的图像编码器对齐。与CLIP相比,EVA-CLIP表现出更优越的性能。
现有方法能否与升级后的模型兼容?首先,作者研究了现有高效微调方法在模型更新中的兼容性。作者评估了六种 Baseline 方法的兼容性:线性检测[Radford等人,2021],CLIP-Adapter[Ga0等人,2023],Tip-Adapter[张等人,2022],CoOp[周等人,2022b],CoCoOp[周等人,2022a],以及[Ya0等人,2023]。前三种方法是深层方法,而后三种方法是浅层方法。作者在基于ViT-16/B的CLIP上训练这些即插即用模块,并评估它们集成到CLIP和EVA-CLIP时的性能。作者分别用“基础”和“新”来表示它们在CLIP和EVA-CLIP上的性能,并报告调和平均数(H)以平衡这两个指标。
作者在图2(a)中报告了它们在11个数据集上的平均性能。作者观察到一种引人入胜的现象:被插入到浅层的算法在兼容性方面优于那些被插入到深层层的算法,尽管后者在下游任务上通常表现更佳。值得注意的是,当这些深层算法被插入到更新的模型中时,它们的性能甚至可能低于零样本CLIP。
为什么浅层方法优于深层方法?作者深入探讨了浅层方法为何能超越深层方法的原因,并调查了这种优越性是否源于方法本身或其在CLIP中的特定插入位置。首先,如图2(d)所示,作者对CoOp [周等,2022b] 在CLIP的各个层中进行训练,进行实验。结果显示,即使使用相同的方法,随着层级的加深,重用精度也会持续下降,最终低于零样本性能。这些结果与深层方法相符,表明了方法与集成到CLIP中层的兼容性之间存在关联。随后,作者分析了基于ViT-B/16的CLIP和EVA-CLIP的文本编码器的差异。在图2(b-c)中,作者计算了不同层参数和输出特征的平均绝对值和相对变化。结果显示,在模型升级后,与深层层相比,浅层在参数和输出特征方面的变化更小。这种稳定性有助于模块更顺畅地整合到更新的模型中。
作者提出了一种新颖的方法,称为类条件上下文优化(ContCoOp),旨在提升VLMs(可变长度模型)的兼容性。该方法在各种数据集的VLMs模型升级上下文中表现出强大的兼容性。
作者的方法设计基于两个关键观察。首先,浅层方法在升级后的VLMs(视觉语言模型)中表现出更强的兼容性。因此,借鉴先前的研究成果[周等,2022b,a,姚等,2023,王等,2023],作者在VLMs文本编码器的初始层集成可学习的 Prompt 词,而不是在设计模型深层模块。其次,在升级后,模型的无监督性能有所提升。因此,作者假设通过利用无监督 Prompt 词作为条件,作者的方法可以动态适应模型更新(由于无监督 Prompt 词嵌入与模型更新一同变化)。鉴于作者的方法基于无监督 Prompt 词,它应该能产生更优的兼容性。
作者的方法概述如图3所示。以下是对作者方法的具体描述。形式上, 表示由文本编码器生成的分类器权重,其中 。在这里, 表示类别数量。 Prompt 嵌入由 表示,其中 对应第 个类别的嵌入, 表示嵌入空间内的可学习 Prompt 。
为了提高作者方法的兼容性,作者设计了类条件 Prompt 符,即 ,其中 。在这里, 代表类别嵌入,Attn 表示注意力网络,它通过以下过程将类别信息融合到 Prompt 符中:
在此,。投影权重和分别对应 Query 、键、值和输出,符合标准注意力网络。融合后,作者提取输出 Prompt 。随后,将这些针对每个类别的条件 Prompt 输入到文本编码器中生成最终的分类器,即。因此,分类概率可以按照以下方式计算:
图像特征,温度系数,以及表示余弦相似度。此外,如果作者有一个零样本分类器,作者将采用知识蒸馏损失将其知识融合到可学习的 Prompt 中,正如[Yao等人,2023]中所述。
在零样本分类器 中,该方法是不同于深层方法的,因为它将知识集成到浅层输入 Prompt 中,增强了其兼容性,而不是简单地将两个分类器进行集成。在微调过程中,作者保持VLM冻结状态,并优化可学习的 Prompt 和注意力网络,在损失函数的指导下进行。
代表交叉熵损失,而是一个超参数,用于控制的强度。
数据集。根据先前的研究 [Radford等人,2021年,Zhou等人,2022年b、a,Wang等人,2023年],作者在11个公开数据集上进行了实验,涵盖了多种图像识别任务。这些任务包括使用ImageNet [Deng等人,2009年] 和Caltech101 [Li等人,2004年] 进行通用物体识别,使用OxfordPets [Parkhi等人,2012年]、StanfordCars [Krause等人,2013年]、Flowers102 [Nilsback和Zisserman,2008年]、Food101 [Bossard等人,2014年] 和FGVCAircraft [Maji等人,2013年] 进行细粒度图像识别。此外,作者还探索了通过EuroSAT [Helber等人,2019年] 进行卫星图像分类、通过UCF101 [Soomro等人,2012年] 进行动作分类、通过DTD [Cimpoi等人,2014年] 进行纹理分类以及通过SUN397 [Xiao等人,2010年] 进行场景识别。为了评估作者方法在分布外泛化方面的性能,作者还进一步包括了四个数据集:ImageNetV2 [Recht等人,2019年]、ImageNet-Sketch [Wang等人,2019年]、ImageNet-A [Hendrycks等人,2021年b] 和ImageNet-R [Hendrycks等人,2021年a]。
表1:实验中使用的数据集的详细统计信息。
训练细节。为了评估模块与视觉-语言模型中升级模型的兼容性,作者默认使用基于ViT-B/16的CLIP。作者在CLIP [Radford等人,2021] 上训练插件模块,并将其直接集成到相应的升级模型EVA-CLIP [Sun等人,2023] 中。默认将 Prompt 长度设置为16。注意力网络由一个单头多头注意力层组成,其参数使用Kaiming初始化方法 [He等人,2015] 初始化。超参数 默认设置为1.0。所有实验均在单台NVIDIA GeForce RTX 3090上进行。为了获得模型性能的可靠估计,作者使用不同的随机种子进行三次运行,并平均结果。
评估协议。为了评估升级模型的模块兼容性,作者对每个数据集随机选取16个样本,并使用CLIP [Radford等,2021]在16样本数据集上训练模型。随后,作者使用CLIP和EVA-CLIP在完整测试数据集上评估性能。报告的指标是测试数据集的平均准确率。在此背景下,作者用“基本准确率”表示使用CLIP所达到的性能,而使用EVA-CLIP所达到的性能被视为“新准确率”。然后,报告这两个指标的平均调和值,以反映基本准确率和新准确率之间的权衡。
在本部分,作者介绍了作者的方法以及在VLMs的模块兼容性设置下,七个 Baseline 方法的性能表现。所有方法均使用ViT-B/16 CLIP在16个样本的数据集上进行训练。
基准方法。作者将提出的方法与以下七种基准方法进行比较:1) 零样本CLIP [Radford等人,2021年]:在零样本CLIP(ZS-CLIP)基准中,作者使用如“一张[类别]的图片”这样的 Prompt 模板来创建零样本分类器,评估其可重复使用性。2) 线性 Prob [Radford等人,2021年]:在CLIP [Radford等人,2021年]的基础上,作者在预训练的CLIP图像编码器之上训练一个线性分类器。3) CLIP-Adapter [高等人,2023年]:CLIP-Adapter(CLIP-A)提出训练一个特定任务的 Adapter 来调整视觉表示。4) Tip-Adapter-F [张等人,2022年]:Tip-Adapter-F(Tip-A)利用训练数据的缓存来构建 Adapter ,然后对下游任务进行微调。5) CoOp [周等人,2022年b]:CoOp提出为下游文本编码器的输入学习上下文 Prompt 。表2:在11个数据集上的模块兼容性设置结果。作者使用基于ViT-B/16的CLIP在16样本数据集上训练这些高效模块,随后将它们直接整合到EVA-CLIP的相应版本中。为了比较,作者选择了七个基准:零样本CLIP、线性 Prob 、CLIP-Adapter、Tip-Adapter、CoOp、CoCoOp和KgCoOp。评估指标包括使用原始模型(Base)和升级模型(New)计算数据集的平均值,以及它们的调和平均值(H)。
通过反向传播完成任务。为了比较,作者选择了具有16个可学习 Prompt 的最佳版本的 。6) CoCoOp [周等人,2022a]:CoCoOp是的一个变种,它使用元网将视觉特征融合到可学习 Prompt 中,以解决从基础模型到新模型的泛化问题。7) [姚等人,引入了知识蒸馏损失来增强CoOp的泛化能力。表2展示了作者的方法以及模型升级场景下的 Baseline 方法的表现。为了清晰起见,作者用粗体标出了最高成绩,而次高成绩则用下划线标注,以提供清晰的区分。从结果中可以看出,尽管深层方法(LP、CLIP-A、Tip-A)在原始CLIP(基础)上表现出了优越的性能,但在升级后的模型中,它们的兼容性显著降低,甚至低于零样本CLIP的性能。模型升级后,LP、CLIP-A和Tip-A与零样本CLIP相比,分别降低了68.96%、3.49%和1.16%。这一观察表明,它们无法在更新后的模型中重用。与这些 Baseline 相比,作者的方法在应用于升级模型时,在11个数据集中有9个取得了最高成绩。在11个数据集的平均值中,作者的方法在New和H分数上取得了最高成绩,分别提高了3.57%和2.68%。这强调了作者的方法在模型升级场景中的有效性。
作者进一步进行实验,以评估作者的方法对分布外泛化的鲁棒性。具体来说,作者使用基于ViT-B/16的CLIP在16个样本的ImageNet [Deng等,2009]上训练作者的模型。随后,作者将模型直接迁移到目标数据集,这些数据集包括ImageNetV2 [Recht等,2019]、ImageNet-Sketch [王等,2019]、ImageNet-A [Hendrycks等,2021b]和ImageNetR [Hendrycks等,2021a]。
在表3中展示,作者选择了ZS-CLIP [Radford等人,2021],CoOp [周等人,2022b],CoCoOp [周等人,2022a]和 [姚等人,2023]进行对比。作者的方法在四个目标数据集上的平均结果最高。具体来说,作者的方法平均分别比ZS-CLIP、CoOp、CoCoOp和高出3.21%、1.98%、0.48%和0.12%。这些结果突显了作者模型在解决与分布外泛化相关挑战以及减轻源数据集上过拟合风险的优越效能。
为了展示作者方法的适应性,作者评估了它与替代CLIP架构的兼容性。作者在一个基于ViT-L/14的CLIP大型架构上训练了作者的方法和 Baseline 方法。所有方法都是在16个样本的数据集上训练的。
详细结果展示在表8中。与ViT-B/16架构上的结果相似,作者的方法在New和H上均取得了最高成绩。与表现第二的方法相比,作者的方法在New上提高了0.45%,在H上提高了1.03%。这些结果表明,作者的方法在不同CLIP架构上均具有有效性。
表4:在DTD数据集上,作者方法中注意力网络和知识蒸馏损失的消融实验。
不同组件的有效性。作者的方法由两个核心组件组成:注意力网络(Attn)和知识蒸馏(KD)损失,与之前的工作相比。在本部分,作者分析了这些组件的有效性。结果展示在表4中。结果表明,独立整合注意力网络和KD损失可以增强模块的可重用性。值得注意的是,注意力网络带来的优势超过了KD,显示出更为显著的提升。此外,结合这两个组件可以获得最佳性能,从而证明了作者方法的有效性。
变量上下文长度的影响。作者分析了在作者提出的方法中,上下文长度的变化对 Prompt 词的影响,如图4所示。作者的实验涉及在UCF101数据集上用4、8和16个上下文长度来训练作者的模型。值得注意的是,作者发现 Prompt 词长度对作者的方法性能的影响微乎其微。鉴于16个上下文长度产生了最佳结果,作者采用16个上下文长度来训练作者的方法,以确保获得更优的结果。
表5:不同λ值下的ContCoOp结果
表7:作者方法的不同条件信息
对超参数的敏感性分析。在作者的方法中,存在一个超参数,它控制着知识蒸馏损失的强度。为了评估其影响,作者在UCF101数据集上进行了敏感性分析。结果展示在表5中。作者观察到,当设置为1时,可以达到最佳性能。因此,对于所有数据集,作者默认采用。
本研究探讨了调整注意力网络中头数的影响。作者的方法整合了一个包含自注意力层的注意力网络。在本部分中,作者研究了调整注意力网络中头数的影响。为了评估这种影响,作者在DTD数据集上使用不同数量的头进行模型训练,实验结果展示在表6中。结果表明,使用较少的注意力头数可以获得更好的性能。因此,作者选择在注意力网络中保持单头设置。
本文对人工智能领域的研究现状进行了全面回顾和分析。通过对大量文献的梳理,本文揭示了人工智能技术在不同领域的应用和发展趋势。同时,本文还探讨了人工智能发展过程中所面临的技术挑战和伦理问题,并对未来人工智能的研究方向提出了建议。
在技术挑战方面,本文强调了数据质量、算法优化、计算能力等方面的不足,并指出这些因素对人工智能的发展具有重要意义。在伦理问题方面,本文从数据隐私、算法偏见、人工智能责任等方面进行了深入剖析,认为伦理问题应成为人工智能研究的重要考量。
基于以上分析,本文得出以下结论:
总之,人工智能作为一项颠覆性的技术,将对人类社会产生深远影响。本文的研究成果有助于推动人工智能领域的深入研究和广泛应用。
在本文中,作者提出了一个关于VLMs高效微调的关键问题,即:经过高效微调的模块是否仍然对升级后的模型有效?为了探究这一问题,作者首先对现有方法的兼容性进行了实验。结果显示,这些方法在兼容性方面存在不同程度的局限性。
为了解决这一问题,作者提出了一种新颖的方法,称为类条件上下文优化(ContCoOp)。ContCoOp通过注意力网络生成类条件 Prompt ,因此 Prompt 可以针对升级后的模型动态更新。
作者在15个数据集上进行了实验,展示了ContCoOp的优越性能。此外,ContCoOp不仅展示了在模型升级方面的强大兼容性,还表现出在分布外泛化方面的稳健性能。未来,作者计划改进作者的方法,并将研究扩展到探索其他模态(如NLP)中的兼容性问题。
[1]. Towards Compatible Fine-tuning for Vision-Language Model Updates .