Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CLIPCleaner 利用视觉语言模型解决噪声标签学习的自我确认偏差问题 !

CLIPCleaner 利用视觉语言模型解决噪声标签学习的自我确认偏差问题 !

作者头像
未来先知
发布于 2024-09-02 04:56:01
发布于 2024-09-02 04:56:01
3390
举报
文章被收录于专栏:未来先知未来先知

机器学习领域,噪声标签学习( Learning with Noisy Labels,简称LNL)已成为一个具有挑战性的问题。一些在干净样本选择中广泛使用的策略,例如“较小损失”和“高风险类别”,可能会受到所谓的“自我确认”偏差的影响。这种偏差源于训练中的模型至少部分是基于噪声标签的。此外,在分类情况下,还出现了一个额外的挑战,因为一些标签噪声位于视觉上非常相似的类别之间(难以区分的噪声)。 本文通过提出一种利用CLIP(一个强大的视觉语言模型)构建零样本分类器的( CLIPCleaner )方法,来解决这些问题。CLIP方法的主要优势在于,样本选择与训练中的模型相分离,并且由于CLIP的训练方式,样本选择能够意识到类之间的语义和视觉相似性。 作者提供了CLIP相对于传统预训练模型的理论依据和实证证据。与当前的方法相比, CLIPCleaner 提供了简单、一次性的方法,在基准数据集上实现具有竞争力的或更好的性能。据作者所知,这是首次使用视觉语言模型进行样本选择以解决学习噪声标签(LNL)问题,突显了该领域中的潜力。

1 Introduction

最近,基于样本选择的方法已成为识别干净标签的样本的主导模式。其中最常用的样本选择策略是小损失机制,因为模型在训练过程中倾向于提前适配干净样本而不是噪声样本,这导致了干净样本的相对较小损失。然后,大多数方法主要集中在进一步改进这样的样本选择机制。这包括小损失策略的不同变体、利用基于样本特征空间的小样本近邻或图模型进行样本选择。然而,这些方法天生受到标签噪声的影响,因为损失或用于样本选择的特征是从正在训练的模型(即在线训练模型)中提取的(即内训练模型)-这导致了臭名昭著的“自我确认”偏差。一些方法(Li等人,2019年;2019年)试图通过模型共同训练来缓解“自我确认”偏差,但这种方法引入了额外的计算开销。此外,这些方法仅依靠图像内的视觉信息,因此很难处理“硬噪声”,即具有高视觉相似度的类别间的标签错误。

针对上述问题,作者提出了一个名为 CLIPCLEaner 的新颖方法,该方法利用流行的视觉语言模型 CLIP (Li等人,2019)进行样本选择。具体而言,作者提出使用一个基于 CLIP 的零样本分类器,该分类器使用自动生成的大型语言模型来生成描述性分类提示进行样本选择。由于 CLIP 接受了大量视觉语言对,因此导致了一种具有两个优点的样本选择方案:1. 样本选择意识到类之间的视觉和语义相似性,因此可以弥补仅依靠视觉信息进行样本选择的偏差(图1);2. 样本选择与训练中的模型无关,因此对噪声标签和“自我确认”偏差免疫。据作者所知,作者首次采用了大规模的视觉语言模型,特别是利用其语言模式,进行样本选择。

此外,作者引入了一个非常简单的半监督学习方法 MixFix ,该方法专为没有常见的高级模块(例如,对抗训练或多任务训练)的噪声数据集而定制。所提出的半监督方法逐渐引入更多的干净样本并重新标记噪声样本以扩展现初选的干净子集(由 CLIPcleaner 选出)。作者注意到在所提出的方案中,训练中的模型,即最终的分类器,与用于样本选择的 VL 模型不同。更具体地说,与常见的迁移学习技术(例如模型微调(Li等人,2019)、知识蒸馏(Li等人,2019)和基于提示的学习(Li等人,2019; Li等人,2019))不同,作者坚持仅使用 CLIP 进行样本选择,并避免对其进行训练/微调。这种方案的一个独特优势是,所提出的方案允许计算或参数方面的轻量级训练模型,并允许使用可能没有完全访问权限的 VL 模型作为样本选择器。

作者在理论和实际方面展示了所提出方法的有效性和优势。尽管其简洁,但作者的方法在各种数据集上实现了竞争性和优越的性能,包括带合成噪声的 CIFAR10/CIFAR100(对称、非对称和实例相关的噪声),以及真实世界的噪声数据集,如 Red Mini-ImageNet、WebVision、Clothing1M 和 ANIMAL-10N。

2. Related works

噪声标签下的学习样本选择Most样选方法通常依赖于模型分类器,如广泛应用的小损失机制或模型预测。近年来,更多的工作关注进一步改进样本选择质量,通过建立马尔可夫过程模型(Li等人,2019)或使用多个指标动态选择样本(Li等人,2019)。此外,一些工作尝试利用特征表示进行样本选择。吴等人(2019,2019)试图构建kNN图,并通过子图识别干净样本,而冯等人(2019),李等人(2019),奥特戈等人(2019)则建议在特征空间中使用kNN来缓解噪声标签的影响。近年来涉及对比学习的一些最新方法根据特征空间中的邻居关系识别干净样本对。然而,这些方法仍然不稳定且易受'自我确认'偏误的影响,特别是在高比例噪声场景中,由于它们基于训练过程中的噪声数据集的内在依赖。

辅助模型的利用对于LNL,利用辅助噪声免模型是合理且简单的。与相关方法不同,一些方法也尝试利用预训练的噪声免模型进行噪声标签学习的。盛等人(2019),泽洛特赞克等人(2019)建议利用自监督学习,因为在标签免情况下它可以学习好的表示方式。巴希等人(2018)利用预处理的模型前logit空间以及kNN分类器进行样本选择。朱等人(2019)遵循同样的思路,也使用了CLIP,但他们只使用其视觉编码器作为通用的预训练编码器,而没有使用语言编码器。在本工作中,作者认为语言模式是作为补充模式的重要组成部分,并显示出VL模型在样本选择上的独特优势,在理论和实证上都有所体现。

3. Method

在第3.1节中,作者将带有噪声标签的学习问题表述为一个覆盖主流样本选择方法的公式。在第3.2节中,作者将详细介绍作者的样本选择方法,即_CLIPcleaner_。在第3.3节中,作者将介绍作者使用的半监督学习方法,即_MixFix_。在第3.4节中,作者从理论上分析了使用CLIP进行样本选择相对于常用的预训练模型的独特优势。在第3.5节中,作者对样本选择和相关CLIP模型使用的主题进行了进一步讨论。

Revisiting sample selection for LNL

CLIPCleaner: sample selection with vision-language models

CLIPCleaner的起始部分:使用视觉语言模型进行样本选择。

3.2.1. Preliminary on CLIP

首先,作者简要介绍了CLIP模型(Zhou等人,2017年)(见公式2):这是目前最常用的视觉语言模型之一。CLIP的目标是从一个图像-文本对的数据集中学习,该数据集表示为,其中

在这里,和分别表示视觉编码器和语言编码器。直观地讲,CLIP模型力求在相关图像-文本对之间最大化对应关系。

3.2.2. Estimate with CLIP zero-shot classifier

由于CLIP具有多模态性质,因此它自然具备了实现在零样本分类的能力。作为LNL领域相对较新的一项技术,作者从概率角度重新审视CLIP的零样本分类,这将作为作者使用CLIP估计真实条件概率的方法。

让作者回顾一下x、y和z的定义,其中x代表图像,y代表标签,z代表文本。首先,作者假设在z的条件下,y⊥x;直观地,每个图像的语义标签y(i)可以独立地基于一个适当的图像描述z(i)单独生成。在零样本分类中,作者有:

3.2.3. Calculate with specific

Theoretical justification of CLIPCLEaner

4. Experiments

在这一节中,作者在包含合成标签噪声的两项标准基准测试(CIFAR10和CIFAR100)和四个实际噪音数据集(红色微型ImageNet(Redmon等人,2016年),服装1M(Vaswani等人,2017年),WebVision(Vaswani等人,2017年),和ANIMAL-10N(Vaswani等人,2017年))上进行了广泛的实验。作者主要遵循以前的工作(Krizhevsky等人,2012年;张等人,2017年;张等人,2017年)来设置模型和训练配置,请参阅附录G以获取完整 details。与其他工作相比,作者报告了最先进的最先进的SOTA方法的(通常包括协同训练、对比学习等技术)。

Ablations study

在本节中,作者对半监督训练策略 MixFix 的两个超参数进行剥离:设定阈值 为 'absorb',设定阈值 为 'relabel'。由于在执行样本选择时存在精度-召回的困境,因此在引入额外的训练样本时,作者还需要对精度与召回进行加权。在表1 中,作者展示了在不同的噪声比例下,过高的或过低的阈值会导致性能下降,而 会比设置两个阈值相同的值带来更好的性能。在图3 中,作者进一步揭示了内在机制。尤其是,在降低 'absorb' 阈值 后,训练样本的比例增加,而训练样本的准确性降低。

在本节中,作者考虑直接使用 CLIP 的零样本分类器在干净的测试集上进行分类,采用作者在第 3.2 节中描述的过程。在表2 中,作者提出了六个相关基准测试的零样本分类结果,并将其与当前 SOTA 结果以及作者的方法进行比较。值得注意的是,在这里作者使用的是 VIT-B/32 架构,而作者的方法和 SOTA 方法采用了更简单的结构,如 CIFAR 数据集的 PreResNet-18。因此,这种比较确实过于严格。然而,作者观察到与直接使用 CLIP 的零样本分类器相比,作者的方法在大多数数据集上取得了显著的改进,并超过了所有数据集上的 SOTA LNL 方法。作者还在补充材料 A 中考虑了其他视觉语言模型。

在本节中,作者理论上得出结论,零样本分类器的样本选择性能受到所用提示的质量以及 CLIP 训练数据集和问题域间的领域差距的影响,而基于 CLIP 的视觉编码器以及问题域的数据集的易于诱导的分类器的性能受到问题域数据集中的噪声的影响。为了验证这一点,作者在两个可控制噪声比例的数据集中进行了实验,即具有合成对称/非对称噪声的 CIFAR10/100 数据集。

在图4 中,作者展示了样本选择的结果,并发现:

后者受标签噪声影响而前者不受影响; 此外,作者发现在问题域中的不同样本选择机制( VS )在不同的数据集上表现出不同的优缺点。考虑到真实世界的噪声信息通常未知,正如作者在第 3.5 节中分析的那样,作者默认采取保守的样本选择策略,涉及使用两种样本选择策略并选择它们的交集作为最终选择的子集; 此外,作者注意到在比较两个不同选择以获得诱导分类器时,逻辑回归分类器在实验中表现出优于 KNN 分类器。因此,作者将逻辑回归分类器作为作者首选的诱导分类器。

在合成噪声数据集上的结果

在本节中,作者首先评估作者的方法在具有合成对称/非对称噪声的 CIFAR 数据集上的性能。在表4 中,作者可以看到在所有实验设置中,作者的方法都表现出竞争力的性能并取得更好的性能,尤其是在噪声比例很高(CIFAR100 数据集上 63.11% 测试准确率,90% 对称噪声)。也强调了在这里作者将所有超参数保持不变,因为作者将方法在噪音免疫场景下的鲁棒性视为关键。

为了进一步验证作者的方法在处理 "艰难噪声" 的性能,作者还进行了实验以处理实例相关噪声并在表3 中有详细说明。与对称或非对称噪声不同,实例相关噪声假设语义相似的样本更容易被误分类,这与作者之前定义的 "艰难噪声" 更相吻合。此外,在这里作者排除 MixFix 并采用仅使用交叉熵损失的选定样本进行训练。这一排除旨在提供更多关于 CLIPCLEaner 优越样本选择性能的证据。

Results on real-world noisy datasets

最后,在表6、表7和表8中,作者分别展示了在ANIMAL-10N、Red Mini-ImageNet和WebVision数据集上的结果。总的来说,作者的提出的算法在大型网络爬取数据集和小型人工标注噪声数据集上都明显优于目前最先进的算法。

作者应注意,提出的_CLIPCLEaner_也可以与其他方案相结合使用。在表5中,作者展示了在Clothing1M数据集上的结果,既包括作者默认设置(CLIPCLEaner + MixFix)的结果,也包括将其引入到两个额外的方案中:首先引入作者的方法进行共训练,其次是替换 MixFix 为DivideMix (Zhu等人,2017)。作者观察到作者得到了目前最先进的优越结果。同时,作者想指出,尽管在其它数据集上,现有方法存在较大差异,但在Clothing1M数据集上的差异较小。这表明,在这个特定的数据集上,样本选择方法可能比样本选择方法的影响更大,可能是因为

Clothing1M数据集比其他数据集更为细致。对于这样的细致噪声数据集,样本选择可能不是最佳策略,正如补充材料H中所说的那样。

5. Conclusion

为减轻'自我确认偏差'的问题,并补偿现有主流样本选择方法中的视觉模式,本文提出了一种利用大规模视觉语言模型CLIP进行样本选择的方法,名为 CLIP-Cleaner。从理论和实证两方面阐述了其有效性。

此外,本文引入了一种简单的半监督学习方法 Mix-Fix ,专门针对噪声数据集,无需复杂的现成技术。强调利用视觉语言模型进行噪声数据集探索,如现有提示学习技术的潜力,仍是一个开放的方向。

此外,CLIP模型和目标数据集之间可能存在较大的领域差距,这可能影响结果,表明需要更精细的视觉语言模型。

最后,实验表明样本选择方法可能并不适用于细粒度噪声数据集,这也为作者未来的研究方向之一。

参考

[1].CLIPCleaner: Cleaning Noisy Labels with CLIP.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
多模态编码器在视觉语言领域的预训练,例如CLIP(Radford等,2021),已被发现对学习源自图像和文本配对数据的可转移特征非常有益。CLIP的学习框架是对比式的,通常依赖于数据增强以消除不必要的插入和捷径。
AIGC 先锋科技
2025/01/14
2020
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
你永远不知道 : 量化导致视觉-语言基础模型的不一致偏差 !
量化(Gholami等人,2022年)是压缩深度学习模型的领先实践:它将模型的参数表示从32位浮点数转换为较低的字节宽度(例如,8位或4位整数),从而显著减少内存占用和推理延迟。然而,这些在数字表示上的转换可能会引入模型参数值的一小数值扰动,可能导致在量化后模型出现不期望的行为。在本文中,作者研究了量化对基础视觉语言(ViL)模型公平结果的影响。
AIGC 先锋科技
2024/11/21
1060
你永远不知道 : 量化导致视觉-语言基础模型的不一致偏差 !
深度学习中的标签噪声处理:WANN方法与鲁棒损失函数的比较研究 !
深度神经网络在众多领域取得了显著的成果,这要归功于不断增长的计算能力。这一进步使得可以开发出更深层次、具有更强大学习能力的架构。然而,这些高度参数化的架构通常被认为需要大量数据才能有效地泛化。收集和标注这样的大型数据集既耗资又耗时,可能会引入机器和人为错误。事实上,真实世界数据集中损坏标签的比例范围从8-38.5%(Song等人,2022年)。尽管最近无监督和半监督方法在研究社区中受到了广泛关注,但受监督方法仍然广泛应用,因为它们的性能通常更高。因此,错误的标签给深度模型带来了巨大的挑战,特别是在安全关键领域,例如医疗保健中,它们倾向于记忆标签噪声,从而严重影响了泛化能力。正如张等人(2021年)所展示的那样,这个问题正在阻碍人工智能系统在安全关键领域的应用。
未来先知
2024/09/26
1920
深度学习中的标签噪声处理:WANN方法与鲁棒损失函数的比较研究 !
斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !
当前的多模态大型语言模型(MLLM)通过将预训练的视觉编码器与强大的语言模型(Touvron等人,2023;Zheng等人,2023)整合,已经取得了显著的进展。作为通用的MLLM的一个核心组成部分,视觉表示至关重要。许多研究行人使用了CLIP 作为主要的图像特征编码器,但其局限性逐渐显现出来。因此,正在积极探讨替代的视觉表示和视觉编码器的组合。
AIGC 先锋科技
2024/09/10
1520
斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !
清华大学提出CapS-Adapter | 利用CLIP的单模态和跨模态优势,通过使用多模态支持集提高了预测准确性!
视觉-语言基础模型(VLMs)[17, 21, 29]的最新进展在各个计算机视觉任务上取得了显著的进步。这些模型展现出了强大的零样本能力,这是由于它们在大规模图像-文本配对数据集上进行了预训练,其中一个突出的例子是CLIP。当将VLMs应用于下游任务时,如果下游数据集的数据分布与VLMs预训练时使用的图像分布存在显著差异,其零样本性能会大幅度下降[10]。
AIGC 先锋科技
2024/07/08
4910
清华大学提出CapS-Adapter | 利用CLIP的单模态和跨模态优势,通过使用多模态支持集提高了预测准确性!
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024/11/11
2580
LLM 视觉语言模型在动作识别中是否有效?
高效的测试时间促进视觉语言模型的训练 !
开放集图像分类是计算机视觉领域一个基本且具有挑战性的任务。最近,视觉语言模型(VLMs)在这个领域展现出了强大的能力。一个突出的模型是CLIP (Radford等人,2021年),将图像和语言编码到统一的嵌入空间中,通过测量图像表示和文本类描述之间的相似度来进行分类。
未来先知
2024/08/29
2070
高效的测试时间促进视觉语言模型的训练 !
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
图像包含大量冗余信息,这使得在大规模上高效地从图像中学习表示变得具有挑战性。最近的工作通过在视觉-语言对比学习过程中 Mask 图像块来解决这个问题[15, 33, 36, 70]。一种简单的方法是随机丢弃大量图像块,通过减少每次训练迭代的计算成本和内存使用来提高训练效率[36]。另一种策略是 Mask 语义相关的图像块集合[15, 33, 70],比如属于同一物体的块。这迫使学习到的模型从上下文中预测描述缺失场景结构的单词,从而改进了学习的表示。然而,这种方法需要单独的机制来将语义相关的块分组在一起,这增加了学习过程的复杂性并且计算成本高昂。
AIGC 先锋科技
2024/07/08
2060
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
使用 CLIP 对没有任何标签的图像进行分类
深度图像分类模型通常在大型带注释数据集上以监督方式进行训练。尽管模型的性能会随着更多注释数据的可用而提高,但用于监督学习的大规模数据集通常难以获得且成本高昂,需要专家注释者花费大量时间。考虑到这一点,人们可能会开始怀疑是否存在更便宜的监督资源。简而言之,是否有可能从已经公开可用的数据中学习高质量的图像分类模型?
小白学视觉
2022/12/27
3.6K0
使用 CLIP 对没有任何标签的图像进行分类
CoVLM:利用视觉语言模型的共识进行半监督多模态假新闻检测 !
社交媒体上的假新闻蔓延使得假新闻检测成为保持信息完整性的关键任务,保护公共言论,并防止信任侵蚀[1]。生成假新闻的越来越受欢迎的方法是将真实图像与误导/不正确的标题配对,因为这样需要最小的努力和技术专业知识。图1展示了来自基准新闻CLIPings数据集[4]的真实和假图像-文本配对的一些例子。假新闻通常在视觉内容和伴随文本之间存在差异,而真实新闻则往往在图像和文本之间具有连贯的关系。
未来先知
2024/11/06
2390
CoVLM:利用视觉语言模型的共识进行半监督多模态假新闻检测 !
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025/03/03
1160
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
BDetCLIP | 对抗预训练CLIP中的后门,增强多模态模型对抗后门攻击的可靠性和安全性
多模态对比学习方法(如CLIP [39])在各类下游任务中展现出了令人印象深刻的零样本分类性能,由于它们能有效对不同模态的表示进行对齐,因此在开放词汇目标检测[51]、文本到图像生成[51]和视频理解[53]等多个视觉语言领域中作为基础模型。然而,近期的研究发现,预训练数据中一小部分被毒化的后门样本,可以在多模态对比预训练过程后导致CLIP被后门攻击[5; 4; 2]。
集智书童公众号
2024/05/31
5670
BDetCLIP  |  对抗预训练CLIP中的后门,增强多模态模型对抗后门攻击的可靠性和安全性
提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !
近年来,在视觉语言模型领域取得了重大进展,例如CLIP、Flamingo 、ALIGN 和CoCa。这些模型通过结合两个基本组成部分,在获取可迁移且鲁棒的图像表示方面取得了卓越成就:
未来先知
2024/08/08
3530
提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
随着移动网络和社会平台的大量普及,图像文本对的生产爆炸式增长 。如此丰富的数据为视觉语言预训练的推进提供了强大的基础。对比学习预训练(CLIP)[1]在多模态学习上取得了显著成功,通过在大型数据集上align图像文本对。它使用对比损失学习两个独立的单模编码器,这是表示学习中最有效的损失之一 。然而,CLIP的成功在很大程度上依赖于庞大的预训练数据集。原始CLIP模型在4亿图像文本对上进行32个epoch的预训练,需要数千个GPU天。在计算资源有限的情况下,这具有明显的挑战性[1, 17]。最近,从网站爬取的大规模图像文本数据集(如LAION400M 和LAION5B [13])在日常生活中广泛应用于视觉语言预训练。数据Comp 从Common Crawl的网页数据中提取图像文本对,并采用诸如基本过滤、CLIP评分过滤和基于文本图像过滤等策略。然而,训练数据中的语义重复问题仍然存在,这不仅可能影响表示学习,还可能浪费计算资源 。
未来先知
2024/08/29
4440
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
大型视觉语言模型(VLMs),如CLIP ,彻底改变了图像分类。尽管早期的深度分类模型如AlexNet 和ResNet 取得了进展,但它们处理开放词汇分类的能力对它们在各种领域的适应性贡献显著。此外,通过在特定数据集上对它们进行微调,它们达到了惊人的准确度。
AIGC 先锋科技
2024/07/08
1750
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中,CLIP(对比语言图像预训练)[38] 脱颖而出,作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色,无需直接监督就能理解并关联到视觉内容到文本描述。
AIGC 先锋科技
2024/10/22
1760
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
嵌入模型对于实现各种下游任务如语义相似度、信息检索和聚类等至关重要。近年来,开发通用文本嵌入模型以实现跨任务泛化(例如MTEB)引起了广泛关注。
未来先知
2025/01/10
4150
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
超越图像检索:利用CLIP文本表示增强语言模型的视觉知识 !
自回归语言模型是自然语言理解和生成的参考系统。然而,由于文本语料库中的报告偏差(Shwartz和Choi,2020年),语言模型缺少视觉知识,这意味着它们不了解作者世界的视觉属性,在预测真实物体的典型颜色、尺寸和形状等方面遇到困难,例如。Alper等人尝试通过为语言模型增加视觉知识来克服这些问题。但特别关注被 Mask 的语言模型(MLM)。MLM在文本生成方面的限制较大,其应用范围不如自回归语言模型广泛。VaLM 是自回归语言模型视觉增强的最新实例,它利用预热的CLIP多模态模型(Radford等人,2021年)进行图像检索和表达以提高下一个标记预测。为有效使用视觉信息,他们在基础LM中添加了一个融合层,允许文本标记在预测下一个标记之前关注视觉表示。他们证明,与VaLM相比,Blind-VaLM在视觉语言理解(VLU)的性能上有显著提升,同时保持了基础LM的NLU和文本生成能力。
AIGC 先锋科技
2024/09/27
2130
超越图像检索:利用CLIP文本表示增强语言模型的视觉知识 !
从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?
视觉语言模型,经过在包含广泛真实世界概念的图像文本对上进行训练 ,在各种下游任务上表现出显著的适应性 。这些模型通过填充预定义的 Prompt 模板(例如,“一张[CLASS]的照片”)来完成特定的类名填充文本编码器。尽管它们在新任务上的有效泛化,但 Prompt 模板的词序变化可能会影响性能 [8]。手动创建手工制作的 Prompt 已经过时,自然语言处理 [9; 10] 和计算机视觉最近的发展提出了学习一组软 Prompt 的方法,所需的 Token 数据最小。尽管在 Prompt 学习方面取得了进步,但目前的最佳状态仍受限于其缺乏可解释性和基础类上的过拟合问题,这在多样化和动态应用环境中可能具有阻碍作用。这些限制强调了在视觉语言模型中优化 Prompt 的必要性。
未来先知
2025/01/02
970
从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
深度学习技术的最新进展通常依赖于越来越大、越来越复杂的模型,这些模型利用庞大的数据集实现最先进的表现。刘等人; Touvron等人。然而,这种成功通常伴随着数据存储和计算资源的巨大成本,这可能甚至限制模型在专业基础设施上的部署,并阻碍它们在不同应用场景中的可扩展性。此外,实际数据集通常包含冗余和噪声,这可能降低训练效率和性能。
AIGC 先锋科技
2024/11/07
1760
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
推荐阅读
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
2020
你永远不知道 : 量化导致视觉-语言基础模型的不一致偏差 !
1060
深度学习中的标签噪声处理:WANN方法与鲁棒损失函数的比较研究 !
1920
斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !
1520
清华大学提出CapS-Adapter | 利用CLIP的单模态和跨模态优势,通过使用多模态支持集提高了预测准确性!
4910
LLM 视觉语言模型在动作识别中是否有效?
2580
高效的测试时间促进视觉语言模型的训练 !
2070
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
2060
使用 CLIP 对没有任何标签的图像进行分类
3.6K0
CoVLM:利用视觉语言模型的共识进行半监督多模态假新闻检测 !
2390
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
1160
BDetCLIP | 对抗预训练CLIP中的后门,增强多模态模型对抗后门攻击的可靠性和安全性
5670
提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !
3530
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
4440
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
1750
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
1760
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
4150
超越图像检索:利用CLIP文本表示增强语言模型的视觉知识 !
2130
从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?
970
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
1760
相关推荐
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档