前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI CLIP 论文解读

OpenAI CLIP 论文解读

作者头像
BBuf
发布于 2021-03-25 03:42:10
发布于 2021-03-25 03:42:10
5.1K0
举报
文章被收录于专栏:GiantPandaCVGiantPandaCV

GiantPandaCV导语:视频内容主要是讲解 CLIP 这篇文章的思路,值得一看

点击小程序卡片观看视频

视频太长不看版:

CLIP 训练阶段

image-20210313165943853

模型架构分为两部分,图像编码器和文本编码器,图像编码器可以是比如 resnet50,然后文本编码器可以是 transformer。

训练数据是网络社交媒体上搜集的图像文本对。在训练阶段,对于一个batch 的数据,首先通过文本编码器和图像编码器,得到文本和图像的特征,接着将所有的文本和图像特征分别计算内积,就能得到一个矩阵,然后从图像的角度看,行方向就是一个分类器,从文本角度看,列方向也是一个分类器。

而由于我们已经知道一个batch中的文本和图像的匹配关系,所以目标函数就是最大化同一对图像和文本特征的内积,也就是矩阵对角线上的元素,而最小化与不相关特征的内积。文章的作者从社交媒体上搜集了有大约4亿对的数据。

CLIP 测试阶段

image-20210313170146896

在测试阶段,可以直接将训练好的CLIP用于其他数据集而不需要finetune。和训练阶段类似,首先将需要分类的图像经过编码器得到特征,然后对于目标任务数据集的每一个标签,或者你自己定义的标签,都构造一段对应的文本,如上图中的 dog 会改造成 "A photo of a dog",以此类推。然后经过编码器得到文本和图像特征,接着将文本特征与图像特征做内积,内积最大对应的标签就是图像的分类结果。这就完成了目标任务上的 zero-shot 分类。

一些有趣的实验结果

在27个数据集上与有监督resnet50的对比

image-20210313193337687

上图是在27个数据集上的对比实验结果,Linear Probe ResNet50 是指首先将 ResNet50 在 imagenet 数据集上做预训练。接着扔掉最后一层全连接并固定网络参数,重新添加一层线性分类器,然后在这27个数据集上重新训练新增的这层分类器。从实验结果上看,Zero-Shot CLIP 在其中16个数据集上都超过了 Linear Probe ResNet50,甚至包括了 imagenet。

在 ImageNet 变种数据集上与resnet101对比

image-20210313193844874

这个实验是对于imagenet数据集经过重新的筛选,制作了几个变种的版本。然后将 Zero-Shot CLIP 与在 Imagenet 上有监督训练的 ResNet101 在这些数据集上的分类精度做对比。可以看到随着变种版本的难度增大,ResNet101分类精度愈来愈差,而CLIP的表现则依然很坚挺。

通过添加标签对CLIP分类效果的影响

image-20210313194836019

这是在一个人脸数据集上的实验结果,最上面的 Table 6 是表示数据集标签包含7个人类种族、3类罪犯相关的标签和4类非人类的标签。Table 7 才是重点,表示各个年龄段的人脸识别为罪犯或者非人类的图片比例,可以看到通过给 Default Label Set 添加一个新的 'child' 儿童这个类别,0~19岁低年龄段的人脸的误识别率都降低了很多,因为CLIP分类的时候多了个儿童这个选项。通过这个实验说明文本编码器部分的标签文本构造对CLIP分类结果的影响非常大。

总结

CLIP提供一个如何做 zero-shot 分类的思路,且模型鲁棒性强。基于 CLIP 可以自由定义自己的分类器,而且与现有的很多工作结合或许玩出很多花样,比如 DALL·E 中用到了 CLIP,又比如有人已经把 CLIP 和 stylegan 结合来生成图片,又或者可以和 GPT-3 结合等等。想了解更多详细内容可以阅读原文章或者观看视频。

原论文链接:https://arxiv.org/pdf/2103.00020.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GiantPandaCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CLIP-图文预训练模型
CLIP: Contrastive LanguageImage Pre-training
iResearch666
2023/09/13
7060
CLIP-图文预训练模型
BLIP:用更干净更多样的数据进行多模态预训练,性能超越CLIP!代码已开源!
视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,通过使用从web收集的嘈杂的图像-文本对来扩展数据集,在很大程度上实现了性能改进,但这是监督的次优来源。
CV君
2022/03/30
4.6K0
BLIP:用更干净更多样的数据进行多模态预训练,性能超越CLIP!代码已开源!
《从自然语言监督中学习可迁移的视觉模型》解读
最近几天读了这篇文章,由于第一遍读,理解的不是很深,望大家理解。《从自然语言监督中学习可迁移的视觉模型》(Learning Transferable Visual Models From Natural Language Supervision)是由OpenAI于2021年发表的一篇开创性论文,提出了一种名为CLIP(Contrastive Language-Image Pre-training)的模型。该研究的核心目标是利用自然语言作为监督信号,训练出能够泛化到多种视觉任务的模型。
摆烂小白敲代码
2025/01/24
1200
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
机器之心专栏 机器之心编辑部 本文提出了 Tip-Adapter,一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。 论文链接:https://arxiv.org/pdf/2207.09519.pdf 代码链接:https://github.com/gaopengcuhk/Tip-Adapter 一.研究背景 对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进行 zero-shot 图像识别。为了进一步提升 CLIP 的迁移性
机器之心
2022/09/26
1.1K0
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
https://arxiv.org/pdf/2403.09281v1 CLIP(Contrastive Language-Image Pretraining,对比语言-图像预训练)模型在识别问题中表现出了卓越的性能,如零样本图像分类和对象检测。然而,由于其固有的挑战——即将计数(一项回归任务)转化为识别任务,CLIP在计数方面的能力仍然研究不足。在本文中,我们研究了CLIP在计数方面的潜力,特别是聚焦于人群规模估计。现有的基于分类的人群计数方法遇到了包括不恰当的离散化策略在内的问题,这些问题阻碍了CLIP的应用并导致性能次优。为了解决这些挑战,我们提出了增强的分块分类(Enhanced Blockwise Classification,EBC)框架。与以往方法不同,EBC依赖于整数值的箱(bins),这有助于学习稳健的决策边界。在我们的与模型无关的EBC框架内,我们引入了CLIPEBC,这是第一个能够生成密度图的完全基于CLIP的人群计数模型。通过对不同人群计数数据集的综合评估,我们方法的先进性能得到了证明。特别是,EBC可以使现有模型的性能提升高达76.9%。此外,我们的CLIP-EBC模型超越了当前的人群计数方法,在上海科技大学A部分和B部分数据集上分别实现了55.0和6.3的平均绝对误差。代码将公开提供。
AI浩
2024/10/22
3250
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!
本文分享论文『Prompting Visual-Language Models for Efficient Video Understanding』,用 CLIP 做多个视频任务!上交&牛津提出基于 Prompt 将CLIP 拓展到多个视频任务,在 open-set 场景中效果极佳!
CV君
2021/12/15
2.3K0
用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!
深度学习--CLIP算法(文本搜图片,图片搜图片)
  CLIP全称Constrastive Language-Image Pre-training,是OPAI推出的采用对比学习的文本-图像预训练模型。CLIP惊艳之处在于架构非常简洁且效果好到难以置信,在zero-shot文本-图像检索,zero-shot图像分类,文本→图像生成任务guidance,open-domain 检测分割等任务上均有非常惊艳的表现,本文将对CLIP做一些初步的介绍。
机器学习AI算法工程
2023/09/04
2.5K0
深度学习--CLIP算法(文本搜图片,图片搜图片)
AI绘画中CLIP文本-图像预训练模型
OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行训练,学习图像内容与自然语言描述之间的对应关系。这种方法使得模型能够在没有特定任务训练的情况下,对广泛的视觉概念进行理解和分类。
Dlimeng
2023/12/22
1.2K0
AI绘画中CLIP文本-图像预训练模型
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
最近,大规模的视觉语言模型(VLMs),如CLIP [1]及其变体,为计算机视觉提供了一种新范式,并在许多下游任务上表现出优越的泛化性能,例如零样本泛化[5],少样本分类[6]和跨分布(OOD)检测。VLMs通常预先在数百万对视觉语言数据上进行训练,使它们能够理解开放词汇视觉概念。它们在与手工艺文本 Prompt (如“一张{类别}的照片”)结合时,展示了出色的泛化能力。
AIGC 先锋科技
2024/12/19
3340
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
腾讯&上交&浙大提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,Zero-Shot效果优于CLIP!
本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』,由腾讯&上交&浙大(沈春华)提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,ImageNet上Zero-Shot效果优于CLIP!
CV君
2022/09/01
1.6K0
腾讯&上交&浙大提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,Zero-Shot效果优于CLIP!
2021-Arxiv-Learning Transferable Visual Models From Natural Language Supervision
这篇文章[1]的主要想法是,对自然语言特征和图像特征进行对比学习,训练得到对应的文本和图像编码器,然后使用预训练好的成对的编码器去做各种各样的下游任务。以图像分类任务为例:
hotarugali
2022/05/01
5540
2021-Arxiv-Learning Transferable Visual Models From Natural Language Supervision
ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型
这次要介绍的文章属于 CLIP 在医学图像上的一个应用,思路上不算是创新。CLIP(Contrastive Language-Image Pre-training)是一种多模态模型,这意味着它可以同时处理文本和图像数据。它的目标是将文本描述和图像内容关联起来,使得模型能够理解文本描述与图像之间的语义关系。它通过学习大量的文本和图像来获得对于语义理解的通用知识,这种通用知识可以在各种具体任务中进行微调,使得模型可以适应不同领域的任务。CLIP 使用对比学习的方法来训练模型。它要求模型将相关的文本描述和图像匹配在一起,而将不相关的文本描述和图像分开。这样,模型可以学习如何捕捉文本和图像之间的语义相似性。
BBuf
2023/09/26
2.8K0
ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型
OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务
2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色。
AI科技评论
2021/01/08
9.9K0
OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务
实验室可以训练(De)CLIP了!商汤ICLR2022 DeCLIP正式开源!
作为2021年的重要里程碑,CLIP 一经问世便吸引了广大研究人员的关注。但是4亿的图片-文本对数据,数百张的GPU卡需求,让研究者望而生畏。
Amusi
2022/04/18
1.3K0
实验室可以训练(De)CLIP了!商汤ICLR2022 DeCLIP正式开源!
使用 CLIP 对没有标记的图像进行零样本无监督分类
深度图像分类模型通常以监督方式在大型带注释数据集上进行训练。随着更多带注释的数据加入到训练中,模型的性能会提高,但用于监督学习的大规模数据集的标注成本时非常高的,需要专家注释者花费大量时间。为了解决这个问题,人们开始寻找更便宜的标注的标签来源,是否有可能从已经公开的数据中学习高质量的图像分类模型?
deephub
2022/11/11
1.7K0
使用 CLIP 对没有标记的图像进行零样本无监督分类
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
目标检测是计算机视觉中一个非常重要的基础任务,与常见的的图像分类 / 识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在 CV 三大任务(识别、检测、分割)中处于承上启下的关键地位。
机器之心
2023/08/04
1.3K0
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
多模态编码器在视觉语言领域的预训练,例如CLIP(Radford等,2021),已被发现对学习源自图像和文本配对数据的可转移特征非常有益。CLIP的学习框架是对比式的,通常依赖于数据增强以消除不必要的插入和捷径。
AIGC 先锋科技
2025/01/14
2670
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
最近,OpenAI官宣了一个基于Transformer的语言模型--DALL-E,使用了GPT-3的120亿参数版本。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。
新智元
2021/01/11
1.4K0
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新
---- 新智元报道   编辑:LRS 【新智元导读】开源模型OpenCLIP达成ImageNet里程碑成就! ‍ ‍ 虽然ImageNet早已完成历史使命,但其在计算机视觉领域仍然是一个关键的数据集。 2016年,在ImageNet上训练后的分类模型,sota准确率仍然还不到80%;时至今日,仅靠大规模预训练模型的zero-shot泛化就能达到80.1%的准确率。 最近LAION使用开源代码OpenCLIP框架训练了一个全新的 ViT-G/14 CLIP 模型,在 ImageNet数据集上,原版O
新智元
2023/02/24
1.1K0
ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新
使用 CLIP 对没有任何标签的图像进行分类
深度图像分类模型通常在大型带注释数据集上以监督方式进行训练。尽管模型的性能会随着更多注释数据的可用而提高,但用于监督学习的大规模数据集通常难以获得且成本高昂,需要专家注释者花费大量时间。考虑到这一点,人们可能会开始怀疑是否存在更便宜的监督资源。简而言之,是否有可能从已经公开可用的数据中学习高质量的图像分类模型?
小白学视觉
2022/12/27
3.7K0
使用 CLIP 对没有任何标签的图像进行分类
推荐阅读
CLIP-图文预训练模型
7060
BLIP:用更干净更多样的数据进行多模态预训练,性能超越CLIP!代码已开源!
4.6K0
《从自然语言监督中学习可迁移的视觉模型》解读
1200
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
1.1K0
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
3250
用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!
2.3K0
深度学习--CLIP算法(文本搜图片,图片搜图片)
2.5K0
AI绘画中CLIP文本-图像预训练模型
1.2K0
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
3340
腾讯&上交&浙大提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,Zero-Shot效果优于CLIP!
1.6K0
2021-Arxiv-Learning Transferable Visual Models From Natural Language Supervision
5540
ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型
2.8K0
OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务
9.9K0
实验室可以训练(De)CLIP了!商汤ICLR2022 DeCLIP正式开源!
1.3K0
使用 CLIP 对没有标记的图像进行零样本无监督分类
1.7K0
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
1.3K0
加州大学通过知识提炼增强CLIP概念的渗透,从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合 !
2670
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
1.4K0
ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新
1.1K0
使用 CLIP 对没有任何标签的图像进行分类
3.7K0
相关推荐
CLIP-图文预训练模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档