Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI也有24MB的模型了!人人都用的起CLIP模型,iPhone上也能运行

OpenAI也有24MB的模型了!人人都用的起CLIP模型,iPhone上也能运行

作者头像
新智元
发布于 2021-08-25 06:59:22
发布于 2021-08-25 06:59:22
1.9K0
举报
文章被收录于专栏:新智元新智元


新智元报道

来源:reddit

编辑:LRS

【新智元导读】24MB的CLIP模型香不香?不要显卡,不要大内存,一台手机iPhone就能用!研究人员还顺带解决了CLIP过度关注文本的问题,快来看看怎么做的。

Transformer的模型动辄以GB论大小,参数量也不断突破亿、十亿,这种大模型想要应用在移动端或者给没有高端显卡「平民」玩家使用,也是十分困难。

CLIP 是openAI 在今年年初发布的一个多模态模型,能够从自然语言标注数据中学到有价值的视觉概念,并且和GPT-2/3一样拥有zero-shot的能力。

CLIP的训练数据包括超过4亿个图像文本对,使用256个GPU训练了2周。虽然这是把屠龙刀,但对执剑人有着超高要求,所以有研究人员就在考虑如何缩减模型的规模,把它能用在更多的地方。

这项研究工作在Reddit分享后,直取200赞,声称可以在iPhone中使用。

CLIP模型根据输入的文本,召回相关的图片,但它存在一个问题是过度注重图片中的文本而非语义,例如当输入为cat(猫)时,把图片中包含cat相似文本的图片排序更高。

下面这个有小猫的图片反而获得更低的排序。

可以看出搜索词和图像之间的相似性包括两方面:

1、图像包含与搜索词相似的文本: 我们称之为文本相似性(textual similarity)

2、图像和搜索词的语义含义相似: 我们称之为语义相似性(semantic similarity)

在构建搜索功能时,人们更倾向于选择语义相似性而不是文本相似性,但 CLIP 倾向于给文本相似的图片更高的分数。

输入蜘蛛侠Spider-Man,模型会返回一张蜘蛛Spider的图片,或者是有Spider文本的图片。

给「苹果」贴上一个「iPod」标签,他就真成了一个「iPod」,并且模型认为正确率超过99.7%。

针对这个问题,有人提出了解决方法,就是增加第三个标签「an apple with a label saying iPod」,这样就可以让模型预测正确。

有网友表示,这个idea可以让你博士毕业了!

但研究人员还有其他更深层次探索的解决方案,假设在共享向量空间中存在一个方向,其中图像的「文本性(textness)」特性变化很大,而「语义」特性保持不变,那么可以根据找到的这个方向,使用一个向量指向这个方向,并将其添加到所有的图像向量(或文本向量) ,然后对它们进行标准化并计算余弦相似性,这个向量称之为textness_bias向量。

在进行下一步操作前,消除文本偏差向量的影响。

并且创建一个新的caption数据集,去除所有纯文本的图片,然后使用模型的权重找出textness bias向量。

实验结果表明,向文本向量添加bias比向图像向量添加bias更有效,并且scale值越大,CLIP 越强调文本的相似性。

借助CLIP的强大功能,可以使用知识蒸馏的方法减小模型的尺寸,CLIP 模型实际上是两个具有不相交参数集的模型: ViT (将图像转换为向量)和 Transformer (将文本转换为向量)模型。

研究人员决定对 ViT 模型(精度为 FP32的350MB)进行模型精馏,学生 ViT 模型的大小初步决定小于50MB。

创建的学生模型将宽度和层数减少了两倍,由于不确定header的数量,所以定义了两个版本,一个与teacher模型中的头的数量相同,另一个头的数量是模型的两倍,这个实验可以看到增加头的数量将如何影响模型的性能。

训练数据来自不同来源的大约20万张图片。大约10个epoch之后,一旦看到一些可信的实验结果,输入图片的大小就增加到了80万以上。

损失函数使用 KLD + L1损失之和对模型进行训练,在前10个epoch,temperature被设定为4,然后减少到2。

最初的 CLIP 是用4亿张图片训练的。虽然收集如此大规模的图像是不切实际的,但研究人员主要关注标准开源数据集中的图像。为了避免对大量图像的需求,也尝试过使用 Zero Shot 蒸馏,但是没有成功。

使用 COCO 测试数据集,通过查看每个搜索词的前20个结果来查看蒸馏后 CLIP 模型的性能。还评估了平均精度(MAP)的基础上top N 的结果,对于每个搜索词,原始的CLIP 和蒸馏后的CLIP的 N的 范围从10到20。

对于 每个N,可以发现 MAP 大约为0.012。如此低的精度表明从原始和蒸馏 CLIP 得到的结果不会有很多共同的结果。

虽然这听起来令人沮丧,但是从蒸馏后的 CLIP 模型得到的结果看起来蒸馏效果确实还是可以的。

它们都给出了语义上有意义的结果只是方面不同,快速浏览这两个模型的前20个结果解释了低 MAP的原因。

根据bird搜索词,teacher和student模型的召回结果如下所示。虽然召回不同,但都是正确的。这两个结果都是有意义的,尽管几乎没有任何共同的结果。

虽然蒸馏后的 ViT CLIP模型显示了良好的结果,但是有一些情况下,它的性能比原来的模型有所下降。

1、对于未包含在训练数据集中的情况,它的性能很差: 但这是基于一些观察的假设,还没有进行测试来验证它。例如,对于像 flag 这样的搜索词,它的召回结果不尽如人意。另一个有趣的例子是搜索词 flock。这个蒸馏后的模型学会了将数量的概念和 flock 联系起来,但是方式错了。student模型显示的是大群的动物而不是鸟

2、颜色搜索的准确率下降,而且也不能做 OCR: 还应该注意到,在进行颜色搜索时,提取的模型不能执行概念的合成。例如,当搜索白猫时,提取的模型会返回图像中某处有白色颜色的猫的图像,而不是白猫的图像。最初的模型似乎很好地组合了这些概念。另一个发现是模型无法从图像中读取文本,这是原始CLIP模型擅长的。研究人员认为这也是由于训练数据集不包含很多带有文本的图像导致的。

3、它似乎失去了多模态的特性: 搜索圣诞节或学校这样的词,原始CLIP模型返回多模态的结果,如圣诞树,圣诞帽和圣诞蛋糕和书籍,学校标志和学校校车。但在蒸馏模型的结果中没有看到这个属性。

最后得到的学生模型大小为48MB。经过几个星期的单 P100 GPU 的训练,模型效果已经可以应用了。随后作者将模型转换成 CoreML 格式,将精度降低到 FP16(大小变为只有24 MB) ,发现其性能与 FP32模型相比变化不大。

除此之外,在进行图像检索时,仍然使用 CLIP 中的原始语言模型。

蒸馏后的CLIP模型可以在iPhone上运行。

但目前代码仍未公开,作者表示未来将在GitHub上开源代码。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/p1o2bd/research_we_distilled_clip_model_vit_only_from/?utm_source=amp&utm_medium=&utm_content=post_body

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OpenAI CLIP模型袖珍版,24MB实现文本图像匹配,iPhone上可运行
机器之心报道 机器之心编辑部 OpenAI 的 CLIP 模型在匹配图像与文本类别方面非常强大,但原始 CLIP 模型是在 4 亿多个图像 - 文本对上训练的,耗费了相当大的算力。来自 PicCollage 公司的研究者最近进行了缩小 CLIP 模型尺寸的研究,并取得了出色的效果。 今年 1 月初,OpenAI 打破了自然语言与视觉的次元壁,接连推出了两个连接文本与图像的神经网络 DALL·E 和 CLIP,后者能够完成图像与文本类别的匹配。CLIP 能够可靠地执行一系列视觉识别任务,给出一组以语言形式表述
机器之心
2023/03/29
5190
OpenAI CLIP模型袖珍版,24MB实现文本图像匹配,iPhone上可运行
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
随着移动网络和社会平台的大量普及,图像文本对的生产爆炸式增长 。如此丰富的数据为视觉语言预训练的推进提供了强大的基础。对比学习预训练(CLIP)[1]在多模态学习上取得了显著成功,通过在大型数据集上align图像文本对。它使用对比损失学习两个独立的单模编码器,这是表示学习中最有效的损失之一 。然而,CLIP的成功在很大程度上依赖于庞大的预训练数据集。原始CLIP模型在4亿图像文本对上进行32个epoch的预训练,需要数千个GPU天。在计算资源有限的情况下,这具有明显的挑战性[1, 17]。最近,从网站爬取的大规模图像文本数据集(如LAION400M 和LAION5B [13])在日常生活中广泛应用于视觉语言预训练。数据Comp 从Common Crawl的网页数据中提取图像文本对,并采用诸如基本过滤、CLIP评分过滤和基于文本图像过滤等策略。然而,训练数据中的语义重复问题仍然存在,这不仅可能影响表示学习,还可能浪费计算资源 。
未来先知
2024/08/29
4800
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
deephub
2024/04/01
1K0
文生图的基石CLIP模型的发展综述
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
https://arxiv.org/pdf/2403.09281v1 CLIP(Contrastive Language-Image Pretraining,对比语言-图像预训练)模型在识别问题中表现出了卓越的性能,如零样本图像分类和对象检测。然而,由于其固有的挑战——即将计数(一项回归任务)转化为识别任务,CLIP在计数方面的能力仍然研究不足。在本文中,我们研究了CLIP在计数方面的潜力,特别是聚焦于人群规模估计。现有的基于分类的人群计数方法遇到了包括不恰当的离散化策略在内的问题,这些问题阻碍了CLIP的应用并导致性能次优。为了解决这些挑战,我们提出了增强的分块分类(Enhanced Blockwise Classification,EBC)框架。与以往方法不同,EBC依赖于整数值的箱(bins),这有助于学习稳健的决策边界。在我们的与模型无关的EBC框架内,我们引入了CLIPEBC,这是第一个能够生成密度图的完全基于CLIP的人群计数模型。通过对不同人群计数数据集的综合评估,我们方法的先进性能得到了证明。特别是,EBC可以使现有模型的性能提升高达76.9%。此外,我们的CLIP-EBC模型超越了当前的人群计数方法,在上海科技大学A部分和B部分数据集上分别实现了55.0和6.3的平均绝对误差。代码将公开提供。
AI浩
2024/10/22
3230
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
---- 新智元报道   编辑:LRS 【新智元导读】大艺术家重磅升级!最近OpenAI发布升级版DALL·E 2,不仅分辨率提升了4倍,准确率更高,业务也更广了:除了生成图像,还能二次创作! 2021年1月,OpenAI放了一个大招:DALL-E模型,让自然语言和图像成功牵手,输入一段不管多离谱的文本,都能生成图片! 比如经典的「牛油果形状的扶手椅」,还有新奇生物「一个长颈鹿乌龟」。 当时看着已经够神奇了吧? 时隔一年,OpenAI结合另一个多模态模型CLIP,发布了第二个版本DALL·E 2!
新智元
2022/04/11
5120
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩
别再怕图片搜索结果牛头不对马嘴了,你可以试试这个精准图片搜索,来自OpenAI最新的技术CLIP。
量子位
2021/02/01
2.1K0
用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头
恰好赶上了模糊了生与死的界限的节日——万圣节,所以这是探索那些「死节点」的好时机。
新智元
2023/11/07
2010
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头
第一次,我们在人工神经网络中发现了「真」神经元
OpenAI 的研究者们在人工神经网络 CLIP 上发现了「真」神经元,这种机制解释了 AI 模型对令人惊讶的视觉呈现进行分类时,为何拥有如此的准确性。研究人员表示,这是一项重要发现,可能对计算机大脑乃至人类大脑的研究产生重大影响。
机器之心
2021/03/15
3980
第一次,我们在人工神经网络中发现了「真」神经元
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
这就是最近研究人员提出的一种新模块化框架——LENS🔍(Language-Enhanced Neural System)的识别效果。
量子位
2023/08/05
5250
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
CLIP不接地气?你需要一个更懂中文的模型
机器之心专栏 作者:霜清 随着 CLIP 的提出,多模态预训练近年来发展迅速,但 CLIP 对于特定语言的理解有比较明显的欠缺。本文介绍的是达摩院魔搭社区 ModelScope 近期开源的中文 CLIP 大规模预训练图文表征模型,更加懂中文和中文互联网的图像,在图文检索、零样本图片分类等多个任务中实现最优效果,同时代码和模型已经全部开源,用户能够使用魔搭快速上手。 模型使用入口: https://modelscope.cn/models/damo/multi-modal_clip-vit-base-pat
机器之心
2023/03/29
1.5K0
CLIP不接地气?你需要一个更懂中文的模型
AI绘画中CLIP文本-图像预训练模型
OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行训练,学习图像内容与自然语言描述之间的对应关系。这种方法使得模型能够在没有特定任务训练的情况下,对广泛的视觉概念进行理解和分类。
Dlimeng
2023/12/22
1.2K0
AI绘画中CLIP文本-图像预训练模型
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。
CV君
2021/11/18
2.4K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
英伟达的实习生提出零样本风格迁移:多模态CLIP玩出花,只用文本就能干CV的活!
StyleGAN想必大家都不陌生了,它借助生成对抗网络(GAN)对捕获丰富语义的潜在空间和模拟图像分布的能力,可以用来换脸、风格迁移、换肤色等等,一般的输入数据都是源域的图像和目标域的图像。
新智元
2021/09/17
7360
ICLR 2025|如何在ImageNet-1K上训练视觉基础模型?
仅在ImageNet-1K的1.2M图像上训练就可以在多项任务上达到跟别人所提供的预训练模型相当的性能。
小白学视觉
2025/02/26
2250
ICLR 2025|如何在ImageNet-1K上训练视觉基础模型?
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
最近,大规模的视觉语言模型(VLMs),如CLIP [1]及其变体,为计算机视觉提供了一种新范式,并在许多下游任务上表现出优越的泛化性能,例如零样本泛化[5],少样本分类[6]和跨分布(OOD)检测。VLMs通常预先在数百万对视觉语言数据上进行训练,使它们能够理解开放词汇视觉概念。它们在与手工艺文本 Prompt (如“一张{类别}的照片”)结合时,展示了出色的泛化能力。
AIGC 先锋科技
2024/12/19
3310
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中,CLIP(对比语言图像预训练)[38] 脱颖而出,作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色,无需直接监督就能理解并关联到视觉内容到文本描述。
AIGC 先锋科技
2024/10/22
2100
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型
这次要介绍的文章属于 CLIP 在医学图像上的一个应用,思路上不算是创新。CLIP(Contrastive Language-Image Pre-training)是一种多模态模型,这意味着它可以同时处理文本和图像数据。它的目标是将文本描述和图像内容关联起来,使得模型能够理解文本描述与图像之间的语义关系。它通过学习大量的文本和图像来获得对于语义理解的通用知识,这种通用知识可以在各种具体任务中进行微调,使得模型可以适应不同领域的任务。CLIP 使用对比学习的方法来训练模型。它要求模型将相关的文本描述和图像匹配在一起,而将不相关的文本描述和图像分开。这样,模型可以学习如何捕捉文本和图像之间的语义相似性。
BBuf
2023/09/26
2.8K0
ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型
无需训练,kNN-CLIP 在图像分割中的应用 !
在图像分割领域,圣杯是能够基于文本 Query 准确分割任意概念图像。随着视觉-语言模型(VLMs)如CLIP的迅速发展,这一任务变得更加可行。当这些模型应用于语义和全景分割时,显示出在处理广泛的视觉数据词汇方面的潜力。然而,尽管它们在分割基准测试的常见类别上表现出色,但在实现广泛词汇分割方面仍有不足(Shao等人,2023;Udandarao等人,2024)。作者的分析首先确认这些模型在标准数据集上的成功源于它们在特定数据集上的细致调优,例如带有详细标签的COCO Stuff(Caesar等人,2018),这通常与许多其他带有细粒度标注的基准测试类别重叠。例如,COCO-Stuff和ADE-20K有150个类别中有73个类别重叠。以前的工作(Sun等人,2023)已经显示,移除这种重叠的词汇会导致分割性能下降。作者进一步发现,这种细致调优显著降低了来自预训练CLIP模型的开放词汇分割能力,这是由灾难性遗忘引起的。这引发了一个问题:作者能否在不发生灾难性遗忘的情况下,增强这些模型以适应不断增长的数据词汇?
未来先知
2024/08/08
2560
无需训练,kNN-CLIP 在图像分割中的应用 !
腾讯&上交&浙大提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,Zero-Shot效果优于CLIP!
本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』,由腾讯&上交&浙大(沈春华)提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,ImageNet上Zero-Shot效果优于CLIP!
CV君
2022/09/01
1.6K0
腾讯&上交&浙大提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,Zero-Shot效果优于CLIP!
Meta-AI再出神作 | 借力打力!设计跨模态量化蒸馏方法,直接白嫖VLP模型的丰富语义信息
一种针对大规模跨模态检索系统的有效搜索方法至关重要,鉴于多模态数据的指数级增长,这些数据涵盖了诸如文本、图像、音频和视频等不同格式。在各种方法中,哈希方法(也称为学习哈希)已成为一种有前景的解决方案。它通过简洁地将高维数据点编码为紧凑的二进制代码,促进了近似最近邻(ANN)搜索。哈希方法是一种成本效益高的解决方案,因为它使用仅包含几比特长的二进制代码来表示样本。这使得通过异或操作或倒置的二进制计算快速搜索,迅速确定 Query 与图库之间的相似性得分。
AIGC 先锋科技
2024/07/08
3900
Meta-AI再出神作 | 借力打力!设计跨模态量化蒸馏方法,直接白嫖VLP模型的丰富语义信息
推荐阅读
OpenAI CLIP模型袖珍版,24MB实现文本图像匹配,iPhone上可运行
5190
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
4800
文生图的基石CLIP模型的发展综述
1K0
CLIP-EBC:通过增强的逐块分类,CLIP能够准确计数
3230
多模态新王登基!OpenAI发布DALL·E 2,生成图像「指哪打哪」
5120
用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩
2.1K0
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头
2010
第一次,我们在人工神经网络中发现了「真」神经元
3980
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
5250
CLIP不接地气?你需要一个更懂中文的模型
1.5K0
AI绘画中CLIP文本-图像预训练模型
1.2K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
2.4K0
英伟达的实习生提出零样本风格迁移:多模态CLIP玩出花,只用文本就能干CV的活!
7360
ICLR 2025|如何在ImageNet-1K上训练视觉基础模型?
2250
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
3310
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
2100
ICCV 2023:CLIP 驱动的器官分割和肿瘤检测通用模型
2.8K0
无需训练,kNN-CLIP 在图像分割中的应用 !
2560
腾讯&上交&浙大提出PyramidCLIP,进行层次内语义对齐和跨层次关系对齐,Zero-Shot效果优于CLIP!
1.6K0
Meta-AI再出神作 | 借力打力!设计跨模态量化蒸馏方法,直接白嫖VLP模型的丰富语义信息
3900
相关推荐
OpenAI CLIP模型袖珍版,24MB实现文本图像匹配,iPhone上可运行
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档