引言
CLIP是OpenAI在2021年提出的一个里程碑式的视觉语言预训练模型。CLIP的独特之处在于它从海量的图像-文本配对数据中联合学习图像和文本表示,而不需要人工标注。...但是,CLIP通常依赖较大的模型容量,存在计算效率不高的限制,这成为其实际应用和部署的主要障碍。综上,CLIP是具有里程碑意义的视觉语言预训练模型,但是还存在可以改进的空间。...这篇论文研究的是如何通过知识蒸馏的方式压缩大规模的视觉语言预训练模型,如CLIP模型。...但是直接训练小模型的性能往往比较差,所以需要通过压缩的方式获得更小、更快的模型而不影响性能。
现有的视觉语言预训练模型如CLIP通常参数量巨大,导致三大问题:
存储成本高。...这证明该方法可以获得更小、更快的视觉语言模型。
总之,该论文解决了一个非常重要而有价值的问题,提出了一种有效的压缩视觉语言预训练模型的新方法,获得了state-of-the-art的结果。