近年来,以 CLIP、ALIGN 为代表的对比式图文编码模型已成为视觉–语言理解的主流,凭借大规模图文预训练,实现了卓越的零样本分类与图文检索性能。然而,它们在定位(localization)和稠密预测(dense prediction)等需要细粒度视觉感知的任务上仍显不足。原始 SigLIP 通过将对比损失改为 sigmoid 损失,改善了训练稳定性,但并未整合随后涌现的自监督学习、解码器预训练、数据蒸馏等多种技术。为此,论文提出 SigLIP 2,将多条先前独立发展的技术思路融会贯通,旨在全面提升模型的定位与稠密预测能力,同时保持其在分类与检索上的领先优势。
论文中其实就是把多种trick运用到SigLIP中,使得整体的模型效果会比之前更好。
解码器预训练(Decoder-based Pretraining):引入 LocCa 方法,附加轻量级 Transformer 解码器,对图像进行并行式 captioning、dense captioning 及 referring expression 预测,从而增强定位能力。
自监督损失(Self-supervised Losses):结合 SILC 的本地—全局一致性(local-to-global consistency)和 TIPS 的掩码预测(masked prediction),在训练后 20% 迭代中加入自我蒸馏,显著提升稠密特征质量。
主动数据蒸馏:通过教师模型打分选取“可学样本”进行继续训练,实现隐式蒸馏,进一步提升小模型性能。在预训练后期(完成 80% 步数)添加两项辅助损失,教师网络参数由学生网络 EMA 获得,新增头随机初始化。
多分辨率与保真宽高比(NaFlex):使用了类似NaFlex中对于图像的处理,尽量保留原始图像的精度和尺寸
零样本分类与检索:在 ImageNet、ObjectNet、ImageNet-v2/ReaL、COCO/Flickr 检索等基准上,SigLIP 2 全面超越 SigLIP 及其他开源对比模型
视觉-语言模型下游(VLM):将 SigLIP 2 与 Gemma 2 2B LLM 结合,按 PaliGemma 流程训练后,在一系列 VQA、OCR、检测、分割等任务上优于 SigLIP 和 AIMv2(图 4)。
定位任务(Referring Expression):在 RefCOCO 系列数据集上,用解码器微调 SigLIP 2 显著超越 SigLIP,与 LocCa 结果相近
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。