首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从对比学习到密集定位:SigLIP 2 的多技融合之道

从对比学习到密集定位:SigLIP 2 的多技融合之道

原创
作者头像
算法一只狗
发布2025-07-11 17:13:25
发布2025-07-11 17:13:25
2100
举报
文章被收录于专栏:算法一只狗算法一只狗

1. 背景与动机

近年来,以 CLIP、ALIGN 为代表的对比式图文编码模型已成为视觉–语言理解的主流,凭借大规模图文预训练,实现了卓越的零样本分类与图文检索性能。然而,它们在定位(localization)和稠密预测(dense prediction)等需要细粒度视觉感知的任务上仍显不足。原始 SigLIP 通过将对比损失改为 sigmoid 损失,改善了训练稳定性,但并未整合随后涌现的自监督学习、解码器预训练、数据蒸馏等多种技术。为此,论文提出 SigLIP 2,将多条先前独立发展的技术思路融会贯通,旨在全面提升模型的定位与稠密预测能力,同时保持其在分类与检索上的领先优势。

2.整体模型架构和技术

论文中其实就是把多种trick运用到SigLIP中,使得整体的模型效果会比之前更好。

解码器预训练(Decoder-based Pretraining):引入 LocCa 方法,附加轻量级 Transformer 解码器,对图像进行并行式 captioning、dense captioning 及 referring expression 预测,从而增强定位能力。

  • Captioning 任务中,以 50% 概率使用 parallel prediction(并行预测所有 token,无因果掩码);
  • Referring expression 任务:给定区域框,生成该区域描述;
  • Dense captioning 任务:对多区域同时生成区域级 caption;

自监督损失(Self-supervised Losses):结合 SILC 的本地—全局一致性(local-to-global consistency)和 TIPS 的掩码预测(masked prediction),在训练后 20% 迭代中加入自我蒸馏,显著提升稠密特征质量。

主动数据蒸馏:通过教师模型打分选取“可学样本”进行继续训练,实现隐式蒸馏,进一步提升小模型性能。在预训练后期(完成 80% 步数)添加两项辅助损失,教师网络参数由学生网络 EMA 获得,新增头随机初始化。

  • 在学生网络中随机用 mask token 替换 50% patch,然后对齐教师的对应 patch 特征;
  • 损失形式同上,但针对局部 patch,权重 = 0.25。

多分辨率与保真宽高比(NaFlex):使用了类似NaFlex中对于图像的处理,尽量保留原始图像的精度和尺寸

3.模型实验效果

零样本分类与检索:在 ImageNet、ObjectNet、ImageNet-v2/ReaL、COCO/Flickr 检索等基准上,SigLIP 2 全面超越 SigLIP 及其他开源对比模型

视觉-语言模型下游(VLM):将 SigLIP 2 与 Gemma 2 2B LLM 结合,按 PaliGemma 流程训练后,在一系列 VQA、OCR、检测、分割等任务上优于 SigLIP 和 AIMv2(图 4)。

定位任务(Referring Expression):在 RefCOCO 系列数据集上,用解码器微调 SigLIP 2 显著超越 SigLIP,与 LocCa 结果相近

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 背景与动机
  • 2.整体模型架构和技术
  • 3.模型实验效果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档