首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    与CLIP是什么关系?比CLIP高40点,这么离谱吗?

    最近在对比语言图像预训练(CLIP)方面的进步表明,通过将视觉表示与目标文本嵌入在图像层面上,CLIP在零样本分类方面具有强大的能力。...然而,尽管CLIP在语义分割方面的表现不佳,但作者发现,CLIP实际上能够大致识别图像中出现的事物,但错误地定位它们。...通常,当需要将CLIP适配到下游任务而不引入额外参数时,作者实际上将CLIP的最后或最后几层视为任务特定的解码头。...具体来说,作者首先从CLIP的语言编码器中提取目标类别的文本嵌入,然后直接将其与CLIP视觉编码器的密集特征对齐。...这表明提出的CSA与CLIP预训练投影参数具有高度兼容性。这种兼容性证明了当与CLIP的预训练投影参数相结合时,CSA的有效性。 也有一些潜在的方法可以启用CLIP定位视觉特征。

    1.5K10
    领券