开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >长文本也能上“飞天”？——解读《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

长文本也能上“飞天”？——解读《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

原创

作者头像

算法一只狗

发布于 2025-07-14 21:53:22

发布于 2025-07-14 21:53:22

2370

举报

文章被收录于专栏：算法一只狗算法一只狗

在传统的Clip对齐模型中，一般来说都是匹配短文本，其效果是很好的。但是对于一些长文本，Weclip则无能为力，所以这篇文章主要就是为了解决长文本的问题。

一、背景与动机

CLIP（Contrastive Language–Image Pre-training）通过对比学习将图像与文本映射到同一向量空间，目前已经成为零样本分类、图文检索和图像生成的基础。然而，标准 CLIP 的文本输入长度被硬性限制在 77 个 token，且实测其有效长度仅约 20 token，这直接导致它在处理长篇详细描述时力不从心，难以捕捉丰富的细节信息，也无法支持更复杂的应用场景。

目前Weclip模型的缺点在于：

位置嵌入瓶颈：CLIP 文本编码器使用绝对位置嵌入，超出 77 token 的部分被截断；
嵌入训练不足：大多数训练数据文本较短，高位位置嵌入几乎未得到充分训练，使得实际可用长度压缩至约 20 token；
细节丢失与过度对齐：长文本包含大量细节，若直接对齐所有细节，图像特征会被过度拉伸，反而干扰短文本能力，导致下游框架如 Stable Diffusion 等需要额外适配成本。

二、Long-CLIP 方法简介

为保持原有 CLIP 优秀的短文本能力，同时赋予其长文本处理能力，Long-CLIP 提出了两大创新策略，并通过仅 100 万对额外长文本–图像对、0.25 小时的微调（8 GPU）即可完成：

知识保留式位置嵌入拉伸（Knowledge-Preserved Stretching, KPS）

主成分匹配对齐（Primary Component Matching, PCM）

三、详细实验与性能提升

长文本检索（Long-Caption Retrieval）：在 COCO 和 Flickr30k 的长标题检索上，Recall@1 提升约 25%；

短文本检索（Short-Caption Retrieval）：在同一基准环境下，Recall@1 提升约 6%；
零样本分类（Zero-Shot Classification）：在 ImageNet 等标准数据集上，准确率无显著下降，保持了 CLIP 原有强大泛化能力；

段落级图像生成（Text-to-Image）：将 Long-CLIP 文本编码器直接替换 Stable Diffusion V1.5 中的 CLIP 编码器，无需额外训练，即可生成包含更多细节的图像，且对简单提示词的表现与原模型完全一致（见图示）。

写在最后

Long-CLIP 在延展 CLIP 文本长度上限的同时，最大程度地保留了原有模型在短文本对齐与下游任务上的优势。通过知识保留式位置嵌入拉伸（KPS）与主成分匹配对齐（PCM）两大核心创新，Long-CLIP 只需极少量长文本-图像对和极短时间的微调，便实现了显著的性能提升。

总之，Long-CLIP 以极低的微调成本，为 CLIP 模型注入了强大的长文本处理能力，既兼容了原有生态，又为多模态研究与应用开辟了新方向。期待后续工作能在更大规模和更多元任务中验证其通用性与可扩展性，为图文 AI 领域带来更多可能性。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站

评论

登录后参与评论

0 条评论

热度

最新

目录

一、背景与动机

二、Long-CLIP 方法简介

三、详细实验与性能提升

写在最后