首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >长文本也能上“飞天”?——解读《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

长文本也能上“飞天”?——解读《Long-CLIP: Unlocking the Long-Text Capability of CLIP》

原创
作者头像
算法一只狗
发布2025-07-14 21:53:22
发布2025-07-14 21:53:22
2370
举报
文章被收录于专栏:算法一只狗算法一只狗

在传统的Clip对齐模型中,一般来说都是匹配短文本,其效果是很好的。但是对于一些长文本,Weclip则无能为力,所以这篇文章主要就是为了解决长文本的问题。

一、背景与动机

CLIP(Contrastive Language–Image Pre-training)通过对比学习将图像与文本映射到同一向量空间,目前已经成为零样本分类、图文检索和图像生成的基础。然而,标准 CLIP 的文本输入长度被硬性限制在 77 个 token,且实测其有效长度仅约 20 token,这直接导致它在处理长篇详细描述时力不从心,难以捕捉丰富的细节信息,也无法支持更复杂的应用场景。

目前Weclip模型的缺点在于:

  1. 位置嵌入瓶颈:CLIP 文本编码器使用绝对位置嵌入,超出 77 token 的部分被截断;
  2. 嵌入训练不足:大多数训练数据文本较短,高位位置嵌入几乎未得到充分训练,使得实际可用长度压缩至约 20 token;
  3. 细节丢失与过度对齐:长文本包含大量细节,若直接对齐所有细节,图像特征会被过度拉伸,反而干扰短文本能力,导致下游框架如 Stable Diffusion 等需要额外适配成本。

二、Long-CLIP 方法简介

为保持原有 CLIP 优秀的短文本能力,同时赋予其长文本处理能力,Long-CLIP 提出了两大创新策略,并通过仅 100 万对额外长文本–图像对、0.25 小时的微调(8 GPU)即可完成:

知识保留式位置嵌入拉伸(Knowledge-Preserved Stretching, KPS)

  • 保留 首 20 个高质量、充分训练的绝对位置嵌入;
  • 插值拉伸 后续 57 个位置嵌入,使最大支持输入长度扩展至 248 token;
  • 在提升文本长度上限的同时,最小化对已有短文本表示的扰动,确保短文本性能不退化。

主成分匹配对齐(Primary Component Matching, PCM)

三、详细实验与性能提升

  • 长文本检索(Long-Caption Retrieval):在 COCO 和 Flickr30k 的长标题检索上,Recall@1 提升约 25%;

  • 短文本检索(Short-Caption Retrieval):在同一基准环境下,Recall@1 提升约 6%;
  • 零样本分类(Zero-Shot Classification):在 ImageNet 等标准数据集上,准确率无显著下降,保持了 CLIP 原有强大泛化能力;
  • 段落级图像生成(Text-to-Image):将 Long-CLIP 文本编码器直接替换 Stable Diffusion V1.5 中的 CLIP 编码器,无需额外训练,即可生成包含更多细节的图像,且对简单提示词的表现与原模型完全一致(见图示)。

写在最后

Long-CLIP 在延展 CLIP 文本长度上限的同时,最大程度地保留了原有模型在短文本对齐与下游任务上的优势。通过知识保留式位置嵌入拉伸(KPS)与主成分匹配对齐(PCM)两大核心创新,Long-CLIP 只需极少量长文本-图像对和极短时间的微调,便实现了显著的性能提升。

总之,Long-CLIP 以极低的微调成本,为 CLIP 模型注入了强大的长文本处理能力,既兼容了原有生态,又为多模态研究与应用开辟了新方向。期待后续工作能在更大规模和更多元任务中验证其通用性与可扩展性,为图文 AI 领域带来更多可能性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景与动机
  • 二、Long-CLIP 方法简介
  • 三、详细实验与性能提升
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档