在传统的Clip对齐模型中,一般来说都是匹配短文本,其效果是很好的。但是对于一些长文本,Weclip则无能为力,所以这篇文章主要就是为了解决长文本的问题。
CLIP(Contrastive Language–Image Pre-training)通过对比学习将图像与文本映射到同一向量空间,目前已经成为零样本分类、图文检索和图像生成的基础。然而,标准 CLIP 的文本输入长度被硬性限制在 77 个 token,且实测其有效长度仅约 20 token,这直接导致它在处理长篇详细描述时力不从心,难以捕捉丰富的细节信息,也无法支持更复杂的应用场景。
目前Weclip模型的缺点在于:
为保持原有 CLIP 优秀的短文本能力,同时赋予其长文本处理能力,Long-CLIP 提出了两大创新策略,并通过仅 100 万对额外长文本–图像对、0.25 小时的微调(8 GPU)即可完成:
知识保留式位置嵌入拉伸(Knowledge-Preserved Stretching, KPS)
主成分匹配对齐(Primary Component Matching, PCM)
Long-CLIP 在延展 CLIP 文本长度上限的同时,最大程度地保留了原有模型在短文本对齐与下游任务上的优势。通过知识保留式位置嵌入拉伸(KPS)与主成分匹配对齐(PCM)两大核心创新,Long-CLIP 只需极少量长文本-图像对和极短时间的微调,便实现了显著的性能提升。
总之,Long-CLIP 以极低的微调成本,为 CLIP 模型注入了强大的长文本处理能力,既兼容了原有生态,又为多模态研究与应用开辟了新方向。期待后续工作能在更大规模和更多元任务中验证其通用性与可扩展性,为图文 AI 领域带来更多可能性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。