首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LoTLIP:用100M长文,给CLIP插上深读翅膀

LoTLIP:用100M长文,给CLIP插上深读翅膀

原创
作者头像
算法一只狗
发布2025-07-16 14:37:30
发布2025-07-16 14:37:30
2130
举报
文章被收录于专栏:算法一只狗算法一只狗

多模态时代,长文本理解的“最后一公里”

随着多模态 AI 在图文检索、图像生成等领域的快速落地,模型对“短描述”已经驾轻就熟,但当文本尺度拉长,模型却常常无力应对。研究发现,这并非编码器能力天花板,而是训练语料多为短文本,令“潜在信息”被显著token掩盖,这就需要一种方法来加深模型对长文本的敏感度。

1.背景与挑战:

目前Clip模型中普遍存在两个问题,一个是“短文本偏好”,另一个是“token 掩盖效应”

  • 短文本偏好 公开图像-文本数据集(如 CC3M、CC12M)中文本平均仅17词,模型在训练阶段长期缺乏长文本示例,导致注意力机制偏向显著词汇。例如在“castle in a garden”两个实体中,“garden”常被“castle”掩盖,无法充分激活其语义表征
  • Token 掩盖效应 文本越长,被截断或被前后重要Token压制的风险越高。在仅能处理 77 个 Token 的传统设置下,长文本截断严重限制了模型的语义吸收能力。实验表明,提升最大文本长度能够在长文本检索上带来持续增益,却也导致计算成本骤增,需在性能与效率间寻找平衡

2.论文方法

基于目前长文本在clip上的效果不佳,论文中提出了三种不同的方法

长文本数据集重标注:基于 InstructBLIP、LLaVA、ShareGPT4V 三款多模态大模型,对 CC3M、CC12M、YFCC15M、LAION、COYO 等图像库共计生成 100M 条长文本,每条平均136词(原始约18词),极大丰富语义细节

角标(Corner)Token 设计

  • 核心思路:在原始长文本与短文本之间融入 2–3 个“角标”Token,用于聚合分散语义节点,使模型既能捕捉长文本多样信息,又不丢失对短文本关键Token的敏感度。

在实现过程中:训练时将角标Token置于文本开头和结尾,通过特殊 attention 掩码机制加强其信息汇集功能,使得模型能够重点关注这些特殊token 的效果

动态Token长度截断

实验探索中,对比 32、77、128、192、256 等多个最大Token长度设置,发现 192–256 是长文本检索任务的性能天花板,而综合考虑 ImageNet 分类与检索效率,最终选取 128 作为默认值,既保持显著提升,又控制 FLOPs(模型复杂度)的 增长

3.模型效果

论文在 3M 规模数据上,按长文本中的数量变化进行预训练,并测试三大任务:

  • 长文本检索:随着子句数由 0 增至 6,长文本-图像检索 R@1 在 DCI、ShareGPT4V-10k 等评测上持续攀升,且在子句数达到 3 时趋于稳定,表明加入更多长文本有效提升长文本理解能力;
  • 短文本检索:MSCOCO 图像→文本与文本→图像检索 R@1 在加入子句后反而略有下降,说明过长的文本输入会弱化对短文本的语义聚焦;
  • 图像分类:ImageNet 零-shot 分类 Accuracy 随子句数增加逐步下降,验证直接以长文本预训练会损耗模型的短文本理解与分类能力

LoTLIP 在三项长文本检索(DCI、IIW、ShareGPT4V-10k)上,较 LiT+长文本平均提升 1.97%;短文本检索与图像分类任务上,LoTLIP 也分别超越 LiT 2.29%(MSCOCO R@1)和 1.47%(ImageNet Acc)

4.写在最后

LoTLIP这篇论文,通过改变数据形态和论文架构,加入更多的token让模型聚焦,从根本上破解了长文本在 CLIP 预训练中的障碍。未来,可进一步探索更加高效的长文本动态截断策略,或结合更大规模预训练模型,推动跨模态理解迈入“深读”时代!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.背景与挑战:
  • 2.论文方法
    • 长文本数据集重标注:基于 InstructBLIP、LLaVA、ShareGPT4V 三款多模态大模型,对 CC3M、CC12M、YFCC15M、LAION、COYO 等图像库共计生成 100M 条长文本,每条平均136词(原始约18词),极大丰富语义细节
    • 角标(Corner)Token 设计
    • 动态Token长度截断
  • 3.模型效果
  • 4.写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档