多模态时代,长文本理解的“最后一公里”
随着多模态 AI 在图文检索、图像生成等领域的快速落地,模型对“短描述”已经驾轻就熟,但当文本尺度拉长,模型却常常无力应对。研究发现,这并非编码器能力天花板,而是训练语料多为短文本,令“潜在信息”被显著token掩盖,这就需要一种方法来加深模型对长文本的敏感度。
目前Clip模型中普遍存在两个问题,一个是“短文本偏好”,另一个是“token 掩盖效应”
基于目前长文本在clip上的效果不佳,论文中提出了三种不同的方法
在实现过程中:训练时将角标Token置于文本开头和结尾,通过特殊 attention 掩码机制加强其信息汇集功能,使得模型能够重点关注这些特殊token 的效果
实验探索中,对比 32、77、128、192、256 等多个最大Token长度设置,发现 192–256 是长文本检索任务的性能天花板,而综合考虑 ImageNet 分类与检索效率,最终选取 128 作为默认值,既保持显著提升,又控制 FLOPs(模型复杂度)的 增长
论文在 3M 规模数据上,按长文本中的数量变化进行预训练,并测试三大任务:
LoTLIP 在三项长文本检索(DCI、IIW、ShareGPT4V-10k)上,较 LiT+长文本平均提升 1.97%;短文本检索与图像分类任务上,LoTLIP 也分别超越 LiT 2.29%(MSCOCO R@1)和 1.47%(ImageNet Acc)
LoTLIP这篇论文,通过改变数据形态和论文架构,加入更多的token让模型聚焦,从根本上破解了长文本在 CLIP 预训练中的障碍。未来,可进一步探索更加高效的长文本动态截断策略,或结合更大规模预训练模型,推动跨模态理解迈入“深读”时代!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。