HaploVL 的诞生,正是为了解决这些问题!HaploVL用单 Transformer 架构实现高效的多模态融合,让文本嵌入能动态 “捕捉” 所需视觉线索,同时减少训练数据需求,性能比肩组合式模型!
核心方法揭秘:一个 Transformer 如何玩转多模态?
HaploVL 结构图
💡HaploVL 的架构设计充满巧思
1.多模态嵌入层
图像处理:用单层线性层直接对图像编码
文本处理:复用大语言模型的词嵌入
2.预解码器(视觉知识引擎)
功能:在模型前端动态融合图文信息,像 “雷达” 一样扫描图像细节。
优势:继承 CLIP 视觉编码器的知识,但支持双向注意力(捕捉图像内部关联)和因果注意力(处理多图时序关系)。
3.后解码器(语言生成引擎)
功能:基于融合后的特征生成自然语言回复。
优势:继承LLM的语言能力,能快速学习多模态关联,生成逻辑连贯的回答。
🏋️两阶段训练方法
HaploVL 训练方法图
📊实验结果
HaploVL在多项多模态基准测试中展现出优异性能
结果展示图
细粒度视觉理解的案例展示
HaploVL的一个关键优势是其能够更好地处理需要细粒度视觉理解的任务,如边缘物体感知和推理,以及在图像中高亮区域的识别。
细粒度感知可视化图
预解码器中文本和图像相似度可视化
总结与展望
在早期阶段融合原始图像和文本嵌入有利于细粒度感知,并随后增强基于图像的逻辑推理能力。通过利用预训练模型获得的先验知识,可以显著减少所需的数据和计算资源,同时弥合统一模型和组合模型之间的性能差距。这一研究为开发具有单一Transformer的多模态模型提供了高效路径。
HaploVL正式开源,欢迎开发者朋友体验
Code: https://github.com/Tencent/HaploVLM
Arxiv: https://arxiv.org/abs/2503.14694
请给项目一个Star!
欢迎提出你的issue和PR!