前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >一个 Transformer 搞定多模态理解,HaploVL让 AI “看图说话” 更懂细节

一个 Transformer 搞定多模态理解,HaploVL让 AI “看图说话” 更懂细节

作者头像
腾讯开源
发布2025-03-28 12:21:40
发布2025-03-28 12:21:40
1230
举报
在人工智能快速发展的今天,大型语言模型(LLMs)取得了显著进步。随着这一趋势,大型多模态模型(LMMs)也迅速崛起,这些模型能够实现复杂的视觉-语言对话和交互。当前主流的多模态大模型(如 LLaVA 系列)往往采用 “视觉编码器 + 大语言模型” 的组合架构。这种方式虽然有效,却存在一些痛点。例如,预训练的视觉编码器(如 CLIP)会高度压缩图像语义,这可能忽略关键细节(如物体颜色、小目标位置),导致模型在细粒度任务(如 “数量”“感知边缘文字”)上表现不佳。现有统一架构模型(如Fuyu)虽简化了流程,但需要从头训练或消耗海量数据(例如 EVE 需 3500 万样本),且性能仍远落后于组合式模型。

HaploVL 的诞生,正是为了解决这些问题!HaploVL用单 Transformer 架构实现高效的多模态融合,让文本嵌入能动态 “捕捉” 所需视觉线索,同时减少训练数据需求,性能比肩组合式模型!

核心方法揭秘:一个 Transformer 如何玩转多模态?

HaploVL 结构图

💡HaploVL 的架构设计充满巧思

1.多模态嵌入层

图像处理:用单层线性层直接对图像编码

文本处理:复用大语言模型的词嵌入

2.预解码器(视觉知识引擎)

功能:在模型前端动态融合图文信息,像 “雷达” 一样扫描图像细节。

优势:继承 CLIP 视觉编码器的知识,但支持双向注意力(捕捉图像内部关联)和因果注意力(处理多图时序关系)。

3.后解码器(语言生成引擎)

功能:基于融合后的特征生成自然语言回复。

优势:继承LLM的语言能力,能快速学习多模态关联,生成逻辑连贯的回答。

🏋️两阶段训练方法

HaploVL 训练方法图

📊实验结果

HaploVL在多项多模态基准测试中展现出优异性能

结果展示图

细粒度视觉理解的案例展示

HaploVL的一个关键优势是其能够更好地处理需要细粒度视觉理解的任务,如边缘物体感知和推理,以及在图像中高亮区域的识别。

细粒度感知可视化图

预解码器中文本和图像相似度可视化

总结与展望

在早期阶段融合原始图像和文本嵌入有利于细粒度感知,并随后增强基于图像的逻辑推理能力。通过利用预训练模型获得的先验知识,可以显著减少所需的数据和计算资源,同时弥合统一模型和组合模型之间的性能差距。这一研究为开发具有单一Transformer的多模态模型提供了高效路径。

HaploVL正式开源,欢迎开发者朋友体验

Code: https://github.com/Tencent/HaploVLM

Arxiv: https://arxiv.org/abs/2503.14694

请给项目一个Star!

欢迎提出你的issue和PR!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档