文章/答案/技术大牛

发布

社区首页 >专栏 >训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

新智元

发布于 2023-05-22 02:44:34

3760

文章被收录于专栏：新智元新智元

新智元报道

编辑：LRS 好困

【新智元导读】最近的多模态（对话）大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入，实现强大的多模态语义理解，比如GPT-4、BLIP-2、Flamingo等。但咱们普通玩家训练一个多模态GPT代价非常昂贵。来自于新加坡国立大学和清华大学的研究工作提出一个VPGTrans框架，帮助小伙伴们实现极低成本训练一个高性能多模态大模型。

今年是AI技术爆发式发展的一年，以ChatGPT为代表的大语言模型（LLM）大火。

语言模型除了在自然语言领域显示出巨大的潜力之外，也开始逐渐辐射到其他模态，比如文生图模型Stable Diffusion的背后也需要语言模型。

从头开始训练一个视觉-语言模型（VL-LLM）往往需要消耗大量的资源，所以现有的解决方案都是把语言模型和视觉提示生成模型（Visual Prompt Generator, VPG）连接起来，但即便如此，继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。

最近，来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans，将现有的VPG迁移到现有的VL-LLM模型中，就能以低成本的方式获得目标VL-LLM模型。

论文链接：https://arxiv.org/abs/2305.01278

代码链接：https://github.com/VPGTrans/VPGTrans

多模态对话模型Demo：https://vpgtrans.github.io/

作者：张傲，费豪，姚远，吉炜，黎力，刘知远，Chua Tat-Seng

单位：新加坡国立大学，清华大学

文章的主要创新点包括：

1. 极低训练成本：

通过我们提出的VPGTrans方法，可以快速（少于10%训练时间）将已有的多模态对话模型的视觉模块迁移到新的语言模型，且达到类似或更优效果。

比如，相比于从头训练视觉模块，我们可以将BLIP-2 FlanT5-XXL的训练开销从19000+人民币缩减到不到1000元：

图1：基于我们的VPGTrans方法的BLIP-2训练开销缩减对比

2. 多模态大模型定制：

通过我们的VPGTrans框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如我们在LLaMA-7B和Vicuna-7B基础上制作了VL-LLaMA和VL-Vicuna。

3. 开源多模态对话模型：

我们开源了VL-Vicuna，类GPT-4多模态对话模型，可实现高质量的多模态对话：

图2：VL-Vicuna的交互实例

一、动机介绍

1.1 背景

LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型（VLM）到基于大语言模型的视觉语言模型（VL-LLM）的变革。

通过为LLM接入视觉模块，VL-LLM可以继承已有LLM的知识，零样本泛化能力，推理能力和规划能力等。相关模型有BLIP-2[1]，Flamingo[2]，PALM-E等。

图3：常用的VL-LLM架构

现有的常用的VL-LLM基本采取图3所示的架构：在一个基座LLM基础上训练一个视觉soft prompt生成模块（Visual Prompt Generator, VPG），以及一个进行维度变换的线性层（Projector）。

在参数规模上，LLM一般占主要部分（比如11B），VPG占次要部分（比如1.2B），Projector最小（4M）。

在训练过程中，LLM参数一般不会被更新，或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。

1.2 动机

实际上，即便基座LLM的参数冻结不训，但由于LLM的大参数量，训练一个VL-LLM的关键开销依然在于加载基座LLM。

因此训练一个VL-LLM依然无法避免极大的计算代价。比如，要得到BLIP-2（基座LLM为FlanT5-XXL）需要付出超过600个小时的A100训练时长。如果租用亚马逊的A100-40G机器，大概需要将近2万元人民币的费用。

既然从零训练一个VPG代价如此昂贵，那么我们开始思考能否把一个已有的VPG迁移到新的LLM上来节省开销。

图4：VPG迁移: 跨LLM大小迁移和跨LLM类型迁移

如图4所示，我们主要探索了两种类型的VPG的迁移:

（1）跨LLM大小迁移（TaS）：比如从OPT-2.7B到OPT-6.7B。

（2）跨LLM类型迁移（TaT）：比如从OPT到FlanT5。

其中TaS的意义在于：在LLM相关科研中，我们通常需要在小LLM上调参，再扩展到大LLM。有了TaS，我们可以在调参之后，把小LLM上已经训好的VPG直接迁移到大LLM上。

TaT的意义在于：不同功能种类的LLM层出不穷，比如今天有了LLaMA，明天又有了Alpaca和Vicuna。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力。

1.3 贡献

（1）提出高效的方法：

我们首先通过一系列的探究实验，探究了影响VPG迁移效率的关键因素。根据探索实验发现，我们提出了一个两阶段的高效迁移框架VPGTrans。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据。

比如，相比于从头训练，我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移，可以仅用大约10%的数据和计算时间就达成各个数据集相似或更好的效果（图1）。训练花销从17901人民币到1673元。

（2）得到有趣的发现：

我们同时提供了TaS和TaT场景下一些有趣的发现，并尝试给出解释:

a) TaS场景下，使用VPGTrans从小到大迁移不会影响最终模型效果。

b) TaS场景下，越小的语言模型上训练的VPG，迁移到大模型时效率越高，最终效果越好。

c) TaT场景下，越小的模型之间迁移的gap越大。在我们验证实验中，OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢。

（3）开源：

我们使用VPGTrans得到了两个新的VL-LLMs：VL-LLaMA和VL-Vicuna，并开源在了社区上。其中VL-Vicuna实现了类GPT4的高质量的多模态对话。

二、高效率的VPG迁移方案：VPGTrans

首先我们进行一系列的探索验证实验，分析如何最大化对于VPG的迁移效率。接着我们基于这些重要观察提出一个解决方案。

2.1 探究实验

我们选取BLIP-2架构作为我们的基础模型，预训练语料采用COCO和SBU，总共1.4M图文对。

下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot)。下面是我们的关键发现:

（1）直接继承一个训练好的VPG可以加速收敛，但效果有限：

我们发现，直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛，但加速效果有限，且收敛后模型效果相比于从头训练VPG会掉点（图5的VQAv2、GQA蓝线最高点均低于橘线）。

我们猜测，这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力。

图5：VPG inherit (蓝线): 直接继承训练好的VPG。train from scratch (橘线):从头训练VPG。only linear (绿线):只训练linear projector不训练VPG。

（2）先warm-up训练projector可以防止掉点，且进一步加速收敛：

于是，我们固定住VPG和LLM，先warm-up训练projector 3个epoch，再解冻VPG进行下一步训练。

我们发现，这样不仅仅可以避免掉点情况，还能够进一步加速VPG收敛（图6）。

但值得强调的是，由于训练的主要开销在LLM（参数巨多），仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多。

所以，我们开始探究加速projector warm-up的关键技术。

图6：先warm-up训练projector可以防止掉点+加速收敛

（3）词向量转化器初始化可以加速projector warm-up：

首先，VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的。而soft prompt的使用方式和词向量其实是非常相似的，都是直接输入语言模型来提示模型产生对应内容。

所以，我们使用词向量来作为soft prompt的一个代理，训练了一个

到

的词向量转化器（一个线性层）。

然后，我们将词向量转化器和

上的projector融合作为projector的初始化。

通过这个初始化，我们可以将projector的warm-up训练由3个epoch减为2个epoch。

（4）projector可以在超大学习率下快速收敛：

我们进一步实验发现，projector由于其参数量较少，可以使用5倍的正常学习率进行训练而不崩溃。

通过5倍学习率的训练，projector warm-up可以进一步被缩短到１个epoch。

（5）一个附加发现：

虽然projector warm-up很重要，但仅训练projector是不够的。尤其在caption任务上面，仅仅训练projector的效果要比同时训练VPG的效果差一截（图5绿线在COCO Caption和NoCaps均远低于蓝线）。

这也就意味着，仅仅训练projector会导致欠拟合，也就是无法充分对齐到训练数据。

2.2 我们所提出的方法

图7：VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调

如图7所示，我们的方法共分为两个阶段：

（1）第一阶段：我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化，然后用5倍学习率训练新projector一个epoch。

（2）第二阶段：直接正常训练VPG和projector。

三、实验结果

3.1 加速比

表1：我们的VPGTrans的相比于从头训练在各个数据集的加速比

如表1所示，我们测试了不同迁移类型下，VPGTrans在不同数据集上的加速比。

VPGTrans在某指定数据集A上的加速比是通过从头训练达到A上最佳效果a的轮数除以VPGTrans在A上效果超过a的最小训练轮数得到。

比如，从头在OPT-2.7B上训练VPG，在COCO caption达到最佳效果需要10个epoch，但从OPT-125M迁移VPG到OPT-2.7B，仅需1个epoch就能达到该最佳效果。则加速比为10/1=10倍。

我们可以看到，无论是在TaS还是在TaT场景下，我们的VPGTrans都可以实现稳定的加速。

3.2 有趣的发现

我们选取了一个比较有趣的发现进行了说明，其他更多更有意思的发现请参照我们的论文。

TaS场景下，越小的语言模型上训练的VPG，迁移起来效率越高，最后模型效果越好。参考表1，我们可以发现OPT-1.3B到OPT-2.7B的加速比要远小于OPT-125M、OPT-350M到OPT-2.7b的加速比。

我们尝试提供了一个解释：一般越大的语言模型，由于其文本空间的维度更高，会更容易损害VPG（VPG一般都是类似于CLIP的预训练模型）本身的视觉感知能力。我们通过类似于linear probing的方式进行了验证：

图8：仅训练linear projector层的跨LLM大小迁移 (模拟linear probing)

如图8所示，我们进行了OPT-125M，350M，1.3B，2.7B之间的跨LLM大小的迁移。

在实验中，为了公平对比不同模型大小下训练过的VPG的视觉感知能力，我们固定住VPG的参数仅仅训练linear projector层。我们选取了COCO Caption上的SPICE指标作为视觉感知能力的衡量手段。

不难发现，对于每一个给定的

，几乎都符合

越小，最终SPICE越高的一个现象。

3.3 大规模实验

前文实验主要是在小规模场景下验证猜想。为了证明我们的方法的有效性，我们模拟BLIP-2的预训练过程进行了大规模实验：

表2：真实场景下的大规模实验结果

如表2所示，我们的VPGTrans在大规模场景下依然有效。通过OPT-2.7B到OPT-6.7B的迁移，我们仅用10.8%的数据和不到10%的训练时长达到了相似或更优的效果。

尤其是，我们的方法在BLIP-2以FlanT5-XXL为基座的VL-LLM实现了4.7%的训练成本控制。

四、定制您的VL-LLMs

我们的VPGTrans可以快速为任意新的LLMs添加视觉感知模块，从而得到一个全新的高质量VL-LLM。在本工作，我们额外训练了一个VL-LLaMA和一个VL-Vicuna。其中VL-LLaMA的效果如下:

表3：VL-LLaMA的效果展示

同时，我们的VL-Vicuna可以进行类GPT-4的多模态对话。我们和MiniGPT-4进行了简单的比较:

五、总结

在这项工作中，我们对VPG在LLM之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。

基于关键观察，我们提出了一种新颖的两阶段迁移框架，即VPGTrans。它可以在显著降低训练成本的同时，实现相当或更好的性能。

通过VPGTrans，我们实现了从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的VPG迁移。相较于从零开始连接VPG到OPT 6.7B，VPGTrans仅需10.7%训练数据和不到10%的训练时长。

此外，我们展示并讨论了一系列有趣发现及其背后的可能原因。最后，我们通过训练VL-LLaMA和LL-Vicuna，展示了我们的VPGTrans在定制新的VL-LLM方面的实际价值。

参考资料：

https://arxiv.org/abs/2305.01278

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-05-19，如有侵权请联系 cloudcommunity@tencent.com 删除

迁移

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

5604

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

3419

60页PPT全解：DeepSeek系列论文技术要点整理

4754

VPGTrans：10% 的成本定制你自己的类 GPT-4 多模态对话模型

迁移 gpt 框架模型数据

最近的多模态（对话）大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入，实现强大的多模态语义理解，比如最近的GPT4、BLIP-2、Flamingo等。但咱们普通玩家训练一个多模态GPT代价非常昂贵。本工作提出一个VPGTrans框架，帮助小伙伴们实现极低成本训练一个高性能多模态大模型。作者丨张傲，费豪，姚远，吉炜，黎力，刘知远，Chua Tat-Seng 单位丨新加坡国立大学，清华大学多模态对话模型Demo：https://vpgtrans.github.io/ 论文：https://arx

AI科技评论

2023/05/12

6360

浅析多模态大模型的前世今生

工作函数模型设计数据

前段时间 ChatGPT 进行了一轮重大更新：多模态上线，能说话，会看图！微软发了一篇长达 166 页的 GPT-4V 测评论文，一时间又带起了一阵多模态的热议，随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后，到处刷屏。大模型的多模态能力到底是怎么来的？今天来分享一下多模态相关的一些工作和个人的理解。

腾讯技术工程官方号

2023/11/01

4.1K0

一篇关于LLM指令微调的综述

测试模型数据性能 LLM

指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程，它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式，领域和应用的应用。

zenRRan

2023/09/11

7.4K0

训练时间减少71.4%，存储成本节省99.9%，厦大指令调优新方案MMA让羊驼模型实现多模态

存储解决方案模块化模型优化

机器之心报道编辑：陈萍、小舟本文提出了一种新颖且经济实惠的解决方案，用于有效地将 LLMs 适应到 VL（视觉语言）任务中，称为 MMA。MMA 不使用大型神经网络来连接图像编码器和 LLM，而是采用轻量级模块，即适配器，来弥合 LLMs 和 VL 任务之间的差距，同时也实现了图像模型和语言模型的联合优化。同时，MMA 还配备了一种路由算法，可以帮助 LLM 在不损害其自然语言理解能力的情况下，在单模态和多模态指令之间实现自动切换。最近几个月，ChatGPT 等一系列大型语言模型（LLM）相继出现，随

机器之心

2023/05/31

5460

训练时间减少71.4%，存储成本节省99.9%，厦大指令调优新方案MMA让羊驼模型实现多模态

【论文解读】LLaVA 多模态大模型，微软首创用GPT-4生成多模态指令数据集进行指令微调

gpt 对象论文模型数据

在本文中，我们首次尝试使用仅基于语言的GPT-4生成多模态语言-图像指令跟随(instruction following)数据。通过对这些生成数据进行指令调整，我们介绍了LLaVA：Large Language and Vision Assistant，这是一个端到端训练的大型多模态模型，将视觉编码器与LLM连接起来，用于通用目的的视觉和自然语言理解。

唐国梁Tommy

2023/09/01

3.1K0

【论文解读】LLaVA 多模态大模型，微软首创用GPT-4生成多模态指令数据集进行指令微调

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

gpt owl 工作模块化模型

机器之心专栏机器之心编辑部纯文本大模型方兴未艾，多模态领域也开始涌现出多模态大模型工作，地表最强的 GPT-4 具备读图的多模态能力，但是迟迟未向公众开放体验，于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久，阿里达摩院便推出 mPLUG-Owl ，一个基于模块化实现的多模态大模型。 mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作，延续了 mPLUG 系列的模块化训练思想，把 LLM 升级为一个多模态大模型。在 mPLUG 系列工作中，之前

机器之心

2023/05/09

7600

达摩院猫头鹰mPLUG-Owl亮相：模块化多模态大模型，追赶GPT-4多模态能力

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

开源 gpt 开发模型数据

机器之心报道编辑：赵阳尽管 LLaVA 是用一个小的多模态指令数据集训练的，但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果。 GPT-4 的识图能力什么时候能上线呢？这个问题目前依然没有答案。但研究社区已经等不及了，纷纷自己上手 DIY，其中最火的是一个名为 MiniGPT-4 的项目。MiniGPT-4 展示了许多类似于 GPT-4 的能力，例如生成详细的图像描述并从手写草稿创建网站。此外，作者还观察到 MiniGPT-4 的其他新兴能力，包括根据给定的图像创作故事和诗歌，提供

机器之心

2023/05/01

2920

7 Papers | 浙大研究获SIGMOD 2023最佳论文；GPT-4拿下最难数学推理数据集新SOTA

gpt 论文模型数据数学

机器之心 & ArXiv Weekly 参与：楚航、罗若天、梅洪源本周论文包括 10% 成本定制专属类 GPT-4 多模态大模型；GPT-4 拿下最难数学推理数据集新 SOTA 等研究。目录： Transfer Visual Prompt Generator across LLMs Progressive-Hint Prompting Improves Reasoning in Large Language Models AutoML-GPT: Automatic Machine Learning

机器之心

2023/05/22

5190

7 Papers | 浙大研究获SIGMOD 2023最佳论文；GPT-4拿下最难数学推理数据集新SOTA

多模态LLM多到看不过来？先看这26个SOTA模型吧

性能音频 LLM 模型数据

当前 AI 领域的关注重心正从大型语言模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态能力的多模态大型语言模型（MM-LLM）就成了一个备受关注的研究主题。

机器之心

2024/02/06

5100

Xmodel-VLM | 多模态视觉语言模型，解决高成本难题，实现高效部署！

模型设计数据性能部署

近年来，自然语言处理（NLP）与计算机视觉的结合在多模态学习领域引发了重大创新和突破。特别是，如GPT-4V [30] 和 Gemini [39]等先进的视觉语言模型（VLMs）利用文本与视觉数据的协同作用，实现了对世界的先进理解和交互。凭借其强大的能力，它们在各种下游视觉语言任务中表现出色。

AIGC 先锋科技

2024/07/08

4510

给大语言模型“开个眼”，看图说话性能超CLIP！斯坦福等新方法无需多模态预训练丨开源

开源对象模型数据性能

这就是最近研究人员提出的一种新模块化框架——LENS🔍（Language-Enhanced Neural System）的识别效果。

量子位

2023/08/05

5540

给大语言模型“开个眼”，看图说话性能超CLIP！斯坦福等新方法无需多模态预训练丨开源

大模型多模态统一架构全景

腾讯技术创作特训营S14#新手村

目前大模型在处理多模态的时候，都统一化成了 token 的形式进行处理。我们首先先来看看目前常规主流的大模型是怎么统一多模态的

算法一只狗

2025/07/05

3910

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，开源项目横扫多项SOTA

开源 gpt 模型数据性能

---- 新智元报道编辑：桃子拉燕【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。 GPT-4看图聊天还没上线，就已经被超越了。近来，华人团队开源了多模态基础模型InstructBLIP，是从BLIP2模型微调而来的模型。 BLIP家族中增加了一个新成员：InstructBLIP 据介绍，InstructBLIP模型更擅长「看」、「推理」和「说」，即能够对复杂图像进行理解、推理、描述，还支持多轮对话等。比如

新智元

2023/05/15

5950

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，开源项目横扫多项SOTA

多模态大模型技术原理及实战(5)

函数模型视频数据原理

•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用，产生负面影响

顾翔

2024/09/10

1960

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

深度学习人工智能

一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉，为用户提供了强大的多模式交互和理解。LLaVA旨在更深入地理解和处理语言和视觉信息，从而实现更复杂的任务和对话。这个项目代表了下一代智能助手的发展方向，它能够更好地理解和应对用户需求。

汀丶人工智能

2023/10/18

2.7K0

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

一文综述，未来已来 | 视觉和大语言模型的未来是什么？必然结连理实现多模态大模型

模型视频数据算法音频

多模态模型结合了多种数据类型，如图像、文本、音频等。传统的语言模型（LLMs）主要针对文本数据进行训练和应用，但在理解其他数据类型方面存在局限性。纯文本语言模型，如GPT-3、BERT和RoBERTa，在文本生成和编码等任务上表现出色，但在理解和处理其他数据类型方面存在不足。

集智书童公众号

2023/11/29

1.8K0

一文综述，未来已来 | 视觉和大语言模型的未来是什么？必然结连理实现多模态大模型

清华团队攻破GPT-4V、谷歌Bard等模型，商用多模态大模型也脆弱？

安全 gpt 模型数据优化

GPT-4 近日开放了视觉模态（GPT-4V）。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合，在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而，视觉模型长久以来存在对抗鲁棒性差的问题，而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在，但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。

机器之心

2023/10/24

5730

多模态 LLM 中的跳过计算，通过跳过整个块、FFN层甚至单个神经元，可以实现计算的巨大减少！

模型数据性能压缩 LLM

大型语言模型（LLMs）是人类达到智能水平的重要一步。这些模型能够在几乎所有人类可以完成任何文本任务上达到合理的分数。

AIGC 先锋科技

2024/10/25

3430

多模态 LLM 中的跳过计算，通过跳过整个块、FFN层甚至单个神经元，可以实现计算的巨大减少！

赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat

人工智能开源工作模型数据

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

AiCharm

2023/07/26

3000

赋予LLM视觉理解能力，360人工智能研究院开源中文多模态对话模型SEEChat

MMFuser 用于精细视觉-语言理解的多模态多层特征融合器！

性能测试架构模型数据

近年来，多模态大型语言模型（MLLMs）在人工智能领域（AGI）的研究热点中崭露头角。这些模型通过跨模态互动和学习在理解和表达复杂人类意图方面取得了重要进展。在大型语言模型（LLMs）快速发展的基础上，MLLMs利用预训练的视觉编码器来提取图像特征，并将其与先进的LLMs相结合，展示了在各种视觉语言任务上的显著能力。

AIGC 先锋科技

2024/12/03

3520

训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐