Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完

正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完

作者头像
新智元
发布于 2023-10-08 11:29:04
发布于 2023-10-08 11:29:04
3.5K0
举报
文章被收录于专栏:新智元新智元
新智元报道

编辑:Aeneas 好困

【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA,而且13B模型的训练,只用8个A100就可以在1天内完成。

9月底,OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼:这就是GPT-4.5吧?

这才没过多久,GPT-4V的开源竞争对手——LLaVA-1.5,就已经来了!

4月,来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员开源了一款全新的端到端多模态大模型LLaVA。

而现在,升级后的LLaVA-1.5,不仅在11个基准测试上实现了SOTA,甚至还可以直接对打GPT-4V。

研究人员通过使用带有MLP映射的CLIP-ViT-L-336px,并添加具有简单响应格式提示的、面向学术任务的VQA数据,大幅提升了LLaVA-1.5的性能。

结果显示,架构更加简单的LLaVA-1.5只需要120万公开数据,即可超越用了14.5亿训练数据的Qwen-VL和1.3亿数据的HuggingFace IDEFICS(一个类似Flamingo的80B模型)。

其中,13B模型的训练,只需要8个A100就可以在1天内完成。

LLaVA-1.5硬杠GPT-4V

号称能和GPT-4V对打,那LLaVA-1.5的实力究竟如何?

我们来让GPT-4V、LLaVA和LLaVA-1.5来pk一下。

项目地址:https://llava-vl.github.io/

提问:「如果有事实性错误,请指出来。如果没有,请告诉我,沙漠中正在发生什么?」

GPT-4V的回答有点蠢:「对不起,我回答不了这个问题,因为并没有上下文显示您提到的那片沙漠。」

而LLaVA则将错就错地回答:「在图中,城市和海滩组成了城市天际线,人们正在享受日落。这个海滩场景居然在沙漠中,还挺不寻常的。」

唯一的满分选手LLaVA-1.5给出了完美答案:「图中根本没有沙漠,有的是棕榈树海滩、城市天际线和一大片水域。」

另外,LLaVA-1.5还可以从图中提取信息,按照要求的格式进行回答,比如以JSON格式输出。

可以看到,LLaVA-1.5基本完成了任务,和GPT-4V相比还有一些瑕疵。

同样地,给LLaVA-1.5一张满是水果蔬菜的图片,它也能像GPT-4V一样,把图片转化JSON。

可视化分析和智能数据转换,就是这么简单!

下面这道题,可就没那么容易了——这幅图是什么意思?

原来,这是一张根据诺兰《盗梦空间》绘制的简化草图,为了提高难度,角色名字被改成了假名。

LLaVA-1.5可没有被难倒,它自信满满地作答:「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次,每一层次用一条线表示。图写在一张纸上,纸放在一个台面上。」

吃货们有福了!看到一张让人垂涎欲滴的照片,特别想吃到嘴里,怎么办?

直接发给LLaVA-1.5,它火速就给你生成一份菜谱。

而且,LLaVA-1.5不用「越狱」就可以识别出验证码

它还能检测出,图中是哪种硬币。

尤为令人印象深刻的是,LLaVA-1.5还能告诉你图中的汪星人是什么品种。

有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片,并请LLaVA 1.5指出图中有哪些问题。

它的慧眼十分犀利——

这是一张经过处理或PS的照片,照片中一名男子穿着夹克,站在海滩上。该男子敞开外套,阳光照在他身上。 这张图片的问题在于,它并非真实的海滩场景。该男子实际上并没有站在沙滩上,阳光也没有照在他身上。 这张图是p出来的,营造出了一种海滩场景的假象,但它并没有真实地再现这个场景。

不过,在根据设计编写前端代码方面,LLaVA-1.5的能力就要弱一些了。

从结果来看,它的产出确实还比较简陋……

8个A100,一天就训完

LLaVA模型的架构,是将一个预训练的视觉编码器(CLIP ViT-L/14)与一个大规模语言模型(Vicuna)连接在一起。

这两个模型通过一个简单的映射矩阵连接,这个矩阵负责将视觉和语言特征对齐或转换,以便在一个统一的空间内对它们进行操作。

在多模态指令跟随数据集上,LLaVA表现出色,跟GPT-4相比,分数达到了85.1%。在Science QA上,LLaVA的准确率刷新了纪录,达到92.53%。

这次,研究人员基于LLaVA框架,建立了更强大、更有实用性的基线。

论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

MLP跨模态连接器和合并学术任务相关数据(如VQA),给LLaVA带来了更强的多模态理解能力。

与InstructBLIP或Qwen-VL在数亿甚至数十几亿的图像文本配对数据上训练的、专门设计的视觉重新采样器相比,LLaVA用的是最简单的LMM架构设计,只需要在600K个图像-文本对上,训练一个简单的完全连接映射层即可。

最终的模型在8个A100上,1天内就能训完,并且在各种基准测试中都取得了SOTA。

此外,Qwen-VL在训练时包含了内部数据,但LLaVA需要的,仅仅是公开数据。

毫无疑问,这些经过改进、易于重现的基线能,会为开源LMM的未来提供很有价值的参考。

性能大幅提升,刷新11项SOTA

作为一款开源视觉指令微调模型,LLaVA在视觉推理能力方面的表现十分出色——在基于现实生活的视觉指令跟随任务的基准测试中,LLaVA甚至超过了最新的模型。

不过,在通常需要简短答案(如单词)的学术基准测试中,LLaVA的表现却不尽如人意。其原因在于,LLaVA没有在大规模数据上进行预训练。

模型缩放

首先,研究人员提高了输入图像的分辨率,使LLM能够清晰地「看到」图像的细节,并添加了GQA数据集,作为额外的视觉知识源。并且,还加入ShareGPT数据,将LLM放大到13B。

MM-Vet的结果显示,当LLM扩展到13B时,改进最为显著,这也表明了,基础LLM在视觉对话方面的能力非常重要。

经过所有改进后的最终模型,被称为LLaVA-1.5,它的性能令人印象深刻,大大超过了原始LLaVA。

针对数据、模型和分辨率的缩放结果

与SOTA比较

随后,研究人员在一系列学术VQA基准和专为指令跟随LMM提出的基准上对LLaVA-1.5进行了测试。

结果表明,LLaVA-1.5不仅可以使用更少的预训练和指令微调数据,而且还可以利用最简单的架构、学术计算和公共数据集来实现最佳的性能——在12个基准中的11个上取得了SOTA。

此外,研究还发现,在提高LMM能力方面,视觉指令微调比预训练发挥着更重要的作用。

而这也让我们重新思考视觉采样器的优势,以及额外的大规模预训练在多模态指令跟随能力方面的必要性。

在12个基准上与SOTA方法进行比较

响应格式提示

研究人员发现,此前的InstructBLIP等方法无法在短格式和长格式的VQA之间取得平衡,主要原因在于——

首先,与回答格式有关的提示含糊不清。

例如,「Q:{问题} A: {答案}」并没有明确指出理想的输出格式,即使是自然的视觉对话,也可能导致LLM过度拟合到短格式的答案上。

第二,没有对LLM进行微调。

比如,InstructBLIP只对Qformer进行了指令微调。虽然可以由此利用Qformer的视觉输出token来控制LLM输出的长度,但Qformer与LLaMA等LLM相比容量相对有限,因此可能无法正确地做到这一点。

为了解决这个问题,研究人员建议在VQA问题的末尾,添加一个可以明确输出格式的提示,进而让模型生成简短回答。比如:「用一个单词或短语回答问题」。

当LLM使用这种提示进行微调时,LLaVA能够根据用户的指示正确微调输出格式,并且不需要使用ChatGPT对VQA数据进行额外处理。

结果显示,仅在训练中加入VQAv2,LLaVA在MME上的性能就显著提高(1323.8 vs 502.8),比InstructBLIP高出了111分!

面向学术任务的数据

研究人员进一步增加了面向学术任务的VQA数据集,用于VQA、OCR和区域级感知,从不同方面提高模型的能力。

他们首先包含了InstructBLIP使用的四个额外数据集:开放知识VQA。

其中,A-OKVQA被转换成多选题的形式,并使用特定的回答格式提示——直接用给定选项中的字母作答。

仅使用了InstructBLIP所用数据集的一个子集,LLaVA就已经在表1中的三项任务中全部超越了InstructBLIP,这表明,LLaVA的设计非常有效。

此外,研究人员还发现,通过进一步添加区域级VQA数据集,可以提高模型定位细颗粒度视觉细节的能力。

Zero-shot格式指令泛化

虽然LLaVA-1.5只用了有限的格式指令进行训练,但它可以泛化到其他格式指令。

比如,VizWiz要求模型在所提供的内容不足以回答问题时,输出「无法回答」,而LLaVA的回答格式提示就能有效地指示模型这样做(无法回答的问题占11.1%→67.8%)。

Zero-shot多语言能力

与此同时,LLaVA-1.5也没有针对多语言指令进行微调。但由于ShareGPT中包含有大量的相关数据,因此它依然能够实现多种语言的多模态指令跟随。

研究人员在MMBenchCN上定量评估了模型对中文的泛化能力,其中MMBench的问题被转换为中文。

值得注意的是,LLaVA-1.5比Qwen-VL-Chat的准确率高出7.3%(63.6% vs 56.7%)。其中,Qwen在中文多模态指令上进行了微调,而LLaVA-1.5没有。

计算成本

对于LLaVA-1.5,研究人员使用了与LCS-558K相同的预训练数据集,并保持与LLaVA大致相同的指令微调训练迭代次数和批大小。

由于图像输入分辨率提高到336px,LLaVA-1.5的训练时间是LLaVA的2倍:使用8个A100进行6小时的预训练和20小时的视觉指令微调。

局限性

尽管LLaVA-1.5取得了非常不错的成绩,但必须承认的是,它还存在一些局限性。

首先,LLaVA使用了完整的图像patch,这可能会延长每次训练迭代的时间。

其次,LLaVA-1.5还不能处理多幅图像,原因是缺乏此类指令跟随数据,以及上下文长度的限制。

第三,尽管LLaVA-1.5能熟练地遵循复杂指令,但其解决问题的能力在某些领域仍会受到限制,这可以通过更强大的语言模型和高质量、有针对性的视觉指令微调数据来改善。

最后,LLaVA-1.5难免会产生幻觉和错误信息,因此在关键应用(如医疗)中应谨慎使用。

作者介绍

Haotian Liu

Haotian Liu是威斯康星大学麦迪逊分校计算机科学的博士生,导师是Yong Jae Lee教授。此前,他在浙江大学获得了学士学位。

他的研究方向是计算机视觉机器学习,尤其是视觉感知和理解方面的高效算法。最近的研究重点是根据人类的意图建立可定制的大模型。

Chunyuan Li

Chunyuan Li是微软雷德蒙德研究院的首席研究员。

此前,他在杜克大学获得了机器学习博士学位,导师是Lawrence Carin教授。并曾担任过NeurIPS、ICML、ICLR、EMNLP和AAAI的领域主席,以及IJCV的客座编辑。

他最近的研究重点是计算机视觉和自然语言处理中的大规模预训练。比如,构建遵循人类意图的大规模多模态模型、视觉和语言预训练、大规模深度生成模型。

Yuheng Li

Yuheng Li是威斯康星大学麦迪逊分校计算机科学的博士生,导师是Yong Jae Lee教授。此前,他在华中科技大学获得学士学位。

他的研究方向是可控的多模态图像生成与处理,以及其他与创意视觉相关的问题。

参考资料:

https://arxiv.org/abs/2310.03744

https://llava-vl.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。
机器之心
2024/02/06
7700
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标
LLaVA在11个测试数据集上都成为了SOTA,在GitHub上更是斩获6k+星标。
量子位
2023/10/18
2770
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标
威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4
---- 新智元报道   编辑:拉燕 【新智元导读】微软&哥大联合发表视觉指令微调论文,LLaVA出炉! 视觉指令微调火了。 这篇论文名为Visual Instruction Tuning,由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品。 作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。 同时,研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。 讲解 那么LLaVA的功能究竟是什么呢?如果一头
新智元
2023/05/09
4330
威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。
新智元
2024/01/04
1.2K0
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA
十几天前,OpenAI 为 ChatGPT 添加了图像识别功能,允许用户使用上传一张或多张图像配合进行对话。从 OpenAI 自己公开的简短文档,我们得知, ChatGPT 识图功能的背后是一个名为 GPT-4V 的新款大模型。
机器之心
2023/10/10
4910
媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.4K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
新智元
2024/06/27
2580
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜
北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。
量子位
2024/02/22
6570
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜
定制你的多模态模型:Yo’LLaVA 模型在视觉问题解答中的贡献 !
图1:仅给出一个新颖主题(例如,一只名叫的狗)的几张图片,Yo’LLaVA就能学会围绕该主题促进文本/视觉对话。
AIGC 先锋科技
2024/07/09
2230
定制你的多模态模型:Yo’LLaVA 模型在视觉问题解答中的贡献 !
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
机器之心
2024/02/06
2440
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
随着大型语言模型(LLM)展现出强大的性能,其在解决数学问题方面的应用变得越来越流行(Toshniwal等人,2024年;Wang等人,2023年;Gou等人,2023年;Wang等人,2023a年)。先前的研究表明,人类在没有视觉辅助的情况下解决几何问题时,准确性会显著降低(Chen等人,2021年)。因此,将图像中的视觉信息整合进来对于准确解决这类数学问题至关重要,这需要多模态大型语言模型(MLLM)的视觉感知能力。然而,即使是现在可用的最好的MLLM,Gemini 在几何能力方面仍显著落后于人类表现。因此,研究行人正急于探索提升MLLM几何能力的方法。
AIGC 先锋科技
2024/07/08
8230
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
大型视觉语言(VL)模型已成为人工智能领域的一个关键研究领域,在多模态推理方面取得了显著进展。这些架构通过将视觉编码器与大型语言模型(LLM)通过翻译模块集成,在视觉和文本数据之间建立桥梁。这个模块将视觉编码器投影到文本嵌入空间。
AIGC 先锋科技
2024/12/19
1430
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发布以来,大型多模态模型 (LMM) 引起了研究界越来越多的兴趣,许多工作致力于构建多模态 GPT-4。
机器之心
2023/10/24
4060
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先的多模态大模型。
机器之心
2024/04/12
1350
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
机器之心报道 编辑:赵阳 尽管 LLaVA 是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果。 GPT-4 的识图能力什么时候能上线呢?这个问题目前依然没有答案。 但研究社区已经等不及了,纷纷自己上手 DIY,其中最火的是一个名为 MiniGPT-4 的项目。MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供
机器之心
2023/05/01
2670
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
在过去的几年中,电力输电线路巡检领域取得了显著的进展,这主要得益于深度学习技术的应用。例如,DF-YOLO[1]通过结合可变形卷积(DCN)和SimAM注意力机制来提升原始YOLOv7-tiny的性能,有效提高了输电线路外来物检测的准确性。GA-Net[2]采用遗传算法(GA)和空间到深度(SPD)卷积方法来改进原始的YOLOv7,有效提高了准确性和收敛速度。然而,当前方法在泛化和智能方面存在局限性,在面临多样化和复杂的应用场景时,性能并不理想[18]。
AIGC 先锋科技
2024/08/08
2790
Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。
机器之心
2024/02/06
4610
多模态LLM多到看不过来?先看这26个SOTA模型吧
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
---- 新智元报道   编辑:桃子 拉燕 【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。 GPT-4看图聊天还没上线,就已经被超越了。 近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。 BLIP家族中增加了一个新成员:InstructBLIP 据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。 比如
新智元
2023/05/15
5620
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调
单模态文本在生物医学领域的研究已经取得了显著的成果,而多模态对话人工智能则通过利用来自公共网络的数十亿个图像-文本对取得了快速进展。然而,这些通用领域的视觉-语言模型在理解和对话生物医学图像方面仍然缺乏复杂性。 因此,本文提出了一种成本效益高的方法,用于训练一种能够回答生物医学图像开放性研究问题的视觉-语言对话助手。
AiCharm
2023/07/26
2.5K0
医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
4B规模下能力极高的LMMs。 值得注意的是,作者的Imp-3B模型在所有现有相似规模的轻量级LMMs中表现稳定地超越,甚至超过了13B规模下的最先进LMMs。 通过低比特量化技术和分辨率降低技术,作者的Imp模型可以部署在高通骁龙8Gen3移动芯片上,具有高达约13个 Token /秒的高推理速度。
AIGC 先锋科技
2024/07/08
3010
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
推荐阅读
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
7700
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标
2770
威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4
4330
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
1.2K0
媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA
4910
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.4K0
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
2580
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜
6570
定制你的多模态模型:Yo’LLaVA 模型在视觉问题解答中的贡献 !
2230
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
2440
中科大 & 阿里 开源 GeoGPT4V 数据集,提升了各种类型和模型的跨模态几何能力!
8230
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
1430
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
4060
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
1350
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
2670
Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
2790
多模态LLM多到看不过来?先看这26个SOTA模型吧
4610
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
5620
医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调
2.5K0
高效轻量级LLM | Imp模型,通过低比特量化分辨率和降低实现高通骁龙8Gen3 芯片高性能部署 !
3010
相关推荐
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档