首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?

从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?

作者头像
未来先知
发布于 2025-01-02 06:27:04
发布于 2025-01-02 06:27:04
1960
举报
文章被收录于专栏:未来先知未来先知

预训练的视觉语言模型(如CLIP)在各种下游任务上表现出色。然而,它们的性能很大程度上取决于输入文本 Prompt 的特定性,这需要巧妙的 Prompt 模板工程。当前的 Prompt 优化方法通过梯度下降学习 Prompt ,将 Prompt 视为可调整参数。 然而,这些方法往往导致在训练过程中看到的基础类过拟合,并生成对人类无法理解的 Prompt 。 本文介绍了一种简单的但可解释的 Prompt 优化器(IPO),它利用大型语言模型(LLMs)动态生成文本 Prompt 。作者提出了一个 Prompt 优化 Prompt ,不仅指导LLMs创建有效的 Prompt ,还存储过去 Prompt 及其性能指标,提供丰富的上下文信息。 此外,作者还引入了一个大型多模态模型(LMM),通过生成图像描述来根据视觉内容进行条件化,从而增强文本和视觉模态之间的交互。 这使得可以创建特定数据集的 Prompt ,提高泛化性能,同时保持人类理解能力。在11个数据集上的广泛测试表明,IPO不仅提高了基于梯度下降的 Prompt 学习方法的精度,而且极大地增强了生成的 Prompt 的可解释性。 通过利用LLMs的优势,作者的方法确保 Prompt 保持人类可理解,从而促进更好的透明度和监督。 作者的代码可在https://github.com/lmsdss/IPO。

1 Introduction

视觉语言模型,经过在包含广泛真实世界概念的图像文本对上进行训练 ,在各种下游任务上表现出显著的适应性 。这些模型通过填充预定义的 Prompt 模板(例如,“一张[CLASS]的照片”)来完成特定的类名填充文本编码器。尽管它们在新任务上的有效泛化,但 Prompt 模板的词序变化可能会影响性能 [8]。手动创建手工制作的 Prompt 已经过时,自然语言处理 [9; 10] 和计算机视觉最近的发展提出了学习一组软 Prompt 的方法,所需的 Token 数据最小。尽管在 Prompt 学习方面取得了进步,但目前的最佳状态仍受限于其缺乏可解释性和基础类上的过拟合问题,这在多样化和动态应用环境中可能具有阻碍作用。这些限制强调了在视觉语言模型中优化 Prompt 的必要性。

参考最近使用大型语言模型(LLM)作为优化工具的先进发展[14],作者的论文首次将这些能力整合到视觉语言建模中。与基于梯度下降的方法[8; 11; 13]不同,它们往往无法为生成的 Prompt 提供解释,并且容易过拟合到基础类别。基于自然语言的方法使LLM能够通过连续反馈迭代地开发和优化解决方案。这种方法在复杂任务如视觉语言模型的 Prompt 优化的解释性方面有所改进,使得人类更容易理解生成的 Prompt 。然而,目前对这些方法的研究主要集中在语言任务上,尚未探索将其与视觉语言模型的LLM结合的潜力。

针对这些挑战,本文提出了一种可解释的 Prompt 优化器(IPO)来解决视觉语言模型的生成和优化问题。首先,作者设计了一个 Prompt 优化 Prompt ,以 Prompt 语言模型生成更有效的 Prompt ,从而提高CLIP的准确性并减少基础类别的损失。作者的 Prompt 优化 Prompt 还存储了过去 Prompt 及其相应的准确性和损失,作为情境记忆,从而为语言模型生成更有效的 Prompt 提供更丰富的上下文信息。其次,为了在 Prompt 优化 Prompt 中整合图像信息,作者提出使用一个大型多模态模型(LMM)生成基础类别中图像的描述,并将其添加到 Prompt 优化 Prompt 中。这种集成便于文本和视觉模态之间的更直观交互,使得 Prompt 优化 Prompt 可以利用图像信息,从而生成针对特定数据集的 Prompt ,提高CLIP的泛化性能。如图1所示,作者的IPO框架展示了传统基于梯度的 Prompt 优化与所提出的可解释 Prompt 优化的比较。第三,作者的优化器生成的 Prompt 具有人类可解释性。例如,在Food101数据集[17]上,初始 Prompt 从["一张[CLASS]的照片"]演变为["对描绘一道美味可口且具有显著视觉特质的[CLASS]图像进行分类。"]。作者生成的 Prompt 在新类别上的性能比梯度基方法CoOP[8]提高了10.29%,同时保持了可解释性。

作者在11个不同的数据集上验证了作者的IPO,表明它超过了传统的基于梯度的最先进方法,在准确性和解释性方面都表现出色。作者的方法生成了人类可理解的分词 Prompt ,可以无缝集成到现有的视觉语言模型中,从而提高性能。作者进行了严格的比较实验,以量化基于梯度 Prompt 学习和作者方法之间的解释性。作者展示了作者生成的 Prompt 中特定关键词的重要性,并揭示了通过传统 Prompt 学习方法学习的所有 Token 并非都是必要的。

2 Related work

视觉语言模型的 Prompt 学习

Prompt 学习(Prompt learning)最初在自然语言处理领域引入,它涉及将固定函数应用于输入 Token ,以向模型提供任务指令。在计算机视觉领域, Prompt 学习以各种形式进行探索,包括文本 Prompt 调优,以及前缀调优。

1) Prompt 调优主要涉及将文本 Prompt 视为可学习参数,使用少量数据微调这些参数。由CoCoOp [8]和Coop [11]提出的,它们都使用连续的 Prompt 向量在CLIP视觉语言模型的语言分支中进行微调,以实现少样本迁移。贝叶斯 Prompt 学习[21]将 Prompt 学习形式化为变分推理问题,并展示了其对未见类泛化的能力。

2)前缀调优主要涉及将可学习的 Token 添加到文本编码器[31],视觉编码器[1, 25],或两者[13, 27, 28, 32]中。这些 Token 使用少量数据进行微调。请注意,这些方法不优化初始文本 Prompt 。相反,它们通过集成这些额外的可训练 Token 来增强模型的理解能力。

作者的方法属于 Prompt 调优,但不同于以前使用梯度下降优化 Prompt 的方法,作者提出使用LLM(语言模型)优化 Prompt 。作者的方法利用LLM的自然语言处理能力,迭代地优化反馈式 Prompt ,旨在提高 Prompt 的有效性和可解释性。

AI模型作为 Prompt 优化器。近年来,许多研究探讨了AI模型在自然语言处理任务中作为 Prompt 优化器的作用。一些研究直接使用AI模型优化任务指令进行上下文学习。其他研究则使用AI模型变异 Prompt 用于进化算法[35, 36]。然而,据作者所知,目前尚无研究探讨如何利用AI模型优化视觉语言模型中的文本 Prompt 。这种方法可能通过更有效、更符合上下文的文本 Prompt ,为整合和增强视觉语言模型的能力开辟新的途径。

元 Prompt (Meta-prompting)Suzgun和Kalai [37] 引入元 Prompt ,将单个LLM转变为一个多功能的“指挥官”,可以管理和整合多个独立的LLM Query 。通过使用高级指令,元 Prompt 引导LLM将复杂任务分解为更小的子任务。OPRO [14]的核心在于为LLM设计一个元 Prompt ,以优化每个任务的任务 Prompt 。这个元 Prompt 包括两个关键信息:以前生成的 Prompt 及其相应的训练准确性,以及优化问题的描述。自选 [38] 利用元 Prompt 优化指令选择。它考虑一组提供的模板,并选择最合适的模板。元 Prompt 与指令调优 [39] 相关,因为这两种技术都为提高LLM的性能和适应性提供高级指导。然而,指令调优专注于用多种任务微调模型以提高泛化能力,而元 Prompt 则具有实时分解和管理复杂任务的优势。

刘等人 [40] 提出了一种方法,该方法利用LLM作为视觉语言模型的黑盒优化器,迭代地根据上下文示例优化 Prompt 。他们的方法侧重于利用ChatGPT改进视觉分类任务的 Prompt 模板。

Mirza等人 [41] 探索了 Prompt 优化的不同方面,重点关注零样本视觉语言模型。作者的 Prompt 优化 Prompt 类似于元 Prompt ,它存储了过去的 Prompt 及其相应的准确率和损失,从而为LLM提供更丰富的上下文信息,以便它们可以生成更有效的 Prompt 。与先前的元 Prompt 不同,作者的 Prompt 优化 Prompt 为视觉语言模型生成 Prompt 。

3 Preliminaries

对比语言图像预训练(CLIP) CLIP [30] 的目标是通过对比预训练与大量成对的图像和标题,开发出图像编码器 和文本编码器 。这个过程旨在将图像-文本对映射到共同的语义空间。预训练阶段之后,CLIP 能够通过将分类视为匹配图像到文本的任务,进行零样本视觉识别。具体来说,在 Prompt 模板(例如,“一张 [CLASS] 的照片”)中, 表示针对类 调整的文本特征。在这里,从图像 分类为类 的概率表示为:

表示第 个类别的图像特征 与文本特征 的余弦相似度, 是总类别数, 是训练过程中调整的温度参数。

** Prompt 学习** 通过消除手动 Prompt 工程的需求,提高了CLIP模型的适应性。它通过使用下游任务的有限数量示例来自动生成 Prompt 。CoOp [8]提出了一种方法,其中一组连续上下文向量作为可学习的 Prompt 。构建的 Prompt 将这些可学习的上下文向量与特定类别的 Token Embedding 合并,然后由文本编码器处理。在CoOp中,这些静态上下文向量的优化旨在最小化正确类 Token 的负对数似然率:

在下游应用中,预训练模型参数保持不变,这使得可学习的 Prompt 向量可以通过最小化交叉熵损失有效地优化,只需要用一小部分样本。表示类别的one-hot编码的真正标签。

4 Methods

图1描绘了作者的可解释 Prompt 优化器的全面结构。在优化过程中的每个步骤,LLM通过考虑优化问题的描述以及存储在 Prompt 优化 Prompt 中的先评估 Prompt 的反馈,为视觉语言任务生成候选 Prompt 。然后,这些新 Prompt 将被评估并集成到 Prompt 优化 Prompt 中,以便在未来的优化周期中使用。优化过程在LLM无法生成改进优化分数的 Prompt ,或达到预定义的最大优化步骤数量时结束。接下来,作者将详细介绍 Prompt 优化 Prompt 的设计,并解释如何将图像信息集成到 Prompt 优化 Prompt 中。

作者优化器的核心是 Prompt 优化的 Prompt 设计,它通过优化 Prompt 来提高视觉语言模型的性能。图2显示了作者的 Prompt 优化的 Prompt 示例。作者的 Prompt 优化 Prompt 由以下组件组成:

(1)说明:这些通过明确定义任务来指导LLM优化 Prompt ,以在分类任务中实现更好的性能。

(2)训练图像的文本描述:这些描述为LLM提供有关图像的详细信息,使其能够生成特定数据集的 Prompt 。

(3)以前生成的 Prompt 及其对应评分:这个组件提供上下文信息,包括过去的 Prompt 及其性能指标,使LLM能够更准确地优化 Prompt 生成。通过合并这些元素,作者的方法利用LLM的迭代优化能力动态生成和优化文本 Prompt 。说明确保LLM理解优化目标,文本描述提供丰富的图像相关上下文,而历史数据有助于生成更有效和精确的 Prompt 。

对于训练图像的文本描述,作者使用一个大型多模态模型(LMM)为每个训练图像生成文本描述。具体而言,作者使用MiniCPM-V-2.0 [43]从基础类别生成图像内容的描述。在附录中,作者提供了使用MiniCPM-V-2.0生成的每个数据集中一些图像的内容描述。作者将提取的图像文本特征表示为。

此外,作者尝试直接使用LMM通过Prompt Optimization Prompt优化 Prompt 。具体而言,作者将基础类别中的图像和Prompt Optimization Prompt输入到LMM中,希望LMM能够生成更好的 Prompt 。作者尝试了六个不同的LMMs:BLIP-2 [44],Qwen-VL-Chat-9.6B [45],FUYU-8B [46],MiniCPM-V-2.0 [43],和llava-llama3-8B [47]。然而,这六个模型都无法理解作者的Prompt Optimization Prompt,并生成了仅仅是对图像的描述,而不是作者所期望的通用 Prompt 。这种失败可能是由于这些LMMs的训练没有考虑这种任务。请注意,图像描述并非必需。在作者的16-shot实验中,由于LLM可以处理的文本输入长度有限,作者在Prompt Optimization Prompt中省略了图像描述。

利用情节记忆机制来检索过去的 Prompt 及其相应的评分,这些评分包括诸如损失和准确率等指标。在这里,作者将记忆表示为。在每个迭代中,作者根据中的准确性检索出前20个 Prompt ,并将它们作为当前记忆,表示为。此外,作者在每一步中始终将 Prompt "a photo of <>"添加到作者的历史中,因为这是CLIP框架[30]中常用的且有效的一个 Prompt 。因此,作者的优化损失被定义为:

作者的设计指令 表示了针对 LLM 的设计,而 表示由 LLM 优化的人类可解释文本 Prompt 。请注意,作者的优化器参数自由,这使得它与传统的基于梯度的 Prompt 学习方法区分开来。相反,作者利用 LLM 来优化 Prompt ,逐步减少 ,直到收敛。

Experimental setup

作者在视觉语言模型的 Prompt 学习基础到新泛化基准测试上验证了作者的方法的有效性[8; 11]。在所有实验中,作者在1-shot和常用的16-shot设置下评估模型的性能。为确保一致性,基于学习的方法的所有结果都取三个随机种子求平均。作者使用调和平均数(H)作为平均指标,这在视觉语言模型的 Prompt 学习中是一种常见的方法。

十一数据集。作者遵循CLIP [30]和CoOp [8]的方法,使用了11个图像分类数据集,即ImageNet [48]和Caltech101 [49]用于通用物体分类,OxfordPets [50],StanfordCars [51],Flowers102 [52],Food101 [17]和FGVCircraft [53]用于细粒度图像识别,EuroSAT [54]用于卫星图像分类,UCF101 [55]用于动作分类,DTD [42]用于纹理分类,以及SUN397 [56]用于场景识别。

以下是对您提供的英文AI学术论文的简体中文翻译:

六种 Baseline 。 为了进行比较评估,作者使用了一些已经确立的 Baseline ,包括CLIP [30],Coop [8],CoCoOp [11],MaPLe [13],PromptSRC [28],以及CoPrompt [32]。请注意,所有方法在其出版物中并未呈现1-shot结果,因此作者使用其可用代码进行1-shot实验。

训练细节作者使用GPT-3.5 Turbo作为默认优化器,对每个数据集迭代100步以得出最终 Prompt 。在每一步中,作者生成五个 Prompt 并与过去的 Prompt 进行比较,将前20个 Prompt 保存在作者的历史中。

最终,作者选择准确率最高的 Prompt 作为最终 Prompt 。对于生成图像描述,作者使用MiniCPM-V-2.0[43]作为默认LMM,使用 Prompt :“[请详细描述,不要在描述中提供类别名称。]”。作者将图像描述添加到1-shot Prompt Optimization Prompt中,但未添加到16-shot版本中,因为GPT-3.5 Turbo的字符输入限制阻止为每个类别的图像添加详细信息。所有实验均在配备GeForce RTX 3090的计算机上进行。

6 Conclusion

在本文中,作者提出了一种新颖的 Prompt 优化方法,用于视觉语言模型,以解决现有基于梯度下降的方法的局限性。通过将大型语言模型集成到动态文本 Prompt 生成和优化中,作者引入了IPO系统。

该系统指导LLMs生成有效 Prompt ,同时保持过去 Prompt 及其性能指标的记录,提供有价值的上下文信息。

此外,作者还融入了大型多模态模型来生成图像描述,以增强文本和视觉模式之间的协同作用。作者在11个数据集上的全面评估表明,与传统基于梯度下降的 Prompt 学习方法相比,作者的方法可以提高视觉语言模型的初始准确性。

最重要的是,作者的方法显著提高了生成的 Prompt 的可解释性。通过利用LLMs的优势,IPO确保 Prompt 保持人类可理解,从而促进视觉语言模型的更好透明度和监督,使视觉语言系统更加可靠和易于访问。

这种提高的可解释性至关重要,因为它允许进行更有效和可靠的人类-AI协作。

参考文献

[0]. IPO: Interpretable Prompt Optimization for Vision-Language Models.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LLM 与 BiomedCLIP 携手提升生物医学图像 Prompt 学习的准确性与泛化性 !
最近,视觉语言模型(VLMs)如CLIP在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将VLMs应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。
AIGC 先锋科技
2025/02/05
6150
LLM 与 BiomedCLIP 携手提升生物医学图像 Prompt 学习的准确性与泛化性 !
高效的测试时间促进视觉语言模型的训练 !
开放集图像分类是计算机视觉领域一个基本且具有挑战性的任务。最近,视觉语言模型(VLMs)在这个领域展现出了强大的能力。一个突出的模型是CLIP (Radford等人,2021年),将图像和语言编码到统一的嵌入空间中,通过测量图像表示和文本类描述之间的相似度来进行分类。
未来先知
2024/08/29
2730
高效的测试时间促进视觉语言模型的训练 !
哈工大提出 CoCoLe: 从视觉概念到语言提示,VLMs 微调技术在少样本设置中的突破 !
预训练的视觉-语言模型(VLMs),例如CLIP [26]和ALIGN [15],在各种下游任务中已经取得了卓越的零样本性能。这些模型在大规模图像-文本数据集上通过对比优化目标进行训练,有效地将不同模态对齐并嵌入到一个共享的向量空间中。尽管它们的性能令人印象深刻,但由于其庞大的体积,将这些模型适应到多样化的下游任务仍然具有挑战性。因此,近期的研究集中在了通过在保持基础模型不变的同时调整附加参数来改进预训练VLMs的下游任务适应能力。例如,提示调优方法,如CoOp [42]和ProGrad [43],用可学习的提示替代手动提示以获得特定任务的知识,而基于 Adapter 的方法直接在VLMs顶部利用额外的模块,如Clip-adapter [9]和Tip-adapter [38]。这些方法在有限标注数据下取得了显著进展。
AIGC 先锋科技
2024/07/20
3020
哈工大提出 CoCoLe: 从视觉概念到语言提示,VLMs 微调技术在少样本设置中的突破 !
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
大型视觉语言模型(VLMs),如CLIP ,彻底改变了图像分类。尽管早期的深度分类模型如AlexNet 和ResNet 取得了进展,但它们处理开放词汇分类的能力对它们在各种领域的适应性贡献显著。此外,通过在特定数据集上对它们进行微调,它们达到了惊人的准确度。
AIGC 先锋科技
2024/07/08
2270
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
【综述专栏】视觉-语言基础模型的提示工程
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2023/08/29
5870
【综述专栏】视觉-语言基础模型的提示工程
提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !
近年来,在视觉语言模型领域取得了重大进展,例如CLIP、Flamingo 、ALIGN 和CoCa。这些模型通过结合两个基本组成部分,在获取可迁移且鲁棒的图像表示方面取得了卓越成就:
未来先知
2024/08/08
4820
提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !
利用大视觉-语言模型(LVLM)来提高工业环境中异常检测和定位的效果 !
工业异常检测(IAD)在确保制造过程的质量和安全方面起着至关重要的作用,特别是在依赖自动化系统进行生产的行业中。识别工业系统中的异常或故障行为——无论是机械设备故障、材料缺陷还是工艺偏差——对于减少停机时间、降低运营成本并保证产品质量至关重要。近年来,大型多模态视觉语言模型(LVLMs)的出现为提升IAD的技术水平提供了前景。LVLMs结合了视觉理解和自然语言处理的能力,在涉及图像和文本数据的任务中展示了强大的能力[1,2]。LVLMs的双模态特性使其特别适用于工业异常检测,因为在这种场景下需要同时理解视觉模式和文本描述(例如缺陷报告、产品手册和机器日志)。
AIGC 先锋科技
2025/01/13
9390
利用大视觉-语言模型(LVLM)来提高工业环境中异常检测和定位的效果 !
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
近期大型语言模型(LLM)的进展显著提高了它们在各类自然语言处理任务中的性能。这些模型能够进行语言理解和逻辑推理,使它们能够处理复杂的语言功能,如总结文本、回答问题、处理对话以及撰写新的文章或论文。然而,LLM本质上受到无法处理视觉信息的限制。这导致了多模态大型语言模型(MLLM)的发展,它们在LLM的基础上集成了视觉处理能力。
AIGC 先锋科技
2024/07/31
3560
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024/07/31
7060
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
在线高斯自适应革新 OTTA 视觉语言模型 !
视觉-语言对齐已成为一种强大的范式,可用于预训练模型,这些模型能够处理各种下游任务,且在少量或没有 Token 数据的情况下也能胜任。如CLIP[19]这样的对比方法通过联合优化视觉编码器和文本编码器来学习可迁移的视觉表示,从而对配对图像和标题的表示进行对齐。这使创建图像分类器成为可能,而无需重新训练模型,只需使用类别的文本描述。随后,分类过程仅仅依赖于测量文本特征与图像特征之间的相似度,从而实现零样本预测。这已经在广泛认可的监督学习基准,如ImageNet[3]上展示了令人印象深刻的零样本性能。这一成功激励了对适应视觉-语言模型(VLMs)以处理未见任务的方法的研究,从而绕过了重新训练模型的需求,无论是通过 Prompt 优化[20, 32]、低秩适应[26]还是在嵌入空间中的 Adapter 。这些后一种方法特别引人关注,因为它们不需要访问模型权重——被称为黑盒方法——这使得它们适用于基于API的应用。
AIGC 先锋科技
2025/02/10
1840
在线高斯自适应革新 OTTA 视觉语言模型  !
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
医学视觉语言模型(MVLMs)由于能够提供自然语言接口来解释复杂医疗数据而引起了广泛关注。它们的应用领域非常广泛,有可能通过更高效地分析大型数据集来提高个体患者的诊断准确性和决策。
AIGC 先锋科技
2024/12/24
2710
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
近年来,大型语言模型(LLMs)通过展示在各种任务上理解、生成和推理文本的非凡能力,彻底改变了自然语言处理(NLP)领域。然而,许多实际应用需要处理不仅仅是文本,例如理解视觉内容或从不同模态合成信息。这导致了多模态LLM的发展,它结合了LLM的语言优势和视觉基础模型,实现了跨模态理解和推理。通过集成文本和视觉信息,这些模型扩展了传统LLM的能力,以解决图像描述、视觉问答和文本到图像生成等任务。
AIGC 先锋科技
2024/12/20
2280
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
随着人工智能技术的飞速发展,其在各个领域的应用日益广泛。本文旨在探讨人工智能技术在当前的研究进展、应用前景以及所面临的挑战。通过对现有文献的梳理和分析,本文将全面展示人工智能领域的最新研究成果和发展趋势。
未来先知
2025/02/07
1940
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
NODE-Adapter:神经常微分方程助力更优视觉-语言推理!
这些挑战将阻碍它们将视觉-语言模型(VLMs)适应于下游任务的能力。受到这一关键观察的启发,作者提出了一种新颖的方法,称为NODE-Adapter,该方法利用神经常微分方程进行更优的视觉-语言推理。 为了充分利用视觉和文本模态,并更有效、更准确地估计类别原型,作者将方法分为两个阶段:跨模态原型构建和利用神经常微分方程进行跨模态原型优化。具体来说,作者利用VLM将手工制作的提示编码为文本特征,将少样本支持图像编码为视觉特征。 然后,作者分别通过对文本特征和视觉特征取平均来估计文本原型和视觉原型,并将文本原型和视觉原型自适应地结合构建跨模态原型。 为了减轻原型偏差,作者将原型优化过程建模为一个初值问题,使用神经常微分方程来估计连续梯度流。 作者广泛的实验结果,包括少样本分类、域泛化和人-物交互视觉推理,证明了提出的方法显著优于现有的最先进方法。
AIGC 先锋科技
2024/07/31
2820
NODE-Adapter:神经常微分方程助力更优视觉-语言推理!
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025/03/03
1990
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
近期在视觉语言模型(VLMs)方面取得了进展,这些模型经过大规模的网络图像文本对预训练,已经在各种分类任务中表现出显著的成功。VLMs被训练以将图像与相关的文本描述相联系。在标准协议(图1(a))中,原始图像和类别名称被投射到一个联合视觉语言嵌入空间中,选择距离图像表示最近的类别作为预测结果。
AIGC 先锋科技
2024/07/20
2940
南大 & 上海 Ai Lab   AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
近期,大型语言模型(LLM)在零样本文本任务中展现了令人印象深刻的性能。特别是,近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下,经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34],从而使模型能够吸收外部提供的指示,并促进在多个领域内的强大泛化能力。 在这些进展之后,计算机视觉界开始研究将这些模型扩展到视觉和语言的情境中,从而生成多模态大型语言模型(MLLMs)。在这方面,通过视觉到语言的 Adapter 将视觉特征融合到LLM的主干中,引起了显著的性能提升,使得对需要精心设计的视觉描述的视觉和语言任务能够广泛泛化。
AIGC 先锋科技
2024/07/08
4550
视觉的跨界 Wiki-LLaVA  |  lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
在过去的几年中,电力输电线路巡检领域取得了显著的进展,这主要得益于深度学习技术的应用。例如,DF-YOLO[1]通过结合可变形卷积(DCN)和SimAM注意力机制来提升原始YOLOv7-tiny的性能,有效提高了输电线路外来物检测的准确性。GA-Net[2]采用遗传算法(GA)和空间到深度(SPD)卷积方法来改进原始的YOLOv7,有效提高了准确性和收敛速度。然而,当前方法在泛化和智能方面存在局限性,在面临多样化和复杂的应用场景时,性能并不理想[18]。
AIGC 先锋科技
2024/08/08
3650
Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
如何把视觉语言模型应用到视频里?
标题:Fine-tuned CLIP Models are Efficient Video Learners
BBuf
2022/12/29
1.2K0
如何把视觉语言模型应用到视频里?
改进视觉-语言概念瓶颈模型中的概念匹配 !
概念瓶颈模型(CBM)[14]是构建具有高级概念的可解释模型的一种流行选择。这些模型首先将输入图像映射到一个低维的(因此有“瓶颈”一词)专家定义的概念空间,其中每个概念都可以被人类容易理解。例如,朱红捕蝇鸟这一鸟类物种可以有“红色身体”、“黑色翅膀”和“红色冠”等概念。然后,一个线性分类器在这些概念之上进行类别预测。构建CBM有两个基本要求:一个定义良好的、无歧义的概念集以及每个样本的相应概念标签。近期的方法[25, 46]通过利用大型语言模型(LLM)和视觉语言模型(VLM)来自动化上述步骤,并将CBM扩展到更大的数据集(如ImageNet)。它们通常涉及通过用少量样本提示LLM来生成一个初始概念集,然后提取那些有利于区分(分类)的概念子集。当图像和这个经过筛选的概念集3作为输入传递给经过对比预训练的VLM时,其图像-文本对齐分数作为该样本的“概念分数或概念标签”。这些概念标签可以用来训练另一个CBM分类器,或者直接用来预测类别,从而将VLM转变为CBM(从此处起称为VL-CBM)。尽管LLM拥有丰富的世界知识,并且可以在任何领域生成潜在的(大量)概念集,但在某些情况下,专家定义的概念更为合适。
AIGC 先锋科技
2024/08/19
3150
改进视觉-语言概念瓶颈模型中的概念匹配 !
推荐阅读
LLM 与 BiomedCLIP 携手提升生物医学图像 Prompt 学习的准确性与泛化性 !
6150
高效的测试时间促进视觉语言模型的训练 !
2730
哈工大提出 CoCoLe: 从视觉概念到语言提示,VLMs 微调技术在少样本设置中的突破 !
3020
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
2270
【综述专栏】视觉-语言基础模型的提示工程
5870
提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !
4820
利用大视觉-语言模型(LVLM)来提高工业环境中异常检测和定位的效果 !
9390
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
3560
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
7060
在线高斯自适应革新 OTTA 视觉语言模型 !
1840
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
2710
纽约大学提出 EMMA:多模式 LLMs中的高效视觉对齐 !
2280
中科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !
1940
NODE-Adapter:神经常微分方程助力更优视觉-语言推理!
2820
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
1990
南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
2940
视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!
4550
Power-LLaVA:大语言模型结合视觉技术,提升检测效率 !
3650
如何把视觉语言模型应用到视频里?
1.2K0
改进视觉-语言概念瓶颈模型中的概念匹配 !
3150
相关推荐
LLM 与 BiomedCLIP 携手提升生物医学图像 Prompt 学习的准确性与泛化性 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档