Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >​多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力!

​多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力!

作者头像
AIGC 先锋科技
发布于 2024-07-08 05:12:13
发布于 2024-07-08 05:12:13
2270
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

大型视觉-语言模型(LVLMs)因其处理和整合视觉与文本数据的能力而越来越受到关注。尽管它们很受欢迎,但LVLMs生成精确、细粒度文本描述的能力尚未被充分探索。本研究通过关注独特性和忠实度,评估了Open-Flamingo、IDEFICS和MiniGPT-4等模型区分相似物体并准确描述视觉特征的能力。 作者提出了文本检索增强分类(TRAC)框架,利用其生成能力,使作者能够更深入地分析细粒度视觉描述生成。 这项研究为LVLMs的生成质量提供了有价值的见解,增强了对多模态语言模型的理解。 值得注意的是,MiniGPT-4在生成细粒度描述方面表现出色,在这方面超过了其他两个模型。 代码可在https://anonymous.4open.science/r/Explore_FGVDs-E277获取。

1 Introduction

在他们的真实描述中提供了广泛的概述。特别是,它们在生成细粒度描述方面的效力受到其固有的简洁性、简单性和多目标关注性的显著限制。此外,传统的评估指标如BLEU 和 SPICE(Brocker等人,2016)不适合评估细粒度描述,因为它们过于依赖这些粗略的真实描述,缺乏必要的粒度。

这些限制突显了在评估LVLMs提供详细描述能力方面的一个关键缺口。为了解决上述问题,一些研究行人提出了CLIP分数作为传统n-gram基础指标的替代品。尽管它有一些优点,但CLIP分数仍然无法捕捉到细粒度的细微差别,因为CLIP模型的对比学习过程仍然依赖于图像和粗略的句子对。因此,它仍然是评估详细文本生成质量的不完美指标。这强调了需要重新评估方法并开发克服传统字幕数据集约束的细粒度文本生成见解,呼吁新的方法来更好地理解LVLM生成高质量视觉描述的能力。

在本文中,为了解决上述问题,作者提出了一个框架,从两个角度分析LVLM生成的FGVD的质量。作者关注“独特性”,因为LVLM有效地识别图像所属的广泛类别。这个方面是从细粒度的角度进行探索,以进一步理解和增强它们的能力。这是至关重要的,因为生成式LVLM与非生成式模型(如CLIP)相比具有比较优势,后者没有专门调整其输出以解决细粒度数据集内固有的复杂性。与早期严重依赖Microsoft COCO等字幕数据集的模型相比,当前的LVLM在描述的粒度上取得了显著的改进,这使得迫切需要用细粒度数据集评估生成描述的精确性和相关性。为了克服这些限制,本研究利用了特定类别的细粒度分类数据集(Brocker等人,2016),这些数据集与传统的字幕数据集不同。这些资源使作者可以评估LVLM生成文本在细粒度层面上有效区分类别的能力。作者检查这些模型生成描述的能力,通过精确识别和阐述密切相关视觉主题之间的细微差别,从而有效地区分不同的类别。然而,生成的描述可能不准确反映视觉内容,因此需要包含“忠实度”。忠实度从更粗粒度的视角评估,以确保生成的文本不仅有效区分,而且保持对原始图像的准确性和忠实性。这种平衡的方法——从独特性到忠实度,提高了作者对模型在细粒度文本生成这一复杂任务中的性能理解,强调了在评估过程中细粒度细节和整体准确性的重要性。

为了评估“独特性”,作者的方法从自然语言处理中的检索增强生成(RAG)框架(Krishnan等人,2017年)获得灵感。作者开发了一种名为“文本检索增强分类”(TRAC)的方法,该方法利用分类驱动的方法探索LVLMs如何在密切相关类别之间区分独特属性。首先,保留生成的描述的一个子集作为参考语料库,与测试描述进行比较。然后通过测量这些描述被正确标签分类的准确性来间接评估它们的独特性,这提供了一种衡量生成的FGVD独特性的方法。对于“保真度”,它包括两种方法:首先,应用CLIP嵌入相似性来评估图像与其文本输出之间的对齐,展示了直接的文本-图像关系;其次,采用稳定扩散模型将LVLM生成的FGVDs重新转换成图像,这一灵感来自于将文本视为有效的跨模态接口的概念(Steiner,1991年)。这允许通过图像到图像的比较来进行保真度评估。通过评估独特性和保真度,这种方法促进了对LVLM生成的细粒度视觉描述质量的综合分析,从而从几个关键角度捕捉到它们细微的能力和性能。

通过从多个角度检查使用LVLM生成详细图像描述的细微差别,本研究旨在加深对这些模型在创建细粒度视觉描述方面表现如何的理解。这种全面的分析探讨了描述生成的各个方面,突出了LVLM在此背景下的能力和局限性。本研究的贡献包括:

  1. 作者首次通过独特性和保真度评估LVLM生成的细粒度视觉描述的质量,丰富了多模态语言模型研究,并确定了系统改进的领域。
  2. 作者介绍了一种新颖的方法——文本检索增强分类(TRAC),该方法利用LVLM进行分类,受到RAG框架的启发。这种方法解决了与对比模型如CLIP相比LVLM的生成性质所提出的独特挑战。因此,它拓宽了LVLM的任务,并对其生成提供了新的见解。
  3. 作者确定了LVLM在生成详细FGVD时产生幻觉的条件。通过将高质量的GPT-4描述与上下文学习相结合,作者显著提高了LVLM生成更详细和准确文本的能力。

2. Related Works

计算机视觉领域在过去几十年里取得了显著进展,特别是在目标检测和识别领域。传统的目标检测方法,如Viola-Jones框架,无法扩展以处理大量物体类别。随着深度学习的出现,卷积神经网络(CNN)已经成为包括目标检测和识别在内的各种视觉任务的基础。近年来,提出了许多基于CNN的目标检测模型,如R-CNN、Fast R-CNN、Faster R-CNN、YOLO和SSD,这些模型极大地推动了目标检测性能的边界。

Generating Visual Descriptions

图像字幕生成(IC)是计算机视觉中的一个关键任务,涉及将图像转换为文本描述。传统上,许多字幕生成模型(Brocker等人,2016;Krizhevsky等人,2012;Salimans等人,2015)采用了编码器-解码器架构来实现高质量字幕的生成。近年来,通过对大型图像-文本对数据集上的模型进行广泛训练,并融合视觉与语言模态,取得了进展。诸如ClipCap(Steiner,2017)和BLIP(Krishnan等人,2017)等创新显著提高了对视觉内容的理解,从而增强了生成字幕的准确性和上下文相关性。

然而,这些模型生成的字幕通常只提供了图像的概览,缺乏具体性。另一方面,详尽的文本描述增强了对文本中视觉线索的理解,有利于如文本到图像生成等任务。这些详尽描述的生成,由这些工作(Zhu等人,2017;Wang等人,2018)开创,使用大型语言模型(LLM,例如GPT-3,GPT-4)有助于CLIP模型的零样本分类改进。尽管这些描述性质详尽,但由于缺乏直接的视觉参考,这些描述仍可能产生不准确之处,导致描述与实际描绘目标的特征在视觉上不一致。大型视觉语言模型(LVLM,例如Open-Flamingo(Chen等人,2018),MiniGPT-4(Chen等人,2018),IDEFICS(Xu等人,2018)的出现,利用丰富的外部视觉和语言知识,提供了生成更广泛和更详细文本的可能性。最近的一项研究(Han等人,2018)利用了这一潜力,使用LVLM为零样本野生动物种类识别生成细粒度的视觉描述。同样,作者的工作也使用LVLM,通过视觉和语言提示(即,精心设计的问题)来产生更细粒度的丰富和详细视觉描述。与之前的工作不同,作者的目标是通过精心设计的问题引导LVLM探索视觉内容的各种视角,这对于后续分析和评估这些生成描述至关重要。

Vision Language Models (VLMs)

视觉语言模型(VLMs)已成为人工智能研究的核心焦点。CLIP(Xu等人,2018年)通过使用对比方法并在4亿图像-标题对上进行预训练,有效地同步了视觉和语言领域,标志着关键性的发展。平行的发展,如ClipCap(Xu等人,2018年)和BLIP(Xu等人,2018年),改进了视觉连贯标题的生成。大型语言模型如GPT-3(Chen等人,2018年)和LLaMA(Xu等人,2018年)的出现促进了高级LVLMs的发展,这些模型利用大量的LLM知识通过跨模态的充分对齐深刻理解图像,并使用多样化的多模态数据集进行训练。模型如Open-Flamingo(Chen等人,2018年)和IDEFICS(Xu等人,2018年)通过感知器模块和交叉注意力技术实现这一点,而MiniGPT-4(Chen等人,2018年)则将投影层和Q-former与LLM集成,在可访问的数据集如LAION上进行训练。

Evaluation of Vision-Language Models (VLMs)

传统的视觉-语言模型(VLMs)评估主要关注它们理解和解释图像中视觉内容的能力。例如,图像字幕(IC)任务,它评估图像能够多准确被翻译成文本,通常使用如BLEU-4(Pennington等,1994)和CIDEr(Vaswani等,2017)这样的指标进行衡量。然而,随着VLMs规模的不断扩大,对其评估的范围也变得更加全面和健壮。近期的研究(Xu等,2018;Wang等,2018;Wang等,2018)为评估VLMs的发展做出了贡献,涵盖了视觉感知、理解和推理等方面。然而,在没有参考文本或答案的情况下,量化VLMs的评估标准仍然是一个重大挑战。尽管使用像GPT-4这样的模型进行自动化评估和人类手动评估在理论上都是可行的途径,但它们都伴随着相当大的成本。因此,本研究主要关注评估LVLMs生成的细粒度视觉描述,从而避免了需要GPT-4和对真实文本的参考。为此,作者利用公开可访问的模型,即CLIP,来评估生成的视觉描述的独特性和保真度。

3. Method

本节概述了一种系统方法,用于评估大型视觉-语言模型(LVLMs)生成详细视觉描述的能力。在第3.1节中,详细阐述了通过LVLMs生成细粒度视觉描述(FGVDs)的过程。接着,引入了一个双重策略框架,用于评估生成内容的质量,重点关注独特性(第3.2.1节)和忠实度(第3.2.2节)。图2展示了这一评估框架,便于深入探索LVLMs生成的FGVDs的质量。

Fine-Grained Visual Description Generation

细粒度的视觉描述是由LVLMs(例如,Open-Flamingo (Chen et al., 2018))在视觉和文本线索的条件下产生的。与生成简单且广泛的描述的标题生成任务相比,作者的目标要求生成更精细、更微妙的文本描述。这需要设计特定的提示问题,旨在从模型中引出详细的描述。给定文本提示

\mathcal{P}

和图像

\mathcal{I}

,细粒度视觉描述生成的过程可以表述如下:

d=f_{\mathcal{M}}\left(\mathcal{I},\mathcal{P}\right) \tag{1}

其中

f_{\mathcal{M}}(\cdot)

表示LVLM

\mathcal{M}

的前向过程,

d=\{\hat{w_{1}},\ldots,\hat{w_{t}}\}

表示生成的单词序列,通过自动回归方式进行解码。对于零样本生成,

\mathcal{P}

表示一个精心设计的提示问题

\mathcal{Q}

,旨在引出显著或全局的描述。对于上下文学习设置,

\mathcal{I}

包括一个 Query 图像和一组演示图像。文本提示

\mathcal{P}

由几个交替出现的演示提示问题

Q

和描述

d

组成。

Dual-Evaluation

双评价部分的开头。

3.2.1. Distinctiveness

为了评估LVLMs在区分不同类别方面的熟练程度,作者实施了一种基于检索的方法,名为TRAC。该方法涉及使用细粒度数据集的训练集来构建细粒度视觉描述(FGVDs)的支持集。这些描述是由LVLMs为预定的一组图像生成的,并通过文本编码器处理以提取嵌入,然后存储起来用于后续的检索任务。

TRAC过程。

D=\{d_{1},d_{2},\ldots,d_{n}\}

表示由LVLMs生成的FGVD集合,其中

n

是支持集中的图像数量。每个FGVD

d_{i}

对应于图像

I_{i}

,并与标签

y_{i}

相关联。从这些FGVD提取的嵌入表示为

\mathcal{E}=\{\mathbf{e_{1}},\mathbf{e_{2}},\ldots,\mathbf{e_{n}}\}

,其中

\mathbf{e_{i}}

是FGVD

d_{i}

的嵌入。

对于数据集的测试集,每个图像

\mathcal{I}_{\text{test}}

同样被处理以获得文本描述

d_{\text{test}}

,然后将其编码为嵌入c。这个嵌入用于通过余弦相似度从

\mathcal{E}

检索最相似的嵌入

\hat{\textbf{c}}

。与最相似嵌入

\hat{\textbf{c}}

相关的标签

y_{\mathbb{R}}

随后与

\mathcal{I}_{\text{test}}

的原始标签

y

进行比较。通过计算测试集上的准确度来量化生成的FGVD的整体独特性,定义为

\hat{y}=y

的实例比例:

作者还探索了多种方法来评估独特性的多样性,最初集中在前面提到的识别最相似描述的TOP-1上。随后,作者设计了两项额外的检索方法来扩展作者的分析:

平均嵌入。 对于数据集

\mathcal{D}

中的每个类别,作者计算其细粒度视觉描述的平均嵌入。这个过程涉及对每个类别内的所有描述的嵌入求平均值,表示为

\hat{\textbf{c}}_{c}

。测试描述的嵌入随后与

\hat{\textbf{c}}_{c}

进行比较,以确定最接近的匹配。这种方法利用了每个类别内嵌入的中心趋势,减少了由单个描述异常值引起的变化,并为每个类别的语义空间提供了一个简化的表示。此外,这种方法突出了类间差异,加强了对类别间区分的焦点,以提高分类精度。

TOP-K投票。 这种方法根据嵌入相似性选择TOP-K个最接近的候选,而不是TOP-1,并通过这些候选中的多数投票确定最终类别。这种方法的优势在于减轻了异常值的影响,确保了为每个细粒度视觉描述确定最具代表性的类别的过程更加健壮和民主。此外,这种方法旨在提高每个类别内条件的区分度,确保了类内变异的更精细解析。

3.2.2. Fidelity

除了评估生成的细粒度视觉描述(FGVDs)的独特性之外,评估它们的保真度也是至关重要的,即这些描述在视觉上与原始图像的一致程度。仅依赖独特性可能会导致描述虽然独特,但包含外部甚至不相关信息,从而与源图像的实际视觉内容相差甚远。另一方面,FGVDs作为图像视觉内容的简洁表示,由成千上万的像素组成,包含大量冗余信息。文本描述提供了一种有效压缩这种视觉信息的方法。确定这些描述在多大程度上保留了原始视觉信息对于确保文本表示的质量至关重要。为此,作者采用两种策略来研究这种保真度:

图像-文本保真度。 类似于CLIP-score(Kumar等人,2017)的方法,作者使用嵌入相似度

s(\mathcal{I},d)

来衡量输入图像

\mathcal{I}

和生成的细粒度视觉描述(FGVD)

d

之间的对齐。

图2. 评估大型视觉-语言模型(LVLMs)生成的细粒度视觉描述(FGVDs)质量的框架概述。在FGVD生成阶段(a),通过结合视觉和语言线索生成FGVDs。随后,作者根据其独特性(b)和保真度(c)来评估生成内容的质量。

图像-重构图像保真度。 细粒度视觉描述(FGVDs)不仅是图像的紧凑表示,也是多模态任务中有效的跨模态接口表示(Zhu等人,2017)。因此,作者利用稳定扩散(Zhu等人,2017)来展现相应FGVD中隐藏的语义信息。这种转换表示为:

\tilde{\mathcal{I}}=\texttt{Diffusion}(\mathcal{I}) \tag{3}

随后,作者衡量原始图像

\mathcal{I}

和重构图像

\tilde{\mathcal{I}}

之间的相似性或距离

s(\mathcal{I},\tilde{\mathcal{I}})

,以量化通过FGVD压缩后视觉内容信息的保留程度。

4. Experiments

本节概述了作者的研究实施和实验。在4.1节中,作者描述了所使用的数据集,包括细粒度分类集和ImageNet1k,以评估LVLM在不同细节层次上的性能。作者在4.2节探讨独特性,在4.3节探讨保真度,最终在5.1节对幻觉问题进行了全面分析。在这里,作者评估了LVLM生成详细文本描述的能力,强调质量上的差异,并提供减少幻觉的可能解决方案的见解。

Datasets and Implementation Details

数据集。为了评估细粒度视觉描述(FGVDs)的质量,作者的研究包括了一系列在五个不同图像分类数据集上的全面实验,这些数据集涵盖了细粒度和大类别的目标。作者选择了CUB-200(Zhu等人,2017年)、Stanford Dogs(He等人,2016年)、Stanford Cars(He等人,2016年)以及Oxford 102 Flowers作为细粒度数据集。对于大类别的数据集,作者使用了特别策划的ImageNet1k(Deng等人,2009年)子集,训练集中每个类别10张图片,测试集中每个类别5张图片。关于数据集的更详细信息将在附录中详细介绍。所选的数据集,如CUB200和Stanford_Dogs数据集,是因为它们强调在密切相关类别之间细粒度的区分,这要求模型预测具有高度的视觉特异性和复杂性。这使得它们非常适合评估大型视觉-语言模型(LVLMs)生成的描述质量,这对于区分细微差别的类别提出了重大挑战。

值得注意的是,对于所有选定的数据集,作者都应用了训练/测试分割。具体来说,训练集被用作检索FGVDs的支持集,而测试集则保留用于评估。

实施细节。在作者的实验中,作者使用了三种大型视觉-语言模型:Open-Flamingo(Chen等人,2017年)配合ViT-L14视觉编码器,IDEFICS(Deng等人,2017年)和MiniGT-4(Zhu等人,2017年)。为了确保模型之间的一致性,参数被标准化,将束大小设置为3,长度惩罚设置为1.0。为了探索文本长度对性能的影响,最大生成长度被视为一个变量,研究它对生成的描述质量的影响。值得注意的是,作者的实验设置不需要额外的训练或微调,所有测试都使用了一块配备BF16加速的NVIDIA RTX 3090 GPU。对于从细粒度视觉描述(FGVDs)中提取特征,作者选择了由CLIP训练的文本编码器,并将其与Sentence-BERT和检索框架中使用的TF-IDF技术进行比较,具体细节在附录中说明。此外,作者的忠实度评估使用了稳定扩散模型1.4版(Deng等人,2017年)将LVLM生成的FGVDs重新转换为图像。

Distinctiveness Evaluation

在本节中,作者展示了评估框架在独特性方面的实验结果。作者采用零样本方法,并使用固定提示格式输入到每个大型视觉-语言模型中,重点关注局部视觉特征以强调图像的细节方面。提示模板结构如下:

“这张图像中[类别]的主要视觉特征是什么?”在这里,作者仅向提示中提供了一般类别,例如对CUB200提供“鸟”,对Stanford Dogs提供“狗”,而没有提供任何具体的示例。这种零样本设置使LVLM能够更多地关注图像的局部特征而非全局特征。

Open-Flamingo在独特性方面表现卓越但引入了额外知识;MiniGT-4保持稳定。 如图3所示,在用于评估模型独特性的三种方法中观察到了一致的趋势,Open-Flamingo模型在聚合的五个数据集上表现出卓越的性能。MiniGPT-4显示出适中的性能,而IDEFICS表现不佳。对生成的结果进行的详细分析显示,MiniGPT-4和IDEFICS倾向于产生结构良好的格式,描述与大多数数据集中的原始图像紧密匹配。然而,Open-Flamingo经常偏离直接生成图像中存在的标签,避免视觉描述,导致大型语言模型(LLM)引入了额外的、与类别相关的信息,这些信息并不严格忠实于原始图像。这种倾向,特别是在Stanford Dogs数据集上,增强了独特性,附录中对此有进一步的详细描述。相比之下,MiniGPT-4 巧妙地避免了这个问题,努力描述图像中实际描绘的内容。作者推测这是因为其训练阶段有效地对齐了文本和视觉特征。这一观察强调了作者确保更好对齐并在评估中重视忠实度的重要性。

LVLMs在数据集特定性能上有所不同。 这三个模型在CUB200数据集中的细粒度区分表现不佳,而且在IDEFICS和MiniGPT-4中处理Stanford Dogs数据集也遇到了困难。相比之下,这三个LVLMs在Stanford Cars数据集上的表现值得称赞。然而,像鸟类和狗这样的动物具有更高的种内相似性和细微的特征变化。特别是,动物所面临的挑战可能源于它们在姿态、环境和重叠特征方面的更大变化,这为LVLMs的细粒度分类任务带来了复杂性。作者发现,鸟类的主要描述特征集中在外观、喙和腹部等方面,而汽车则通过标志和车身易于识别的特征(如引擎盖、窗户和轮胎)进行区分,通常只需要品牌识别,无需识别具体的型号年份(例如,“Acura TL轿车2012”,LVLMs只需将其描述为Acura TL就能正确分类)。平均方法在ImageNet数据集上为所有模型带来了改进,这表明这种方法在不需要细粒度区分的数据集中更能有效地捕捉到大类差异。此外,作者在五个数据集上观察到的趋势与CLIP(Chen等人,2019年;Chen等人,2019年)在同一数据集上产生的分类得分非常吻合。这种平行性凸显了仅依赖文本输入进行分类的作者方法的效力。

Top-k揭示了LVLMs在分类独特性方面的不足 对于top-k方法,在不同

k

值下评估了独特性,其中

k\in(3,k_{max})

k_{max}

的设置基于每个测试数据集中每个类别的大约图像数量(例如,CUB200测试集平均每类30张图像,所以

k

的范围是从3到30)。结果显示,如图4所示,随着

k

接近

k_{max}

,区分倾向先增加后减少,这突显了模型在准确分类细粒度类别方面的性能不足。重要的是,在

k_{max}

时并没有达到最优的区分,这进一步显示了大型视觉语言模型在区分密切相关类别方面的局限性。

由上下文学习生成的描述。 在作者的实验中,作者还探索了多种配置,以增强细粒度视觉描述(FGVDs)的独特性,利用上下文学习(ICL)的能力,而不仅仅是依赖零样本方法。作者使用了诸如随机抽样(RS)、基于相似度的图像-图像检索(SIIR)(Zhu等人,2019)以及基于相似度的文本-文本检索(STTR)等方法,并结合来自GPT-4的高质量文本生成,来检验独特性方面的成果。具体来说,对于STTR方法,作者使用零样本框架生成了一个文本案例,然后在支持集中找出相似的描述。作者根据这些相似性构建了上下文示例(ICEs),这些示例帮助模型生成细粒度的视觉描述,其他详细的选择方法将在附录中展示。如表3所示,在使用RS、SIIR和STTR等方法中,辅助生成时使用上下文学习(ICL)导致了较差的结果。作者的分析表明,性能下降可以归因于使用了低质量的模型生成的细粒度视觉描述。使用低质量描述的ICL引发了一个损害整体结果的恶性循环。为了解决这个问题,作者融入了GPT-4(Devlin等人,2019)来生成高质量的FGVDs,在辅助LVLM生成时,显著提高了两个数据集上的结果。作者的结果表明,采用高质量的、长篇的、细粒度的视觉描述不仅提升了性能,还有助于减轻模型幻觉问题,这将在5.1节中进一步讨论。

Fidelity Evaluation

本节重点评估大型视觉-语言模型生成的细粒度视觉描述的忠实度。为此,在没有演示的情况下,用单个问题提示LVLMs,要求它们对图像的视觉内容进行全面理解。这迫使模型以文本格式表达视觉信息。所使用的统一提示是:

“这幅图像中的主要元素是什么,它们之间是如何互动或相互关联的?”

表1. 在五个数据集上使用CLIP-S度量(CLIP嵌入相似度)的图像-文本忠实度结果。

图4. 不同

k

值下的独特性结果

图3. 在五种不同独特性方法下,LVLMs的结果。

MiniGPT-4显示出更高的忠实度。 作者首先使用CLIP嵌入相似度(CLIP-S)指标进行分析,该指标衡量生成的FGVDs(细粒度视觉描述)与原始图像之间的语义相似度。如表1所示,由MiniGPT-4生成的FGVDs与其他两种模型生成的描述相比,显示出更高的忠实度。尽管受到之前研究(Zhu等人,2019年)中提到的CLIP嵌入空间中的模态差异的限制,但MiniGPT-4生成的描述在多个数据集上一致获得最高分数。

为了补充作者的定量发现并增强作者的忠实度评估的全面性,作者在实验中集成了人工评估。这种方法评估生成的FGVDs与相应原始图像之间的对齐程度,分配1到5的分数来表示逐渐增加的忠实度 Level 。评估还考虑了潜在的问题,如幻觉和引入外部知识。为此,作者随机选择了五个数据集中的20个FGVDs。图5显示了人工评估的结果,MiniGPT-4获得了最高分数。此外,由MiniGPT-4产生的具有高忠实度的FGVD数量显著超过了其他模型产生的数量,证明了其在保持文本-视觉对齐方面的优越性能。

图像重建放大了LVLM输出的差异。 作者进一步仔细检查了大型视觉语言模型(LVLMs)在生成过程中保留视觉信息的忠实度。利用Stable Diffusion,作者将生成的细粒度视觉描述(FGVDs)重新转换回重建的图像以进行彻底分析。为了评估忠实度,作者采用了结构相似性指数(SSIM)(Zhu等人,2019年)和CLIP嵌入相似度(CLIP-S-I),比较原始图像和重建图像。此外,还使用了Fréchet初始距离(FID)(He等人,2016年)来评估原始图像和重建图像之间的分布距离,这为文本作为中介有效保留视觉信息提供了见解。表2再次确认了MiniGPT-4在此复杂任务中的优越性能。在整个图像重建过程中,文本作为关键中介,适当地保留了忠实于原始图像的信息。然而,任何与原始图像不一致或忠实度低的元素在重建图像中被显著放大。这不仅增强了作者评估的效果,也揭示了LVLMs的限制和能力。如图6所示,由Open-Flamingo和IDEFICS重新生成的FGVDs与原始图像有显著差异,突出了产生忠实视觉表示的挑战。

5. Qualitative Results

  1. 定性结果部分的开头。

Hallucination Analysis

在彻底检查了LVLM生成的文本质量后,作者发现所有三个模型都或多或少存在幻觉问题。描述与原始图像不一致,这也是作者引入忠实度的原因之一,看看LVLM是否具有区分性,同时从另一个角度看是否具有忠实度。

LVLM展示非相关信息。 在作者的独特性实验中,作者观察到MiniGPT-4一致地产生与图像对齐的准确描述。相比之下,IDEFICS和Open-Flamingo经常生成清晰但与图像内容无关的文本。它们倾向于在句子开头过早地首先指定标签,导致内容与视觉信息不匹配。这种方法导致后续的描述变得完全混乱。例如,对应于“Otterhound”类别的描述是“空中特雷尔犬。照片来源:维基媒体共享。”在将提示修改为通过添加“它有”来增强视觉细节表示之后,这一点尤为明显,这有助于引导LVLM产生更多视觉代表性的输出。如图7所示,在此次引导前后的比较性能突显了Open-Flamingo在处理视觉信息方面的相对弱点,解释了它在斯坦福犬数据集上最初的优越性。总的来说,MiniGPT-4比IDEFICS和Open-Flamingo产生更稳定、质量更高的描述,这归功于其简化的架构,针对性的

表2. 在五个数据集上使用三种指标(即SSIM↑,FID↓,CLIP-S-I(CLIP嵌入相似度)↑)的图像重构图像忠实度实验结果。

图5. 评估LVLM生成描述的忠实度的人为主观评价结果。顶部:各种模型的平均分数。底部:每个模型的分数分布,从1到5。

表3. 使用上下文学习中的不同配置帮助LVLM生成。(130表示长度为30)对齐数据集,以及改进的训练方法,这些共同提高了准确性和减少了幻觉内容。

增加长度导致LVLM失去焦点和产生幻觉。 进一步分析后,作者观察到随着句子长度的增加,产生无意义输出的概率也在增加。作者评估了三个模型——Open-Flamingo、IDEFICS和MiniGPT-4,在保持长度惩罚参数恒定的情况下,最大长度从30到70不等。作者在图8中的发现表明,Open-Flamingo对这些长度变化不敏感,通常生成较短的文本。相比之下,IDEFICS和MiniGPT-4更有可能产生较长的文本,作者认为这是由于所利用的训练数据集不同(Kumar等人,2017年)。重要的是,虽然IDEFICS和MiniGPT-4在70的最大长度下都显示出独特性的降低,但性能趋势有所不同:IDEFICS在文本长度增加时,独特性持续下降,而MiniGPT-4在初期显示独特性有所提高,达到峰值后,随着长度接近70而最终下降。随着文本长度的增加,独特性的降低导致产生与图像内容不相关的内容的可能性更高,例如,生成的描述通常在最后包含“它在看相机”、“有一个蓝天”,然而,这与视觉特征不准确且不相关。作者认为这些结果揭示了LVLM的一个局限性:随着文本长度的增加,它们保持视觉连贯性的能力减弱。这个问题表明需要更好的训练方法来维持较长输出中的上下文。作者假设,对训练数据严格的后处理和人工验证对于实现这一点至关重要。

6. Conclusion and Limitations

在本文中,作者专注于探索使用作者提出的TRAC方法结合各种分析技术生成的文本描述的独特性和忠实度,这些文本描述来自于大型视觉-语言模型(LVLMs)。作者的分析显示,MiniGPT-4在生成细粒度描述方面表现出色,这是首次对LVLMs在这一领域生成独特且忠实文本的评估。这项工作丰富了多模态语言模型的研究,并确定了需要改进的关键领域,特别是在解决这些模型固有的幻觉问题上。然而,依赖于现有的文本编码器进行特征提取可能会限制作者的研究,因为CLIP嵌入以及其他当前的嵌入技术在一定程度上区分细粒度细节的能力有限,这影响了评估分数。此外,

图8. 不同长度下LVLMs生成细粒度文本的独特性。

图6. 三个大型视觉-语言模型(LVLMs)生成的细粒度视觉描述(FGVDs)的定性示例,以及它们相应的重建图像。生成的FGVDs中的幻觉用红色突出显示,以指示生成描述与实际图像内容之间的不一致。

图7. 描述中包含与不包含指导性指令的对比结果。

作者对单一稳定扩散模型的依赖也可能限制了作者的发现的泛化能力;未来的研究可以从测试不同类型的稳定扩散模型中受益,以验证和精炼作者的结果,作者计划改进作者的方法以在区分上获得更好的粒度,并探索使用作者的发现对LVLMs的新分类策略。

Appendix A Datasets

为了评估大型视觉-语言模型(LVLMs)生成的细粒度描述的独特性和保真度,作者选择了特定的细粒度图像数据集。这些数据集包括CUB-200、斯坦福狗、斯坦福汽车和牛津102种花卉。为了评估更通用的目标数据集的性能,作者从ImageNet中整理了一个子集,训练集每类10个样本,测试集每类5个样本。这些数据集的详细描述见表4。

Appendix B Comparison

为了减少不同文本编码器之间的差异对作者TRAC方法的影响,作者测试了CLIP和Sentence-BERT的文本编码器,甚至使用了TF-IDF统计方法来观察结果。如表5所示,经过仔细考虑,作者在这篇论文的实验中使用了由CLIP文本编码器生成的嵌入。

Appendix C Stanford Dog Poor Generation

作者对斯坦福狗数据集的分析显示,尽管大型视觉-语言模型(LVLMs)通常在生成独特描述方面表现良好,尤其是在OpenFlamingo中,但某些问题依然存在。详细检查表明,模型有时会生成奇怪的陈述并融入外部信息,如图9所示。值得注意的是,OpenFlamingo倾向于生成简短的描述,这可能会人为地提高其性能得分。相比之下,MiniGPT-4始终生成与图像视觉内容更为一致的描述,通过与相应图像的并排比较得到了证实。

Appendix D Human Evaluation for the Fidelity

表6:细粒度视觉描述忠实度的人类评估标准

作者通过让人类标注者将作者的模型在保留测试集上生成的描述与真实描述进行比较,来评估作者生成的描述的忠实度。标注者被要求根据以下方面,用四点量表对生成的描述进行评分:忠实度、一致性和准确性。

参考

[1].Exploring the Distinctiveness and Fidelity of the DescriptionsGenerated by Large Vision-Language Models.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩
即使音频和图像之间没有直接关系,也可以合理描述两者之间的可能关系,看图辨音讲故事也可以:
量子位
2023/09/08
5380
字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024/07/31
3140
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
H-POPE框架:探究大型视觉语言模型在属性赋予中的幻觉来源 !
近年来多模态模型的最新进展已经使得各种令人印象深刻的能力变得可行。例如,这些模型可以生成对给定图像的详尽描述,从而反映出对文本和视觉领域的理解。尽管它们取得了有前途的进展,但现有的模型通常会受到一种称为“幻觉”的现象的影响,这种现象不仅降低了模型的性能,而且引发了关于安全和可靠性的问题。为了理解和评估LVLMs中的幻觉,已经提出了几个基准测试。具体来说,《Caption Hallucination Assessment with Image Relevance》(CHAIR)[9] 表明,当要求提供对给定图像的准确描述时,这些模型的响应通常包括实际上不存在的物体[9]。此外,《Polling-based Object Probing Evaluation》(POPE)[5] 表明,这些模型倾向于确认图像中不存在的物体存在,如果它经常与其他图像中的物体共同出现。
AIGC 先锋科技
2024/12/25
1020
H-POPE框架:探究大型视觉语言模型在属性赋予中的幻觉来源 !
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
视觉语言模型(LVLMs)已经成为人工智能领域不可或缺的里程碑。这些由LVLMs模型自动生成的具有上下文相关性的文本描述可以广泛应用于各个领域,如图1所示,如医疗健康,自主系统机器人等。
AIGC 先锋科技
2024/09/25
1780
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
利用大视觉-语言模型(LVLM)来提高工业环境中异常检测和定位的效果 !
工业异常检测(IAD)在确保制造过程的质量和安全方面起着至关重要的作用,特别是在依赖自动化系统进行生产的行业中。识别工业系统中的异常或故障行为——无论是机械设备故障、材料缺陷还是工艺偏差——对于减少停机时间、降低运营成本并保证产品质量至关重要。近年来,大型多模态视觉语言模型(LVLMs)的出现为提升IAD的技术水平提供了前景。LVLMs结合了视觉理解和自然语言处理的能力,在涉及图像和文本数据的任务中展示了强大的能力[1,2]。LVLMs的双模态特性使其特别适用于工业异常检测,因为在这种场景下需要同时理解视觉模式和文本描述(例如缺陷报告、产品手册和机器日志)。
AIGC 先锋科技
2025/01/13
5120
利用大视觉-语言模型(LVLM)来提高工业环境中异常检测和定位的效果 !
多角度视频描述:FIOVA基准推动LVLMs向人类水平迈进 !
大型语言模型(LLM)在自然语言处理(NLP)领域取得了重大进展,在文本生成 和问答等任务上表现出色。在这些进展的基础上,大型视觉语言模型(LVLMs),包括GPT-4V 和LLaVA ,将LLM能力扩展到多模态领域。LVLMs在集成文本、图像和视频方面表现出色,在文本到视频生成和视频字幕(黄等,2024)等应用方面取得了显著进展。然而,评估LVLMs的真实能力仍然具有挑战性,因为传统的评估方法(通常基于文本匹配或嵌入距离)往往无法捕捉到人类对视频理解的细微差别。
AIGC 先锋科技
2024/12/09
1190
多角度视频描述:FIOVA基准推动LVLMs向人类水平迈进 !
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
尽管最近在理解和响应复杂视觉文本上下文中实现了大规模视觉语言模型(LVLMs)的突破,但它们固有的假象倾向限制了在需要高精度实际场景中的实际应用。
AIGC 先锋科技
2025/01/07
1330
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
Vary—提升LVLM的dense和细粒度视觉感知能力
论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models 项目主页:https://varybase.github.io/
孔西皮
2024/06/25
1860
Vary—提升LVLM的dense和细粒度视觉感知能力
多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因
在人工智能领域,融合多种模态的大规模模型已被广大研究者和业界视为发展的主流方向,也被认为是构建通用AI助手的核心组件。
新智元
2023/11/07
3320
多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。
AIGC 先锋科技
2025/02/20
1160
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
改进视觉-语言概念瓶颈模型中的概念匹配 !
概念瓶颈模型(CBM)[14]是构建具有高级概念的可解释模型的一种流行选择。这些模型首先将输入图像映射到一个低维的(因此有“瓶颈”一词)专家定义的概念空间,其中每个概念都可以被人类容易理解。例如,朱红捕蝇鸟这一鸟类物种可以有“红色身体”、“黑色翅膀”和“红色冠”等概念。然后,一个线性分类器在这些概念之上进行类别预测。构建CBM有两个基本要求:一个定义良好的、无歧义的概念集以及每个样本的相应概念标签。近期的方法[25, 46]通过利用大型语言模型(LLM)和视觉语言模型(VLM)来自动化上述步骤,并将CBM扩展到更大的数据集(如ImageNet)。它们通常涉及通过用少量样本提示LLM来生成一个初始概念集,然后提取那些有利于区分(分类)的概念子集。当图像和这个经过筛选的概念集3作为输入传递给经过对比预训练的VLM时,其图像-文本对齐分数作为该样本的“概念分数或概念标签”。这些概念标签可以用来训练另一个CBM分类器,或者直接用来预测类别,从而将VLM转变为CBM(从此处起称为VL-CBM)。尽管LLM拥有丰富的世界知识,并且可以在任何领域生成潜在的(大量)概念集,但在某些情况下,专家定义的概念更为合适。
AIGC 先锋科技
2024/08/19
2090
改进视觉-语言概念瓶颈模型中的概念匹配 !
西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
大型语言模型(LLMs)在AI领域迅速获得了 popularity ,展示了惊人的在各种自然语言任务上的能力。LLMs 强大的语言理解能力促使研究行人探索其在解决更广泛跨领域的任务中的实用性。因此,越来越多的研究专注于开发全面的 Large Visual-Language Models(LVLMs)以解决零样本设置下的视觉相关任务,特别是在视频理解方面。通用 Large Video-Language Models(LVidLMs)的追求将面临长期挑战。在此过程中,实现 LLMs 中固有的杰出理解、推理和生成能力的有效利用至关重要。
AIGC 先锋科技
2024/11/19
1640
西湖大学 & 苏大提出 PiTe  | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
大型视觉语言模型(LVLMs)引起了广泛关注。尽管性能优越,但现有研究主要关注提高LVLMs的有用性,而没有仔细考虑LVLMs生成的响应的可靠性。然而,最近的研究已经观察到LVLMs存在严重的错觉,即LVLMs可能会生成给定图像中不存在的信息,这可能是由于在视觉指令调优过程中训练不足导致的。图1(a)提供了一个典型的例子,其中LaVA[2]模型认为该位置很繁忙,仅仅因为它识别这是一个有几个人存在的地方的火车站。
AIGC 先锋科技
2024/11/25
1050
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐
核心作者包括顾纪豪,王瑛瑶。工作由淘天集团算法技术 - 未来生活实验室团队主要完成。为了建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果,淘天集团集中算力、数据和顶尖的技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。
机器之心
2025/02/03
960
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
最近,大型视觉-语言模型(LVLMs)取得了显著进展,在多种任务上展现了卓越的能力。然而,这些模型仍存在幻觉现象。具体来说,模型生成的文本内容与实际接收的视觉输入之间往往存在不匹配[25]。
AIGC 先锋科技
2024/08/05
1920
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
图像文本数据在各个领域的数量激增以及视觉语言建模的进步为生成式预训练领域的研究开辟了道路。这个创新时代以GPT-4(Achiam等人,2023)和Gemini(团队等人,2023)等多模态模型的涌现为标志。这些进步意味着作者在处理和理解复杂数据方面的能力向前跃进了一步。尽管取得了这些进展,但在医疗领域采用多模态大型语言模型(LLM)仍然有限。医疗领域对数据复杂性、敏感性和特定性的独特要求凸显了需要量身定制的办法来发挥LLM在转变医疗研究和实践中的潜力。已经推出了许多为医疗应用设计的模型,但它们通常针对特定任务表现出高度的专门化。这种专业化限制了它们的适应性,尤其是在执行多样化的医疗应用时。例如,像Med-Flamingo 和 XrayGPT(Thawkar等人,2023)这样的模型主要是为医疗报告生成和医疗视觉问题回答等任务而定制的。然而,它们在需要视觉定位技能的关键领域(医疗领域的至关重要组成部分)如疾病检测方面缺乏能力。为了弥补这一不足,作者推出了MiniGPT-Med,一个能够熟练处理定位和非定位任务的统一模型。作者推出了MiniGPT-Med,这是一个为医疗领域的各种任务而设计的多功能模型,包括但不限于医疗报告生成、医疗视觉问题回答和疾病识别。MiniGPT-Med建立在大型语言模型(LLM)的架构之上,这些模型已经展示了出色的生成能力和广泛的语文学,包括医学知识。借鉴LLM在广泛的视觉语言应用中的成功,如最近的Zhu等人(2023年);Chen等人(2023年);Li等人(2024年)的研究所示,作者的模型采用了类似于 MiniGPT-v2 的设计,使用LLaMA-2语言模型作为通用接口。此外,作者融入了不同的任务标识符,以提高模型准确执行各种医疗视觉语言技能的能力。通过广泛的实验,作者证明了作者的模型在医疗视觉语言任务范围内表现出强大的性能,包括医疗报告生成、医疗视觉问题回答和疾病检测。作者将作者的模型与专业化和通用化 Baseline 模型进行了基准测试,结果显示作者的方法在所有评估任务中取得了强大的成果。值得注意的是,在医疗报告生成领域,作者的模型达到了最先进的表现,BERT-Sim上超过最佳 Baseline 模型19%,CheXbert-Sim上超过5.2%。这表明作者的模型在多样化的医疗视觉语言任务上具有强大的生成能力。
AIGC 先锋科技
2024/07/20
7830
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
港科技 & 港中文 解密 CLIP 模型 Backbone 网络大小与虚假特征的关系!
大型视觉语言模型(LVLMs)能够将图像和文本表示对齐,以理解跨越前所未有的真实世界数据规模的图像中的普遍关系,这已经在现代机器学习中呈现出显著的范式转变。许多先进的LVLM作品,如CLIP、ALIGN、BASIC、Flamingo和BLIP,已经在广泛的视觉和多模态任务中展现出卓越的性能,大幅超过了传统的ImageNet训练模型。因此,LVLMs的巨大成功使得社区的焦点从ImageNet基准测试转向了如LAION这样的网络规模的多模态数据集。
AIGC 先锋科技
2024/07/08
3230
港科技 & 港中文 解密 CLIP 模型 Backbone 网络大小与虚假特征的关系!
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率处理图像,通常是,这限制了它们捕捉详细视觉信息的能力。这种局限性常常导致对图像中物体及其上下文关系的识别不准确[17; 41]。
AIGC 先锋科技
2024/07/31
3470
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024/11/11
2630
LLM 视觉语言模型在动作识别中是否有效?
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
近期大型语言模型(LLM)的进展显著提高了它们在各类自然语言处理任务中的性能。这些模型能够进行语言理解和逻辑推理,使它们能够处理复杂的语言功能,如总结文本、回答问题、处理对话以及撰写新的文章或论文。然而,LLM本质上受到无法处理视觉信息的限制。这导致了多模态大型语言模型(MLLM)的发展,它们在LLM的基础上集成了视觉处理能力。
AIGC 先锋科技
2024/07/31
2590
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
推荐阅读
字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩
5380
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
3140
H-POPE框架:探究大型视觉语言模型在属性赋予中的幻觉来源 !
1020
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
1780
利用大视觉-语言模型(LVLM)来提高工业环境中异常检测和定位的效果 !
5120
多角度视频描述:FIOVA基准推动LVLMs向人类水平迈进 !
1190
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
1330
Vary—提升LVLM的dense和细粒度视觉感知能力
1860
多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因
3320
多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !
1160
改进视觉-语言概念瓶颈模型中的概念匹配 !
2090
西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
1640
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
1050
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐
960
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
1920
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
7830
港科技 & 港中文 解密 CLIP 模型 Backbone 网络大小与虚假特征的关系!
3230
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
3470
LLM 视觉语言模型在动作识别中是否有效?
2630
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
2590
相关推荐
字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档