文章/答案/技术大牛

发布

社区首页 >专栏 >多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力！

多所高校联合揭秘 TRAC 框架 | 探索 LVLMs 在细粒度视觉描述生成中的潜力！

AIGC 先锋科技

发布于 2024-07-08 05:12:13

2270

文章被收录于专栏：AIGC 先锋科技AIGC 先锋科技

大型视觉-语言模型（LVLMs）因其处理和整合视觉与文本数据的能力而越来越受到关注。尽管它们很受欢迎，但LVLMs生成精确、细粒度文本描述的能力尚未被充分探索。本研究通过关注独特性和忠实度，评估了Open-Flamingo、IDEFICS和MiniGPT-4等模型区分相似物体并准确描述视觉特征的能力。作者提出了文本检索增强分类（TRAC）框架，利用其生成能力，使作者能够更深入地分析细粒度视觉描述生成。这项研究为LVLMs的生成质量提供了有价值的见解，增强了对多模态语言模型的理解。值得注意的是，MiniGPT-4在生成细粒度描述方面表现出色，在这方面超过了其他两个模型。代码可在https://anonymous.4open.science/r/Explore_FGVDs-E277获取。

1 Introduction

在他们的真实描述中提供了广泛的概述。特别是，它们在生成细粒度描述方面的效力受到其固有的简洁性、简单性和多目标关注性的显著限制。此外，传统的评估指标如BLEU 和 SPICE（Brocker等人，2016）不适合评估细粒度描述，因为它们过于依赖这些粗略的真实描述，缺乏必要的粒度。

这些限制突显了在评估LVLMs提供详细描述能力方面的一个关键缺口。为了解决上述问题，一些研究行人提出了CLIP分数作为传统n-gram基础指标的替代品。尽管它有一些优点，但CLIP分数仍然无法捕捉到细粒度的细微差别，因为CLIP模型的对比学习过程仍然依赖于图像和粗略的句子对。因此，它仍然是评估详细文本生成质量的不完美指标。这强调了需要重新评估方法并开发克服传统字幕数据集约束的细粒度文本生成见解，呼吁新的方法来更好地理解LVLM生成高质量视觉描述的能力。

在本文中，为了解决上述问题，作者提出了一个框架，从两个角度分析LVLM生成的FGVD的质量。作者关注“独特性”，因为LVLM有效地识别图像所属的广泛类别。这个方面是从细粒度的角度进行探索，以进一步理解和增强它们的能力。这是至关重要的，因为生成式LVLM与非生成式模型（如CLIP）相比具有比较优势，后者没有专门调整其输出以解决细粒度数据集内固有的复杂性。与早期严重依赖Microsoft COCO等字幕数据集的模型相比，当前的LVLM在描述的粒度上取得了显著的改进，这使得迫切需要用细粒度数据集评估生成描述的精确性和相关性。为了克服这些限制，本研究利用了特定类别的细粒度分类数据集（Brocker等人，2016），这些数据集与传统的字幕数据集不同。这些资源使作者可以评估LVLM生成文本在细粒度层面上有效区分类别的能力。作者检查这些模型生成描述的能力，通过精确识别和阐述密切相关视觉主题之间的细微差别，从而有效地区分不同的类别。然而，生成的描述可能不准确反映视觉内容，因此需要包含“忠实度”。忠实度从更粗粒度的视角评估，以确保生成的文本不仅有效区分，而且保持对原始图像的准确性和忠实性。这种平衡的方法——从独特性到忠实度，提高了作者对模型在细粒度文本生成这一复杂任务中的性能理解，强调了在评估过程中细粒度细节和整体准确性的重要性。

为了评估“独特性”，作者的方法从自然语言处理中的检索增强生成（RAG）框架（Krishnan等人，2017年）获得灵感。作者开发了一种名为“文本检索增强分类”（TRAC）的方法，该方法利用分类驱动的方法探索LVLMs如何在密切相关类别之间区分独特属性。首先，保留生成的描述的一个子集作为参考语料库，与测试描述进行比较。然后通过测量这些描述被正确标签分类的准确性来间接评估它们的独特性，这提供了一种衡量生成的FGVD独特性的方法。对于“保真度”，它包括两种方法：首先，应用CLIP嵌入相似性来评估图像与其文本输出之间的对齐，展示了直接的文本-图像关系；其次，采用稳定扩散模型将LVLM生成的FGVDs重新转换成图像，这一灵感来自于将文本视为有效的跨模态接口的概念（Steiner，1991年）。这允许通过图像到图像的比较来进行保真度评估。通过评估独特性和保真度，这种方法促进了对LVLM生成的细粒度视觉描述质量的综合分析，从而从几个关键角度捕捉到它们细微的能力和性能。

通过从多个角度检查使用LVLM生成详细图像描述的细微差别，本研究旨在加深对这些模型在创建细粒度视觉描述方面表现如何的理解。这种全面的分析探讨了描述生成的各个方面，突出了LVLM在此背景下的能力和局限性。本研究的贡献包括：

作者首次通过独特性和保真度评估LVLM生成的细粒度视觉描述的质量，丰富了多模态语言模型研究，并确定了系统改进的领域。
作者介绍了一种新颖的方法——文本检索增强分类（TRAC），该方法利用LVLM进行分类，受到RAG框架的启发。这种方法解决了与对比模型如CLIP相比LVLM的生成性质所提出的独特挑战。因此，它拓宽了LVLM的任务，并对其生成提供了新的见解。
作者确定了LVLM在生成详细FGVD时产生幻觉的条件。通过将高质量的GPT-4描述与上下文学习相结合，作者显著提高了LVLM生成更详细和准确文本的能力。

2. Related Works

计算机视觉领域在过去几十年里取得了显著进展，特别是在目标检测和识别领域。传统的目标检测方法，如Viola-Jones框架，无法扩展以处理大量物体类别。随着深度学习的出现，卷积神经网络（CNN）已经成为包括目标检测和识别在内的各种视觉任务的基础。近年来，提出了许多基于CNN的目标检测模型，如R-CNN、Fast R-CNN、Faster R-CNN、YOLO和SSD，这些模型极大地推动了目标检测性能的边界。

Generating Visual Descriptions

图像字幕生成（IC）是计算机视觉中的一个关键任务，涉及将图像转换为文本描述。传统上，许多字幕生成模型（Brocker等人，2016；Krizhevsky等人，2012；Salimans等人，2015）采用了编码器-解码器架构来实现高质量字幕的生成。近年来，通过对大型图像-文本对数据集上的模型进行广泛训练，并融合视觉与语言模态，取得了进展。诸如ClipCap（Steiner，2017）和BLIP（Krishnan等人，2017）等创新显著提高了对视觉内容的理解，从而增强了生成字幕的准确性和上下文相关性。

然而，这些模型生成的字幕通常只提供了图像的概览，缺乏具体性。另一方面，详尽的文本描述增强了对文本中视觉线索的理解，有利于如文本到图像生成等任务。这些详尽描述的生成，由这些工作（Zhu等人，2017；Wang等人，2018）开创，使用大型语言模型（LLM，例如GPT-3，GPT-4）有助于CLIP模型的零样本分类改进。尽管这些描述性质详尽，但由于缺乏直接的视觉参考，这些描述仍可能产生不准确之处，导致描述与实际描绘目标的特征在视觉上不一致。大型视觉语言模型（LVLM，例如Open-Flamingo（Chen等人，2018），MiniGPT-4（Chen等人，2018），IDEFICS（Xu等人，2018）的出现，利用丰富的外部视觉和语言知识，提供了生成更广泛和更详细文本的可能性。最近的一项研究（Han等人，2018）利用了这一潜力，使用LVLM为零样本野生动物种类识别生成细粒度的视觉描述。同样，作者的工作也使用LVLM，通过视觉和语言提示（即，精心设计的问题）来产生更细粒度的丰富和详细视觉描述。与之前的工作不同，作者的目标是通过精心设计的问题引导LVLM探索视觉内容的各种视角，这对于后续分析和评估这些生成描述至关重要。

Vision Language Models (VLMs)

视觉语言模型（VLMs）已成为人工智能研究的核心焦点。CLIP（Xu等人，2018年）通过使用对比方法并在4亿图像-标题对上进行预训练，有效地同步了视觉和语言领域，标志着关键性的发展。平行的发展，如ClipCap（Xu等人，2018年）和BLIP（Xu等人，2018年），改进了视觉连贯标题的生成。大型语言模型如GPT-3（Chen等人，2018年）和LLaMA（Xu等人，2018年）的出现促进了高级LVLMs的发展，这些模型利用大量的LLM知识通过跨模态的充分对齐深刻理解图像，并使用多样化的多模态数据集进行训练。模型如Open-Flamingo（Chen等人，2018年）和IDEFICS（Xu等人，2018年）通过感知器模块和交叉注意力技术实现这一点，而MiniGPT-4（Chen等人，2018年）则将投影层和Q-former与LLM集成，在可访问的数据集如LAION上进行训练。

Evaluation of Vision-Language Models (VLMs)

传统的视觉-语言模型（VLMs）评估主要关注它们理解和解释图像中视觉内容的能力。例如，图像字幕（IC）任务，它评估图像能够多准确被翻译成文本，通常使用如BLEU-4（Pennington等，1994）和CIDEr（Vaswani等，2017）这样的指标进行衡量。然而，随着VLMs规模的不断扩大，对其评估的范围也变得更加全面和健壮。近期的研究（Xu等，2018；Wang等，2018；Wang等，2018）为评估VLMs的发展做出了贡献，涵盖了视觉感知、理解和推理等方面。然而，在没有参考文本或答案的情况下，量化VLMs的评估标准仍然是一个重大挑战。尽管使用像GPT-4这样的模型进行自动化评估和人类手动评估在理论上都是可行的途径，但它们都伴随着相当大的成本。因此，本研究主要关注评估LVLMs生成的细粒度视觉描述，从而避免了需要GPT-4和对真实文本的参考。为此，作者利用公开可访问的模型，即CLIP，来评估生成的视觉描述的独特性和保真度。

3. Method

本节概述了一种系统方法，用于评估大型视觉-语言模型（LVLMs）生成详细视觉描述的能力。在第3.1节中，详细阐述了通过LVLMs生成细粒度视觉描述（FGVDs）的过程。接着，引入了一个双重策略框架，用于评估生成内容的质量，重点关注独特性（第3.2.1节）和忠实度（第3.2.2节）。图2展示了这一评估框架，便于深入探索LVLMs生成的FGVDs的质量。

Fine-Grained Visual Description Generation

细粒度的视觉描述是由LVLMs（例如，Open-Flamingo (Chen et al., 2018)）在视觉和文本线索的条件下产生的。与生成简单且广泛的描述的标题生成任务相比，作者的目标要求生成更精细、更微妙的文本描述。这需要设计特定的提示问题，旨在从模型中引出详细的描述。给定文本提示

\mathcal{P}

和图像

\mathcal{I}

，细粒度视觉描述生成的过程可以表述如下：

d=f_{\mathcal{M}}\left(\mathcal{I},\mathcal{P}\right) \tag{1}

其中

f_{\mathcal{M}}(\cdot)

表示LVLM

\mathcal{M}

的前向过程，

d=\{\hat{w_{1}},\ldots,\hat{w_{t}}\}

表示生成的单词序列，通过自动回归方式进行解码。对于零样本生成，

\mathcal{P}

表示一个精心设计的提示问题

\mathcal{Q}

，旨在引出显著或全局的描述。对于上下文学习设置，

\mathcal{I}

包括一个 Query 图像和一组演示图像。文本提示

\mathcal{P}

由几个交替出现的演示提示问题

和描述

组成。

Dual-Evaluation

双评价部分的开头。

3.2.1. Distinctiveness

为了评估LVLMs在区分不同类别方面的熟练程度，作者实施了一种基于检索的方法，名为TRAC。该方法涉及使用细粒度数据集的训练集来构建细粒度视觉描述（FGVDs）的支持集。这些描述是由LVLMs为预定的一组图像生成的，并通过文本编码器处理以提取嵌入，然后存储起来用于后续的检索任务。

TRAC过程。 令

D=\{d_{1},d_{2},\ldots,d_{n}\}

表示由LVLMs生成的FGVD集合，其中

是支持集中的图像数量。每个FGVD

d_{i}

对应于图像

I_{i}

，并与标签

y_{i}

相关联。从这些FGVD提取的嵌入表示为

\mathcal{E}=\{\mathbf{e_{1}},\mathbf{e_{2}},\ldots,\mathbf{e_{n}}\}

，其中

\mathbf{e_{i}}

是FGVD

d_{i}

的嵌入。

对于数据集的测试集，每个图像

\mathcal{I}_{\text{test}}

同样被处理以获得文本描述

d_{\text{test}}

，然后将其编码为嵌入c。这个嵌入用于通过余弦相似度从

\mathcal{E}

检索最相似的嵌入

\hat{\textbf{c}}

。与最相似嵌入

\hat{\textbf{c}}

3.2.2. Fidelity

除了评估生成的细粒度视觉描述（FGVDs）的独特性之外，评估它们的保真度也是至关重要的，即这些描述在视觉上与原始图像的一致程度。仅依赖独特性可能会导致描述虽然独特，但包含外部甚至不相关信息，从而与源图像的实际视觉内容相差甚远。另一方面，FGVDs作为图像视觉内容的简洁表示，由成千上万的像素组成，包含大量冗余信息。文本描述提供了一种有效压缩这种视觉信息的方法。确定这些描述在多大程度上保留了原始视觉信息对于确保文本表示的质量至关重要。为此，作者采用两种策略来研究这种保真度：

图像-文本保真度。 类似于CLIP-score（Kumar等人，2017）的方法，作者使用嵌入相似度

s(\mathcal{I},d)

来衡量输入图像

\mathcal{I}

和生成的细粒度视觉描述（FGVD）

之间的对齐。

图2. 评估大型视觉-语言模型（LVLMs）生成的细粒度视觉描述（FGVDs）质量的框架概述。在FGVD生成阶段（a），通过结合视觉和语言线索生成FGVDs。随后，作者根据其独特性（b）和保真度（c）来评估生成内容的质量。

图像-重构图像保真度。 细粒度视觉描述（FGVDs）不仅是图像的紧凑表示，也是多模态任务中有效的跨模态接口表示（Zhu等人，2017）。因此，作者利用稳定扩散（Zhu等人，2017）来展现相应FGVD中隐藏的语义信息。这种转换表示为：

\tilde{\mathcal{I}}=\texttt{Diffusion}(\mathcal{I}) \tag{3}

随后，作者衡量原始图像

\mathcal{I}

和重构图像

\tilde{\mathcal{I}}

之间的相似性或距离

s(\mathcal{I},\tilde{\mathcal{I}})

，以量化通过FGVD压缩后视觉内容信息的保留程度。

4. Experiments

本节概述了作者的研究实施和实验。在4.1节中，作者描述了所使用的数据集，包括细粒度分类集和ImageNet1k，以评估LVLM在不同细节层次上的性能。作者在4.2节探讨独特性，在4.3节探讨保真度，最终在5.1节对幻觉问题进行了全面分析。在这里，作者评估了LVLM生成详细文本描述的能力，强调质量上的差异，并提供减少幻觉的可能解决方案的见解。

Datasets and Implementation Details

数据集。为了评估细粒度视觉描述（FGVDs）的质量，作者的研究包括了一系列在五个不同图像分类数据集上的全面实验，这些数据集涵盖了细粒度和大类别的目标。作者选择了CUB-200（Zhu等人，2017年）、Stanford Dogs（He等人，2016年）、Stanford Cars（He等人，2016年）以及Oxford 102 Flowers作为细粒度数据集。对于大类别的数据集，作者使用了特别策划的ImageNet1k（Deng等人，2009年）子集，训练集中每个类别10张图片，测试集中每个类别5张图片。关于数据集的更详细信息将在附录中详细介绍。所选的数据集，如CUB200和Stanford_Dogs数据集，是因为它们强调在密切相关类别之间细粒度的区分，这要求模型预测具有高度的视觉特异性和复杂性。这使得它们非常适合评估大型视觉-语言模型（LVLMs）生成的描述质量，这对于区分细微差别的类别提出了重大挑战。

值得注意的是，对于所有选定的数据集，作者都应用了训练/测试分割。具体来说，训练集被用作检索FGVDs的支持集，而测试集则保留用于评估。

实施细节。在作者的实验中，作者使用了三种大型视觉-语言模型：Open-Flamingo（Chen等人，2017年）配合ViT-L14视觉编码器，IDEFICS（Deng等人，2017年）和MiniGT-4（Zhu等人，2017年）。为了确保模型之间的一致性，参数被标准化，将束大小设置为3，长度惩罚设置为1.0。为了探索文本长度对性能的影响，最大生成长度被视为一个变量，研究它对生成的描述质量的影响。值得注意的是，作者的实验设置不需要额外的训练或微调，所有测试都使用了一块配备BF16加速的NVIDIA RTX 3090 GPU。对于从细粒度视觉描述（FGVDs）中提取特征，作者选择了由CLIP训练的文本编码器，并将其与Sentence-BERT和检索框架中使用的TF-IDF技术进行比较，具体细节在附录中说明。此外，作者的忠实度评估使用了稳定扩散模型1.4版（Deng等人，2017年）将LVLM生成的FGVDs重新转换为图像。

Distinctiveness Evaluation

在本节中，作者展示了评估框架在独特性方面的实验结果。作者采用零样本方法，并使用固定提示格式输入到每个大型视觉-语言模型中，重点关注局部视觉特征以强调图像的细节方面。提示模板结构如下：

“这张图像中[类别]的主要视觉特征是什么？”在这里，作者仅向提示中提供了一般类别，例如对CUB200提供“鸟”，对Stanford Dogs提供“狗”，而没有提供任何具体的示例。这种零样本设置使LVLM能够更多地关注图像的局部特征而非全局特征。

Open-Flamingo在独特性方面表现卓越但引入了额外知识；MiniGT-4保持稳定。 如图3所示，在用于评估模型独特性的三种方法中观察到了一致的趋势，Open-Flamingo模型在聚合的五个数据集上表现出卓越的性能。MiniGPT-4显示出适中的性能，而IDEFICS表现不佳。对生成的结果进行的详细分析显示，MiniGPT-4和IDEFICS倾向于产生结构良好的格式，描述与大多数数据集中的原始图像紧密匹配。然而，Open-Flamingo经常偏离直接生成图像中存在的标签，避免视觉描述，导致大型语言模型（LLM）引入了额外的、与类别相关的信息，这些信息并不严格忠实于原始图像。这种倾向，特别是在Stanford Dogs数据集上，增强了独特性，附录中对此有进一步的详细描述。相比之下，MiniGPT-4 巧妙地避免了这个问题，努力描述图像中实际描绘的内容。作者推测这是因为其训练阶段有效地对齐了文本和视觉特征。这一观察强调了作者确保更好对齐并在评估中重视忠实度的重要性。

LVLMs在数据集特定性能上有所不同。 这三个模型在CUB200数据集中的细粒度区分表现不佳，而且在IDEFICS和MiniGPT-4中处理Stanford Dogs数据集也遇到了困难。相比之下，这三个LVLMs在Stanford Cars数据集上的表现值得称赞。然而，像鸟类和狗这样的动物具有更高的种内相似性和细微的特征变化。特别是，动物所面临的挑战可能源于它们在姿态、环境和重叠特征方面的更大变化，这为LVLMs的细粒度分类任务带来了复杂性。作者发现，鸟类的主要描述特征集中在外观、喙和腹部等方面，而汽车则通过标志和车身易于识别的特征（如引擎盖、窗户和轮胎）进行区分，通常只需要品牌识别，无需识别具体的型号年份（例如，“Acura TL轿车2012”，LVLMs只需将其描述为Acura TL就能正确分类）。平均方法在ImageNet数据集上为所有模型带来了改进，这表明这种方法在不需要细粒度区分的数据集中更能有效地捕捉到大类差异。此外，作者在五个数据集上观察到的趋势与CLIP（Chen等人，2019年；Chen等人，2019年）在同一数据集上产生的分类得分非常吻合。这种平行性凸显了仅依赖文本输入进行分类的作者方法的效力。

Top-k揭示了LVLMs在分类独特性方面的不足 对于top-k方法，在不同

值下评估了独特性，其中

k\in(3,k_{max})

。

k_{max}

的设置基于每个测试数据集中每个类别的大约图像数量（例如，CUB200测试集平均每类30张图像，所以

的范围是从3到30）。结果显示，如图4所示，随着

接近

k_{max}

，区分倾向先增加后减少，这突显了模型在准确分类细粒度类别方面的性能不足。重要的是，在

k_{max}

时并没有达到最优的区分，这进一步显示了大型视觉语言模型在区分密切相关类别方面的局限性。

由上下文学习生成的描述。 在作者的实验中，作者还探索了多种配置，以增强细粒度视觉描述（FGVDs）的独特性，利用上下文学习（ICL）的能力，而不仅仅是依赖零样本方法。作者使用了诸如随机抽样（RS）、基于相似度的图像-图像检索（SIIR）（Zhu等人，2019）以及基于相似度的文本-文本检索（STTR）等方法，并结合来自GPT-4的高质量文本生成，来检验独特性方面的成果。具体来说，对于STTR方法，作者使用零样本框架生成了一个文本案例，然后在支持集中找出相似的描述。作者根据这些相似性构建了上下文示例（ICEs），这些示例帮助模型生成细粒度的视觉描述，其他详细的选择方法将在附录中展示。如表3所示，在使用RS、SIIR和STTR等方法中，辅助生成时使用上下文学习（ICL）导致了较差的结果。作者的分析表明，性能下降可以归因于使用了低质量的模型生成的细粒度视觉描述。使用低质量描述的ICL引发了一个损害整体结果的恶性循环。为了解决这个问题，作者融入了GPT-4（Devlin等人，2019）来生成高质量的FGVDs，在辅助LVLM生成时，显著提高了两个数据集上的结果。作者的结果表明，采用高质量的、长篇的、细粒度的视觉描述不仅提升了性能，还有助于减轻模型幻觉问题，这将在5.1节中进一步讨论。

Fidelity Evaluation

本节重点评估大型视觉-语言模型生成的细粒度视觉描述的忠实度。为此，在没有演示的情况下，用单个问题提示LVLMs，要求它们对图像的视觉内容进行全面理解。这迫使模型以文本格式表达视觉信息。所使用的统一提示是：

“这幅图像中的主要元素是什么，它们之间是如何互动或相互关联的？”

表1. 在五个数据集上使用CLIP-S度量（CLIP嵌入相似度）的图像-文本忠实度结果。

图4. 不同

值下的独特性结果

图3. 在五种不同独特性方法下，LVLMs的结果。

MiniGPT-4显示出更高的忠实度。 作者首先使用CLIP嵌入相似度（CLIP-S）指标进行分析，该指标衡量生成的FGVDs（细粒度视觉描述）与原始图像之间的语义相似度。如表1所示，由MiniGPT-4生成的FGVDs与其他两种模型生成的描述相比，显示出更高的忠实度。尽管受到之前研究（Zhu等人，2019年）中提到的CLIP嵌入空间中的模态差异的限制，但MiniGPT-4生成的描述在多个数据集上一致获得最高分数。

为了补充作者的定量发现并增强作者的忠实度评估的全面性，作者在实验中集成了人工评估。这种方法评估生成的FGVDs与相应原始图像之间的对齐程度，分配1到5的分数来表示逐渐增加的忠实度 Level 。评估还考虑了潜在的问题，如幻觉和引入外部知识。为此，作者随机选择了五个数据集中的20个FGVDs。图5显示了人工评估的结果，MiniGPT-4获得了最高分数。此外，由MiniGPT-4产生的具有高忠实度的FGVD数量显著超过了其他模型产生的数量，证明了其在保持文本-视觉对齐方面的优越性能。

图像重建放大了LVLM输出的差异。 作者进一步仔细检查了大型视觉语言模型（LVLMs）在生成过程中保留视觉信息的忠实度。利用Stable Diffusion，作者将生成的细粒度视觉描述（FGVDs）重新转换回重建的图像以进行彻底分析。为了评估忠实度，作者采用了结构相似性指数（SSIM）（Zhu等人，2019年）和CLIP嵌入相似度（CLIP-S-I），比较原始图像和重建图像。此外，还使用了Fréchet初始距离（FID）（He等人，2016年）来评估原始图像和重建图像之间的分布距离，这为文本作为中介有效保留视觉信息提供了见解。表2再次确认了MiniGPT-4在此复杂任务中的优越性能。在整个图像重建过程中，文本作为关键中介，适当地保留了忠实于原始图像的信息。然而，任何与原始图像不一致或忠实度低的元素在重建图像中被显著放大。这不仅增强了作者评估的效果，也揭示了LVLMs的限制和能力。如图6所示，由Open-Flamingo和IDEFICS重新生成的FGVDs与原始图像有显著差异，突出了产生忠实视觉表示的挑战。

5. Qualitative Results

定性结果部分的开头。

Hallucination Analysis

在彻底检查了LVLM生成的文本质量后，作者发现所有三个模型都或多或少存在幻觉问题。描述与原始图像不一致，这也是作者引入忠实度的原因之一，看看LVLM是否具有区分性，同时从另一个角度看是否具有忠实度。

LVLM展示非相关信息。 在作者的独特性实验中，作者观察到MiniGPT-4一致地产生与图像对齐的准确描述。相比之下，IDEFICS和Open-Flamingo经常生成清晰但与图像内容无关的文本。它们倾向于在句子开头过早地首先指定标签，导致内容与视觉信息不匹配。这种方法导致后续的描述变得完全混乱。例如，对应于“Otterhound”类别的描述是“空中特雷尔犬。照片来源：维基媒体共享。”在将提示修改为通过添加“它有”来增强视觉细节表示之后，这一点尤为明显，这有助于引导LVLM产生更多视觉代表性的输出。如图7所示，在此次引导前后的比较性能突显了Open-Flamingo在处理视觉信息方面的相对弱点，解释了它在斯坦福犬数据集上最初的优越性。总的来说，MiniGPT-4比IDEFICS和Open-Flamingo产生更稳定、质量更高的描述，这归功于其简化的架构，针对性的

表2. 在五个数据集上使用三种指标（即SSIM↑，FID↓，CLIP-S-I（CLIP嵌入相似度）↑）的图像重构图像忠实度实验结果。

图5. 评估LVLM生成描述的忠实度的人为主观评价结果。顶部：各种模型的平均分数。底部：每个模型的分数分布，从1到5。

表3. 使用上下文学习中的不同配置帮助LVLM生成。（130表示长度为30）对齐数据集，以及改进的训练方法，这些共同提高了准确性和减少了幻觉内容。

增加长度导致LVLM失去焦点和产生幻觉。 进一步分析后，作者观察到随着句子长度的增加，产生无意义输出的概率也在增加。作者评估了三个模型——Open-Flamingo、IDEFICS和MiniGPT-4，在保持长度惩罚参数恒定的情况下，最大长度从30到70不等。作者在图8中的发现表明，Open-Flamingo对这些长度变化不敏感，通常生成较短的文本。相比之下，IDEFICS和MiniGPT-4更有可能产生较长的文本，作者认为这是由于所利用的训练数据集不同（Kumar等人，2017年）。重要的是，虽然IDEFICS和MiniGPT-4在70的最大长度下都显示出独特性的降低，但性能趋势有所不同：IDEFICS在文本长度增加时，独特性持续下降，而MiniGPT-4在初期显示独特性有所提高，达到峰值后，随着长度接近70而最终下降。随着文本长度的增加，独特性的降低导致产生与图像内容不相关的内容的可能性更高，例如，生成的描述通常在最后包含“它在看相机”、“有一个蓝天”，然而，这与视觉特征不准确且不相关。作者认为这些结果揭示了LVLM的一个局限性：随着文本长度的增加，它们保持视觉连贯性的能力减弱。这个问题表明需要更好的训练方法来维持较长输出中的上下文。作者假设，对训练数据严格的后处理和人工验证对于实现这一点至关重要。

6. Conclusion and Limitations

在本文中，作者专注于探索使用作者提出的TRAC方法结合各种分析技术生成的文本描述的独特性和忠实度，这些文本描述来自于大型视觉-语言模型（LVLMs）。作者的分析显示，MiniGPT-4在生成细粒度描述方面表现出色，这是首次对LVLMs在这一领域生成独特且忠实文本的评估。这项工作丰富了多模态语言模型的研究，并确定了需要改进的关键领域，特别是在解决这些模型固有的幻觉问题上。然而，依赖于现有的文本编码器进行特征提取可能会限制作者的研究，因为CLIP嵌入以及其他当前的嵌入技术在一定程度上区分细粒度细节的能力有限，这影响了评估分数。此外，

图8. 不同长度下LVLMs生成细粒度文本的独特性。

图6. 三个大型视觉-语言模型（LVLMs）生成的细粒度视觉描述（FGVDs）的定性示例，以及它们相应的重建图像。生成的FGVDs中的幻觉用红色突出显示，以指示生成描述与实际图像内容之间的不一致。

图7. 描述中包含与不包含指导性指令的对比结果。

作者对单一稳定扩散模型的依赖也可能限制了作者的发现的泛化能力；未来的研究可以从测试不同类型的稳定扩散模型中受益，以验证和精炼作者的结果，作者计划改进作者的方法以在区分上获得更好的粒度，并探索使用作者的发现对LVLMs的新分类策略。

Appendix A Datasets

为了评估大型视觉-语言模型（LVLMs）生成的细粒度描述的独特性和保真度，作者选择了特定的细粒度图像数据集。这些数据集包括CUB-200、斯坦福狗、斯坦福汽车和牛津102种花卉。为了评估更通用的目标数据集的性能，作者从ImageNet中整理了一个子集，训练集每类10个样本，测试集每类5个样本。这些数据集的详细描述见表4。

Appendix B Comparison

为了减少不同文本编码器之间的差异对作者TRAC方法的影响，作者测试了CLIP和Sentence-BERT的文本编码器，甚至使用了TF-IDF统计方法来观察结果。如表5所示，经过仔细考虑，作者在这篇论文的实验中使用了由CLIP文本编码器生成的嵌入。

Appendix C Stanford Dog Poor Generation

作者对斯坦福狗数据集的分析显示，尽管大型视觉-语言模型（LVLMs）通常在生成独特描述方面表现良好，尤其是在OpenFlamingo中，但某些问题依然存在。详细检查表明，模型有时会生成奇怪的陈述并融入外部信息，如图9所示。值得注意的是，OpenFlamingo倾向于生成简短的描述，这可能会人为地提高其性能得分。相比之下，MiniGPT-4始终生成与图像视觉内容更为一致的描述，通过与相应图像的并排比较得到了证实。