大型语言模型(LLM)的出现显著改变了AI革命的轨迹。然而,这些LLM主要擅长处理文本信息,这是一个显著的局限性。为了解决这一限制,研究行人努力将视觉能力与LLM相结合,产生了视觉-语言模型(VLM)。 这些先进的模型对于处理更复杂任务(如图像字幕和视觉问题回答)至关重要。在本文的全面调查中,作者深入探讨了VLM领域的关键进展。作者的分类将VLM分为三个不同的类别:专注于视觉-语言理解的模型,处理多模态输入以生成单模态(文本)输出的模型,以及既接受又生成多模态输入和输出的模型。 这种分类基于它们在处理和生成不同模态数据的能力和功能。作者仔细剖析了每个模型,尽可能地提供了对其基础架构、训练数据来源以及其优点和局限性的广泛分析,使读者能够全面了解其基本组成部分。 作者还分析了VLM在各种基准数据集上的性能。通过这样做,作者旨在为VLM的多样化景观提供细致的理解。此外,作者还强调了这一动态领域未来研究的潜在途径,期待进一步的突破和进步。
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
自然智能在处理跨多个模态的信息方面表现出色,包括书面和口头语言、图像的视觉解读以及视频的理解。这种天生的能力,能够无缝整合不同的感官输入,使人类能够应对现实世界的复杂性。为了使人工智能模仿类似人类的认知功能,它同样必须接受多模态数据处理。这一要求不仅是技术性的,而且对于提供AI系统在现实场景中的情境感知和适应性来说是必不可少的。
为了应对这些限制,研究行人开创了一类尖端的神经模型,称为视觉-语言模型(VLM)。这些模型精细地结合视觉和文本信息,在理解和生成涉及图像和文本的内容方面表现出卓越的能力。VLM设计用于在如图像标注、响应视觉 Query 以及基于文本描述生成图像等任务中表现出多功能性。它们在视觉和语言模态之间的无缝整合,使它们处于技术发展的最前沿,能够以前所未有的熟练度处理图像和文本之间的复杂互动。
近期,主要研究实验室一直在持续推出创新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。像GPT-4(V)和Gemini这样的例子展示了聊天机器人在VLM领域的进化。值得注意的是,并非所有的多模态模型都是VLM;例如,像Midjourney和DALL-E[12]这样的文本到图像模型缺乏语言生成组件,突显了多模态AI领域的多样化景观。VLM的一般架构包括图像和文本编码器以生成嵌入,然后通过图像-文本融合层融合这些嵌入,并且这个融合后的向量通过LLM生成最终的有视觉感知的生成文本。VLM的工作原理如图-2所示。
在这篇调查论文中,作者根据VLM的输入处理和输出生成能力将其分为三个不同的组别:视觉-语言模型、多模态输入文本生成模型以及最先进的多模态输入-多模态输出模型。后续章节深入解释了每个类别的详细内容,阐明了这些不同VLM框架的细微功能和能力。
这一领域的近期调查如[24]主要探索了用于开发多模态模型的各种预训练技术和数据集,[23]探索了训练各种多模态语言模型的关键技术。[25]提供了多模态语言模型的实际应用和使用指导。最 近的一篇由[13]深入覆盖了大约26个最近的VLM。与之前的调查相比,没有一个系统地根据VLM的输入处理和输出生成能力对视觉-语言模型(VLM)进行分类。作者的调查通过提供对VLM的彻底分类来解决这一差距,揭示了它们功能的复杂性。作者广泛分析了不同的VLM在基准数据集上的表现,特别是包括最新的MME基准,提供了全面的见解。作者的调查代表了迄今为止最全面和最新的VLM汇编,涵盖了大约70个模型。它作为用户在视觉-语言模型不断发展的领域中导航的终极指南,提供了在这一开创性研究领域最当前和全面的见解。
在这一部分,作者对视觉-语言模型(VLMs)进行了全面的研究,将它们分为三个总体的类别:
CLIP[17]:由OpenAI提出的CLIP是一种通过自然语言指导掌握视觉概念的神经网络。它在各种基准测试中无缝识别视觉类别,反映出与GPT驱动模型相似的“零样本”能力。通过扩展基本的对比预训练任务,它在不同的图像分类数据集上达到了竞争性的零样本性能。在分类任务上,CLIP通常比经过微调的深度学习视觉模型表现得更加稳健。尽管CLIP在常见物体识别上表现出色,但在抽象任务、细粒度分类、泛化和对词语的敏感性方面存在困难。
AlphaCLIP[26]:该模型是CLIP的升级版,通过加入alpha通道指示注意力区域,增强了感知能力。Alpha-CLIP在保持CLIP识别准确性的同时关注特定区域,使用扩展的 Pipeline 。它作为各种应用的可视化 Backbone 网络,擅长于关注特定区域,但在处理多个物体和注意力幅度规格上面临挑战。
MetaCLIP[27]:CLIP的成功在于其数据,而不仅仅是模型或预训练目标。为了解决有限数据透明度的问题,推出了MetaCLIP,它使用CLIP概念的元数据来完善原始数据池,在包含40亿图像-文本对的CommonCrawl基准测试上超过了CLIP。
GLIP[18]:受到CLIP的启发,GLIP对语言-图像表示进行对比预训练,通过短语接地强调目标 Level 的对齐。它将目标检测重新定义为视觉-语言任务,并使用深度融合来改善表示。GLIP在富含语义的数据上进行可扩展的预训练,能够自动生成接地框,并在图像字幕任务上超越CLIP等 Baseline ,并在下游目标检测任务中与完全监督的动态头竞争。
VLMO[1]:Vilmo同时学习双重编码器和融合编码器,使用模块化Transformer网络。该模型采用混合模态专家(MOME)Transformer,在每个块中包含模态特定专家和一个共享的自注意力层,提供了显著的建模灵活性。Vilmo可以作为一个融合编码器在视觉-语言分类任务上进行熟练的微调,或作为双重编码器用于有效的图像-文本检索,突显其多功能性。所提出的分阶段预训练策略最大化利用大规模图像独立数据和文本独立数据以及图像-文本对,在视觉-语言任务上,如视觉问答(VQA)和图像检索,取得了最先进的表现。
ImageBind[1]:该模型通过将各种模态的嵌入与图像嵌入对齐,利用不同的配对数据源学习共享表示空间。它实现了跨模态的零样本识别,利用网页级图像-文本数据和大规模视觉-语言模型如CLIP。这种方法在不同任务和模态的应用中只需进行最少量的训练。ImageBind利用大规模图像-文本对和各种模态(音频、深度、热成像、IMU)的自然配对自监督数据,实现了强大的零样本分类和检索性能。它在音频基准测试上超越了专业模型,并在组合任务中展示了其多用途性。进一步的改进包括更丰富的对齐数据和为特定任务调整嵌入。
VideoCLIP[23]:VideoCLIP专注于预训练一个统一模型,用于无需依赖下游任务标签的零样本视频和文本理解。它使用对比学习框架,带有硬检索的负样本和重叠的正样本进行视频-文本预训练。关键创新包括松散时间重叠的正样本对和基于检索的负样本抽样技术。该方法使用对比损失,并融合重叠的视频-文本剪辑以改善关联。它在各种端任务上进行评估,展示了在Youcook2[16]等视频语言数据集上的最先进性能。这种方法在零样本视频-文本理解方面取得了显著进展,在某些情况下甚至超过了以前的工作和监督方法。
VideoMAE[12]:VideoMAE是一种挑战大规模数据集需求的自我监督视频预训练方法。它采用了 Mask 自动编码器框架,并具有独特的视频管 Mask 策略,在小数据集(3k-4k视频)上实现了数据效率。它使用联合空间-时间注意力的视觉Transformer,与传统的空间证明方法相比,在效率和能力上表现出优势。VideoMAE在下游任务(如动作检测)上表现出色,并有望通过数据集扩展和整合其他数据流进行改进。论文承认了预训练过程中的能源消耗问题,但强调在数据可用性有限的情况下VideoMAE的实际价值。
GPT-4V[1]:GPT-4V代表了一次显著的进步,它允许用户指导GPT-4分析图像输入。OpenAI对GPT-4V进行了广泛的安全评估和准备工作,建立在为GPT-4所做的安全工作的基础上。训练过程涉及预测文档中的下一个单词,利用大量的文本和图像数据集。GPT-4V继承了文本和视觉能力,并在它们的交叉领域展现了新颖特性。系统卡片概述了OpenAI在广泛发布之前的准备工作、早期访问期、安全评估、红队评估和实施的缓解措施。
LLaVA[15]:该段落描述了LLaVA,一个开源的多模态框架,旨在增强LLM对语言和图像的理解能力。它利用纯文本GPT-4为多模态环境中的指令跟随任务生成数据。LLaVA将来自CLIP的视觉编码器与LLM整合,使其能够处理视觉信息和语言。该模型在图像-文本对上进行预训练,并在端到端多模态理解上进行微调,从而产生了一个多功能的聊天机器人。早期实验显示了LLaVA的出色表现,在合成指令跟随数据集上相对于GPT-4达到了85.1%的相对分数,并且在与GPT-4结合时在Science QA任务上达到了92.53%的新最佳准确率。
图2:VLM架构的高层次概览,突出显示各种设计选择及相应示例。
Flamingo[1]:Flamingo引入了新颖的架构特性,以无缝整合仅视觉和仅语言的模型。通过结合交叉注意力层与冻结的语言自注意力层,Flamingo擅长处理混合视觉和文本数据的序列。它采用了基于Perceiver的架构将输入序列数据(如视频)转换为固定的一组视觉标记。利用包含交织文本和图像的大型多模态网络数据,Flamingo在多个基准测试中展示了卓越的少样本学习能力,超越了在更多特定任务数据上微调的模型。这展示了它快速适应有限示例的多样化图像和视频理解任务的适应性和效率。OpenFlamingo是一个正在进行的倡议,旨在创建DeepMind的Flamingo模型的开放源代码版本。在七个视觉-语言数据集上,OpenFlamingo模型始终达到Flamingo模型80%至89%的性能水平。基于OpenFlamingo-9B的Med-Flamingo[14](2023年)在生成式医学视觉问答上取得了高达20%的改进。它开创了这一领域的真人评估,涉及临床医生进行交互式评估,并支持生成推理等应用。
PALM-E[17]:PALM-E作为一个创新的具身多模态语言模型出现,它精心设计以通过融合语言理解与连续的传感器输入来导航现实世界场景。这个模型是柏林工业大学和谷歌研究合作努力的结果,标志着多模态AI领域的一个关键进步。它将现实世界的连续传感器模态整合到语言模型中,用预训练的大型语言模型端到端地训练多模态句子。该模型成功处理了多个具身任务,包括机器人操纵规划、视觉问答和字幕生成。拥有5620亿参数的最大模型PaLM-E,在具身推理任务和多模态语言领域(如OK-VQA)上展示了最先进的表现。该模型在多模态句子上操作,展示了从视觉-语言领域向具身推理任务的知识传递,强调了其多功能性和可扩展性。PaLM-E在依赖低级语言条件策略的机器人任务上面临局限性,这促使提出了自监督的以实体为中心的标签,以增强在复杂任务中的指导。
BLIP[12]:BLIP是一种新颖的视觉-语言预训练(VLP)框架,它超越了现有模型,在理解和生成任务上都表现出色,解决了噪声训练的限制。BLIP引入了多模态编码器-解码器混合(MED)架构,利用图像-文本对比(ITC)、图像-文本匹配(ITM)和语言建模(LM)目标进行预训练。标题过滤(CapFilt)提升了数据质量,改进了下游任务性能。BLIP在PyTorch中实现,并在一个包含1400万张图片的多样化数据集上进行预训练,在图像-文本检索和标题生成等下游任务上表现出显著的改进。利用核采样和有效的参数共享,BLIP在标准数据集上超过了现有模型。
BLIP-2[12]:它引入了一种成本效益高的视觉-语言预训练策略,使用冻结的图像编码器和大型语言模型。 Query Transformer (Querying Transformer)以更少的参数在视觉-语言任务上实现了最先进的表现,解决了不同模态嵌入之间的互操作性挑战。BLIP-2引入了一个名为 Query Transformer (Q-Former)的新组件,作为静态图像编码器与静态LLM之间的可训练桥梁。如图[3]所示,Q-Former经历两阶段预训练过程。最初,重点在于视觉-语言表示学习,迫使Q-Former掌握与伴随文本最相关的视觉元素。随后,重点转向视觉到语言的生成学习,将Q-Former的输出与固定的LLM连接起来,并改进其能力,使其产生的视觉表示能被LLM有效地解释。
InstructBLIP[11]:InstructBLIP采用指令感知的视觉特征提取,提高了根据提供的指令提取信息性特征的能力。在13个保留数据集上实现了最先进的零样本性能,InstructBLIP优于BLIP-2和更大的模型,如Flamingo。该模型在下游任务上也表现出色,在ScienceQA IMG [11]上达到了90.7%的准确率,并在视觉场景理解、知识引导的图像描述和多轮视觉对话等多种能力上展示了与同时期多模态模型相比的质量优势。
KOSMOS-1[12]:KOSMOS-1是微软的一个VLM。在网页级多模态语料库上训练,KOSMOS-1在语言理解、生成、无需OCR的自然语言处理以及各种感知-语言任务上表现出色,展示了其在图像标题生成和视觉问题解答方面的能力。采用基于Transformer的架构,KOSMOS-1将视觉与大型语言模型对齐。其训练涉及多样化的多模态语料库,包括The Pile和Common Crawl,以及仅语言的指令调整。此外,该模型在链式思维提示方面表现出色,在处理复杂的问题解答任务之前生成推理。
KOSMOS-2[14]:同样来自微软研究院的KOSMOS-2,通过引入对目标描述的感知能力(如边界框)以及在视觉世界中定位文本的能力,推进了传统模型。利用对指代表达式的独特表示格式,KOSMOS-2将文本跨度与图像中的空间位置联系起来。采用复杂图像处理方法,模型将视觉编码与位置标记结合,以理解并将特定的图像区域与文本描述相联系。基于KOSMOS-1架构,这个基于Transformer的因果语言模型代表了向Embodiment AI和语言、多模态感知、行动与世界建模融合的实质性步骤,展示了其在推进人工通用智能方面的潜力。
MultiInstruct[15]: MultiInstruct 提出了一个用于多模态指令调整的基准数据集,包含10个类别的62项任务。该研究利用了OFA预训练的多模态语言模型,专注于通过如Natural Instructions这样的大规模纯文本指令数据集来提升在多样化任务上的零样本性能。结果显示,在零样本性能上表现强劲,并减少了模型对指令变化的敏感性。对迁移学习策略的比较分析表明,在多模态任务上提高了鲁棒性。在训练过程中增加任务簇可以提高整体性能,证实了MultiInstruct的有效性。
IDEFICS[13]:IDEFICS 是由 DeepMind 开发的封闭源视觉-语言模型 Flamingo 的一个开源复现版本,拥有800亿个参数,并在 HuggingFace 上可用。它在图像-文本基准测试中表现良好,如视觉问答和图像字幕,利用上下文中的少样本学习。IDEFICS 有两个版本——一个拥有800亿个参数的模型和一个拥有90亿个参数的模型。
PaLI[1]:来自谷歌研究的 PaLI(Pathways Language and Image model)利用大型预训练的编码器-解码器语言模型和视觉 Transformer 进行联合语言和视觉建模。该模型通过利用包含100亿张图像和文本的多样化多语言数据集,在100多种语言的各类视觉和语言任务上取得了最先进的结果。PaLI 采用简单、模块化和可扩展的设计,强调了在视觉和语言组件中联合缩放对于有效训练和性能的重要性。
Frozen[16]:Frozen 是由 DeepMind 开发的一种多模态少样本学习方法,它利用一个预训练的、冻结的语言模型和一个在配对的图像和字幕数据上训练的视觉编码器,仅用几个示例就能快速学习新任务,例如在各类基准测试中学习新物体的单词、视觉问答以及整合外部知识。该方法通过冻结语言模型的自我注意力层梯度来训练视觉编码器。该系统的一个显著限制在于,与使用完整训练集的现有最先进模型相比,在少样本学习任务上的性能不佳,这突显了通过进一步提高准确性和减少种子需求来增强零样本和少样本泛化的潜力。
Qwen-VL[11]:Qwen-VL 系列,作为大型视觉-语言模型被引入,包括 Qwen-VL 和 Qwen-VL-Chat,在图像字幕、问答、视觉定位和多用途交互等任务上展现出卓越的性能。Qwen-VLs 在各种以视觉为中心的任务上表现出色,超越了类似规模的对手。它们的卓越准确性不仅限于传统的字幕和问答基准,还扩展到了最近的对话基准。Qwen-VLs 在包含大量英语和中文的多语言图像-文本数据上训练,自然支持多种语言。它们在训练过程中同时处理多张图像,使 Qwen-Chat-VL 能够在复杂场景中进行上下文化分析和理解。凭借更高分辨率的输入和细粒度的训练数据,Qwen-VLs 在细粒度视觉理解方面超越了现有的视觉-语言模型,在接地、文本理解、问答和对话任务上表现出色。
富宇-8B[1]: 富宇-8B是由Adept AI开发的多模态文本和图像 Transformer ,为数字代理提供了一种简化的强大解决方案。其简洁的架构和训练过程提高了理解力、可扩展性和部署性,使其适用于各种应用场景。专为数字代理设计的富宇-8B能轻松处理任意图像分辨率,并在图形和图表理解、基于用户界面的 Query 以及100毫秒内快速处理大型图像等任务中表现出色。尽管针对Adept的使用案例进行了优化,但富宇-8B依然具有广泛适用性。
LLaVA-Plus[16]: LLaVA-Plus是一个旨在通过视觉指令调整来增强大型多模态模型(LMMs)的通用多模态助手。该模型维护一个包含多种视觉和视觉-语言预训练模型的技能库,根据用户输入激活相关工具以处理各种任务。在多模态指令跟随数据上训练的LLaVA-Plus涵盖了视觉理解、生成和外部知识检索中的工具使用,在现有和新能力上都超过了其前身LLaVA。训练方法包括使用GPT-4生成指令数据,并通过指令调整整合新工具,实现持续增强。LLaVA-Plus在VisiT-Bench上展示了最先进的性能,这是一个真实生活中的多模态任务基准,与其它工具增强型LLMs相比,在工具使用方面表现出色。
BakLLaVA[17]: BakLLaVA是由LAION、Ontocord和Skunkworks AI开发的一种VLM,它使用了Mistral 7B基础模型,并增强了LLaVA 1.5架构。结合了llama.cpp。BakLLaVA是比具有视觉能力的GPT-4更快、资源消耗更少的替代品。
LLaVa-1.5[16]: LLaVA-1.5是LLaVA的改进版本,专注于通过视觉指令调整来增强多模态模型。论文概述了对LLaVA的修改,例如使用带有MLP投影的CLIP-ViT-L-336px,并融入面向学术任务的视觉问答(VQA)数据。尽管有所进步,但论文也承认了局限性,例如由于使用完整图像块导致训练迭代周期延长,以及处理多幅图像和某些特定领域任务时遇到的挑战。
CogVLM[17]: CogVLM是由清华大学研究行人开发的开放式视觉-语言基础模型。其架构包括用于图像处理的Vision Transformer(ViT)编码器(例如,EVA2-CLIP-E),输出通过MLP Adapter 映射到文本特征空间。模型包括一个预训练的GPT风格的语言模型,并在每一层中添加了一个视觉专家模块,该模块由QKV矩阵和MLP组成。CogVLM采用深层融合方法,通过视觉专家模块在多层中整合视觉和语言特征,超越了传统的浅层对齐方法。对齐技术包括在包含15亿图像-文本对的庞大数据集上进行预训练,使用图像字幕损失和参照表达式理解(REC)。在关注自由形式指令的各种任务上进行微调,产生了名为CogVLM-Chat的变体。
FERRET[15]: FERRET旨在针对不同形状和粒度的图像中的空间参照和定位。FERRET的独特特性包括混合区域表示,结合离散坐标和连续视觉特征以处理多样化的区域输入。它使用空间感知视觉采样器有效地处理各种区域形状,并在包括分层空间知识和困难负样本的Ground-and-Refer指令调整(GRIT)数据集上进行训练。架构包括图像编码器、空间感知视觉采样器和语言模型。FERRET使用预训练的视觉编码器(CLIP-ViT-L/14)和语言模型的分词器进行图像和文本嵌入。在GRIT数据集上训练三个周期,模型随机选择中心点或边界框来表示区域。在多模态聊天任务中,FERRET通过整合参照与定位能力显著提高了性能。值得注意的是,FERRET减轻了多模态模型中常见的目标幻觉问题。
BARD[11]:谷歌的BARD利用强化学习框架来自动化机器学习模型的设计、架构搜索和超参数调整,使得没有深厚AI专业知识的用户也能够使用。该系统被定位为独立的实验,专注于提高生产率、创造力和好奇心。用户使用BARD来处理诸如编写简历、创建锻炼计划和规划行程等任务。该模型在多样化的数据源上进行预训练,生成回应时会考虑上下文,并根据安全性参数进行分类,再根据质量重新排名。人类反馈和评估,包括针对人类反馈的微调和强化学习,被用来改进BARD。局限性包括潜在的准确性问题、偏见、人格归因、假阳性/假阴性以及对抗性提示的脆弱性。谷歌承诺负责任地解决这些局限性并随时间改进BARD。
LLaMA-VID[11]:LLaMA-VID引入了一种新颖的双重 Token 策略,结合上下文 Token 和内容 Token ,高效编码每个视频帧。这种方法使模型能够处理长达数小时的视频,同时降低计算复杂性。LLaMA-VID采用混合架构,整合了如Vicuna等预训练模型进行文本处理,以及用于视频图像嵌入的Vision Transformer。Q-Former通过计算 Query 生成的文本嵌入(Q)和视觉 Token (X)之间的注意力来引入上下文注意力 Token (Et)。Et封装了相关的视觉特征。通过在视觉 Token 上进行平均池化获得内容 Token (Ev)。这两种 Token 被整合到V解码器中以生成文本回应。LLaMA-VID的双重 Token 生成策略,包括上下文和内容 Token ,确保了适应各种设置的能力,为视频优化效率同时保留单幅图像的细节。LLaMA-VID是一个为效率设计的视频和图像理解模型,在8xA100 GPU上用两天时间完成训练。它使用EVA-G进行视觉编码和QFormer进行文本解码。训练集包括图像和视频标题对,并在多样化的基准上进行评估。LLaMA-VID在零样本视频QA基准上表现出色,仅用每个帧两个 Token 就取得了高准确度。
CoVLM[11]:CoVLM通过整合视觉-语言交流解码,引入了一种增强大型语言模型组合推理能力的新方法。利用通讯 Token ,模型动态地组合视觉实体和关系,通过与视觉编码器和检测网络的迭代交流改进语言生成。在大型数据集上训练的CoVLM在组合推理任务上超过了 Baseline 视觉-语言模型,并在诸如指代表达式理解和视觉问题解答等任务上展现出具有竞争力的性能。该模型在整合视觉和语言模型方面取得了值得注意的进展,并承认组合性未来可能的改进。
Emu2[27]:Emu2是一个拥有370亿参数的生成式多模态模型,在多样化的多模态序列上实现了显著的环境学习,刷新了少样本理解任务的新纪录。通过统一的自回归目标,Emu2无缝地整合了视觉嵌入和文本 Token 。其架构包括视觉编码器、多模态建模和视觉解码器,允许不同模态间输出的一致性。Emu2在视觉-语言任务、指令调整和可控视觉生成方面表现出色,展示了在图像问题解答、主题驱动生成和零样本文本到图像生成方面的最先进性能。论文承认了更广泛的影响和局限性,并强调在考虑到诸如幻觉、偏见和问题解答能力等挑战的情况下,负责任地部署模型。
Video-LLaMA[28]:Video-LLaMA旨在理解视频中的视觉和听觉内容。该模型将预训练的视觉和音频编码器与冻结的LLM整合在一起,解决了捕捉视觉场景的时序变化和整合音频-视觉信号的挑战。通过使用Video Q-former处理时序信息和Audio Q-former进行音频编码,该框架将音频-视觉数据与文本信息对齐。实验结果表明,Video-LaMA在理解视频内容和在音频和视频基础对话中生成有意义的回应方面是有效的。然而,论文承认了局限性,如受限的感知能力和长视频的挑战。尽管如此,Video-LLaMA在音频-视觉AI助手方面仍代表了显著的进步,作者们提供了开源资源以供进一步发展。
Lyrics[17]:Lyrics是一种多模态预训练和指令微调的创新范式,通过细粒度的跨模态协作,彻底改变了视觉与语言的协同对齐。从BLIP-2的坚实基础发展而来,Lyrics整合了来自高级视觉精炼器的局部视觉特征,包括图像标记、目标检测和语义分割模块。在 Query Transformer 中,这些视觉特征与语言输入无缝集成,由视觉精炼器提供的边界框和标签进行丰富。两阶段训练方法是关键亮点,通过在预训练期间建立明确的、全面的视觉语言对齐目标,解决了模态间隙问题。随后,在指令微调阶段,作者引入了语义感知的视觉特征提取,这是一种关键方法,使模型能够从有形的视觉目标中提取信息特征。该方法的效力在跨越不同视觉语言任务的13个保留数据集上的强大性能得到了强调。
X-FM[22]:XFM是一种新型的通用基础模型,配备有一个语言编码器、一个视觉编码器和一个融合编码器,并具有独特的训练方法。提出的方法融合了两种创新技术:在语言编码器学习期间停止来自视觉语言训练的梯度,并利用视觉语言训练指导视觉编码器学习。在基准数据集上的广泛实验表明,X-FM超越了现有的通用基础模型,并且在语言、视觉或视觉语言理解方面与专门定制的模型具有竞争力或表现更佳。论文承认了局限性,包括大量的计算需求,并旨在探索提高效率和减少环境影响的技巧。作者强调他们对解决效率挑战和减少碳足迹的承诺,与“绿色”深度学习计划保持一致。然而,由于计算限制,研究并未探索超大型模型或在广泛数据集上预训练大型模型,强调了可扩展性作为基础模型的重要考虑因素。
VALOR[18]:VALOR是一个统一的视觉-音频-语言跨模态预训练模型,旨在进行三模态理解和生成。VALOR采用两种预训练任务:多模态分组对齐和多模态分组标注,展示了良好的灵活性和可扩展性。提出了两个数据集VALOR-1M和VALOR-32K,用于三模态预训练研究和评估音频视觉语言检索和标注的基准。在VALOR-1M和其他视觉语言数据集上训练的VALOR,在视觉/音频/音频视觉检索、标注和问答等下游任务上取得了新的最先进性能。论文概述了未来工作的计划,包括通过无监督方法扩展VALOR-1M数据集,并在VALOR框架中引入视觉和音频生成建模。
Prismer[17]:Prismer是一个数据和参数效率高的视觉语言模型,它利用一组冻结的领域专家集合,最大限度地减少了对大量训练数据的需求。通过继承来自不同领域预训练的领域专家的权重,并在训练期间保持冻结,Prismer有效地适应了不同的视觉语言推理任务。尽管其语言模型基础规模较小,但Prismer在微调和少样本学习性能方面表现出竞争力,需要的训练数据比现有最先进模型少得多。然而,它缺乏零样本上下文泛化的能力,并且在推理过程中适应新专家或部分专家集合时表现出局限性,导致性能下降。论文讨论了这些局限性,包括缺乏少样本上下文提示,在适应新专家方面的挑战,以及未来迭代中改进表示专家知识以增强推理性能的潜力。
MMReact[26]:MM-REACT引入了一种新颖的文本提示设计,使语言模型能够处理多模态信息,包括文本描述、空间坐标和密集视觉信号的文件名。该方法在零样本实验中证明了其有效性,展示了在各种场景中进行高级视觉理解的潜力。然而,论文指出了一些局限性,例如由于缺乏在野外评估识别能力的标注基准,系统性地评估性能的挑战。集成的视觉专家可能会引入错误,系统的成功取决于所需专家的可用性。此外,专家的数量受到ChatGPT上下文窗口的限制,对于某些任务,视觉信号到文本单词的转换可能不是最佳的。需要手动提示工程,作者建议未来的研究自动化此过程,以提高系统开发的便利性。
PICa[15]:PICa是一种利用图像标题提示GPT-3进行基于知识的视觉问答(VQA)的方法。该方法利用GPT-3的知识检索和问答能力,将GPT-3视为一个隐含的、非结构化的知识库,将图像转换为GPT-3可以理解的标题或标签。通过使用少量样本学习方法,并在上下文中示例的情况下适应GPT-3进行VQA,PICa取得了显著性能,在仅使用16个示例的情况下,在OK-VQA数据集上超过了监督学习的最新水平。该方法首次将GPT-3用于多模态任务。然而,需要注意的是,图像被抽象为文本,标题可能只提供了部分描述,可能会遗漏详细问答所必需的关键视觉细节,例如关于特定视觉属性的 Query 。
PNP-VQA[16]:Plug-and-Play VQA(PNP-VQA)是一个为零样本视觉问答(VQA)设计的模块化框架。与现有需对预训练语言模型(PLMs)进行大量适应的视觉方法不同,PNP-VQA无需对PLMs进行额外训练。相反,它使用自然语言和网络解释作为中间表示来连接预训练模型。该框架生成由问题引导的信息性图像标题,并将其作为PLMs在问答过程中的上下文。PNP-VQA超过了端到端训练的 Baseline ,并在零样本VQAv2和GQA数据集上取得了最新的成果。拥有110亿个参数的它在VQAv2上超过了拥有800亿个参数的模型,并在GQA上比同类模型提高了9.1%,展示了不同PLM参数尺寸下的有效性。
Img2LLM[14]:Img2LLM是为LLMs设计的,使其能够在不需要端到端训练的情况下进行零样本VQA。该方法包括开发与LLM无关的模型,通过示例问题-答案对表达图像内容,这被证明是LLMs的有效提示。Img2LLM具有多项优势,其性能与或超过了端到端训练的方法,例如在VQAv2上比Flamingo高出5.6%,在具有挑战性的A-OKVQA数据集上表现出显著的优越性。此外,Img2LLM的灵活性使其能够与各种LLMs无缝集成,用于VQA任务,无需专门的、成本高昂的端到端微调。一个需要注意的问题是,在图像标题和问题-答案对生成过程中产生的额外推理开销,导致计算时间增加了24.4%。然而,通过缩短提示,可以以牺牲部分准确性为代价提高速度,而Img2LLM避免了在类似Flamingo这样的模型中看到的资源密集型端到端多模态表示对齐。
SimVLM[26]:SimVLM是一个简化的预训练框架,采用极简主义方法。与先前方法不同,SimVLM通过利用大规模弱监督简化了训练复杂性,并采用单一的前缀语言建模目标进行端到端训练。值得注意的是,在没有额外数据或任务特定调整的情况下,该模型超过了其前辈如OSCAR、VILLA等,在各项视觉-语言任务中建立了新的基准。此外,SimVLM展示了强大的泛化和迁移能力,在诸如开放式视觉问答等任务中表现出零样本行为,并在跨模态迁移任务中表现出色。
VideoCOCA[26]:VideoCoCa是基于对比标题生成模型CoCa[26]对视频-文本任务的适配。利用CoCa的生成性和对比性注意力池化层,VideoCoCa在零样本视频分类和文本到视频检索上取得了最先进的结果,仅需进行极少的额外训练。该模型通过CoCa的图像编码器处理统一采样的帧,创建代表整个视频序列的张量。这个张量经过生成和对比建模任务的关注池化层。VideoCoCa在包括视频推理和动作识别在内的各种视频基础任务中表现出色,但在细微的时间关系方面面临挑战。探索了各种适配策略和轻量级微调方法,其中关注池化器方法最为有效。该模型在多个数据集上进行了测试,并显著优于CoCa Baseline 。VideoCoCa在不同规模和任务上始终优于CoCa,展示了其在视频-文本建模方面的强大性能。
TinyGPT-V[26]: TinyGPT-V旨在解决像GPT-4V这样的闭源、计算要求高的多模态模型所带来的挑战。 该模型在较低的计算需求下实现了高性能,使用24G GPU进行训练,8G GPU或CPU进行推理。 TinyGPT-V整合了Phi-2和来自BLIP-2或CLIP的预训练视觉模块,在视觉问答和指代表达式理解等基准测试中表现出色, 在各类基准测试中与LLAVA等大型模型相比具有竞争力。 该模型的设计紧凑高效,结合了小型 Backbone 网络和大型模型的能力,标志着向实际应用中的高性能多模态语言模型迈出了重要一步。
ChatBridge[22]: ChatBridge是一个旨在创建能够理解多种现实世界模态的通用AI模型的多模态语言模型。 该模型以语言为桥梁,利用与语言配对的双模态数据来连接不同的模态。 ChatBridge扩展了大型语言模型的零样本能力,经过两个阶段的训练,将每个模态与语言对齐,并使用新的多模态指令数据集(MULTIS)进行微调。 该模型在零样本多模态任务上表现出强大的结果,涵盖文本、图像、视频和音频。 然而,局限性包括在理解长视频和音频方面存在挑战,这表明需要更精确的时间建模方法。 该框架可以扩展到包括草图和点云等其他模态。 尽管冻结模块减轻了计算负担,但它们可能导致性能不足并引入预训练模型的偏见。
Macaw LLM[17]: Macaw-LLM是一个新颖的多模态大型语言模型,集成了视觉、音频和文本信息。 它包括一个用于编码多模态数据的模态模块,一个利用预训练LLM的认知模块,以及一个对齐不同表示的对齐模块。 对齐模块将多模态特征与文本特征桥接起来,简化了适配。 为多轮对话创建了一个大规模的多模态指令数据集。 论文承认了局限性,包括对评估能否准确反映Macaw-LLM能力的担忧。 该模型并未针对多轮对话进行优化,由于缺乏合适的评估套件,潜在的问题如虚构、毒性和公平性并未评估。
GPT4Tools[23]: GPT4Tools旨在使开源LLM(如LLaMA和OPT)能够高效地使用多模态工具。 它解决了像ChatGPT和GPT-4这样的专有LLM所面临的挑战,这些模型常常依赖不可访问的数据和高昂的计算成本。 GPT4Tools采用自我指令生成一个遵循指令的数据集,使开源LLM能够通过低秩适配(LoRA)优化解决视觉问题。 这种方法显著提高了工具调用准确性,并使LLM具有对未见工具的零样本能力。 然而,显式和固定的提示方法降低了计算效率,促使探索隐式工具调用方法。 尽管有限制,GPT4Tools被认为是为语言模型配备多模态工具的有效方法。
PandaGPT[24]: PandaGPT是一种增强大型语言模型以具备视觉和听觉指令遵循能力的方法。 PandaGPT在图像描述、视频启发的故事写作和回答与音频相关的问题等任务上表现出色。 它无缝地处理多模态输入,连接视觉和听觉信息。 通过结合ImageBind的多模态编码器和Vicuna的大型语言模型,PandaGPT只需使用对齐的图像-文本对进行训练,并展现出各种数据模态的涌现跨模态行为。 论文建议进行改进,包括使用额外的对齐数据、探索细粒度的特征提取、生成更丰富的多媒体内容、创建新基准以及解决常见语言模型的不足。 尽管如此,PandaGPT代表了朝着构建能够在多种模态中进行整体感知的人工通用智能迈出的一个有希望的步骤。
mPLUG-Owl[25]: mPLUG-Owl是一种训练范式,通过模块化学习基础LLM、视觉知识模块和视觉抽象模块,为LLM赋予多模态能力。这种两阶段训练方法对齐图像和文本,利用LLM辅助同时保持生成能力。实验结果表明,mPLUG-Owl在指令和视觉理解、多轮对话和知识推理方面表现出色。该模型展现出意外的能力,如多图像关联和多语言理解,但局限性包括多图像关联挑战、多语言训练有限以及复杂场景OCR性能参差不齐。该模型在仅视觉文档理解方面也显示出潜力,在电影评论写作和代码生成等任务中表现强劲,但在其他应用中有限,这表明在文档理解和下游应用中有进一步探索的机会。
Ying-VLM[18]: Ying-VLM在M
IT数据集上训练。使用M
IT训练的模型在遵循人类指令、提供引人入胜的回应以及在未见视频和中文任务上实现强泛化方面取得成功。分析表明,增加任务数量可以提高性能,指令多样性影响结果。M
IT包含240万个实例和40个任务中的400个人工编写的任务指令。
BLIVA[19]: BLIVA是一种新颖的多模态语言学习模型,旨在处理富含文本的视觉问题,整合 Query 和 Patch 嵌入。它在OCR-VQA和视觉空间推理基准上优于现有的VLM,如GPT-4和Flamingo。BLIVA的架构包括一个用于感知指令的Q-Former和用于附加视觉信息的全连接投影层。它在多模态LLM基准(MME)上相较于 Baseline InstructBLIP整体提高了17.72%,并且在处理YouTube缩略图问题-答案对等实际场景中表现良好。
LLAVA-phi[2]: LLaVA-Phi是一个由紧凑型语言模型Phi-2提供支持的高效多模态助手。这个模型在紧凑型多模态系统方面取得了显著进展,表明即使是拥有27亿参数的较小模型,在适当训练的条件下也能有效地融合文本和视觉进行复杂对话。LLAVA-Phi在各种涵盖视觉理解、推理和基于知识的感知的基准测试中表现出色,适合于实时交互场景,如实体代理。值得注意的是,它强调了小型语言模型在保持资源效率的同时实现复杂理解和交互的潜力。训练过程包括两个阶段:(1)特征对齐,预训练的视觉编码器通过LAION-CC-SBU数据集的一个子集连接到语言模型;(2)视觉指令调优,使用GPT生成的多模态指令遵循数据和VQA数据来教导模型遵循多模态指令。
MoE-LLaVA[11]: MoE-LLaVA是由北京大学、中山大学、FarReeI Ai Lab、腾讯数据平台和鹏城实验室的研究行人开发的一种针对大型视觉-语言模型的新型训练策略。这种被称为MoE-tuning的策略,通过在部署期间仅通过路由器激活前k个专家,高效处理多模态学习和模型稀疏性导致的性能下降。拥有30亿个稀疏激活参数的MoE-LLaVA在减少模型输出中的虚构现象的同时,实现了与最先进模型相当或更优的性能。该架构包括视觉编码器、视觉投影层(MLP)、词嵌入层、堆叠的LLM块和MoE块。MoE-tuning包括三个阶段:MLP训练、不包括视觉编码器的参数训练,以及初始化MoE中的专家后仅训练MoE层。在多个视觉理解数据集上的评估展示了MoE-LLaVA的效率和有效性,广泛的消融研究和可视化说明了其有效性,并为未来多模态学习系统的研究提供了见解。
Yi-VL[12]:Yi-VL是一个基于Yi大型语言模型系列的开源多模态模型,擅长于图像的内容理解、识别和多轮对话。它在最近的基准测试中领先,包括英语和中文。其主要特点包括多轮文本图像对话、双语支持、强大的图像理解能力和448×448的细粒度分辨率。Yi-VL采用了LLaVA架构,包括视觉 Transformer 、投影模块和大型语言模型。然而,它存在一些限制,例如仅支持视觉问答、接受单一图像输入、在复杂场景中可能产生内容生成问题和目标识别不准确等。此外,它在一个固定的448x448分辨率下运行,这可能导致低分辨率图像信息丢失,而对于更高分辨率则缺乏额外的知识。
Moondream[23]:Moondream是一个由Vikhyatk精心打造的160亿参数模型,它融合了SigLIP、Phi-1.5和庞大的LLaVA训练数据集。作为人工智能研究的一个重要里程碑,这个模型特意为学术探索而发布,强调其仅用于非商业用途的独特性。这种尖端技术和强大数据集的结合凸显了推动人工智能前沿的承诺,为计算能力和创新领域树立了新的基准。
Shikra[13]:Shikra是一个旨在弥合对话中类人参照能力差距的多模态大型语言模型。Shikra能够处理自然语言中的空间坐标输入和输出,其简单架构包括视觉编码器、对齐层和LLM。它无需额外的词汇量或外部插件模型,就能将参照性对话任务与各种视觉语言任务无缝集成。Shikra在REC、PointQA、图像字幕和VQA等任务上表现出色,能够实现提供目标坐标和比较用户指定区域等应用。然而,它目前仅支持英语,对非英语使用者来说缺乏友好性。未来的工作旨在使Shikra成为多语言的,并探索改进密集目标检测和分割任务中的坐标表示。此外,像大多数LLM一样,Shikra可能会生成有害或反事实的响应。
表2:展示了各种VLM在MME基准[15]上的比较分析。模型的参数为X亿。
BuboGPT[14]:BuboGPT是一个具有视觉定位能力的VLM,旨在增强视觉、音频和语言之间的跨模态交互。它提供了对视觉目标和其他模态的细粒度理解,能够在响应生成期间在图像中定位特定目标。BuboGPT采用基于SAM的现成视觉定位模块进行实体提取和图像中的 Mask 对应,以及两阶段训练方案和指令数据集以实现全面的文本图像音频理解。尽管存在语言虚构和定位QA能力不足等限制,BuboGPT展示了卓越的多模态理解和视觉定位能力,有望在多模态LLM方面取得进展。
ChatSpot:ChatSpot被介绍为一个统一的端到端多模态大型语言模型,旨在增强人机交互。它支持多种互动形式,如鼠标点击、拖放和绘制框,为用户提供灵活无缝的互动体验。该模型建立在精确的参照指令上,利用点、框等不同的参照表示关注感兴趣的具体区域。此外,还创建了一个多粒度视觉语言指令遵循数据集用于训练ChatSpot。实验结果表明,它在区域参照方面表现出强大的能力,即使在存在框噪声的情况下,区域参照虚构的情况也极少。这突显了ChatSpot在精确区域参照方面的能力,以及它在多模态大型语言模型中提高互动准确性和效率的潜力。
MiniGPT-5[22]:MiniGPT-5引入了一种创新的交错式图像和语言生成技术,利用“生成性vokens”来协调图像文本输出。其独特两阶段训练策略关注无描述的多模态生成,无需详尽的图像描述。MiniGPT-5通过分类器自由引导增强了模型完整性,在MMDialog数据集上比Divter等 Baseline 模型有了实质性的改进。在VIST数据集上的人脸评估中,它始终提供优于或与基准相当的多模态输出,证明了其在不同基准上的有效性。
DRESS[23]: DRESS是一个大型视觉语言模型,它利用大型语言模型中的自然语言反馈来增强其对齐和互动能力,解决了现有LVLMs的关键局限性。它引入了一种新颖的NLF分类方法,将其分为批评和改进类型,以更好地与人类偏好对齐,并提高多轮对话中的互动能力。批评性NLF识别出优点和缺点,使LVLM与人类偏好保持一致,而改进性NLF为改进回应提供具体的改进建议。为了解决NLF的非可微性,提出了条件强化学习方法进行训练。实验结果表明,与最先进的LVLMs相比,DRESS在多轮互动中能够生成更有帮助、更诚实且无害的回应,并有效地从反馈中学习。
X-InstructBLIP[24]: X-InstructBLIP是一个建立在冻结大型语言模型之上的跨模态框架,它整合了各种模态,而无需大量定制。自动收集高质量的教学调整数据,为不同模态的微调提供了可能性。该模型的表现与前沿的同类模型相当,而无需大量预训练或定制。引入了一种新颖的评估任务——区分性跨模态推理(DisCRn),以评估模型在不同输入模态下的跨模态能力。尽管每个模态都是单独优化的,但X-InstructBLIP展示了跨模态推理的新兴能力,并在DisCRn的所有考察模态中超越了强大的字幕基准线。然而,每个模态内部的复杂性和未解答的问题突显了跨模态和模态内部未来探索的挑战和机遇。
VILA[25]: VILA,一个视觉语言模型家族,源自于一种增强的预训练方法,该方法系统地增强LLMs向VLMs的转变。VILA在主要基准测试中一致地优于最先进的模型,如LLaVA1.5,展示了其卓越的性能,且无需额外的复杂性。值得注意的是,VILA的多模态预训练揭示了引人注目的特性,如多图像推理、增强的上下文学习以及改进的世界知识,这标志着视觉语言建模方面的重大进步。
可组合扩散(CoDi):CoDi [22]模型采用了一种多模态方法,使用潜在扩散模型处理文本、图像、视频和音频。文本处理包括带有BERT和GPT-2的变分编码器(VAE),图像任务使用带有VAE的潜在扩散模型(LDM),音频任务则利用带有VAE编码-解码器的LDM处理梅尔频谱表示。CoDi通过跨模态生成的联合多模态生成和跨注意力模块,创建了一个共享的多模态空间。训练涉及带有对齐提示编码器的个体扩散模型,CoDi通过线性数量的训练目标实现任意到任意的生成。
CoDi-2[22]:CoDi-2采用了一个多模态编码器ImageBind,带有对齐的编码器和一个用于模态投影的多层感知机。它将扩散模型(DMs)整合到多模态潜在语言模型(MLLM)中,以实现详细、模态交织的生成。融合策略涉及将多模态数据投影到一个特征序列中,由MLLM处理,并利用DMs提高生成质量。对齐方法利用了对齐的多模态编码器的投影,使MLLM能够理解模态交织的输入序列,促进上下文学习,并支持多轮交互式对话。
谷歌双子座(Gemini)[1]:双子座模型具有深度融合能力的转换架构,擅长整合文本、图像、音频和视频模态。在32个基准测试中,它们有30个超越了GPT-4,并在谷歌的TPU v4和v5e加速器上进行训练,以实现有效的扩展。多模态和多语言的训练数据集优先考虑质量和安全性,模型经过人类反馈强化学习(RLHF)。尽管具体细节尚未公开,但偏见和毒性的安全评估是双子座开发的核心部分,涉及与外部专家的合作。
NExT-GPT[26]:NExT-GPT包含三个阶段:多模态编码、LLM理解和推理、多模态生成。它使用像ImageBind这样的模型进行编码,以及基于Transformer的层进行生成。在推理过程中,模态编码器转换输入,LLM决定内容,扩散解码器使用信号 Token 进行合成。系统采用多模态对齐学习来对齐特征,以及模态切换指令调整(MosIT)来改进LLM能力,通过对齐模态信号 Token 和黄金标题。多样化的MosIT数据集增强了模型有效处理各种用户交互的能力。
VideoPoet[23]:VideoPoet是一个为高质量视频合成及匹配音频而设计的语言模型。该模型采用解码器Transformer架构,处理多模态输入,如图像、视频、文本和音频。利用两阶段训练协议,VideoPoet在零样本视频生成方面展示了最先进的能力,并且在文本到视频和视频风格化等任务中表现出色。其显著特点包括大型语言模型 Backbone 、自定义空间超分辨率和模型大小的可扩展性。人类评估突显了VideoPoet在文本忠实度、视频质量和动作趣味性方面的优势。负责任AI分析强调了对公平性的考虑,突出了模型在零样本编辑、任务链和视频生成多个阶段保持质量的能力。
预训练与模块化结构的权衡:大量研究正在通过引入模块化结构取代黑箱预训练,以提升视觉语言模型(VLMs)的理解力、控制力和忠实度。融合其他模态:受到[2]的启发,正在进行将更精细的模态如目光/手势融入VLMs的工作,这对于教育领域尤为重要。
VLMs的细粒度评估:正在对VLMs在偏见、公平性等参数上进行更细粒度的评估工作。DALL-Eval [1]和VP-Eval [1]是这一方向的一些研究。
VLMs中的因果性与反事实能力:大量工作已经对LLM的因果和反事实能力进行了研究,这启发了研究者们在VLM领域探索相同的能力。Cm3 [1]是这个领域最早的工作之一,这个话题引起了极大的关注。
持续学习/取消学习:在VLM领域,有一种趋势是在不从头开始训练的情况下高效地持续学习。VQACL [11]和Decouple before Interact [11]是这个领域最早的一些工作。受到LLM中观察到的知识取消学习概念的启发,研究者们也在VLM领域深入探索类似的方法。
训练效率:努力集中在开发高效的多模态模型上,值得注意的进展如BLIP-2显示出希望。它在零样本VQA-v2上超过了Flamingo-80B 8.7%,同时使用的可训练参数显著减少(减少了54倍)。
VLMs的多语言接地:继OpenHathi [21]和BharatGPT [13]等多语言LLM最近的激增之后,对多语言视觉语言模型(VLMs)的开发正在积聚动力。
更多特定领域的VLMs:各种特定领域的VLMs,如MedFlamingo [14]和SkinGPT [15]等项目,已经在它们的专业领域铺平了道路。进一步的努力正在进行中,以创造专门为教育、农业等领域量身定制的VLMs。
这篇论文全面回顾了视觉语言模型(VLMs)领域的最新进展。作者根据VLMs的用例和输出生成能力对其进行分类,为每个模型的架构、优点和局限性提供了简洁的见解。此外,作者还根据近期趋势指出了该领域未来的发展方向,为在这一领域进一步探索提供了路线图。作者相信这篇论文将作为一个宝贵的资源,为积极参与多模态学习领域的计算机视觉和自然语言处理研究行人提供指导。