Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >VLM常见的数据集和Benchmark

VLM常见的数据集和Benchmark

作者头像
孔西皮
发布于 2024-03-13 01:27:17
发布于 2024-03-13 01:27:17
1.6K0
举报
文章被收录于专栏:前行的CVer前行的CVer

本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍,以方便读友看论文时参考。

⚠️注意:本文信息仍在时常更新中

常见任务和评测数据

常见的多模态任务有:视觉问答VQA、视觉常识推理VCR(选择题并解释原因)、指代表达RE(给定图片和一个句子,判断句子正确还是错误)、图文检索VLR(根据文字检索图片)。生成图片类任务有:图像样式转移、文本驱动的图像生成等。

不同任务常用benchmark如下: VLM benchmark:

  • MM-Vet
  • MMBench
  • MMBench-CN
  • SEED-Bench
  • LLaVA-Bench
  • MME
  • 测幻觉:POPE

其中MM-Vet归纳了VLM需要具备的6种能力,并组合出16种任务,比例如下:

Image Caption

  • COCO
  • MM-IT-Cap

Visual Question Answering(VQA)

  • VQAv2
  • VizWiz
  • GQA (自然场景图问答,有框标柱)
  • Hateful Meme
  • PointQA(ChatSpot)
  • COCO Text(ChatSpot)
  • OKVQA
  • TextVQA 图片来源 OpenImages v3 训练集:21,953 张图像,34,602 个问题,验证集: 3,166 张图像, 5,000 个问题 测试集: 3,289 张图像, 5,734 个问题
  • STVQA 数据来源 :Coco-Text, Visal Genome, VizWiz, ICDAR(13+15), ImageNet, IIIT-STR 训练集:19,027张图像,26,308个问题 测试集: 2,993 张图像, 4,163个问题
  • DocVQA
  • OCR-VQA 207572 张图像(书的封面),超过100万个问答对 ( train : val : test = 8 : 1 : 1 )
  • ChartQA
  • PlotQA

日常场景的那种OCR开源数据,来源是20个公开数据集,约5.6M真实的+17.9M仿真的: https://github.com/large-ocr-model/large-ocr-model.github.io/blob/main/Data.md

视频QA

  • STAR

Visual Grounding/REC

  • Flickr30k(短语定位)
  • RefCOCO、
  • RefCOCO+、
  • RefCOCOg: 是三个从MSCOCO中选取图像和参考对象的Visual Grounding数据集。目标属于80个目标类。

RefCOCO有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。 RefCOCO+共有19,992幅图像,包含49,856个对象实例的141,564个引用表达式。 RefCOCOg有25,799幅图像,指称表达式95,010个,对象实例49,822个。

在RefCOCO和RefCOCO+上,遵循train / val / test A / test B的拆分,testA中的图像包含多人,testB中的图像包含所有其他对象。RefCOCOg遵循train / val / test 的拆分。

RefCOCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095; 框的数量分别为42,404 / 3,811 / 1,975 / 1,810 RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889; 框的数量分别为42,278 / 3,805 / 1,975 / 1,798 RefCOCOg的表达式分别为80,512 / 4,896 / 9,602; 框的数量分别为42,226 / 2,573 / 5,023

RefCOCO的查询包括方位或属性,如“中间的人”,“左边 红衣服”,“蓝车”;RefCOCO+的查询不包含方位,如“手里拿着球拍”;RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO+:RefCOCO、RefCOCO+、RefCOCOg的平均长度分别为3.61、3.53、8.43。

RES

  • PhraseCut
  • RefCOCO

Detection

  • COCO,train和val有标注 COCO2014: train包括 82783张图,val包括 40504张图,test包括40775张图 COCO2017: train包括 118287张图,val包括 5000张图,test包括 40670张图
  • Object365
  • OpenImage

常见训练数据

LAION2B:LAION5B数据集是从网页数据Common Crawl中筛选出来的图像-文本对数据集,它包含5.85B的图像-文本对,其中文本为英文的数据量为2.32B,这就是LAION2B数据集,它是LAION5B的英文子集。著名的stable diffusion generative model训练集就包括了LAION5B。

LAION COCO: 对LAION2B中的600M 个图片,使用 BLIP L/14 and 2 CLIP versions (L/14 and RN50x64)打了COCO风格的captions标注。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
随着生成式AI的快速发展,大语言模型(LLM) 成为研究和应用的关注焦点。它们在理解和生成文本方面展现出强大的能力,推动了机器学习和人类机交互的演变。
未来先知
2024/09/30
5290
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
<!-- CogVLM is powerful for answering various types of visual questions, including **Detailed Description & Visual Question Answering**, **Complex Counting**, **Visual Math Problem Solving**, **OCR-Free Reasonging**, **OCR-Free Visual Question Answering**, **World Knowledge**, **Referring Expression Comprehension**, **Programming with Visual Input**, **Grounding with Caption**, **Grounding Visual Question Answering**, etc. -->
汀丶人工智能
2023/11/21
5410
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
LightMDETR:一种用于低成本开放词汇对象检测的轻量级方法 !
目标检测是计算机视觉领域的关键任务,涉及在图像中识别和定位目标。传统上,闭式词汇模型得到应用,其中模型被训练去识别一个固定的目标类别集。Faster R-CNN [1]、YOLO [2] 和 SSD [3] 等方法已经证明了它们的高效性,但在扩展到预定义类别之外的一般化方面受到限制。
未来先知
2024/08/30
1660
LightMDETR:一种用于低成本开放词汇对象检测的轻量级方法 !
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
AIGC 先锋科技
2024/08/13
3190
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身的硬实力。
汀丶人工智能
2023/11/22
4660
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
如今, Head 姿态估计(HPE)技术可应用于诸如注意力估计、面部识别、客户行为分析、驾驶员辅助系统以及人机交互[39]等各个领域。这项任务涉及从图像或视频中预测人类 Head 的欧拉角(偏航、俯仰和翻滚)。最近一些非大型语言模型(Non-LLMs)如6DRepNet[11]、HopeNet[36]和WHENet[57]在HPE上的研究努力,已经取得了显著的进展。
AIGC 先锋科技
2024/07/08
2300
​融合视觉语言模型 HPE-CogVLM |  基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
视觉语言模型(VLMs)是 [3] 类基础模型,在大量多样化的任务和数据集 上进行了训练,表现出解决各种开放词汇任务的能力,例如图像描述生成 [18, 39],视觉问答或文本图像检索 的出色能力。最近的研究也取得了成功,在各种目标本地化问题上取得了成功,包括目标检测和语义分割 [9, 38, 39]。
AIGC 先锋科技
2024/10/22
1380
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!
大型多模态模型近年来取得了显著进展,在包括图像和视频理解、数字代理开发[53]和机器人技术[24]在内的多个领域表现出卓越性能。要理解和处理广泛任务和复杂场景的必要性凸显了视觉编码器的重要性,而视觉编码器主要是指Vision Transformer。然而,ViT的二次空间复杂性和过多的视觉标记输出限制了其在多样和高分辨率任务中的应用。过多的视觉标记导致大型语言模型的计算负担大幅增加,远远超过了视觉编码器中二次空间复杂度引起的计算成本。这种视觉标记的冗余不仅牺牲了效率,还阻碍了视觉信息的有效提取[31;11]。尽管提出了一系列方法(表1;[31;27;49])来修正ViT的二次空间复杂度,但它们未能解决视觉标记冗余的关键问题[5;28]。
AIGC 先锋科技
2024/07/08
3820
清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。
AIGC 先锋科技
2024/07/08
3630
普林斯顿 &  AWS & Apple 提出  RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造
只需要一个提示,就可以指示模型完成诸如字幕、对象检测、分割等各种各样的CV和CV语言任务。
新智元
2024/06/27
1.3K0
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
1430
每日学术速递2.20
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
写在前面 视觉语言预训练提高了许多下游视觉语言任务的性能,例如:图文检索、基于图片的问答或推理。有朋友要问了,除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高,多模态预训练模型有什么实际应用呢? 为此,字节跳动 AI Lab Research 团队提出了X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种预训练方法十分高效,模型规模无需很大,预训练数据无需很多, 仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推
量子位
2022/06/20
7570
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
Visual grounding是一项定位自然语言表达所指示目标的任务。现有的方法将通用目标检测框架扩展到这个问题上。他们将Visual grounding建立在来自预先生成的proposals或anchors,并将这些特征与文本嵌入融合,以定位文本提到的目标。然而,从这些阶段预定义的位置建模视觉特征可能无法充分利用文本查询中的视觉交叉模态文本和属性信息,这限制了解码器的性能。
CV君
2022/09/01
9540
国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025/05/30
1660
论文解读 - 统一的多模态理解和生成模型综述(下)
目标检测算法之评价标准和常见数据集盘点
前面只顾着讲算法,讲损失,讲训练参数设置和细节,缺忽视了一个重要的东西,那就是目标检测的评价标准是什么?这一节,我们就来搞懂这个问题。
BBuf
2019/12/09
8970
文本生成图像工作简述2--常用数据集分析与汇总
文本到图像的 AI 模型仅根据简单的文字输入就可以生成图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。
中杯可乐多加冰
2024/04/19
1.1K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
9月底,OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼:这就是GPT-4.5吧?
新智元
2023/10/08
3.5K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。为了提高这类基础模型的效率,大量的实验表明:(1)Cobra 与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,并且由于 Cobra 的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下,也取得了与 LLaVA 相当的性能。
机器之心
2024/04/26
3910
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
[CVPR23 Highlight]多模态新任务、新数据集:NTU提出广义引用分割问题GRES
引用表达分割(Referring Expression Segmentation,简称引用分割或RES)是一个基础的视觉语言多模态任务。给定一张图像和一个描述该图像中某个对象的自然语言表达式,RES旨在找到该目标对象并将其分割。现有的引用分割数据集和方法通常仅支持单目标表达式,即一个表达式指代一个目标对象。而对于多目标和无目标表达式的情况,则没有考虑在内。严重限制了引用分割的实际应用。
CV君
2023/08/31
3450
[CVPR23 Highlight]多模态新任务、新数据集:NTU提出广义引用分割问题GRES
多模态版Llama2上线,Meta发布AnyMAL
一个统一的模型,可以对不同模态输入内容(文本、图像、视频、音频、IMU 运动传感器数据)实现理解,并生成文本响应,技术基于 Llama 2,来自 Meta。
机器之心
2023/10/04
5090
多模态版Llama2上线,Meta发布AnyMAL
推荐阅读
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
5290
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
5410
LightMDETR:一种用于低成本开放词汇对象检测的轻量级方法 !
1660
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
3190
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
4660
​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
2300
LLM-包装 黑盒语义感知视图语言基础模型的适应 !
1380
清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!
3820
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
3630
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造
1.3K0
每日学术速递2.20
1430
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
7570
国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
9540
论文解读 - 统一的多模态理解和生成模型综述(下)
1660
目标检测算法之评价标准和常见数据集盘点
8970
文本生成图像工作简述2--常用数据集分析与汇总
1.1K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
3.5K0
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
3910
[CVPR23 Highlight]多模态新任务、新数据集:NTU提出广义引用分割问题GRES
3450
多模态版Llama2上线,Meta发布AnyMAL
5090
相关推荐
台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档