首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >多模态大模型技术原理及实战(5)

多模态大模型技术原理及实战(5)

作者头像
顾翔
发布于 2024-09-10 05:05:22
发布于 2024-09-10 05:05:22
2000
举报

国内外多模态大模型对比

国内

LLaMA-Adapter V2

香港中文大学

双语输出

输入

•图像

•语音

•文本

•视频

• 3D 点云

起源:LLaMA-Adapter

•在线性层上进行偏差调整

•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用,产生负面影响

•利用字幕、检测和 OCR ( Optical Character Recognition,光学字符识别)等专家系统来增强视觉指令遵循能力。

VisualGLM-6B

清华大学

输入

•图形

•中英文

训练模型

•BLIP2-Qformer

•Qformer:轻量级Transformer

62亿个参数

基模型:ChatGLM

•产生

• KEG 实验室

•智谱 AI

•VisualGLM-6B基于 ChatGLM4处改进

•1、重新调整归一化和残差连接的顺序,可以有效地防止数字错误

•2、仅使用单一的线性层来输出令牌预测。

•3、用 GeLU 激活函数取代了 ReLU 函数。

•4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化

mPLUG-Owl

阿里巴巴达摩研究院

2023年5月

架构

•视觉基础模块(采用开源的VTL-L)

•视觉抽象模块

•预训练的语言模型(LLaMA-7B)

支持输入

•图片

•英文

•视频

基模型: LLaMA

国外

Visual ChatGPT

微软亚洲研究院

2023 年 3 月9 日

在文本和图像之与 ChatGPT并执行更复杂的视觉命令

基模型: ChatGPT

22个视觉模型的知识

InstructBLIP

BLIP 模型的研究团队

MiniGPT-4

开放源代码的聊天机器人

组成

•1、带有预训练的 VT 和 QFormer 视觉编码器

•2、单独的线性层。

•3、 Vicuna LLM

多模态大模型评测数据集

国内评测数据集

OwlEval

•基于mPLUG-Owl模型发布

• 包含

•50 张图片

•82 个回题

•功能

•故事生成

•广告生成

•代码生成

MME

•开发

•腾讯优图实验室

•厦门大学

国外评测数据集

COCO:Common Objects in Context

•微软

•检测任务

• Object Detection ( 主要用于目标检测 )

•DenscPosc(主要用于姿态密度检测 )

•Key points( 主要用于关键点检测)

•Stuff(主要用于其他物品检测,处理草、墙、天等 )

•Panoptic ( 王要用于场景分割)

•Captions(主要用于字幕标注)

VQA(Visual Question Answer,视觉问答 )

•图像的开放式问题

•265 016张图片。

•结构

•265 016张图片

•每张图片至少有 3 个问题(平均 5.4个每个问题)

•每个问题

•有 10 个基本事实答案

•有 3 个合理(但可能不正确)的答案

多模态大模型的评测标准

国内评测标准

OwIEva

•人工标注

•A=“正确且令人满意"

•B=“有一些不完美,但可以接受”

•C-“理解了指令但是回复内容存在明显错误”

•D=“完全不相关或者不正确的回复内容”

MME

•二分类的“是”或“否”

•精度 (Accuracy)

•精度+ (Accuracy+)

国外评测标准

CoCo

•采用

•mAP (mean Average Precision.平为精度的平均值)

•AP (Average Precision,平均精度)

目标检测领域

•lOU(用交并比 Intersection Over Union)

•第一种方法是将 IOU以0.5到0.95设置0.05的间隔,分别计算出 mAP,最后平均数

•第二种方法是根据IOU分别为0.5和0.75的阀值来计算特定的平均精度

•还在对不同尺寸物体的多个 mAP,它们分别表示小物体、中等物体和大物体

•平均召回率Average Recall,AR)也是一种常见的度量方式。

VQA 数据集

• PLCC (Pearson Linear Correlation Coefficient,皮尔逊线性相关系数 )

•SROCC(Spearman Rank Order Correlation Coefficient,斯皮尔曼秩相关系数)

•KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数)

•RMSE( Root Mean Square Error,均方根误差 )

多模态大模型对比

感知能力评测

排名

•1 BLIP-2 1293.84

•2 InstructBLIP 1212.82

•3 LLMAAdapter-V2 972.67

•4 mPLUG-Owl 967.35

•5 LaVIN 963.61

粗粒度识别任务

•判断(Existence )

•计数( Count)

•位置判断( Position)

•颜色识别 (Color)

细粒度识别任务

•海报识别 (Poster)

•名人识别(Celebrity)

•场景识别(Scene )

•地标识别(Landmark)

•艺术品识别(Artwork)

认知能力评测

即识推理 (Commonsense Reasoning)。

数值计算( Numerical Calculation )

文本翻译(Text Translation)

代码推理(Code Reasoning)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 国内
    • LLaMA-Adapter V2
      • 香港中文大学
      • 双语输出
      • 输入
      • 起源:LLaMA-Adapter
    • VisualGLM-6B
      • 清华大学
      • 输入
      • 训练模型
      • 62亿个参数
      • 基模型:ChatGLM
    • mPLUG-Owl
      • 阿里巴巴达摩研究院
      • 2023年5月
      • 架构
      • 支持输入
      • 基模型: LLaMA
  • 国外
    • Visual ChatGPT
      • 微软亚洲研究院
      • 2023 年 3 月9 日
      • 在文本和图像之与 ChatGPT并执行更复杂的视觉命令
      • 基模型: ChatGPT
      • 22个视觉模型的知识
    • InstructBLIP
      • BLIP 模型的研究团队
    • MiniGPT-4
      • 开放源代码的聊天机器人
      • 组成
  • 多模态大模型评测数据集
    • 国内评测数据集
      • OwlEval
      • MME
    • 国外评测数据集
      • COCO:Common Objects in Context
      • VQA(Visual Question Answer,视觉问答 )
  • 多模态大模型的评测标准
    • 国内评测标准
      • OwIEva
      • MME
    • 国外评测标准
      • CoCo
      • 目标检测领域
      • VQA 数据集
  • 多模态大模型对比
    • 感知能力评测
      • 排名
      • 粗粒度识别任务
      • 细粒度识别任务
    • 认知能力评测
      • 即识推理 (Commonsense Reasoning)。
      • 数值计算( Numerical Calculation )
      • 文本翻译(Text Translation)
      • 代码推理(Code Reasoning)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档