国内外多模态大模型对比
•图像
•语音
•文本
•视频
• 3D 点云
•在线性层上进行偏差调整
•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用,产生负面影响
•利用字幕、检测和 OCR ( Optical Character Recognition,光学字符识别)等专家系统来增强视觉指令遵循能力。
•图形
•中英文
•BLIP2-Qformer
•Qformer:轻量级Transformer
•产生
• KEG 实验室
•智谱 AI
•VisualGLM-6B基于 ChatGLM4处改进
•1、重新调整归一化和残差连接的顺序,可以有效地防止数字错误
•2、仅使用单一的线性层来输出令牌预测。
•3、用 GeLU 激活函数取代了 ReLU 函数。
•4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化
•视觉基础模块(采用开源的VTL-L)
•视觉抽象模块
•预训练的语言模型(LLaMA-7B)
•图片
•英文
•视频
•1、带有预训练的 VT 和 QFormer 视觉编码器
•2、单独的线性层。
•3、 Vicuna LLM。
•基于mPLUG-Owl模型发布
• 包含
•50 张图片
•82 个回题
•功能
•故事生成
•广告生成
•代码生成
•开发
•腾讯优图实验室
•厦门大学
•微软
•检测任务
• Object Detection ( 主要用于目标检测 )
•DenscPosc(主要用于姿态密度检测 )
•Key points( 主要用于关键点检测)
•Stuff(主要用于其他物品检测,处理草、墙、天等 )
•Panoptic ( 王要用于场景分割)
•Captions(主要用于字幕标注)
•图像的开放式问题
•265 016张图片。
•结构
•265 016张图片
•每张图片至少有 3 个问题(平均 5.4个每个问题)
•每个问题
•有 10 个基本事实答案
•有 3 个合理(但可能不正确)的答案
•人工标注
•A=“正确且令人满意"
•B=“有一些不完美,但可以接受”
•C-“理解了指令但是回复内容存在明显错误”
•D=“完全不相关或者不正确的回复内容”
•二分类的“是”或“否”
•精度 (Accuracy)
•精度+ (Accuracy+)
•采用
•mAP (mean Average Precision.平为精度的平均值)
•AP (Average Precision,平均精度)
•lOU(用交并比 Intersection Over Union)
•第一种方法是将 IOU以0.5到0.95设置0.05的间隔,分别计算出 mAP,最后平均数
•第二种方法是根据IOU分别为0.5和0.75的阀值来计算特定的平均精度
•还在对不同尺寸物体的多个 mAP,它们分别表示小物体、中等物体和大物体
•平均召回率Average Recall,AR)也是一种常见的度量方式。
• PLCC (Pearson Linear Correlation Coefficient,皮尔逊线性相关系数 )
•SROCC(Spearman Rank Order Correlation Coefficient,斯皮尔曼秩相关系数)
•KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数)
•RMSE( Root Mean Square Error,均方根误差 )
•1 BLIP-2 1293.84
•2 InstructBLIP 1212.82
•3 LLMAAdapter-V2 972.67
•4 mPLUG-Owl 967.35
•5 LaVIN 963.61
•判断(Existence )
•计数( Count)
•位置判断( Position)
•颜色识别 (Color)
•海报识别 (Poster)
•名人识别(Celebrity)
•场景识别(Scene )
•地标识别(Landmark)
•艺术品识别(Artwork)