Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >EfficientSAM | 借助MIM机制,MetaAI让SAM更高效!

EfficientSAM | 借助MIM机制,MetaAI让SAM更高效!

作者头像
AIWalker
发布于 2023-12-06 10:32:18
发布于 2023-12-06 10:32:18
8280
举报
文章被收录于专栏:AIWalkerAIWalker

paper:https://arxiv.org/abs/2312.00863

本文介绍了一种名为EfficientSAM的模型,该模型通过利用遮罩图像预训练来提高图像分割的性能。作者使用了一个名为SAMI的方法,通过将SAM图像编码器的特征作为重建目标,从SAM图像编码器中重建特征,从而实现遮罩图像预训练。作者还使用SAMI预训练的轻量级图像编码器构建了EfficientSAM模型,并在SA-1B数据集上进行了验证。实验结果表明,EfficientSAM模型在图像分类、目标检测、实例分割和语义分割等任务中均取得了比其他预训练方法更好的性能。此外,作者还讨论了与遮罩图像预训练相关的方法和应用。

本文方案

  • Cross Attention Decoder 只有遮罩的标记需要通过解码器进行重构,而编码器的输出可以作为重构过程中的锚点。在交叉注意力解码器中,查询来自遮罩标记,键和值则来自编码器中的未遮罩特征和遮罩特征。然后,将来自交叉注意力解码器中遮罩标记的输出特征和来自编码器中未遮罩标记的输出特征进行合并,以生成MAE输出嵌入。最后,将合并后的特征重新排序到输入图像标记的原始位置,得到最终的MAE输出。
  • Linear Projection Head 通过编码器和解码器获取图像输出,然后将特征输入到一个小型项目头(project head)以对齐来自SAM图像编码器的特征。为了简化,作者使用了线性投影头(linear projection head)来解决SAM图像编码器输出和MAE之间特征维度的 mismatch 问题.
  • Reconstruction Loss 在每次训练迭代中,SAMI包括从SAM图像编码器进行的一次前馈特征提取,以及MAE的一次前馈和反向传播过程。通过比较SAM图像编码器和MAE线性投影头的输出,计算重构损失。
  • SAMI for EfficientSAM.在预训练之后,我们的编码器提取各种视觉任务的特征表示,而解码器被丢弃。特别地,为了构建用于分割任何任务的 efficient SAM 模型,我们采用 SAMI 预训练的轻量级编码器(如 ViT-Tiny 和 ViT-Small)作为图像编码器,并使用 SAM 的默认遮罩解码器作为我们的 EfficientSAM 的解码器,如图 2(底部)所示。我们在 SA-1B 数据集上对 EfficientSAM 模型进行微调,以用于分割任何任务。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。
OpenCV学堂
2023/12/11
9030
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
生成预训练Transformer(Generative Pre-trained Transformer,GPT)系列模型的成功表明,如果在大规模数据上进行训练,大型语言模型在零样本和非可视域中的少量快照任务上的性能与最新技术相当。
集智书童公众号
2023/09/04
1K0
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
ChatGPT Zhang等人彻底改变了NLP领域,标志着生成人工智能(AIGC,又称人工智能生成内容)的突破。使这成为可能的是Brown等人、Radford等人的GPT系列模型,这些模型是Bommasani等人在网络规模的文本数据集上训练的基础模型。
集智书童公众号
2023/09/04
1.7K0
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
每日学术速递12.10
1.Object Recognition as Next Token Prediction
AiCharm
2023/12/13
2720
每日学术速递12.10
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
大语言模型(LLMs)的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中,Segment Anything Model(SAM)是最先进的图像分割基础模型。
机器之心
2024/04/12
2830
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
医学影像是诊断各种疾病(尤其是在神经学和肿瘤学)的必备工具 [1]。多模态影像(如多模态MRI扫描,例如T1、T2和PD序列),可以整合不同影像序列的互补信息,从而提高诊断的准确性 [2]。不同的MRI序列可以显示不同的组织特征,有助于肿瘤、血管畸形或退行性疾病的检测 [3]。然而,获取这些不同模态需要额外的成本,包括在扫描仪中延长患者的时间。此外,由于设备限制、患者状况或长时间扫描过程中产生的运动,并非所有模态都可能可用。这些挑战推动了大量对医学影像翻译技术的需求,这些技术可以将一种影像模式合成为另一种,从而在减少多模态扫描的同时保持诊断的准确性。
未来先知
2024/12/23
4090
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
想必大家之前都做过抠图或者图片任务提取等任务,这有点想目前我们手机当中可以直接点击图片,然后将其复制到其它地方,就会自动出现这个任务图像一样。这里我们可以直接登录这个网站去尝试一下这个图像分割的魅力Segment Anything | Meta AI
此星光明
2024/02/11
1.2K0
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
Segment Anything笔记 - plus studio
Segment Anything project是一个用于图像分割的新任务、模型和数据集。在他刚出来的那一天,知乎等平台就已经高呼CV已死。为了这个项目,作者创建了迄今为止最大的分割数据集,1100万张在10亿次授权且尊重隐私的图像上的数据集。模型也被设计和训练成了promptable,就是说可以给他一些提示。作者在多个数据集测试了他的结果并认为结果令人满意。
plus sign
2024/02/28
4490
Segment Anything笔记 - plus studio
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
作为在超过1100万张图像上预训练的大型视觉模型,Segment-Anything Model (SAM)[1]引起了研究行人的关注。然而,最近的研究表明,SAM在下游任务上表现不佳,包括伪装物检测[2,3]、阴影检测[3]和显著物检测[4]。
未来先知
2024/08/20
6480
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!
在本文中,作者证明了masked autoencoders(MAE) 是一种可扩展的计算机视觉自监督学习方法。本文的MAE方法很简单:mask输入图像的随机patch,并重建丢失的像素 。它基于两个核心设计的。
CV君
2021/11/18
8650
FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中,CLIP(对比语言图像预训练)[38] 脱颖而出,作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色,无需直接监督就能理解并关联到视觉内容到文本描述。
AIGC 先锋科技
2024/10/22
3010
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
带掩码的自编码器MAE详解和Pytorch代码实现
监督学习是训练机器学习模型的传统方法,它在训练时每一个观察到的数据都需要有标注好的标签。如果我们有一种训练机器学习模型的方法不需要收集标签,会怎么样?如果我们从收集的相同数据中提取标签呢?这种类型的学
deephub
2021/12/15
3.9K0
带掩码的自编码器MAE详解和Pytorch代码实现
SAM-OCTA2 一种高效的OCTA图像层序列与投影分割方法 !
OCTA(光学相干断层扫描)是一种关键技术,用于可视化视网膜血管系统,特别是微血管结构和血流动力学[1]。它提供了眼球结构和疾病详细的无创成像,已经广泛应用于分析并诊断近视相关的眼病,如年龄相关性黄斑病变,分支的视网膜静脉阻塞,糖尿病视网膜病变和青光眼。OCTA通过堆叠B扫描获取深度信息,同时通过层切片创建表面视图[6]。
未来先知
2024/10/08
4280
SAM-OCTA2 一种高效的OCTA图像层序列与投影分割方法 !
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。
新智元
2023/08/07
6270
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
基于深度学习算法在结肠镜检查过程中检测癌前病变已显示出巨大潜力。近期,一种基础模型,即Segment Anything Model(SAM),被引入用于通用语义分割。一些研究探索了其在息肉分割中的零样本推理或微调[17, 9]潜力。
AIGC 先锋科技
2024/07/08
3950
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
CV 迎来 GPT-3 时刻,Meta 开源万物可分割 AI 模型和 1100 万张照片,1B+掩码数据集!
CV 迎来 GPT-3 时刻,开启一键分割万物模式! 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 通过单击、交互式点击即可分割图像或视频。 英伟达 AI 科学家 Jim Fan 在 Twitter 上惊呼,Meta 发布的 SAM 让计算机视觉(CV)迎来 GPT-3 时刻。更不可思议的是,模型和数据(1100万张图像,10亿个掩码)都已经基于 Apache 2.0 许可开源。 今日,Meta 发布首个可“任意图像分割”的基础模型  Segment-Anything Model(S
AI科技大本营
2023/04/10
8130
CV 迎来 GPT-3 时刻,Meta 开源万物可分割 AI 模型和 1100 万张照片,1B+掩码数据集!
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
使用即时学习方法展示了SAM对下游医学分割任务的泛化能力。结果显示,仅使用大约5个输入点就显著提高了分割精度。
集智书童公众号
2023/09/04
1.7K0
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
【MAE】掩码自回归编码器
  掩码自动编码器MAE是一种可扩展的计算机视觉自监督学习器。MAE的基本思路是:屏蔽输入图像的随机补丁,并重建丢失的像素,它基于两个核心设计。
Srlua
2024/12/14
3690
【MAE】掩码自回归编码器
AI大模型驱动的智能化学结构分割框架ChemSAM
近日,「德睿智药」与帝国理工学院的合作论文“Automated molecular structure segmentation from documents using ChemSAM”发表在国际顶级化学信息学期刊Journal of Cheminformatics上。研究团队开发了一种基于深度学习的高性能化学结构分割模型ChemSAM,利用大模型框架从化合物的图形表示中识别其结构。该模型在公开基准数据集和实际任务上取得了当前最优效果,能够高效提取期刊文献以及专利中的化学结构。目前,ChemSAM已成功应用于「德睿智药」内部PROTACT数据库以及PharmKG平台项目研发,加速高质量化学信息收集。
DrugOne
2024/03/26
4590
AI大模型驱动的智能化学结构分割框架ChemSAM
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
杨净 发自 凹非寺 量子位 | 公众号 QbitAI 上回说道,何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式—— 用掩蔽自编码器MAE,为视觉大模型开路。 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE。 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注。 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测。 预测的目标
量子位
2022/03/04
6600
推荐阅读
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
9030
医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型
1K0
MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢
1.7K0
每日学术速递12.10
2720
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
2830
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
4090
万能分割神器——Segment Anything(Meta AI)图片和影像的万能分割
1.2K0
Segment Anything笔记 - plus studio
4490
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
6480
FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!
8650
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
3010
带掩码的自编码器MAE详解和Pytorch代码实现
3.9K0
SAM-OCTA2 一种高效的OCTA图像层序列与投影分割方法 !
4280
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
6270
超越SOTA:PP-SAM 在有限数据集上的图像分割突破,简化采样 SA M 过程,仅需最小的标注!
3950
CV 迎来 GPT-3 时刻,Meta 开源万物可分割 AI 模型和 1100 万张照片,1B+掩码数据集!
8130
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
1.7K0
【MAE】掩码自回归编码器
3690
AI大模型驱动的智能化学结构分割框架ChemSAM
4590
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
6600
相关推荐
小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档