Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品

视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品

作者头像
量子位
发布于 2023-04-13 02:41:02
发布于 2023-04-13 02:41:02
4800
举报
文章被收录于专栏:量子位量子位
明敏 发自 凹非寺 量子位 | 公众号 QbitAI

现在AI圈确实到了拼手速的时候啊。

这不,Meta的SAM刚刚推出几天,就有国内程序猿来了波buff叠加,把目标检测、分割、生成几大视觉AI功能all in one!

比如基于Stable Diffusion和SAM,就能让照片中的椅子无缝换成沙发:

换装、换发色也是so easy:

项目一经发布就让不少人惊呼:手速也太快了吧!

还有人表示:我和新垣结衣的新结婚照有了

如上就是Gounded-SAM带来的效果,项目在GitHub上已揽星1.8k。

简单来说,这就是一个zero-shot视觉应用,只需要输入图片,就能自动化检测和分割图像。

该研究来自IDEA研究院(粤港澳大湾区数字经济研究院),创始人兼理事长为沈向洋。

无需额外训练

Grounded SAM主要由Grounding DINO和SAM两个模型组成。

其中SAM(Segment Anything)是4天前Meta刚刚推出的零样本分割模型。

它可以为图像/视频中的任何物体生成mask,包括训练过程中没出现过的物体和图像。

通过让SAM对于任何提示都返回有效的mask, 能够让模型在即使提示是模糊的或者指向多个对象的情况下,输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

模型框架主要由一个图像编码器、一个提示编码器和一个快速mask解码器组成。在计算图像嵌入后,SAM能够在50毫秒内根据web中的任何提示生成一个分割。

Grounding DINO是该研究团队已有的成果。

这是一个零样本检测模型,能够生成带有文字描述的物体box和标签。

二者结合后,可以通过文本描述找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度地分割出mask.

在这些能力之上,他们还叠加了Stable Diffusion的能力,也就是开头所展示的可控图像生成。

值得一提的是,Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素,再输入文本提示就可以。

这一回,Grounded SAM能够省去手动选区这个步骤,直接通过文本描述来控制。

另外结合BLIP(Bootstrapping Language-Image Pre-training),生成图片标题、提取标签,再生成物体box和mask。

目前,还有更多有趣的功能正在开发中。

比如人物方面的一些拓展:更换衣服、发色、肤色等。

具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本,pytorch 1.7以上版本,torchvision 0.8以上版本,并要安装相关依赖项。具体内容可看GitHub项目页。

该研究团队来自IDEA研究院(粤港澳大湾区数字经济研究院)。

公开消息显示,该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构,前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

One More Thing

对于Grounded SAM的未来工作,团队有几点展望:

  • 自动生成图像构成新数据集
  • 具有分割预训练的强大基础模型
  • 和(Chat-)GPT合作
  • 构成一个自动生成图像标签、box和mask的pipeline,并能生成新的图像。

值得一提的是,该项目的团队成员中,有不少都是知乎AI领域活跃的答主,这次也在知乎上自答了关于Grounded SAM的内容,感兴趣的童鞋可以去留言请教~

参考链接: [1]https://zhuanlan.zhihu.com/p/620271321 [2]https://github.com/IDEA-Research/Grounded-Segment-Anything [3]https://segment-anything.com/

【AIGC 技术探索与应用创新】

4月13日「掘金城市沙龙·北京站」

限量免费参会!

ChatGPT 看,AI 模型服务化趋势是怎样的?AIGC 新时代下,文本智能创作面临什么样的变革?如何轻松训练 AIGC 大模型?基于大模型的 AIGC 工作原理和应用场景是什么样?

畅聊「AIGC 技术探索与应用创新」字节跳动 NLP 算法工程师陈家泽、英特尔AI软件工程师杨亦诚、Google Cloud机器学习专家王顺、清华大学 KEG 知识工程实验室研究助理郑勤铠、九合创投 COO张少宇、稀土掘金江昪等多位业界专家已集结完毕!

4月13日下午北京大钟寺地铁站方恒时尚中心,邀你线下参会,更有多款稀土掘金原创周边等你来!

扫描下方二维码,抢线下免费参会票!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
---- 新智元报道   编辑:桃子 好困 【新智元导读】Meta的SAM「分割一切」模型刚发布,国内团队就进行了二创,打造了一个最强的零样本视觉应用Grounded-SAM,不仅能分割一切,还能检测一切,生成一切。 Meta的「分割一切」模型横空出世后,已经让圈内人惊呼CV不存在了。 就在SAM发布后一天,国内团队在此基础上搞出了一个进化版本「Grounded-SAM」。 注:项目的logo是团队用Midjourney花了一个小时做的 Grounded-SAM把SAM和BLIP、Stable Di
新智元
2023/05/09
7760
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能
模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:
量子位
2023/08/05
4090
比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能
分割一切还不够,还要检测一切、生成一切,SAM二创开始了
来源:机器之心本文约1400字,建议阅读5分钟本文介绍了SAM开始的二创。 论文刚发布两天,「二创」就开始了。 AI 技术的迭代,已经以天为单位。所以,如果你有什么好的想法,最好赶紧做,不然睡一觉可能就被抢先了。 这个被很多人看好的 idea 源于 Meta 两天前发布的「分割一切」AI 模型(Segment Anything Model,简称 SAM)。Meta 表示,「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类
数据派THU
2023/04/18
8640
分割一切还不够,还要检测一切、生成一切,SAM二创开始了
大模型新势力:IDEA研究院张家兴入局创业,沈向洋任顾问,首轮估值20亿
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 大模型创业江湖,又来了两位重磅大牛。 张家兴,粤港澳大湾区数字经济研究院(IDEA研究院)讲席科学家、认知计算与自然语言中心负责人,被曝已经启动了创业项目,而他站在他身后,以顾问身份出现的是知名AI大牛、IDEA研究院创始理事长沈向洋。 量子位获悉,张家兴新公司据说代号深度空间,大方向是打造大模型底座,希望瞄准B端市场打造企业级应用。 以及大牛创业多的是排队想进的投资者。所以即便项目尚未官宣,也只是小圈子里所知,但首轮估值已经高达数亿美元。 而张家兴,从
量子位
2023/05/06
5130
大模型新势力:IDEA研究院张家兴入局创业,沈向洋任顾问,首轮估值20亿
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
---- 新智元报道   编辑:LRS 【新智元导读】再也不用担心图像生成的位置错乱了! ‍随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。 其主要原因还是在于「输入接口」只有自然语言,无法做到对画面的精细控制。 最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法GLIGEN,以grounding输入为条件,对现有「预训练文本到图像扩散模型」的功能进行扩
新智元
2023/03/29
8130
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。
量子位
2023/11/27
3040
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT
机器之心报道 编辑:小舟、梓文 扩散模型虽好,但如何保证生成的图像准确高质量?GPT-4或许能帮上忙。 文本到图像生成领域近两年取得了很大的突破,从 GAN 到 Stable Diffusion,图像生成的速度越来越快,生成效果越来越好。然而,AI 模型生成的图像在细节上还有很多瑕疵,并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像,现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作,因此非常低效。 最近,来自加州大学伯克利分
机器之心
2023/05/31
6060
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。
计算机视觉研究院
2023/10/26
9450
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。
计算机视觉研究院
2024/04/17
7010
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
机器之心专栏 机器之心编辑部 ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来? 前两天,机器之心介绍了 Meta 最新研究成果 Segment Anything Model (SAM)。该研究引起了AI社区广泛讨论。 而据我们所知,几乎同一时间,智源研究院视觉团队也推出通用分割模型 SegGPT(Segment Everything In Context)—— 利用视觉提示(prompt)完成任意分割任务的通用视觉模型。 论文地址:https://a
机器之心
2023/04/11
7920
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
机器之心报道 机器之心编辑部 CV 领域已经卷到了一个新的高度。 本月初,Meta 发布「分割一切」AI 模型 ——Segment Anything Model(SAM)。SAM 被认为是一个通用的图像分割基础模型,它学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,包括在训练过程中没有遇到过的物体和图像类型。这种「零样本迁移」的能力令人惊叹,甚至有人称 CV 领域迎来了「GPT-3 时刻」。 最近,一篇「一次性分割一切」的新论文《Segment Everything Everywh
机器之心
2023/05/01
6320
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
第一个针对「Segment Anything」大模型的域适应策略来了!相关论文已被CVPR 2024 接收。
计算机视觉研究院
2024/04/17
8490
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
VIVO提出泛化性更强的SAM(附源码下载)
由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制,这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略。
计算机视觉研究院
2024/08/30
1240
VIVO提出泛化性更强的SAM(附源码下载)
万物分割SAM家族 越发壮大!HQ-SAM、FastSAM 和 FasterSAM(MobileSAM)
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
公众号机器学习与AI生成创作
2023/08/22
1.2K0
万物分割SAM家族 越发壮大!HQ-SAM、FastSAM 和 FasterSAM(MobileSAM)
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式
---- 新智元报道   编辑:编辑部 【新智元导读】今天,Meta发布史上首个图像分割基础模型SAM,将NLP领域的prompt范式引进CV,让模型可以通过prompt一键抠图。网友直呼:CV不存在了! 就在刚刚,Meta AI发布了Segment Anything Model(SAM)——第一个图像分割基础模型。 SAM能从照片或视频中对任意对象实现一键分割,并且能够零样本迁移到其他任务。 整体而言,SAM遵循了基础模型的思路: 1. 一种非常简单但可扩展的架构,可以处理多模态提示:文本、关键点
新智元
2023/04/06
9310
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」
---- 新智元报道   编辑:桃子 拉燕 【新智元导读】继SAM之后,威斯康辛麦迪逊、微软、港科大等机构的研究人员提出SEEM模型,通过不同的视觉提示和语言提示,一键分割图像、视频。 Meta的「分割一切」的横空出世,让许多人惊呼CV不存在了。 基于这一模型,众网友纷纷做了进一步工作,比如Grounded SAM。 将Stable Diffusion、Whisper、ChatGPT结合使用,就能做到通过语音让一只狗变成一只猴子。 而现在,不仅仅是语音,你可以通过多模态提示实现一次性分割所有地方的
新智元
2023/05/09
3200
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
Diffusion模型的最新进展在许多生成任务中树立了一个令人印象深刻的里程碑。诸如DALL·E 2、Imagen和Stable Diffusion(SD)等引人瞩目的工作,引起了学术界和工业界的极大兴趣。
新智元
2023/01/08
4530
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
来了,ChatGPT开始在金融圈抢活
梦晨 金磊 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT如此火爆,OpenAI自己也没想到。 根据《纽约时报》最新披露,原本下一代GPT-4在OpenAI内部几乎准备就绪,只待发布。 11月中旬,高层突然宣布新任务:两周后发布免费聊天机器人应用,代号“Chat with GPT3.5”。 一群技术人员临时掉头,但他们中甚至有人怀疑这是否真的有意义。 底层技术方面,他们原本天天接触最先进的GPT4,已经麻木了,GPT3.5对他们来说已是两年前的旧玩意。 产品形态方面,同行Meta发布的聊天
量子位
2023/02/23
5200
来了,ChatGPT开始在金融圈抢活
计算机视觉领域的基础模型
在计算摄影学的研究和应用中,计算机视觉(Computer Vision)技术扮演了至关重要的角色。计算机视觉不仅帮助我们理解和处理图像和视频数据,还为我们提供了丰富的工具和方法,以提升摄影和图像处理的效果。为了帮助大家更好地理解和应用这些技术,我准备也在星球中介绍更多关于计算机视觉的内容,首先我会引用一些文章,来介绍“计算机视觉领域的基础模型”。
HawkWang
2024/06/26
9100
计算机视觉领域的基础模型
基础模型还是微调? 河流污染少镜头语义分割的评价
近年来,基础模型(FMs)已成为人工智能(AI)研究的热点领域。它们以能够轻易地泛化到新领域和任务的能力而著称,为研究和产业都带来了令人激动的机会。但是,从产业角度来看,FMs只有在它们在给定任务上超越专门为此任务训练的模型时才更有效。因为实际生活中的数据往往与用于研究的数据存在显著差异,因此在行业环境中预训练的数据集可能无法匹配当前的任务。因此,FMs或对现有模型进行微调是合理的选择,虽然在某些情况下选择并不明显。微调模型被认为需要大量的优质数据进行训练,而工业环境中获取这些数据并不容易。在这种情况下,FMs可能是解决方法。在本工作中,作者研究了一个人是否应该使用FMs而不是微调现有的模型。
未来先知
2024/10/29
1590
基础模型还是微调? 河流污染少镜头语义分割的评价
推荐阅读
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
7760
比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能
4090
分割一切还不够,还要检测一切、生成一切,SAM二创开始了
8640
大模型新势力:IDEA研究院张家兴入局创业,沈向洋任顾问,首轮估值20亿
5130
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
8130
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
3040
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT
6060
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
9450
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
7010
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
7920
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
6320
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
8490
VIVO提出泛化性更强的SAM(附源码下载)
1240
万物分割SAM家族 越发壮大!HQ-SAM、FastSAM 和 FasterSAM(MobileSAM)
1.2K0
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式
9310
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」
3200
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
4530
来了,ChatGPT开始在金融圈抢活
5200
计算机视觉领域的基础模型
9100
基础模型还是微调? 河流污染少镜头语义分割的评价
1590
相关推荐
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档