文/陈根
SAM一点,便可将内容分割出来;再由IA一键,图像修补完成。
4月初,由Meta发布的史上首个图像分割基础模型——SAM(Segment Anything Model)一上线,便得到了用户的高度赞赏。短短几天,SAM 的 GitHub 仓库的Star数高达26k。
那么,SAM到底是何方神器呢?
作为一种基于卷积神经网络的图像分割模型,SAM主要通过计算相邻像素之间的相似度来实现图像分割。其核心思想是将每个像素的上下文信息与其自身进行比较,以确定其应该属于哪个类别。为此,SAM 使用两个不同的卷积层来计算每个像素与其周围像素之间的相似度。第一个是空间卷积层,计算像素之间的空间关系;第二个是通道卷积层,计算像素之间的相似度。
SAM 还使用了一种称为空间亲和力机制的技术来进一步提高图像分割的准确性。所谓空间亲和力机制,是指通过计算每个像素与其邻居之间的相似度来评估像素之间的空间关系,然后将这些相似度值转换成空间亲和力矩阵。该矩阵被用来调整每个像素之间的相似度,从而更好地捕捉像素之间的空间依赖关系。
当SAM遇上图像修补任务,又会碰撞出怎样的灿烂火花呢?
来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于SAM,他们首次尝试无需掩码的图像修复,并构建了“点击再填充”的图像修补新范式,被称为“修补一切”(Inpaint Anything,简称IA)模型。
在IA模型中,SAM发挥着两方面的应用功能:
首先,SAM通过对图像进行分割,提取需要修复的区域;其次,SAM利用其在图像分割中的优秀表现和空间亲和力机制帮助模型更好地理解图像的语义信息,从而提高图像修补的准确性和效果。区别于传统图像修补模型,IA 模型无需精细化操作生成掩码,只要一键点击,标记选定对象,即可实现移除一切物体(Remove Anything)、填补一切内容(Fill Anything)、替换一切场景(Replace Anything),涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。
结合了SAM、LaMa和AIGC等视觉基础模型的IA,真正意义上实现了对用户操作友好的无掩码化图像修复,同时支持“点击删除,提示填充”等“傻瓜式”人性化操作。未来,研究者将进一步挖掘IA的潜力以支持更多实用的新功能。
领取专属 10元无门槛券
私享最新 技术干货