转载自:遥感与深度学习
题目:Remote SAMsing: From Segment Anything to Segment Everything
论文:https://arxiv.org/abs/2605.00256
数据:ISPRS Potsdam、Brasília 航空影像、Agri-BR(Planet 卫星)
代码:https://github.com/osmarluiz/sam-mosaic
年份:2026
单位:巴西利亚大学电气工程系 / 地理系
文章最关键的机制是黑色遮蔽(Black Mask)+ 多轮迭代:每轮分割完后把已分割区域涂黑,让SAM2在下一轮只"看见"还没分割的部分,场景越来越简单,SAM2越来越容易检测到之前忽略的细小对象。这个思路非常直觉、优雅,却又高度有效——单次SAM2只能覆盖30–68%的像素,加上这个机制后直接拉到91–98%。
更值得注意的是,整个方案完全不需要修改SAM2本身,也不需要任何训练数据或标注,对遥感领域的实际使用者极为友好。农业、城市规划、生态监测的领域科学家可以直接拿来用,不需要理解SAM2的内部参数逻辑。
创新点
- 提出多轮自适应分割算法,通过逐步黑色遮蔽已分割区域并自适应衰减质量阈值,将单次 SAM2 的覆盖率从 30–68% 提升至 91–98%
- 引入上下文填充(Contextual Padding)机制,解决 SAM2 在图像边缘停止生成掩码导致的空白条带问题
- 设计参数无关的最优匹配合并策略(Best-match Merge),结合 Union-Find 结构在线性时间内消除跨瓦片边界的对象碎片化
- 揭示瓦片尺寸作为隐式尺度参数的作用,其调节效果优于 SAM2 内置的多尺度机制
背景
在面向对象遥感图像分析(OBIA)范式下,图像分割是专题制图与空间分析的前提。SAM2 作为通用基础模型具备零样本分割能力,但将其应用于大幅面遥感影像时面临两个核心问题:一是单次推理存在质量与覆盖率的固有矛盾,严格阈值导致大量像素未被分割,而宽松阈值则引入低质量掩码;二是大图像必须切片处理,导致跨瓦片边界的对象被割裂为不连续片段。
现有工作大多聚焦于对单个图像块的分割质量改进(微调、提示工程或结构适配),缺乏对大幅面影像端到端完整分割的系统性解决方案,覆盖率优化与边界一致性问题至今仍未得到有效解决。
数据
ISPRS Potsdam
- 欧洲密集城区航空影像,地面分辨率 5 cm GSD
- 使用 3 个场景块(3_13、5_12、5_13),每块 6000×6000 像素
- 含 6 类公开语义标注:不透水面、建筑、低矮植被、树木、汽车、杂乱物
Brasília 航空影像
- 巴西巴西利亚高分辨率航空调查影像,地面分辨率 24 cm GSD
- 涵盖 3 种城市形态:住宅区(BSB-1)、商业区(BSB-2)、混合区(BSB-3),每块 8000×8000 像素
- BSB-1 含实例级标注,共 9 类(建筑、树木、汽车、泳池、球场、木平台、道路、湖泊、透水面)
Agri-BR(Planet 卫星)
- 巴西中部农业区 Planet 卫星影像,地面分辨率 4.78 m GSD,10000×10000 像素
- 使用 MNF 变换假彩色合成,测试对非 RGB 影像的泛化能力
- 含 3 类标注:圆形喷灌区、农田、湖泊
方法
多轮自适应分割(Multi-Pass Adaptive Segmentation)
逐轮场景简化(黑色遮蔽机制)
- 每轮分割完成后,将已接受的掩码区域涂黑,使场景逐步简化
- 涂黑区域不再产生新候选掩码,且黑色边界形成人工轮廓引导 SAM2 识别残余对象
- 提示点仅放置于未分割的残余区域,保持均匀点密度(Dense Grid 策略)
自适应阈值衰减(Adaptive Threshold Decay)
- 首轮以最严格阈值运行,优先捕获高质量掩码
- 当单轮覆盖增益低于停滞阈值时,同步降低预测 IoU 与稳定性阈值
- 阈值衰减仅在进展停滞时触发,保证早期分割结果的质量
大图缩放处理(Scaling to Large Images)
上下文填充(Contextual Padding)
- 将大图切分为不重叠的 T×T 瓦片,每块提取时向外扩展 p 像素作为推理窗口
- 分割后丢弃填充边缘,仅保留中心核心区域,确保相邻瓦片边界处掩码连续接触
最优匹配合并(Best-match Merge)
- 统计每对相邻标签在瓦片边界的接触像素数,每个分割区域仅与接触最多的邻居合并
- 使用带路径压缩的 Union-Find 结构处理传递合并,线性时间内完成
- 相比朴素全触碰合并策略,有效防止建筑、道路等不同对象因边界接触而错误融合
结果与分析
Remote SAMsing 在所有测试场景中均显著超越单次 SAM2 及传统方法(SLIC、Felzenszwalb),覆盖率稳定达到 91–98%,对建筑、汽车等离散对象的检测精度和边界质量均大幅领先基线。流水线在近 20 亿像素的 Potsdam 全幅mosaic影像上保持了与单块影像一致的分割质量,验证了其在生产级大图上的可扩展性。
更多图表分析可见原文
本文系学术转载,如有侵权,请联系CVer小助手删文