人们在关注图像中的生命个体(尤其是人)的时候,关注点 往往 只是目标的脸和手脚 。这部分区域虽小,却给观者提供了对目标个体进行联想的绝大部分信息。
现有的图像分割算法 却 只是对均匀权重的像素点阵进行圈地运动
即便是图像分割算法中常提到的 pixel-level segment(像素级分割),其实 也只是 对均匀权重的像素点阵 进行的 无差别意义上的 pixel-level segment。
然而,生活中最能被广泛运用到的,却是 侧重针对 关注点区域 的 pixel-level segment,其他区域分割得即使不精细,也没那么重要(当然也有例外,例如用于P图和特别针对衣服设计的分割算法除外)。
即便是 当下不可一世的Mask RCNN算法,也是基于此思路。高举 pixel-level segment 的大旗,其实行的是 基于像素点阵无差别 这一 默认前提 的 pixel-level segment 。
那么问题来了,对 关注点 和 非关注点 都 进行 pixel-level segment 不就两全其美了么?其实不然。现有的算法在训练过程中,对实例区域中的 关注点 和 非关注点 进行 无差别对待,那么算法就会 习得 顾全 “大局” 的缺陷 。对于 某些实例之间交错的狭长区域,慑于 loss计算 带来的 可怕成长记忆 而 自动放弃申索 。这种缺陷即使在Mask RCNN论文贴出的上佳效果图中也能窥见一斑:
蓝色实例的个体,由于他的双手(可视为与本实例主体区域相连的狭长区域)伸入了其他实例的主体区域,结果就被算法回归到其他实例身上去了。仔细想想,如果手被分割错了,感觉是个大事情;如果衣角帽檐被分割错了,who care ?
同样的设计缺陷还发生在其他图像识别算法的设计中,例如我们对人们拍摄的照片进行图像分类然后归档。
假设某个小文青非要拍一张既唯美又富有深意的照片,表达出《人类在大自然面前是多么滴渺小》这么一个高逼格的主题,那么Ta很有可能这么拍:
很明显,Ta 想表达的重点 是 画面中央的人 。然而由于人的像素区域占比太小,很可能不被图像识别算法识别出来,于是直接被算法自动归档到《纯风光》类别而不是《行为艺术》类别的照片里面去了。
其实说白了就是 图像分割中 的 不平衡采样 问题。
我们需要一个全新的分割思路,即 Attention Segment (关注点分割) 。
那么就要从源头做起了,即指定新的图像分割标记方法。
Attention Segment (关注点分割) 需要的是全新的标记方法:不仅要把每个实例的边界区域圈出来,还要对每个实例区域中额外再分出关注度大于指定阈值的区域。当然,如果你想设置多级阈值进行多级划分,最后的效果估计会更好,但是会不会被图像标记工程师打,这个我就不敢保证了。( ̄▽ ̄)~*
传统标记法其实就是记录二维矩阵。经过全新标记法得到的标记数据却是一个三维矩阵(增加的第三维是该像素点的关注度权重值)。
由该三维矩阵生成的ground_truth,与神经网络预测出的三维分割图进行比对,计算loss,再通过反馈机制调整神经网络。虽然收敛时间会比之前久一点,但是效果肯定也会比之前的好。 (我猜的啊。。。(>﹏<) ,效果没提升别打我)
以上是我个人的一点小小idea。( ̄︶ ̄)↗