视频区域中,显著区域中有语义意义的组建,即语义显著实例。为解决视频语义显著实例分割,来自日本SOKENDAI和National Institute of Informatics的学者构建了一个新的数据集SESIV。SESIV数据集由84个高质量的视频序列组成,每个帧的标签数据按照不同的分割任务进行标注。我们还为此问题设计了一个基线算法,称为Fork-Join Strategy(FJS)。FJS是一个two-stream网络,其充分利用了两种不同的分割任务的优点,即语义实例分割和显着对象分割。在FJS中,同时引入了一种序列融合,它将两个流的输出结合起来,构成非重叠的一个一个的实例。我们还引入了一个循环实例传播来优化实例的形状和语义含义,并引入一个目标个体跟踪来维护整个视频中实例个体和语义的连贯性。
语义显著实例示例:
Region Label:
Semantic Label:
Instance Label:
文中使用的基线模型算法流程:
https://arxiv.org/abs/1807.01452v1
https://sites.google.com/view/ltnghia/research/sesiv
领取专属 10元无门槛券
私享最新 技术干货