这篇文章提出了一种轻量级 SuperGlue,通过增加一种提前退出机制 + 修剪掉无匹配能力的点,做到推理时即快又好,各位同学速速围观!
paper: https://arxiv.org/abs/2306.13643
code: https://github.com/cvg/LightGlue
目前只公开了推理代码,训练代码预计7月开源。
该稀疏特征点的匹配器性能接近无特征点的匹配器 LoFTR,但速度快了近8倍。
如下图所示,容易匹配的图像会相较于难以匹配的提前停止。
下图为网络框架,比较明显的改变就是增加了退出机制 + 修剪点以及使用dual-softmax 替代了 sinkhorn。此外在 self + cross attention 阶段也有改变,此处不展开介绍。
退出机制:若图像之间的 overlap 比较大并且外观变化不多,那么作者认为浅层的预测是可靠的,此时应该及时退出。该策略是作者受到语言与视觉任务工作的启发才进行的设计与实验,简单有效。
若没有退出,即置信度高但是没有匹配上,那么这些点会被“修剪”,不会参与后续的 self + cross 操作。
实验部分:
LightGlue也在刚刚结束的图像匹配挑战赛中进行了实验,在默认配置下, 相较 SP+SG 提升2.3%。
更加详细的内容,请各位参考原文。