最近的Mamba[31]架构进一步将基于SSM的模型与现代化 Transformer 对齐,例如使状态空间变量依赖于输入 -- 类似于自注意力中的 Query 、键和值。...通过用自注意力模块替换卷积层, Transformer 可以捕获全局关系,并在许多常见的图像基准测试中取得了最先进的结果[20, 54, 107]。...最近的研究探讨了如何在ViTs本身内使用这些分层特征[9, 23, 25, 36, 37, 48, 51, 68, 72]。一些研究[59]探讨了将多分辨率特征作为注意力键和值来学习多尺度信息的用法。...此外,作者的设计与V Mamba模块[58]相比,准确率高出0.8%,这表明改进来自于作者提出的连续2D扫描和方向感知更新,这验证了作者在将SSM适应于2D图像方面所提出技术的有效性。...这些结果验证了在使用高分辨率输入时PlainMamba的高效率。
5 Conclusion
在本文中,作者介绍了PlainMamba,一个基于SSM的简单视觉识别模型。