Vision Transformer (ViT) 是一种基于 Transformer 的深度学习模型,用于图像分类和其他计算机视觉任务。它结合了 Transformer 在自然语言处理中的优势与计算机视觉中的卷积神经网络(CNN)的优势。
ViT 模型的核心思想是将图像分割成一个个固定大小的patch块,然后将这些patch块视为序列数据,并使用 Transformer 进行注意力机制的计算。通过注意力机制,ViT 模型可以捕捉到图像中长距离依赖关系,同时保持对局部特征的敏感性。
ViT 模型的架构主要包括以下几个部分:
1. 图像分割:将输入图像分割成固定大小的patch图像块,例如 16x16 或 32x32。
2. 线性投影:将每个patch图像块投影到一个固定维度的向量空间中,以便与 Transformer 的输入维度匹配。此过程便是embedding 的过程
3. Transformer 编码器:使用标准的 Transformer 编码器对图像块序列进行注意力机制的计算,以捕捉图像中的长距离依赖关系。这里是有12层的编码器。
4. 分类头:在 Transformer 编码器的输出上添加一个分类头,用于预测图像的类别。用于下游任务的最终输出。
ViT 模型的优势在于它可以捕捉到图像中长距离依赖关系,同时保持对局部特征的敏感性。这使得 ViT 模型在图像分类和其他计算机视觉任务中取得了非常好的结果。 ViT 模型的成功还证明了 Transformer 在计算机视觉中的潜力,并为未来的研究提供了一个新的研究方向。
领取专属 10元无门槛券
私享最新 技术干货