Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >理解卷积神经网络中的自注意力机制

理解卷积神经网络中的自注意力机制

作者头像
Amusi
发布于 2020-11-11 06:55:58
发布于 2020-11-11 06:55:58
1.4K0
举报
文章被收录于专栏:CVerCVer

本文转载自:AI公园

作者:Shuchen Du 编译:ronghuaiyang

导读

计算机视觉中的编解码结构的局限性以及提升方法。

卷积神经网络(CNN)广泛应用于深度学习和计算机视觉算法中。虽然很多基于CNN的算法符合行业标准,可以嵌入到商业产品中,但是标准的CNN算法仍然有局限性,在很多方面还可以改进。这篇文章讨论了语义分割和编码器-解码器架构作为例子,阐明了其局限性,以及为什么自注意机制可以帮助缓解问题。

标准编解码结构的局限性

图1:标准编解码结构

解码器架构(图1)是许多计算机视觉任务中的标准方法,特别是像素级预测任务,如语义分割、深度预测和一些与GAN相关的图像生成器。在编码器-解码器网络中,输入图像进行卷积、激活以及池化得到一个潜向量,然后恢复到与输入图像大小相同的输出图像。该架构是对称的,由精心设计的卷积块组成。由于其简单和准确,该体系结构被广泛使用。

图2:卷积的计算

但是,如果我们深入研究卷积的计算(图2),编码器-解码器架构的局限性就会浮出表面。例如,在3x3卷积中,卷积滤波器有9个像素,目标像素的值仅参照自身和周围的8个像素计算。这意味着卷积只能利用局部信息来计算目标像素,这可能会带来一些偏差,因为看不到全局信息。也有一些朴素的方法来缓解这个问题:使用更大的卷积滤波器或有更多卷积层的更深的网络。然而,计算开销越来越大,结果并没有得到显著的改善。

理解方差和协方差

方差和协方差都是统计学和机器学习中的重要概念。它们是为随机变量定义的。顾名思义,方差描述的是单个随机变量与其均值之间的偏差,而协方差描述的是两个随机变量之间的相似性。如果两个随机变量的分布相似,它们的协方差很大。否则,它们的协方差很小。如果我们将feature map中的每个像素作为一个随机变量,计算所有像素之间的配对协方差,我们可以根据每个预测像素在图像中与其他像素之间的相似性来增强或减弱每个预测像素的值。在训练和预测时使用相似的像素,忽略不相似的像素。这种机制叫做自注意力。

方程 1: 两个随机变量X和Y的协方差

CNN中的自注意力机制

图3: CNN中的自注意力机制

为了实现对每个像素级预测的全局参考,Wang等人在CNN中提出了自我注意机制(图3)。他们的方法是基于预测像素与其他像素之间的协方差,将每个像素视为随机变量。参与的目标像素只是所有像素值的加权和,其中的权值是每个像素与目标像素的相关。

图4: 自注意机制的简明版本

如果我们将原来的图3简化为图4,我们就可以很容易地理解协方差在机制中的作用。首先输入高度为H、宽度为w的特征图X,然后将X reshape为三个一维向量A、B和C,将A和B相乘得到大小为HWxHW的协方差矩阵。最后,我们用协方差矩阵和C相乘,得到D并对它reshape,得到输出特性图Y,并从输入X进行残差连接。这里D中的每一项都是输入X的加权和,权重是像素和彼此之间的协方差。

利用自注意力机制,可以在模型训练和预测过程中实现全局参考。该模型具有良好的bias-variance权衡,因而更加合理。

深度学习的一个可解释性方法

图5: SAGAN中的可解释性图像生成

SAGAN将自注意力机制嵌入GAN框架中。它可以通过全局参考而不是局部区域来生成图像。在图5中,每一行的左侧图像用颜色表示采样的查询点,其余五幅图像为每个查询点对应的关注区域。我们可以看到,对于天空和芦苇灌木这样的背景查询点,关注区域范围广泛,而对于熊眼和鸟腿这样的前景点,关注区域局部集中。

参考

Non-local Neural Networks, Wang et al., CVPR 2018

Self-Attention Generative Adversarial Networks, Zhang et al. ICML 2019

Dual Attention Network for Scene Segmentation, Fu et al., CVPR 2019

Wikipedia, https://en.wikipedia.org/wiki/Covariance_matrix

Zhihu, https://zhuanlan.zhihu.com/p/37609917

英文原文:https://medium.com/ai-salon/understanding-deep-self-attention-mechanism-in-convolution-neural-networks-e8f9c01cb251

目标检测综述下载

后台回复:目标检测二十年,即可下载39页的目标检测最全综述,共计411篇参考文献。

下载2

后台回复:CVPR2020,即可下载代码开源的论文合集

后台回复:ECCV2020,即可下载代码开源的论文合集

后台回复:YOLO,即可下载YOLOv4论文和代码

重磅!CVer-目标检测 微信交流群已成立

扫码添加CVer助手,可申请加入CVer-目标检测 微信交流群,目前已汇集4000人!涵盖2D/3D目标检测、小目标检测、遥感目标检测等。互相交流,一起进步!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
Co-Scale Conv-Attentional Image Transformers
Amusi
2021/04/23
1.3K0
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
注意力机制
原文是英文来自于 https://blog.heuritech.com/2016/01/20/attention-mechanism/
AI算法与图像处理
2019/05/22
5930
注意力机制
最近想要系统的学习和总结各种注意力机制,首先简单的看了一下相关的资料,发现其主要应用于自然语言处理领域和图像处理领域。主要包括:
苏十四
2021/02/15
1.4K0
注意力机制
学界 | 普适注意力:用于机器翻译的2D卷积神经网络,显著优于编码器-解码器架构
深度神经网络对自然语言处理技术造成了深远的影响,尤其是机器翻译(Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Jean et al., 2015; LeCun et al., 2015)。可以将机器翻译视为序列到序列的预测问题,在这类问题中,源序列和目标序列的长度不同且可变。目前的最佳方法基于编码器-解码器架构(Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Bahdanau et al., 2015)。编码器「读取」长度可变的源序列,并将其映射到向量表征中去。解码器以该向量为输入,将其「写入」目标序列,并在每一步用生成的最新的单词更新其状态。基本的编码器-解码器模型一般都配有注意力模型(Bahdanau et al., 2015),这样就可以在解码过程中重复访问源序列。在给定解码器当前状态的情况下,可以计算出源序列中的元素的概率分布,然后使用计算得到的概率分布将这些元素的特征选择或聚合在解码器使用的单个「上下文」向量中。与依赖源序列的全局表征不同,注意力机制(attention mechanism)允许解码器「回顾」源序列,并专注于突出位置。除了归纳偏置外,注意力机制还绕过了现在大部分架构都有的梯度消失问题。
机器之心
2018/09/20
5530
学界 | 普适注意力:用于机器翻译的2D卷积神经网络,显著优于编码器-解码器架构
再见卷积神经网络,使用Transformers创建计算机视觉模型
本文旨在介绍/更新Transformers背后的主要思想,并介绍在计算机视觉应用中使用这些模型的最新进展。
deephub
2020/12/11
9750
再见卷积神经网络,使用Transformers创建计算机视觉模型
ECCV 2020 亮点摘要(上)
与我的CVPR2020帖子类似,为了了解今年会议的总体趋势,我将在这篇博客文章中总结一些引起我注意的论文(列出一些),并对整个会议进行概括。
LiveVideoStack
2021/01/06
4670
生成对抗网络也需要注意力机制
尽管传统的生成对抗网络可以生成相当逼真的图像,但是它们无法捕获到图像中的长距离依赖。这些传统的生成对抗网络在不包含太多的结构和几何信息的图像上效果是不错的(例如海洋、天空和田野)。但是,当图像中存在较高的信息变化率时,传统的生成对抗网络往往会错过所有的这种变化,因此就无法真实地表征全局关系。这些非局部依赖始终会出现在某些类别的图像中。例如,生成对抗网络可以生成具有逼真皮毛的动物,但是却无法生成独立的足部。
机器之心
2019/04/09
1.2K0
生成对抗网络也需要注意力机制
卷积神经网络(CNN)在图像识别中的应用与优化
随着计算机与人工智能技术的不断发展,图像识别已经成为一项重要而具有挑战性的任务。卷积神经网络(Convolutional Neural Network,CNN)作为一种深度学习算法,在图像识别领域取得了巨大的成功。本文将详细介绍CNN在图像识别中的应用,并探讨一些优化策略,以提高其性能和效果。
网络技术联盟站
2023/07/04
2.2K0
卷积神经网络(CNN)在图像识别中的应用与优化
Deep Reading | 从0到1再读注意力机制,此文必收藏!
【AI科技大本营导语】注意力机制(Attention)已经成为深度学习必学内容之一,无论是计算机视觉还是自然语言处理都可以看到各种各样注意力机制的方法。之前我们曾在一篇干货文章《关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了》中,从实例到原理帮助大家参透注意力机制的工作原理。今天,我们将再度为大家梳理全部理论要点,是大家学习的必备资料之一,并为后续掌握最新流行的注意力机制保驾护航。
AI科技大本营
2019/03/19
1.3K0
Deep Reading | 从0到1再读注意力机制,此文必收藏!
【GNN】图神经网络综述
本篇文章是对论文“Wu Z , Pan S , Chen F , et al. A Comprehensive Survey on Graph Neural Networks[J]. 2019.“”的翻译与笔记
zenRRan
2020/02/18
1.8K0
TII | CovTANet:用于COVID-19胸部CT扫描的基于混合三级注意力机制的分割网络
今天给大家介绍的是孟加拉工程技术大学Tanvir Mahmud课题组发表在“IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS”上的一篇文章” CovTANet: A Hybrid Tri-level Attention Based Network for Lesion Segmentation, Diagnosis, and Severit”。控制COVID-19流行病的传播面临的一个巨大的挑战是如何快速准确的诊断。作者在这篇文章中提出了混合网络CovTANet用于COVID-19的早期诊断,病灶分割和严重性预测。通过引入了多阶段优化策略解决了复杂诊断挑战,早期阶段初步优化分割网络,在分割模型编解码阶段引入了 减少语义鸿沟和多尺度特征平行化快速收敛的三级注意力机制的分割网络((TA-SegNe)。实现在通道、空间和像素的三级注意力机制使网络更快更高效概括了嵌入在特征图的上下文信息。通过在大型公开数据集上实验显示模型在三个任务取得了出色的表现,这表明了现阶段COVID-19大流行中该模型的有效性。
智能生信
2021/02/04
7980
CVPR小目标检测:上下文和注意力机制提升小目标检测(附论文下载)
计算机视觉研究院专栏 作者:Edison_G CVPR21文章我们也分享了很多最佳的框架,在现实场景中,目标检测依然是最基础最热门的研究课题,尤其目前针对小目标的检测,更加吸引了更多的研究员和企业去研究,今天我们“计算机视觉研究院”给大家分享一个小目标检测精度提升较大的新框架! 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文: https://arxiv.org/pdf/1912.06319.pdf 1 简要 在各种环境中应用目标检测算法有很多局限性。特别是检
计算机视觉研究院
2022/06/27
7.9K0
CVPR小目标检测:上下文和注意力机制提升小目标检测(附论文下载)
AAAI 2019 论文解读:卷积神经网络继续进步
分析师简介:Joshua 已于 2018 年取得多伦多大学应用科学硕士(MASc)学位。他的研究重心是格形码(lattice codes)、低密度奇偶校验(LDPC)码以及编码理论的其它方面。他也对凸优化和随机过程感兴趣。Joshua 目前在高通工作,是一位机器学习工程师,专注对推理的优化。
机器之心
2019/04/29
1K0
AAAI 2019 论文解读:卷积神经网络继续进步
性能超FPN!北大、阿里等提多层特征金字塔网络
特征金字塔网络具有处理不同物体尺度变化的能力,因此被广泛应用到one-stage目标检测网络(如DSSD,RetinaNet,RefineDet)和two-stage 目标检测器(如Mask R-CNN,DetNet)中并取得了很好的性能提升。
AI科技大本营
2019/12/26
1.4K0
性能超FPN!北大、阿里等提多层特征金字塔网络
原创 | 图注意力神经网络(Graph Attention Networks)综述
图形,由点、线、面和体构成,代表了一种理解抽象概念和表达抽象思想的有效工具。图形语言的优势在于其跨越语言障碍的能力,这种能力和技术大多是人类为了理解世界而发展出来的。计算机科学和人工智能的快速进步,使得理解和学习事物之间的更深层次客观关系变得可能。图神经网络(GNN)的诞生,更加帮助人类通过图形来了解和解决问题。图注意力神经网络(GAT)是一种专为处理图结构数据而设计的特殊神经网络。不同于传统神经网络,GAT在处理输入数据时,会充分考虑数据间的关系,使其在处理图结构数据时能更准确地捕捉到数据间的关联性。GAT的主要优势在于其自动学习节点间关系的能力,无需人工预设。
数据派THU
2023/08/08
9.9K0
原创 | 图注意力神经网络(Graph Attention Networks)综述
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
深度学习技术的出现,特别是像U-Net [20]这样的卷积神经网络(CNNs),通过提高图像分割和分析等任务的准确性和效率,显著推动了该领域的发展。这在现代医疗中发挥着关键作用,帮助临床医生进行准确诊断、治疗规划以及疾病监测。
集智书童公众号
2024/04/30
1.8K0
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
看了这篇文章,了解深度卷积神经网络在目标检测中的进展
近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高。回顾从 2014 到 2016 这两年多的时间,先后涌现出了 R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD 等越来越快速和准确的目标检测方法。 1. 基于 Region Proposal 的方法 该类方法的基本思想是:先得到候选区域再对候选区域进行分类和边框回归。 1.1 R-CNN[1] R-CNN 是较早地将 DCNN 用到目
AI研习社
2018/03/29
7200
看了这篇文章,了解深度卷积神经网络在目标检测中的进展
卷积神经网络模型发展及应用
http://fcst.ceaj.org/CN/abstract/abstract2521.shtml
用户9882025
2022/08/02
5891
卷积神经网络模型发展及应用
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络
我们提出了BoTNet,这是一种概念上简单但功能强大的骨干架构,结合了自注意力机制,用于图像分类、目标检测和实例分割等多个计算机视觉任务。通过仅在ResNet的最后三个瓶颈块中用全局自注意力替换空间卷积,并且没有其他更改,我们的方法显著提高了实例分割和目标检测的基线性能,同时减少了参数,且在延迟方面的开销极小。通过设计BoTNet,我们还指出带有自注意力的ResNet瓶颈块可以视为Transformer块。无需任何额外的技巧,BoTNet在使用Mask R-CNN框架时,在COCO实例分割基准上达到了44.4%的Mask AP和49.7%的Box AP,超过了之前ResNeSt 67在COCO验证集上发布的单模型和单尺度的最好结果。最后,我们提出了BoTNet设计在图像分类中的简单适应性,生成的模型在ImageNet基准上实现了84.7%的top-1准确率,同时在TPU-v3硬件上的“计算”时间比流行的EfficientNet模型快1.64倍。我们希望这种简单而有效的方法将作为未来自注意力模型研究的强大基线。
YOLO大师
2024/07/26
5640
卷积神经网络表征可视化研究综述(1)
近年来, 深度学习在图像分类、目标检测及场景识别等任务上取得了突破性进展, 这些任务多以卷积神经网络为基础搭建识别模型, 训练后的模型拥有优异的自动特征提取和预测性能, 能够为用户提供“输入–输出”形式的端到端解决方案. 然而, 由于分布式的特征编码和越来越复杂的模型结构, 人们始终无法准确理解卷积神经网络模型内部知识表示, 以及促使其做出特定决策的潜在原因. 另一方面, 卷积神经网络模型在一些高风险领域的应用, 也要求对其决策原因进行充分了解, 方能获取用户信任. 因此, 卷积神经网络的可解释性问题逐渐受到关注. 研究人员针对性地提出了一系列用于理解和解释卷积神经网络的方法, 包括事后解释方法和构建自解释的模型等, 这些方法各有侧重和优势, 从多方面对卷积神经网络进行特征分析和决策解释. 表征可视化是其中一种重要的卷积神经网络可解释性方法, 能够对卷积神经网络所学特征及输入–输出之间的相关关系以视觉的方式呈现, 从而快速获取对卷积神经网络内部特征和决策的理解, 具有过程简单和效果直观的特点. 对近年来卷积神经网络表征可视化领域的相关文献进行了综合性回顾, 按照以下几个方面组织内容: 表征可视化研究的提起、相关概念及内容、可视化方法、可视化的效果评估及可视化的应用, 重点关注了表征可视化方法的分类及算法的具体过程. 最后是总结和对该领域仍存在的难点及未来研究趋势进行了展望.
用户9882025
2022/08/09
5090
推荐阅读
相关推荐
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档