常用的注意力机制模块（SE、CBAM）

手机

英国房地产因利率上升陷入困境房价正以2011年来最快速度下跌

宁夏评选出上半年10名“宁夏好人” 95后消防员因敬业奉献入选

常用的注意力机制模块（SE、CBAM）

2023-07-08 15:54:58 来源：博客园

【深度学习】总目录

SE论文：《Squeeze-and-Excitation Networks》将重点放在了通道（channel）关系上，并提出了一种新的结构单元SE block。将SE block堆叠在一起，就形成了SENet。SE块略微增加计算成本但显著地提升了性能，并且即插即用。SENet获得了最后一届ImageNet 2017竞赛分类任务的冠军。

CBAM论文：《Convolutional Block Attention Module》论文（2018年）提出了一种轻量的注意力模块CBAM，可以在通道和空间维度上进行 Attention 。

(资料图片)

1 SE模块

卷积神经网络建立在卷积运算的基础上，通过融合局部感受野内的空间信息和通道信息来提取信息特征。为了提高网络的表示能力，许多现有的工作通过在空间维度上对网络的性能进行了提升，比如Inception模块中嵌入多尺度处理来提高准确度，Spatial Transformer Networks（STN）结合空间注意力机制。本文与这些方法相反，专注于通道，并提出了一种新颖的架构单元“Squeeze-and-Excitation”（SE）模块，通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道式的特征响应。具体来说，就是通过学习的方式来自动获取每个通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

Squeeze-and-Excitation Module

给定一个输入x，其特征通道数为c1，通过一系列卷积等一般变换后得到一个特征通道数为c2的特征。接下来通过SE模块的三个操作来重标定前面得到的特征：

1）Squeeze（压缩）。沿着空间维度压缩特征，将每个通道的二维的特征变成一个实数，可以理解为对每个 channel 的特征信息的进行融合，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用。采用全局平局池化来实现，输出维度为1x1xC。

2）Excitation（激励）。得到Squeeze的1x1xC全局特征后，通过全连接层对每个通道的重要性进行预测。它是一个类似于循环神经网络中门的机制。通过参数来为每个特征通道生成权重，其中参数被学习用来显式地建模特征通道间的相关性。为了减少通道个数从而降低计算量，设置了缩放参数SERatio。第一个全连接层有C*SERatio个神经元，输入为1×1×C，输出1×1×C×SERadio，起到降维作用。第二个全连接层有C个神经元，输入为1×1×C×SERadio，输出为1×1×C。

3）Scale（缩放）。将Excitation的输出的权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

SE模块的代码实现(pytorch)

from torch import nnclass SELayer(nn.Module):    def __init__(self, channel, reduction=16):        super(SELayer, self).__init__()        self.avg_pool = nn.AdaptiveAvgPool2d(1)        self.fc = nn.Sequential(            nn.Linear(channel, channel // reduction, bias=False),            nn.ReLU(inplace=True),            nn.Linear(channel // reduction, channel, bias=False),            nn.Sigmoid()        )    def forward(self, x):        b, c, _, _ = x.size()        y = self.avg_pool(x).view(b, c)        y = self.fc(y).view(b, c, 1, 1)        return x * y.expand_as(x)

2CBAM模块

CBAM（Convolutional Block Attention Module）是一种轻量的注意力模块，给定一个中间特征图，我们的模块会沿着两个独立的维度（通道和空间）依次推断注意力图，然后将注意力图乘以输入特征图以进行自适应特征修饰。由于CBAM是轻量级的通用模块，因此可以以可忽略的开销将其无缝集成到任何CNN架构中，并且可以与基础CNN一起进行端到端训练。论文在 ResNet 和 MobileNet 等经典结构上添加了 CBAM 模块并进行对比分析，同时也进行了可视化，发现 CBAM 更关注识别目标物体，这也使得 CBAM 具有更好的解释性。

2.1 Channel Attention Module（CAM）

通道上的Attention模块以及具体计算如下图所示：

将输入的特征图F（H×W×C）分别经过global max pooling（全局最大池化）和global average pooling（全局平均池化），得到两个1×1×C的特征图，接着，再将它们分别送入一个两层的神经网络（MLP），第一层神经元个数为 C/r（r为减少率），激活函数为 Relu，第二层神经元个数为 C，这个两层的神经网络是共享的。而后，将MLP输出的特征进行基于element-wise的加和操作，再经过sigmoid激活操作，生成最终的channel attention feature，即M_c。最后，将M_c和输入特征图F做element-wise乘法操作，生成Spatial attention模块需要的输入特征。

实验：AvgPool & MaxPool

在channel attention中，表1对于pooling的使用进行了实验对比，发现avg & max的并行池化的效果要更好。这里也有可能是池化丢失的信息太多，avg&max的并行连接方式比单一的池化丢失的信息更少，所以效果会更好一点。

2.2Spatial Attention Module（SAM）

空间上的Attention模块以及具体计算如下图所示：

将Channel attention模块输出的特征图F’作为本模块的输入特征图。首先做一个基于channel的global max pooling 和global average pooling，得到两个H×W×1 的特征图，然后将这2个特征图基于channel做concat操作（通道拼接）。然后经过一个7×7卷积（7×7比3×3效果要好）操作，降维为1个channel，即H×W×1。再经过sigmoid生成spatial attention feature，即M_s。最后将该feature和该模块的输入feature做乘法，得到最终生成的特征。

实验：Comparison of different spatial attention methods

使用channel-pooling（沿着通道维度进行平均和最大池化）的同时，使用大kernel size=7效果最好。

2.3 CAM和SAM的组合形式

通道注意力和空间注意力这两个模块能够以并行或者串行顺序的方式组合在一块儿，关于通道和空间上的串行顺序和并行作者进行了实验对比，发现先通道再空间的结果会稍微好一点。具体实验结果如下：

从表中可以看出，在ResNet50的基准架构上，两个attetnion子模块的连接顺序里面的确是channel + spatial的要更好一些，也要好于标准的SENet的通道attention。

3 Grad-CAM可视化

论文：Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization博客：Grad-CAM简介

利用 Grad-CAM 对不一样的网络进行可视化后，能够发现，引入 CBAM 后，特征覆盖到了待识别物体的更多部位，而且最终判别物体的几率也更高，这代表注意力机制的确让网络学会了关注重点信息。

参考

1.SENet概览

2.SE （Squeeze Excitation）模块

3.经典论文-SeNet论文及实践

4.注意机制(CBAM)理解

5.Grad-CAM简介

关键词：