【综述】CNN中的池化操作-你见过的没见过的池化这里都有_向量计算方式完成池化操作

link管理
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
1. 最大/平均池化

最大池化就是选择图像区域中最大值作为该区域池化以后的值，反向传播的时候，梯度通过前向传播过程的最大值反向传播，其他位置梯度为0。
使用的时候，最大池化又分为重叠池化和非重叠池化，比如常见的stride=kernel size的情况属于非重叠池化，如果stride<kernel size 则属于重叠池化。重叠池化相比于非重叠池化不仅可以提升预测精度，同时在一定程度上可以缓解过拟合。
重叠池化一个应用的例子就是yolov3-tiny的backbone最后一层，使用了一个stride=1, kernel size=2的maxpool进行特征的提取。
>>> import torch
>>> import torch.nn.functional as F
>>> input = torch.Tensor(4,3,16,16)
>>> output = F.max_pool2d(input, kernel_size=2, stride=2)
>>> output.shape
torch.Size([4, 3, 8, 8])
平均池化就是将选择的图像区域中的平均值作为该区域池化以后的值。 
>>> import torch
>>> import torch.nn.functional as F
>>> input = torch.Tensor(4,3,16,16)
>>> output = F.avg_pool2d(input, kernel_size=2, stride=2)
>>> output.shape
torch.Size([4, 3, 8, 8])
2. 随机池化
 
Stochastic pooling如下图所示，特征区域的大小越大，代表其被选择的概率越高，比如左下角的本应该是选择7，但是由于引入概率，5也有一定几率被选中。 
下表是随机池化在CIFAR-10上的表现，可以看出，使用随机池化效果和采用dropout的结果接近，证明了其有一定防止过拟合的作用。 
更详细内容请看论文：《Stochastic Pooling for Regularization of Deep Convolutional Neural Networks》 
3. 中值池化
 
与中值滤波特别相似，但是用的非常少，中值池化也具有学习边缘和纹理结构的特性，抗噪声能力比较强。 
4. 组合池化
 
组合池化则是同时利用最大值池化与均值池化两种的优势而引申的一种池化策略。常见组合策略有两种：Cat与Add。常常被当做分类任务的一个trick，其作用就是丰富特征层，maxpool更关注重要的局部特征，而average pooling更关注全局特征。 
def add_avgmax_pool2d(x, output_size=1):
    x_avg = F.adaptive_avg_pool2d(x, output_size)
    x_max = F.adaptive_max_pool2d(x, output_size)
    return 0.5 * (x_avg + x_max)
def cat_avgmax_pool2d(x, output_size=1):
    x_avg = F.adaptive_avg_pool2d(x, output_size)
    x_max = F.adaptive_max_pool2d(x, output_size)
    return torch.cat([x_avg, x_max], 1)
5. Spatial Pyramid Pooling
 
SPP是在SPPNet中提出的，SPPNet提出比较早，在RCNN之后提出的，用于解决重复卷积计算和固定输出的两个问题，具体方法如下图所示： 
在feature map上通过selective search获得窗口，然后将这些区域输入到CNN中，然后进行分类。 
实际上SPP就是多个空间池化的组合，对不同输出尺度采用不同的划窗大小和步长以确保输出尺度相同，同时能够融合金字塔提取出的多种尺度特征，能够提取更丰富的语义信息。常用于多尺度训练和目标检测中的RPN网络。 
在YOLOv3中有一个网络结构叫yolov3-spp.cfg, 这个网络往往能达到比yolov3.cfg本身更高的准确率，具体cfg如下： 
### SPP ###
[maxpool]
stride=1
size=5
[route]
layers=-2
[maxpool]
stride=1
size=9
[route]
layers=-4
[maxpool]
stride=1
size=13
[route]
layers=-1,-3,-5,-6
### End SPP ###
这里的SPP相当于是原来的SPPNet的变体，通过使用多个kernel size的maxpool，最终将所有feature map进行concate，得到新的特征组合。 
再来看一下官方提供的yolov3和yolov3-spp在COCO数据集上的对比： 
可以看到，在几乎不增加FLOPS的情况下，YOLOv3-SPP要比YOLOv3-608mAP高接近3个百分点。 
分析一下SPP有效的原因： 
从感受野角度来讲，之前计算感受野的时候可以明显发现，maxpool的操作对感受野的影响非常大，其中主要取决于kernel size大小。在SPP中，使用了kernel size非常大的maxpool会极大提高模型的感受野，笔者没有详细计算过darknet53这个backbone的感受野，在COCO上有效很可能是因为backbone的感受野还不够大。
第二个角度是从Attention的角度考虑，这一点启发自CSDN@小楞（链接在参考文献中），他在文章中这样讲： 
 出现检测效果提升的原因：通过spp模块实现局部特征和全局特征（所以空间金字塔池化结构的最大的池化核要尽可能的接近等于需要池化的featherMap的大小）的featherMap级别的融合，丰富最终特征图的表达能力，从而提高MAP。 
Attention机制很多都是为了解决远距离依赖问题，通过使用kernel size接近特征图的size可以以比较小的计算代价解决这个问题。另外就是如果使用了SPP模块，就没有必要在SPP后继续使用其他空间注意力模块比如SK block，因为他们作用相似，可能会有一定冗余。 
ps: 这个想法还没有进行试验的验证，有兴趣的可以将YOLOv3-spp中的kernel size改为19，然后在COCO数据集上测试，看是否能够超越60.6。 
6. Global Average/Max Pooling
 
Gloabel Average Pooling 是NIN里边的做法，一般使用torchvision提供的预训练模型进行finetune的时候，通常使用Global Average Pooling，原因就是可以不考虑图片的输入尺寸，只与filter有关。 
>>> import torch
>>> from torch.nn import AdaptiveAvgPool2d
>>> input = torch.zeros((4,12,18,18)) # batch size, fileter, h, w
>>> gap = AdaptiveAvgPool2d(1)
>>> output = gap(input)
>>> output.shape
torch.Size([4, 12, 1, 1])
>>> output.view(input.shape[0],-1).shape
torch.Size([4, 12])
7. NetVLAD池化
 
 这部分来自：DeepLearning-500-questions#5




    
 
NetVLAD是论文《NetVLAD: CNN Architecture for Weakly Supervised Place Recognition》提出的一个局部特征聚合的方法。 
在传统的网络里面，例如VGG啊，最后一层卷积层输出的特征都是类似于Batchsize x 3 x 3 x 512的这种东西，然后会经过FC聚合，或者进行一个Global Average Pooling（NIN里的做法），或者怎么样，变成一个向量型的特征，然后进行Softmax or 其他的Loss。 
这种方法说简单点也就是输入一个图片或者什么的结构性数据，然后经过特征提取得到一个长度固定的向量，之后可以用度量的方法去进行后续的操作，比如分类啊，检索啊，相似度对比等等。 
那么NetVLAD考虑的主要是最后一层卷积层输出的特征这里，我们不想直接进行欠采样或者全局映射得到特征，对于最后一层输出的W x H x D，设计一个新的池化，去聚合一个“局部特征“，这即是NetVLAD的作用。 
NetVLAD的一个输入是一个W x H x D的图像特征，例如VGG-Net最后的3 x 3 x 512这样的矩阵，在网络中还需加一个维度为Batchsize。 
NetVLAD还需要另输入一个标量K即表示VLAD的聚类中心数量，它主要是来构成一个矩阵C，是通过原数据算出来的每一个 
输入与输出如下图所示： 
中间得到的K个D维向量即是对D个x都进行了与聚类中心计算残差和的过程，最终把K个D维向量合起来后进行即得到最终输出的 
而VLAD本身是不可微的，因为上面的a要么是0要么是1，表示要么当前描述x是当前聚类，要么不是，是个离散的，NetVLAD为了能够在深度卷积网络里使用反向传播进行训练，对a进行了修正。 
那么问题就是如何重构一个a，**使其能够评估当前的这个x和各个聚类的关联程度？**用softmax来得到： 
      
Bilinear Pooling是在《Bilinear CNN Models for Fine-grained Visual Recognition》被提出的，主要用在细粒度分类网络中。双线性池化主要用于特征融合，对于同一个样本提取得到的特征x和特征y, 通过双线性池化来融合两个特征(外积)，进而提高模型分类的能力。 
 主要思想是对于两个不同图像特征的处理方式上的不同。传统的，对于图像的不同特征，我们常用的方法是进行串联（连接），或者进行sum,或者max-pooling。论文的主要思想是，研究发现人类的大脑发现，人类的视觉处理主要有两个pathway, the ventral stream是进行物体识别的，the dorsal stream 是为了发现物体的位置。 
 论文基于这样的思想，希望能够将两个不同特征进行结合来共同发挥作用，提高细粒度图像的分类效果。论文希望两个特征能分别表示图像的位置和对图形进行识别。论文提出了一种Bilinear Model。 
如果特征 x 和特征y来自两个特征提取器，则被称为多模双线性池化（MBP，Multimodal Bilinear Pooling） 
如果特征 x = 特征 y，则被称为同源双线性池化（HBP，Homogeneous Bilinear Pooling）或者二阶池化（Second-order Pooling）。 
pytorch实现： 
X = torch.reshape(N, D, H * W)                        # Assume X has shape N*D*H*W
X = torch.bmm(X, torch.transpose(X, 1, 2)) / (H * W)  # Bilinear pooling
assert X.size() == (N, D, D)
X = torch.reshape(X, (N, D * D))
X = torch.sign(X) * torch.sqrt(torch.abs(X) + 1e-5)   # Signed-sqrt normalization
X = torch.nn.functional.normalize(X)                  # L2 normalization
之后又有很多人出于对双线性池化存在的特征维度过高等问题进行各种改进，具体可以看知乎文章： 
https://zhuanlan.zhihu.com/p/62532887 
9. UnPooling
 
是一种上采样操作，具体操作如下： 
流程描述： 
1.在Pooling（一般是Max Pooling）时，保存最大值的位置。 
2.中间经历若干网络层的运算。 
3.上采样阶段，利用第1步保存的Max Location，重建下一层的feature map。 
UnPooling不完全是Pooling的逆运算，Pooling之后的feature map，要经过若干运算，才会进行UnPooling操作；对于非Max Location的地方以零填充。然而这样并不能完全还原信息。 
10. 参考
 
https://arxiv.org/pdf/1603.07285.pdf 
https://arxiv.org/abs/1301.3557 
https://zhuanlan.zhihu.com/p/77040467 
https://arxiv.org/pdf/1611.05138.pdf 
https://blog.csdn.net/qq_33270279/article/details/103898245 
https://github.com/scutan90/DeepLearning-500-questions 
https://zhuanlan.zhihu.com/p/62532887 
https://blog.csdn.net/qq_32768091/article/details/84145088
                    池化操作(Pooling)是CNN中非常常见的一种操作，Pooling层是模仿人的视觉系统对数据进行降维，池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling)，在构建卷积神经网络时，往往会用在卷积层之后，通过池化来降低卷积层输出的特征维度，有效减少网络参数的同时还可以防止过拟合现象。主要功能有以下几点：抑制噪声，降低信息冗余提升模型的尺度不变性、旋转不变形...
卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks, FNN），是深度学习的代表算法之一。
对卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络；在二十一世纪后，随着深度学习理论的提出和
1、Max Pooling Over Time操作
MaxPooling Over Time是NLP中CNN模型中最常见的一种下采样操作。
意思是对于某个Filter抽取到若干特征值，只取其中得分最大的那个值作为Pooling层保留值，其它特征值全部抛弃，值最大代表只保留这些特征中最强的，而抛弃其它弱的此类特征。
（1）保留主要特征的同时减少参数和计算量，防止过拟合。
（2）invariance(不变性)，这种不变性包括translation(平移)，rotation(旋转)，scale(尺度)。
Pooling 层说到底还是一个特征选择，信息过滤的过程。也就是说我们损失了一部分信息，这是一个和计算性能的一个妥协，随着运算速度的不断提高，我认为这个妥协会越来越小。
现在有些网络都开始少用或者不用pooling层了。
TensorFlow中的卷积一般是通过tf.nn.conv2d()函数实现的具体可以查看官网：https://www.tensorflow.org/api_docs/python/tf/nn/conv2d
TensorFlow中的池化有几种方式举个例子：通过tf.nn.max_pool函数实现的具体可以查看官网：htt
				在卷积神经网络（CNN）中，池化是一种常见的操作，它的主要作用是减少特征图的大小，从而减少模型参数，降低过拟合的风险，同时提高模型的计算效率。
具体来说，池化操作会在特征图上滑动一个固定大小的窗口，并在窗口内选取一个最大值（最大池化）或平均值（平均池化）作为该窗口的结果。这样，特征图中的每个窗口都被压缩成一个单一的值，从而减少了特征图的大小。
此外，池化操作还可以提高模型对平移不变性的鲁棒性。在图像分类任务中，池化操作可以使模型对图像中物体的位置和大小变化具有一定的不变性，从而提高模型的泛化能力。
总的来说，池化操作在CNN中起着非常重要的作用，可以有效地减少模型参数、降低过拟合风险、提高模型计算效率和鲁棒性。
8. 双线性池化