一种不同于双线性插值的上采样方法

今天为大家推荐一篇 cvpr2019 关于语义分割的文章 decoders matter for semantic segmentation: data-dependent decoding enables flexible feature aggregation，该文章提出了一种不同于双线性插值的上采样方法，能够更好的建立每个像素之间预测的相关性。得益于这个强大的上采样方法，模型能够减少对特征图分辨率的依赖，能极大的减少运算量。该工作在 pascal voc 数据集上达到了 88.1% 的 miou，超过了 deeplabv3 + 的同时只有其 30% 的计算量。
论文传送门：https://arxiv.org/abs/1903.02120
1. introduction
在之前的语义分割方法中，双线性插值通常作为其最后一步来还原特征图的分辨率，由于非线性差值不能建立起每个像素的预测之间的关系，因此为了得到精细的结果，对特征图的分辨率要求较高，同时带来了巨额的计算量。
为了解决这个问题，本工作提出了data-dependent up-sampling (dupsample)，能够减少上采样操作对特征图分辨率的依赖，大量的减少计算量。同时得益于 dupsample， encoder 中的 low-level feature 能够以更小的运算量与 decoder 中的 high-level feature 进行融合，模型结构如下所示：
我们可以看到，该网络将传统的非线性插值替换成 dupsample，同时在 feature fuse 方面，不同于之前方法将 decoder 中的特征上采样与 encoder 特征融合，本工作将 encoder 中的特征下采样与 decoder 融合，大大减少了计算量，这都得益于 dupsample。
2. our approach
之前的语义分割方法使用下列公式来得到最终的损失：
其中 loss 通常为交叉熵损失，f 为特征图，y 为 ground truth，由于双线性插值过于简单，对特征图 f 的分辨率较高，因此引入了大量的计算。一个重要的发现是语义分割输入图像的 label y 并不是 i.i.d 的，所以 y 可以被压缩成 y′，我们令, 并将 y 划分成的子窗口，每个子窗口的大小为 r×r，接着我们将每个子窗口拉伸成向量，其中，随即我们将向量 v 压缩成低维向量 x，我们使用线性投影来完成，最后，我们有：其中，用来将 v 压缩成 x，为 reconstruction matrix, v′为重建后的 v，我们可以用压缩后的向量 x 组合成 y′.
矩阵 p 和矩阵 w 可以通过最小化下列式子得到：
我们可以使用梯度下降，或者在正交约束的条件下使用 pca 求解。
使用压缩后的 y′为目标，我们可以使用下列损失函数来预训练网络：
另一种直接的方法是在 y 空间计算 loss，也就是并非将 y 压缩到 y′, 我们可以将 f 使用 w（上面预训练得到的）上采样然后计算损失，公式如下：
其中以两倍为例，dupsample 的操作如下图所示：
我们可以用 1x1 卷积来完成上述的权重与特征相乘的过程。但是当我们将这个模块嵌入到网络时会遇到优化问题。因此我们使用 softmax with temperature 函数来解决这个问题：
。
我们发现 t 可以使用梯度下降学习得到，这样减少了调试的麻烦。
有大量的工作说明，与 low-level features 结合可以显著的提升分割的精度，其做法如下：
f 是在上采样之后的卷积操作，其计算量依赖于特征图的空间大小，这样做会显著增加计算量。得益于 dupsample，我们可以使用下列操作来减少计算量：
这样做不仅保证了在低分辨率下的有效性，而且减少了计算量，同时允许任意 level feature 的融合。
只有使用了 dupsample，上述操作才变得可行，否则语义分割的精度会被双线性插值限制。
3. experiments
本次实验使用以下两种数据集：pascal voc 2012 和 pascal context benchmark。我们使用 resnet-50 或 xception-50 作为我们的 backbone，具体训练细节详见论文。
首先我们设计实验说明双线性插值的上限远远低于 dupsample。首先我们搭建一个简易网络实现 auto-encoder，其中上采样方式分别使用双线性插值与 dupsample, 输入分别为 ground_truth，得到下表中的 miou*，这个指标代表上采样方法的上限。同时我们使用 resnet50 作为主干网络，输入为 raw image 去实现语义分割，得到下表中的 miou：
通过上表我们可以发现:
1) 在相同条件下，dupsampling 效果优于 bilinear。
2）dupsampling 在 output_stride=32 的情况下效果与 bilinear 在 output_stride=16 的情况下结果相当。
接下来我们设计实验说明融合不同的 low-level 特征对结果的影响，如下表所示：
值得说明的是，并不是所有与 low-level feature 的融合都会提升结果，例如 conv1_3，因为其结果不够鲁棒。因此和什么 low-level feature 相结合对语义分割的结果有很大的影响。
接下来我们设计实验与双线性插值进行比较：
可以看到我们的方法优于传统的双线性插值上采样方法。同时我们验证了不同的 softmax 对结果的影响，在没有使用 softmax with tenperature 的情况下只有 69.81 的 miou（这里没设置消融实验有些疑惑，感觉不同的 softmax 对实验结果影响挺大的）。
最后将我们的方法与最新的模型进行比较，结果如下（分别为 pascal voc 与 pascal context）：
我们的方法在只用 deeplabv3+ 30% 的计算量的情况下，超越了当前所有的方法。
总的来说，我觉得这个论文提出的想法很有趣，是一篇很有 insight 的论文。
由于论文现在还没有开源，笔者尝试实现了一下 dupsample 的操作和网络：
https://github.com/linzhuochen/dupsampling。

苹果买 iPhone11送AirPods！但是...
横跨多重电子应用领域的全球领先的半导体
Q2中国可穿戴设备排名：小米华为苹果排榜首耳机是下一个重点
基于LED冷光源的智能路灯节能控制系统
中山江波龙荣获2021年中山市创新标杆企业
一种不同于双线性插值的上采样方法
IoT设备的安全性
为什么32 引脚、32 KB 8 位 MCU能够脱颖而出
格兰仕消毒柜311A杀菌率可达99.9%能有效地杀死各种有害病菌
移动电源之九条选购技巧
苏州“梦想人”追梦工业元宇宙一个全新的产业生态走向前台
伺服系统的发展趋势及前景分析
WCDC的概率定义及使用情况
大基金三期再拨400亿美元
电弧跟踪传感器通常安装在机器人什么位置？
欧洲制造或是中国制造的最佳目标
盛路通信董事长分享5G天线技术发展的心得
华为或外销自家的5G基带芯片但仅限于苹果
便民车务带您看全球各国是怎么对待酒驾者的？
睿创微纳2023年净利润同比预增近六成