![]() |
睿智的核桃 · 四川三车雨中相撞致6死17伤 ...· 3 月前 · |
![]() |
慷慨的肉夹馍 · 《25岁的女高中生》动漫全集在线观看_25岁 ...· 7 月前 · |
![]() |
千年单身的长颈鹿 · Probate Citation | ...· 7 月前 · |
![]() |
玩篮球的日光灯 · HISD Miles Ahead ...· 10 月前 · |
![]() |
开朗的烤红薯 · Tomcat 9 : ...· 1 年前 · |
参考文档:
①:
【超分辨率】Efficient Sub-Pixel Convolutional Neural Network
文章推出了一种在以往算法(SRCNN、Bicubic)上对于重建表现力以及计算效率(重建速度、计算资源损耗)都有一定提升的SR算法——
ESPCN
。
SRCNN
先对输入图像做
Bicubic插值
,然后进行特征提取,这种方式相当于直接在HR层面做超分,作者证明这种方式是一种次优策略且会带来计算复杂度的提升。
针对这种问题,作者提出了
ESPCN
结构:
Real-Time
“。
Note:
ESPCN主要2个点很重要:①是直接对 f^1(I^{LR};W_1,b_1) = \phi(W_1*I^{LR}+b_1)\\ f^l(I^{LR};W_{1:l},b_{1:l}) = \phi(W_l*f^{l-1}(I^{LR})+b_l). f 1 ( I L R ; W 1 , b 1 ) = ϕ ( W 1 ∗ I L R + b 1 ) f l ( I L R ; W 1 : l , b 1 : l ) = ϕ ( W l ∗ f l − 1 ( I L R ) + b l ) . 其中 n 0 = C ,这也是我们一些深度学习库中卷积层的设置方式,比如 PyTorch 。
Deconvolution layer 主要分为三个方面:
我们在SR中所用到的反卷积层大多都是用几层CNN处理的,比如DCSCN、SRDenseNet、SRGAN、SRResNet、EDSR, 详见我的几篇论文解读 。
FCN
网络中最后3层改以往的全连接层为反卷积层,其本质也是个卷积层,故称之为
Fully-convolution
(具体内容详见
我的另一篇中关于FCN的笔记
)。诸如FCN这种反卷积过程是一种上采样过程,它可以将低分辨率尺寸的图像转换为高分辨率尺寸的图像,因此这种卷积可以看成是卷积步长为
\mathcal{PS}(T)_{x,y,c} = T_{[x/r], [y/r], C\cdot r \cdot mod(y,r)+C\cdot r\cdot mod(x,r) + c}.\tag{2}
P
S
(
T
)
x
,
y
,
c
=
T
[
x
/
r
]
,
[
y
/
r
]
,
C
⋅
r
⋅
m
o
d
(
y
,
r
)
+
C
⋅
r
⋅
m
o
d
(
x
,
r
)
+
c
.
(
2
)
Note:
有了亚像素卷积层的输出,我们就可以利用Ground-Truth来做MSE,通过梯度反传更新网络参数来学习如何从低分辨率重建成高分辨率图像:
l(W_{1:L},b_{1:L})=\frac{1}{r^2HW}\sum^{rH}_{x=1}\sum^{rW}_{y=1}(I^{HR}_{x,y}-f^L_{x,y}(I^{LR}))^2.\tag{3}
l
(
W
1
:
L
,
b
1
:
L
)
=
r
2
H
W
1
x
=
1
∑
r
H
y
=
1
∑
r
W
(
I
x
,
y
H
R
−
f
x
,
y
L
(
I
L
R
)
)
2
.
(
3
)
作者指出我们的亚像素卷积层可以比FCN的上采样过程快近
1
9
2
0
×
1
0
8
0
)的视频,每一份长达10s;
Ultra Video Group database
,包含7份1080p的视频,每份长达5s。
上图是为了体现亚像素卷积层的作用,从图中可以得出以下结论:
上图是学习过后的滤波器可视化图,其中 W L 的确学习到了一些复杂多样的参数,为不同的feature map配置不同的滤波器参数,相比SRCNN较为单一的滤波器类型,ESPCN会使得特征的提取更加复杂、全面。
这一节是将ESPCN在ImageNet上做训练,然后和其余几种算法做对比,具体如下表:
此外,
可视化的结果如下图所示
:
这一节是将ESPCN和SRCNN等算法在视频上做超分,其实就是
对每一帧做图像超分
。相比之前的算法,ESPCN具有执行速度上的优势,实验基于3.1节的2个视频数据集,结果如下:
这一节是探究ESPCN在 执行速度 上和其他算法的差异,作者将几种算法在Set14数据集上测试,其中ESPCN选择最佳的实验模型并使用Tanh做激活函数,在 > × 1 0 )。由于ESPCN拥有在LR领域做特征提取以及亚像素卷积层结构,故其网络参数会相对较少,这也为 ESPCN在视频中可以做到Real-Time ,即实时性的要求。
torch.nn.PixelShuffle()
,具体参考我的另一篇
PyTorch之PixelShuffle()
。
Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation
"。