一段时间之前,在一个深度学习交流群里看到一个群友发问:为什么他的训练误差最后疯狂上下抖动而不是一直降低。
作为一个很萌的萌新,我当时也很疑惑。但后来我结合所学,仔细思考之后,发现这是一个挺容易犯的错误。
References :
电子文献:
https://blog.csdn.net/bestrivern/article/details/86301619
https://www.jianshu.com/p/9643cba47655
https://www.cnblogs.com/eilearn/p/9780696.html
https://blog.csdn.net/donkey_1993/article/details/81871132
https://www.pytorchtutorial.com/how-to-use-batchnorm/
问题
直接修改学习率
学习率动态衰减
几种衰减方法的实现
1 |
import torch |
-
手动阶梯式衰减
1
2
3
4
5
6
7model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
for epoch in range(100):
if epoch % 5 == 0:
for p in optimizer.param_groups:
p['lr'] *= 0.9 #学习率超参的位置:optimizer.state_dict()['param_groups'][0]['lr'] -
lambda自定义衰减
1
2
3
4
5
6
7
8import numpy as np
model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
lambda1 = lambda epoch: np.sin(epoch) / epoch
scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda = lambda1)
for epoch in range(100):
scheduler.step()lr_lambda会接收到一个int参数:epoch,然后根据epoch计算出对应的lr。如果设置多个lambda函数的话,会分别作用于optimizer中的不同的params_group。
-
StepLR阶梯式衰减
1
2
3
4
5
6model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
scheduler = lr_scheduler.StepLR(optimizer, step_size = 5, gamma = 0.8)
for epoch in range(100):
scheduler.step() -
三段式衰减
1
2
3
4
5
6model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
scheduler = lr_scheduler.MultiStepLR(optimizer, milestones = [20,80], gamma = 0.9)
for epoch in range(100):
scheduler.step()这种方法就是,当epoch进入milestones范围内即乘以gamma,离开milestones范围之后再乘以gamma。
这种衰减方式也是在学术论文中最常见的方式,一般手动调整也会采用这种方法。 -
连续衰减
1
2
3
4
5
6model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
scheduler = lr_scheduler.ExponentialLR(optimizer, gamma = 0.9)
for epoch in range(100):
scheduler.step()这种方法就是在每个epoch中lr都乘以gamma,从而达到连续衰减的效果。
-
余弦式调整
1
2
3
4
5
6model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max = 20)
for epoch in range(100):
scheduler.step()这里的T_max对应1/2个cos周期所对应的epoch数值。
-
基于loss和accuracy
1
2
3
4
5
6model = net()
LR = 0.01
optimizer = Adam(model.parameters(), lr = LR)
scheduler = lr_scheduler.ReduceLROnPlateau(optimizer, mode = 'min', factor = 0.1, patience = 10, verbose = False, threshold = 0.0001, threshold_mode = 'rel', cooldown = 0, min_lr = 0, eps = 1e-08)
for epoch in range(100):
scheduler.step()当发现loss不再降低或者accuracy不再提高之后,就降低学习率。
这里非常感谢facebook的员工给我们提供了如此多的选择与便利!
对于上述方法如有任何疑惑,还请查阅
torch.optim文档
。
批归一化(Batch Normalization)
批归一化实现
1 |
import torch |
-
2d或3d输入
1
2
3
4
5
6# 添加了可学习的仿射变换参数
m = nn.BatchNorm1d(100)
# 未添加可学习的仿射变换参数
m = nn.BatchNorm1d(100, affine = False)
input = torch.autograd.Variable(torch.randn(20, 100))
output = m(input)1
BatchNorm1d(100, eps=1e-05, momentum=0.1, affine=False, track_running_stats=True)
-
3d或4d输入
1
2
3
4
5m = nn.BatchNorm2d(100)
#或者
m = nn.BatchNorm2d(100, affine = False)
input = torch.autograd.Variable(torch.randn(20, 100, 35, 45))
output = m(input)BatchNorm2d也可以有两种输入输出:
1.输入(N,C,L),输出(N,C,L)。
2.输入(N,C,H,W),输出(N,C,H,W)。 -
4d或5d输入
1
2
3m = nn.BatchNorm3d(100)
#或者
m = nn.BatchNorm3d(100, affine=False)BatchNorm3d同样支持两种输入输出:
1.输入(N,C,H,W),输出(N,C,H,W)。
2.输入(N,C,D,H,W),输出(N,C,D,H,W)。
仿射变换
补充:
共线性:若几个点变换前在一条线上,则仿射变换后仍然在一条线上。
平行性:若两条线变换前平行,则变换后仍然平行。
共线比例不变性:变换前一条线上两条线段的比例,在变换后比例不变。