模型类似wide&deep模型,用于回归任务,训练数据七千万,测试数据一千万,优化算法adam,batchsize 8192
当学习率设置
0.00007
,图如下,这是验证集上效果最好的情况,但是训练集loss无法收敛
QQ%E6%88%AA%E5%9B%BE20180525105553
757×672 22.6 KB
当学习率设置为
0.00001
,图如下,验证集效果比上面的效果差
一个千分点
QQ%E6%88%AA%E5%9B%BE20180525105607
817×551 14.4 KB
也查看过梯度情况,如下图,不会看,好像最后一层的梯度很不稳定
QQ%E6%88%AA%E5%9B%BE20180525110839
770×634 24.4 KB
QQ%E6%88%AA%E5%9B%BE20180525110859
783×588 25.6 KB
QQ%E6%88%AA%E5%9B%BE20180525185144
818×641 45.8 KB
QQ%E6%88%AA%E5%9B%BE20180525185155
801×673 41.9 KB
请问是什么原因造成第一幅图训练Loss这样的曲线,但是验证集效果却比下一个好。
学习率太大了吗?
数据本身原因?
还是其他原因呢?