关于wide&deep模型train loss始终在震荡的问题，求大佬解答 - MXNet Gluon

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

英俊的硬币 · maven中引入jstl，使用JSTL的方法 ...· 3 月前 ·

奔跑的黄瓜 · wandb扫描ylm文件 - CSDN文库· 3 月前 ·

稳重的自行车 · 宿州市人民政府与基洛夫斯克市政府座谈交流会举 ...· 3 月前 ·

闷骚的四季豆 · Copy Settings Wizard ...· 3 月前 ·

俊秀的鼠标垫 · “刘畊宏女孩”全网爆火网友：感觉不到腿了 ...· 5 月前 ·

模型类似wide&deep模型，用于回归任务，训练数据七千万，测试数据一千万，优化算法adam，batchsize 8192

当学习率设置 0.00007 ，图如下，这是验证集上效果最好的情况，但是训练集loss无法收敛
QQ%E6%88%AA%E5%9B%BE20180525105553 757×672 22.6 KB

当学习率设置为 0.00001 ，图如下，验证集效果比上面的效果差 一个千分点
QQ%E6%88%AA%E5%9B%BE20180525105607 817×551 14.4 KB

也查看过梯度情况，如下图，不会看，好像最后一层的梯度很不稳定
QQ%E6%88%AA%E5%9B%BE20180525110839 770×634 24.4 KB QQ%E6%88%AA%E5%9B%BE20180525110859 783×588 25.6 KB QQ%E6%88%AA%E5%9B%BE20180525185144 818×641 45.8 KB QQ%E6%88%AA%E5%9B%BE20180525185155 801×673 41.9 KB

请问是什么原因造成第一幅图训练Loss这样的曲线，但是验证集效果却比下一个好。

学习率太大了吗？

数据本身原因？

还是其他原因呢？

推荐文章

英俊的硬币 · maven中引入jstl，使用JSTL的方法_maven添加jstl-CSDN博客

3 月前

奔跑的黄瓜 · wandb扫描ylm文件 - CSDN文库

3 月前

稳重的自行车 · 宿州市人民政府与基洛夫斯克市政府座谈交流会举行_宿州市人民政府

3 月前

闷骚的四季豆 · Copy Settings Wizard - 2011 - SOLIDWORKS 帮助

3 月前

俊秀的鼠标垫 · “刘畊宏女孩”全网爆火网友：感觉不到腿了达人建议：长期不运动先“悠着点”

5 月前