添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
谈吐大方的楼房  ·  Setting a hostname ...·  7 月前    · 
火星上的楼梯  ·  Burberry·  11 月前    · 
强健的鸵鸟  ·  PHP ...·  1 年前    · 

这种问题,如果环境和超参数没错的话,换个强化算法就行了。
可以用TD3或者SAC.
尤其TD3就是专门用延迟更新动作网络、约束最大Q值、增加更新目标网络的噪声等方法,解决DDPG振荡的,效果拔群。

欢迎使用我最近分享的代码库,有tf1和torch版本的主流offpolicy强化算法,DDPG,SAC,TD3,对每个算法都增加了非常简洁的HER和PER的封装,调用方便~
https://github.com/kaixindelele/DRLib

MaximeJia 不好意思,我这几天才看到,我把超参数的代码po出来了,方便的话可以加下我微信吗?fyj13037697323

[未知] 超参数调节的时候有没有什么选择啊,我的环境就是按照自己问题的逻辑写的,还有一个问题就是神经网络输出动作值时大部分都是输出边界值

[未知] 这个我有点不懂

南瓜饼 一眼看上去,你的memory-capacity就有问题,太小了,一般都是1e6。
batch-size如果和你的训练次数挂钩(即采集一步,更新一次)的话,那么这个也过大了,一般在256。
你这个target-update也有问题,也不是默认的,这个代码库是谁的?
首先不建议非学习的情况下,使用DDPG;
其次最好用别人成熟的强化算法跑自己的环境,跑收敛后再改参数

  • 社区规范 | 违法和不良信息举报
  • 本网站页面发布内容版权归发布作者和平台所有,本站仅做学术分享和学习交流使用,如有侵犯,请立即联系 E-mail ,我们将在24小时内进行处理和解决
  •