7天强化学习总结
秃————狼 发布于2020-06 浏览:464 回复:0
0
收藏
快速回复
  • 主要是自己的7天强化学习总结,具体的公式暂时不敲了(等大论文搞完再说吧),网上都有,这里主要说一些文字性的东西。
  • PARL这个框架把强化学习分为Agent、Model和Algorithm这三个部分,从代码上来说层次分明,各个接口调用都很方便。
  • 课程内容干货满满,通过学习对5中算法的理解进一步加深,尤其是off-policy和on-policy、随机策略和确定性策略这两个方面。
  • 调参方面,除了学习率之外,不同的算法搭配不同的网络激活函数;不涉及图像输入的话,2层全连接足够;
  • 以上。
收藏
点赞
0
个赞
TOP
切换版块