- 主要是自己的7天强化学习总结,具体的公式暂时不敲了(等大论文搞完再说吧),网上都有,这里主要说一些文字性的东西。
- PARL这个框架把强化学习分为Agent、Model和Algorithm这三个部分,从代码上来说层次分明,各个接口调用都很方便。
- 课程内容干货满满,通过学习对5中算法的理解进一步加深,尤其是off-policy和on-policy、随机策略和确定性策略这两个方面。
- 调参方面,除了学习率之外,不同的算法搭配不同的网络激活函数;不涉及图像输入的话,2层全连接足够;
- 以上。
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块