PARL强化学习公开课的笔记
iambigass 发布于2020-06 浏览:793 回复:1
0
收藏

强化学习的学习营中主要课程主要有

1、Sarsa模型

2、Q-learning模型

3、DQN模型

4、PG模型

5、DDPG模型

第一个模型,是Sarsa,Sarsa全称是state-action-reward-state'-action',目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格。

第二个是Q-learning,Q-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。

Sarsa和Q-learnin适用于状态空间和动作空间都是离散可数的场景建模。

第三个是DQN,前面两个的表格型方法存储的状态数量有限,当面对围棋或机器人控制这类有数不清的状态的环境时,表格型方法在存储和查找效率上都受局限,DQN的提出解决了这一局限,使用神经网络来近似替代Q表格。本质上DQN还是一个Q-learning算法,更新方式一致。为了更好的探索环境,同样的也采用ε-greedy方法训练。在Q-learning的基础上,DQN提出了两个技巧使得Q网络的更新迭代更稳定。经验回放 Experience Replay:主要解决样本关联性和利用效率的问题。使用一个经验池存储多条经验s,a,r,s',再从中随机抽取一批数据送去训练。固定Q目标 Fixed-Q-Target:主要解决算法训练不稳定的问题。复制一个和原来Q网络结构一样的Target Q网络,用于计算Q目标值。

DQN算法适用于状态空间连续而动作空间离散可数的场景

第四个模型PG,PG全称是Policy Gradient,在强化学习中,有两大类方法,一种基于值(Value-based),一种基于策略(Policy-based),PG算法是第二种算法的典型代表,采用神经网络拟合策略函数,需计算策略梯度用于优化策略网络。优化的目标是在策略π(s,a)的期望回报:所有的轨迹获得的回报R与对应的轨迹发生概率p的加权和,当N足够大时,可通过采样N个Episode求平均的方式近似表达。

第五个模型是DDPG,DDPG的提出动机其实是为了让DQN可以扩展到连续的动作空间。DDPG借鉴了DQN的两个技巧:经验回放 和 固定Q网络。DDPG使用策略网络直接输出确定性动作。DDPG使用了Actor-Critic的架构。

PG和DDPG算法适用于状态空间和动作空间都是连续的场景建模

 

 

收藏
点赞
0
个赞
共1条回复 最后由用户已被禁言回复于29天前
#2189******30回复于2020-06

收获满满啊~~

加油!共同进步!

0
TOP
切换版块