第一天:了解一些关于强化学习的概述内容,强化学习入门需要的一个学习路线。
强化学习RL是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
其核心思想是智能体agent在环境environment中学习,根据环境的状态state或观察到的observation,执行动作action,并根据环境的反馈reward来指导更好的动作。
强化学习最耳熟能详的应用,我想应该就是在游戏和机器人控制领域。
第二天:了解了基于表个性方法求解的强化学习:Sarsa和Q_learning。
Sarsa的目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为例,根据环境交互得到的reward来更新Q表格。该方法在训练中为了更好的探索环境,通常采用e-greedy方式来训练,有一定概率随机选择动作输出。
Q_learning也是采用Q表格的方式存储Q值,决策部分与Sarsa是一样的,都采用e-greedy方式增加探索。不同的地方在于它更新表格的方式,Sarsa是基于on-policy的更新方式,即先做出动作再进行更新,而Q_learning则是基于off-policy的更新方式,即无需获取下一步实际作出的动作,并假设下一步动作是取最大Q值的动作。
第三天:了解了基于神经网络方法求解的强化学习:DQN。
DQN其本质上还是一个Q_learning算法,只是采用两个技巧使得Q网络的更新迭代更稳定:Experience Replay和Fixed-Q-Target。分别解决了样本关联性、利用效率和算法训练不稳定的问题。
第四天:了解了基于策略梯度求解的强化学习:Policy Gradient。
在强化学习中,存在两大类方法,一种是value-based,一种是policy-based,分别是基于值的和基于策略的。
value-based算法的典型代表就是Q_learning和Sarsa,policy-based算法的典型代表就是Policy Gradient。
第五天:了解了基于连续动作空间求解的强化学习:DDPG。
为了使DQN能够扩展到连续的动作空间,所以有人提出了DDPG,DDPG借鉴了DQN的两个技巧:经验回放和固定Q网络。它使用策略网络直接输出确定性动作,它使用的是Actor-Critic的架构。