强化学习7日打卡营学习心得
wangwei8638 发布于2020-06 浏览:2912 回复:1
0
收藏
最后编辑于2022-04

感谢强化学习7日打卡营的班主任和精英教师团队的老师们,能够提供如此高效快捷的强化学习课程。初次接触强化学习,通过7天课程学习和实践,对强化学习有了初步的认识和理解。

一、强化学习的思想

智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。与监督学习不同的是,在强化学习的过程中,没有人的示范,而是让机器自主去做一个动作。机器人用一定的初始策略选到一个动作。它不知道自己做的对不对, 但是可以他拿到一个立即的reward。同时假设这个动作做对了奖励是 +1,做错了奖励是0,通过不断的训练,机器自己能够自主学会拿到高分的方法。

二、强化学习的应用范围

  • 游戏(马里奥、Atari、Alpha Go、星际争霸等)
  • 机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)
  • 用户交互(推荐、广告、NLP等)
  • 交通(拥堵管理等)
  • 资源调度(物流、带宽、功率等)
  • 金融(投资组合、股票买卖等)
  • 其他

三、强化学习的算法和环境

  • 经典算法:Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO
  • 环境分类:离散控制场景(输出动作可数)、连续控制场景(输出动作值不可数)
  • 强化学习经典环境库GYM将环境交互接口规范化为:重置环境reset()、交互step()、渲染render()
  • 强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层,使得强化学习算法的实现和调试更方便和灵活。

       最后,还是要赞扬一下百度AI Studio平台所提供的视频+源码+文档+免费GPU算力的一条龙式在线教育服务,尤其是免费GPU算力,为想深入学习人工智能而缺乏硬件基础的同学提供了极大的便利。

收藏
点赞
0
个赞
共1条回复 最后由用户已被禁言回复于2022-04
#2wangwei8638回复于2020-06

深入强化学习

0
TOP
切换版块