当前位置:IT教程网 > 优质资源 > 七月在线_ 强化学习 [一举解开AlphaGo Zero的百胜奥秘]

action 发表于 2018-04-10
  • 资源详情
  • 下载记录
  • 资源评价

七月在线_ 强化学习 [一举解开AlphaGo Zero的百胜奥秘]

/ @% s" `" \/ }& E+ t8 [

课程简介

强化学习,被誉为可能通向强人工智能的第三类机器学习方法,在AI游戏领域的应用已司空见惯,如自动玩flappy bird,借助强化学习玩星际争霸,最近非常火的王者荣耀也不例外;在无人驾驶、自动交易等领域也有着举足轻重的作用。

《强化学习》课程,带你揭秘AlphaGo和星际争霸/王者荣耀,华尔街最热门的自动交易算法背后的技术及无人驾驶的关键点。

 

课程特色

1)从模型无关到模型相关,从Q-learning到Policy gradient,全面涵盖主流强化学习内容知识

2)与工业级ML算法紧密结合的应用案例讲解

3)配套实验环境与GPU服务器

 

第1课 强化学习RL简介

知识点1:强化学习定义:可能通向强人工智能的第三类机器学习方法

知识点2:强化学习数学模型:马尔科夫决策过程(MDP)

知识点3:RL机器人:探索环境,规划自己的人生

知识点4:强化学习基本算法分类

知识点5:Model-Based RL: 已知环境,如何优化自己的人生

$ R$ h- Y8 p) m7 r

第2课 Model—Free Learning

知识点1:环境未知,如何评估测略(状态价值)

知识点2:蒙特卡洛方法学习状态价值函数

知识点3:TD方法学习状态价值函数

实战项目:两种方法比较及代码实现

知识点5:OpenAI Gym介绍

  Q! C  c- y- @$ F) K

第3课 Model-Free Control

知识点1:ϵ− 贪婪策略:平衡 Exploration and Exploitation

知识点2:on/off-policy 蒙特卡洛方法

知识点3:on/off-policy TD 算法 (Sara)

实战项目:on/off-policy 算法比较及代码实现

0 P: p# W, Z4 D; F7 g7 X8 r+ n& s3 l; z

第4课 Q-Learning

知识点1:Q-Learning

知识点2:Deep Q-Learning

实战项目:Q-learning解决山地车问题

) K! N9 O: j2 w" U5 i1 p6 J/ t

第5课 策略梯度学习

知识点1:蒙特卡洛策略梯度

知识点2:Actor-Critic算法

实战项目:用policy gradient解决连续山地车的问题

 

第6课 TensorFlow强化学习应用案例

实战项目:使用Deep Q network 和 Policy gradient完成以下游戏:强化学习乒乓球游戏、强化学习flappy bird

 

共有 条评论

    价格 20 金币

    下载: 收藏: 浏览:

    分类:人工智能

    类型:视频

    年份:2018年

    售价:收费

    更新:2018-04-10

    会员:action

    关键词:

    相关资源

    买家必看
    链接失效怎么办?
    如何下载本站收费资源?
    如何下载本站免费资源?
    如何充值金币?
    充值相关
    充值流程介绍
    充值到账时间
    本站充值可以开发票吗?
    充值金币有什么优惠?
    常见问题
    什么是金币?如何获得?
    重复下载资源扣金币吗?
    我的账号和密码丢失怎么办?
    我能把本站资源分享到互联网上吗?