



 
强化学习作为机器学习及人工智能领域的一种重要方法,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。
本书结合了李宏毅老师的“深度强化学习”、周博磊老师的“强化学习纲要”、李科浇老师的“世界冠军带你从零实践强化学习”公开课的精华内容,在理论严谨的基础上深入浅出地介绍马尔可夫决策过程、蒙特卡洛方法、时序差分方法、Sarsa、Q 学习等传统强化学习算法,以及策略梯度、近端策略优化、深度Q 网络、深度确定性策略梯度等常见深度强化学习算法的基本概念和方法,并以大量生动有趣的例子帮助读者理解强化学习问题的建模过程以及核心算法的细节。
此外,本书还提供较为全面的习题解答以及Python 代码实现,可以让读者进行端到端、从理论到轻松实践的全生态学习,充分掌握强化学习算法的原理并能进行实战。
本书适合对强化学习感兴趣的读者阅读,也可以作为相关课程的配套教材。
作者简介:
王琦 中国科学院大学硕士在读,Datawhale成员。主要研究方向为深度学习、数据挖掘。曾获中国大学生计算机设计大赛二等奖、亚太地区大学生数学建模竞赛 (APMCM)二等奖和“挑战杯”全国竞赛江苏省选拔赛二等奖,发表 SCI/EI 论文3篇。 杨毅远 清华大学硕士在读, Datawhale成员。主要研究方向为时空数据挖掘、智能传感系统、深度学习。曾获全国大学生智能汽车竞赛总冠军、中国国家奖学金,发表SCI/EI论文7篇,其中以第一作者身份在SCI的Q1区、Q2区及中国计算机学会(CCF)A、B类会议中发表论文4篇。 江季 北京大学硕士在读, Datawhale成员。主要研究方向为强化学习、机器人。曾获大学生电子设计竞赛——2018年嵌入式系统专题邀请赛(英特尔杯)一等奖,发表顶会论文1篇、专利2项。
目录:
第1 章绪论
第2 章马尔可夫决策过程
第3 章表格型方法
第4 章策略梯度
第5 章近端策略优化
第6 章深度Q 网络
第7 章深度Q 网络进阶技巧
第8 章针对连续动作的深度Q 网络
第9 章演员-评论员算法
第10 章深度确定性策略梯度
第11 章稀疏奖励
第12 章模仿学习
第13 章AlphaStar 论文解读
点击下载