图书介绍

强化学习理论及应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

张汝波编著著
出版社：哈尔滨：哈尔滨工程大学出版社
ISBN：7810731424
出版时间：2001
标注页数：287页
文件大小：34MB
文件页数：300页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：6f154864205bc1c91813bad901ecfb4c

下载说明

强化学习理论及应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

1 绪论1

1.1 学习的定义1

1.2 连接主义学习的分类3

1.3 强化学习的基本概念4

1.4 强化学习的发展历史及国内外研究状况5

1.5 强化学习的应用领域11

1.6 强化学习存在的问题及研究方向14

2 强化学习系统的结构和实现方法18

2.1 强化学习的定义及分类18

2.2 强化学习Agent与环境的关系21

2.3 强化学习的目标和奖励信号24

2.4 强化学习系统的回报值26

2.5 阶段性任务和持续性任务的统一描述28

2.6 强化学习系统的结构模型30

2.7 输入模块的实现方法32

2.8 强化模块的实现方法33

2.9 策略模块的实现方法34

3 强化学习相关理论及学习算法43

3.1 马尔可夫决策过程43

3.2 动态规划方法54

3.3 蒙特卡罗算法61

4 瞬时差分法69

4.1 瞬时差分法的基本原理70

4.2 瞬时差分预测算法，与动态规划、蒙特卡罗方法的区别72

4.3 瞬时差分法与监督学习方法76

4.4 瞬时差分法的预测原理78

4.5 无限折扣预测问题81

4.6 采用神经网络实现TD法的结构信度分配82

4.7 TD法的收敛性分析84

4.8 TD学习算法的Worst-Case分析90

4.9 截断瞬时差分法100

5 自适应启发评价方法104

5.1 自适应启发评价方法的基本原理104

5.2 自适应启发评价学习系统的一般结构116

5.3 离散动作AHC算法的神经网络实现118

5.4 连续动作的强化学习问题122

6 Q-学习126

6.1 Q-学习的基本算法126

6.2 Q-学习的收敛性及收敛速度128

6.3 Q-学习系统的结构及神经网络实现135

6.4 Sarsa-算法139

6.5 快速在线Q（λ）算法140

6.6 HQ-学习算法148

7 资格迹156

7.1 资格迹的基本原理156

7.2 n步TD预测问题159

7.3 TD（λ）的前向估计161

7.4 TD（λ）的后向估计164

7.5 前向估计和后向估计的等价性167

7.6 Sarsa（λ）算法169

7.7 Q（λ）算法171

7.8 替换迹174

8 提高强化学习速度的方法176

8.1 利用经验回放技术提高强化学习速度176

8.2 利用环境模型来提高强化学习速度179

8.3 输入空间的量化方法188

8.4 采用局部逼近神经网络实现强化学习系统190

9 强化学习控制系统192

9.1 学习控制问题192

9.2 倒摆控制系统200

9.3 强化学习在过程控制中的应用205

9.4 强化学习和PI调节器在加热绕组控制中的应用209

9.5 动态系统的强化学习控制器217

10 强化学习在智能机器人中的应用223

10.1 智能机器人局部路径规划问题224

10.2 强化学习在水下机器人避碰行为学习的应用227

10.3 强化学习在陆上移动机器人局部路径规划中的应用236

11 强化学习的其它应用252

11.1 TD-Gammon252

11.2 塞缪尔的Checkers Player程序257

11.3 空中飞人260

11.4 电梯调度263

11.5 动态信道分配267

参考文献271