中图网

>

人工智能

强化学习入门:从原理到实践

作者：叶强，闫维新，黎斌编著

出版社：机械工业出版社出版时间：2020-09-01

开本： 26cm 页数： 183页

本类榜单：计算机/网络销量榜

中图价:¥57.7(7.3折) 定价 ~~¥79.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥57.7 加入购物车

版权信息
内容简介
目录
作者简介

微信公众号

强化学习入门:从原理到实践版权信息

ISBN：9787111661269
条形码：9787111661269 ; 978-7-111-66126-9
装帧：一般胶版纸
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
人工智能

强化学习入门:从原理到实践内容简介

本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术, 共分为三大部分: **部分 (第1-5章) 介绍强化学习的发展历史、基本概念以及一些经典的强化学习算法 ; 第二部分 (第6-9章) 在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法 ; 第三部分 (第10章) 以五子棋为例详细讲解战胜了人类顶级围棋选手的Alpha Zero算法的核心思想。

强化学习入门:从原理到实践目录

前言

　　致谢

　　常用数学符号

　　主要算法列表

第1章概述1

1.1 强化学习的历史1

1.2 强化学习的基本概念2

1.3 章节组织6

1.4 编程环境与代码资源6

第2章从一个示例到马尔可夫决策过程7

2.1 马尔可夫过程7

2.2 马尔可夫奖励过程9

2.3 马尔可夫决策过程13

2.4 编程实践：学生马尔可夫决策示例20

2.4.1 收获和价值的计算20

2.4.2 验证贝尔曼方程22

第3章动态规划寻找*优策略29

3.1 策略评估29

3.2 策略迭代32

3.3 价值迭代33

3.4 异步动态规划算法36

3.5 编程实践：动态规划求解小型格子世界*优策略37

3.5.1 小型格子世界MDP建模37

3.5.2 策略评估40

3.5.3 策略迭代41

3.5.4 价值迭代41

第4章不基于模型的预测43

4.1 蒙特卡罗强化学习43

4.2 时序差分强化学习45

4.3 n步时序差分学习50

4.4 编程实践：蒙特卡罗学习评估21点游戏的玩家策略54

4.4.1 21点游戏规则54

4.4.2 将21点游戏建模为强化学习问题55

4.4.3 游戏场景的搭建55

4.4.4 生成对局数据64

4.4.5 策略评估64

第5章无模型的控制67

5.1 行为价值函数的重要性67

5.2 ?贪婪策略68

5.3 同策略蒙特卡罗控制69

5.4 同策略时序差分控制70

5.4.1 Sarsa算法70

5.4.2 Sarsa(λ)算法73

5.4.3 比较Sarsa和Sarsa(λ)74

5.5 异策略Q学习算法76

5.6 编程实践：蒙特卡罗学习求解21点游戏的*优策略78

5.7 编程实践：构建基于gym的有风的格子世界及个体81

5.7.1 gym库简介81

5.7.2 状态序列的管理83

5.7.3 个体基类的编写84

5.8 编程实践：各类学习算法的实现及与有风的格子世界的交互88

5.8.1 Sarsa算法89

5.8.2 Sarsa(λ)算法90

5.8.3 Q学习算法91

第6章价值函数的近似表示93

6.1 价值近似的意义93

6.2 目标函数与梯度下降95

6.2.1 目标函数95

6.2.2 梯度和梯度下降97

6.3 常用的近似价值函数100

6.3.1 线性近似101

6.3.2 神经网络101

6.3.3 卷积神经网络近似104

6.4 DQN算法108

6.5 编程实践：基于PyTorch实现DQN求解PuckWorld问题109

6.5.1 基于神经网络的近似价值函数110

6.5.2 实现DQN求解PuckWorld问题113

第7章基于策略梯度的深度强化学习117

7.1 基于策略学习的意义117

7.2 策略目标函数119

7.3 Actor-Critic算法121

7.4 深度确定性策略梯度算法124

7.5 编程实践：DDPG算法实现125

7.5.1 连续行为空间的PuckWorld环境125

7.5.2 Actor-Critic网络的实现127

7.5.3 确定性策略下探索的实现130

7.5.4 DDPG算法的实现130

7.5.5 DDPG算法在PuckWorld环境中的表现135

第8章基于模型的学习和规划137

8.1 环境的模型137

8.2 整合学习与规划——Dyna算法139

8.3 基于模拟的搜索140

8.3.1 简单蒙特卡罗搜索140

8.3.2 蒙特卡罗树搜索141

第9章探索与利用143

9.1 多臂游戏机143

9.2 常用的探索方法145

9.2.1 衰减的?贪婪探索145

9.2.2 不确定行为优先探索146

9.2.3 基于信息价值的探索149

第10章 Alpha Zero算法实战151

10.1 自博弈中的蒙特卡罗树搜索154

10.2 模型评估中的蒙特卡罗搜索156

10.3 策略价值网络结构及策略提升160

10.4 编程实践：Alpha Zero算法在五子棋上的实现161

10.4.1 从零开始搭建棋盘环境161

10.4.2 搭建两种MCTS以实现Alpha

Zero自博弈与模型评估168

10.4.3 搭建策略价值网络并进行策略提升177

10.4.4 训练自己的Alpha Zero

模型182

参考文献184

展开全部

强化学习入门:从原理到实践作者简介

叶强，医学博士、计算机科学硕士，先后毕业于上海交通大学和蒙特利尔大学。长期从事眼科临床工作，主要科研方向为视觉神经细胞的计算模型和医学信息学。获国家发明一项，实用新型多项，软件著作权多项。在靠前次规范、系统地实现了移动客户端自助视力检查软件系统。近年来，主要研究方向为人工智能技术及其在临床医学和医学信息学中的应用。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
[法]罗曼·罗兰著,郑克鲁译
¥40.6~~¥58.0~~
>
月亮与六便士
月亮与六便士
[英]毛姆著,胡曦译
¥13.4~~¥42.0~~
>
随园食单
随园食单
袁枚
¥26.9~~¥48.0~~
>
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
易竹贤
¥9.9~~¥23.0~~
>
我从未如此眷恋人间
我从未如此眷恋人间
史铁生/汪曾祺
¥24.4~~¥49.8~~
>
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
[英] 达尔文著，朱邦芊译
¥6.3~~¥14.0~~
>
月亮虎
月亮虎
[英] 佩内洛普·莱夫利著，郭国良译
¥15.4~~¥48.0~~
>
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
[古希腊] 伊索著，陈韵如译
¥6.1~~¥19.0~~

本类畅销

深度学习自然语言处理实战

张楠[等]编著

¥25.8~~¥59.9~~
过程控制

李文涛

¥11.9~~¥35~~
2022图书×抽奖盲袋

¥9.9~~¥25~~
2023读书月阅读盲盒——天黑，闭眼，刀谁？

中图网

¥42.3~~¥158~~
2023读书月阅读盲盒——十万个为什么里面为什么没有我想问的为什么？

中图网

¥88~~¥260~~
2022读者节纪念徽章-三星会员专属

中图网

¥45~~¥45.6~~

强化学习入门:从原理到实践

强化学习入门:从原理到实践版权信息

强化学习入门:从原理到实践内容简介

强化学习入门:从原理到实践目录

强化学习入门:从原理到实践作者简介

罗曼·罗兰读书随笔-精装

月亮与六便士

随园食单

新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)

我从未如此眷恋人间

企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)

月亮虎

伊索寓言-世界文学名著典藏-全译本

深度学习自然语言处理实战

过程控制

2022图书×抽奖盲袋

2023读书月阅读盲盒——天黑，闭眼，刀谁？

2023读书月阅读盲盒——十万个为什么里面为什么没有我想问的为什么？

2022读者节纪念徽章-三星会员专属

熊千佳昆虫记

陶潜和樱子

百年梦忆－梁实秋人生自述

朱仙镇年画:七日谈

女孩们

祸枣集

强化学习入门:从原理到实践

强化学习入门:从原理到实践 版权信息

强化学习入门:从原理到实践 内容简介

强化学习入门:从原理到实践 目录

强化学习入门:从原理到实践 作者简介

强化学习入门:从原理到实践版权信息

强化学习入门:从原理到实践内容简介

强化学习入门:从原理到实践目录

强化学习入门:从原理到实践作者简介