分享
白话强化学习与PyTorch.pdf
下载文档

ID:2357162

大小:16.43MB

页数:384页

格式:PDF

时间:2023-05-08

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
白话 强化 学习 PyTorch
内 容 简 介 本书以“平民”的起点,从“零”开始,基于 PyTorch 框架,介绍深度学习和强化学习的技术与技巧,逐层铺垫,营造良好的带入感和亲近感,把学习曲线拉平,使得没有学过微积分等高级理论的程序员一样能够读得懂、学得会。同时,本书配合漫画插图来调节阅读气氛,并对每个原理都进行了对比讲解和实例说明。本书适合对深度学习和强化学习感兴趣的技术人员、希望对深度学习和强化学习进行入门了解的技术人员及深度学习和强化学习领域的初级从业人员阅读。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 白话强化学习与 PyTorch/高扬,叶振斌著.北京:电子工业出版社,2019.9 ISBN 978-7-121-36747-2.白 .高 叶 .人工智能程序设计 .TP18 中国版本图书馆 CIP 数据核字(2019)第 111731 号 责任编辑:潘 昕 印 刷:三河市双峰印刷装订有限公司 装 订:三河市双峰印刷装订有限公司 出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编 100036 开 本:787980 1/16 印张:24 字数:590 千字 彩插:2 版 次:2019 年 9 月第 1 版 印 次:2019 年 9 月第 1 次印刷 定 价:99.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。本书咨询联系方式:(010)51260888-819,。III 前 言 当人工智能的热潮席卷全世界的时候,当我们一次又一次为各种人工智能新作而惊叹的时候,我们不约而同地将目光投向了深度学习领域。我们对这个既新鲜又传统的领域有一种憧憬,甚至我们之中的许多人会在某一刻认为这可能是未来机器觉醒前的萌芽。说深度学习新鲜,是因为它在近几年的发展确实获得了令人瞩目的成果,不论是在计算机视觉(Computer Vision,CV)领域,还是在自动语音识别(Automatic Speech Recognition,ASR)领域,抑或推荐系统应用领域,都迈上了一个前所未有的新台阶。这当然得益于计算机硬件处理能力的提升,包括 CPU 的速度、内存的大小、磁盘的容量;得益于新型并行计算框架的逐步成熟,例如 CUDA(Compute Unified Device Architecture);得益于广大热衷于贡献高质量开源软件系统的大厂的扛鼎力作,例如 TensorFlow、PyTorch、MXNet 等优秀框架的不断涌现。这些无一例外,都成为推动一个行业在全国乃至全世界发展的重要因素。说深度学习传统,是因为它最为基本的理论部分,是在数十年前就逐步有人提出并进行完善的一套理论体系。一位朋友曾告诉我,在他研究生毕业的时候(应该是在 21 世纪初),有不少同学的研究方向是人工智能和神经网络,而其中的大多数人,不是进了国有研究所,开始了日复一日“读 Paper、写 Paper”的过程,就是进了保险公司、证券交易所等企业做什么呢?也不是做自己的老本行,而是做报表、做数据分析、写报告。当然,这些同学算是比较“幸运”的,还有相当一部分干脆改了行,去往一些企业的开发岗位,做 Java 开发或者数据库架构之类的工作。我完全没有轻视这些岗位和企业的意思,我只是单纯地觉得,在大学中花了那么多年走出来的一条路,没办法再走下去,是一件非常可惜的事情。而在导致这一现象的众多客观因素中,前面提到的计算能力、框架成熟度、软件包可用性等起着决定性的作用。不过,我们赶上好时候了。除落地应用外的大部分基础问题,都已经由那些世界一流的数据科学家帮我们解决,并封装成了一个个开源或非开源的软/硬件产品。其实,除了深度神经网络在 CV、ASR、NLP等领域的应用,近几年,深度学习在另外一个领域有着炫目的成绩,那就是深度强化学习领域。别的不说,大名鼎鼎的 AlphaGo 和 AlphaGo Zero 就是典型的深度强化学习应用。从感性的角度看,深度强化学习似乎是由“深度学习”和“强 CV(Computational Vision),计算机视觉。ASR(Automatic Speech Recognition),自动语音识别。NLP(Natural Language Processing),自然语言处理。深度强化学习,Deep Reinforcement Learning(DRL)。IV 化学习”两个领域结合而成的这个说法应该不算错。所谓深度学习,一般是指基于深度神经网络的一系列应用,而这个领域应用的丰富程度也是非常高的。因为深度神经网络有着超高的 VC 维,所以理论上它几乎可以用来实现任何从 到()的映射关系。强化学习所研究的事情就更有意思了。强化学习研究的主要是如何让机器人在一个预先定义好的环境中,通过自己学习来逐步形成或学会一套成熟的、高质量的自动化行为策略,这也是一直以来世界一流高校的人工智能专业设立并努力研究的一个神秘而又让人充满幻想的领域。为了让广大读者能够近距离接触强化学习和深度学习结合应用的案例,让这样一个有趣且有着光明前景的领域以更加平易近人的姿态出现,在这本书中,我将用具有高中数学水平的读者朋友能够理解的语言,和大家好好分享一下如何用深度学习的利器 PyTorch 来完成人工智能机器人自我进化的落地过程。本书特色 可以说,我们处于人工智能时代的起点。这是一个非常好的时代,那么多优秀的开源软件框架,为每一个程序员提供了门槛足够低的学习工具。本书以“平民”的起点,从“零”开始介绍深度学习的技术与技巧,让读者有良好的带入感和亲近感,并通过逐层铺垫,把学习曲线拉平,使得没有学过微积分等高级理论的程序员朋友一样能够读得懂、学得会。同时,本书配合漫画插图来调节阅读气氛,并在每个原理讲解的部分都提供了对比和实例说明,相信每位读者都能有轻松、愉悦的阅读体验。如果你的英文阅读能力比较强且有比较高的学术素养,如果你能够以英文原版文献(不论是公开课、论文,还是经典教材)作为首选的阅读资料,那么,仍然推荐你阅读英文原版内容,因为那将让你更为直接地接触相关知识。基于本书的定位,在描述讨论对象的时候,我通常不会使用学术级别的词汇,而是尽可能使用程序员能够读懂的语言。因此,与经典的阅读材料相比,本书叙述的内容难免存在一些偏颇,甚至可能为了言简意赅地讲明原理而有失严谨。另外,在一个理论出现或者相关论文发表之后,从我把它读懂、写清楚到图书出版,至少需要一年,甚至可能更久,而这对于一个在领域前沿工作的技术人员来说,时间显得有些长。因此,对于学习能力比较强的读者来说,本书作为工程实现参考书更为合适。VC 维(Vapnik-Chervonenkis Dimension),描述网络对空间的划分能力。VC 维越高,划分能力就越强。V 读者对象 本书适合如下人员阅读。对深度学习和强化学习感兴趣但完全不了解的技术人员。对深度学习和强化学习比较感兴趣的技术人员。深度学习和强化学习领域的初级从业人员。希望对深度学习和强化学习进行入门了解的技术人员。如何阅读本书 本书是我写作的“白话”系列图书的第三本,与白话大数据与深度学习 白话深度学习与TensorFlow互为姊妹篇。但是,本书不依赖另外两本书的内容,是独立成册的。本书的主要内容如下。第 1 章到第 5 章,讲的是传统强化学习的研究目标与脉络,主要介绍了从一个程序员的角度怎么理解强化学习最为轻松,侧重于理解方式的诱导。第 6 章到第 11 章,是本书的核心内容,讲的是深度学习的原理、PyTorch 框架的基本知识及深度强化学习的常用算法模型。第 12 章到第 15 章,讲的是扩展性的知识。例如,其他有助于训练模型的算法思路,第三方工具插件,可供实验的环境,一些有趣的强化学习算法和观点,甚至模型落地过程中的优化与压缩。附录 A 中详细记载了本书涉及的各种软件环境的安装和配置过程。套用一句时髦的广告语:“深度强化学习从入门到落地,读这一本就够了。”勘误与支持 由于作者的水平有限,编写时间仓促,书中难免会出现错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,欢迎扫描下方的二维码,关注“智能工厂”微信公众号和我们进行互动讨论。你也可以在这里找到本书配套代码的下载地址和 QQ 讨论群的相关信息。关注大数据尖端技术发展,关注“智能工厂”。VI 本书代码的下载地址为 https:/ 与我联系。期待得到你的真挚反馈,让我们在技术道路上互勉共进。高 扬 2019 年 3 月 于 珠海 VII 目 录 传统篇 第1章 强化学习是什么.2 1.1 题设.3 1.1.1 多智能才叫智能.5 1.1.2 人工智能的定义.5 1.2 强化学习的研究对象.7 1.2.1 强化学习的应用场合.7 1.2.2 强化学习的建模.11 1.3 本章小结.17 第2章 强化学习的脉络.18 2.1 什么是策略.18 2.2 什么样的策略是好的策略.19 2.3 什么是模型.21 2.4 如何得到一个好的策略.23 2.4.1 直接法.23 2.4.2 间接法.25 2.5 马尔可夫决策过程.29 2.5.1 状态转移.30 2.5.2 策略与评价.31 2.5.3 策略优化.36 2.6 Model-Based 和 Model-Free.36 2.6.1 Model-Based.36 2.6.2 规划问题.37 2.6.3 Model-Free.38 2.7 本章小结.38 第3章 动态规划.40 3.1 状态估值.40 3.2 策略优化.42 3.3 本章小结.43 第4章 蒙特卡罗法.45 4.1 历史由来.45 4.2 状态估值.47 4.3 两种估值方法.49 4.3.1 首次访问蒙特卡罗策略估值.49 4.3.2 每次访问蒙特卡罗策略估值.49 4.3.3 增量平均.50 4.4 弊端.51 4.5 本章小结.52 第5章 时间差分.53 5.1 SARSA 算法.53 5.1.1 SARSA 算法的伪代码.54 5.1.2 SARSA 算法的优点和缺点.57 5.2 Q-Learning 算法.57 5.2.1 Q-Learning 算法的伪代码.58 5.2.2 Q-Learning 算法的优点和缺点.59 5.3 On-Policy 和 Off-Policy.61 5.4 On-Line 学习和 Off-Line 学习.62 5.5 比较与讨论.63 5.6 本章小结.65 VIII 现代篇 第6章 深度学习.68 6.1 PyTorch 简介.69 6.1.1 历史渊源.70 6.1.2 支持.71 6.2 神经元.74 6.3 线性回归.77 6.4 激励函数.80 6.4.1 Sigmoid 函数.81 6.4.2 Tanh 函数.82 6.4.3 ReLU 函数.82 6.4.4 Linear 函数.83 6.5 神经网络.84 6.6 网络训练.85 6.6.1 输入.86 6.6.2 输出.86 6.6.3 网络结构.87 6.6.4 损失函数.88 6.6.5 求解极小值.90 6.6.6 线性回归.90 6.6.7 凸函数.93 6.6.8 二元(多元)凸函数.98 6.6.9 导数补充.101 6.6.10 导数怎么求.103 6.6.11“串联”的神经元.105 6.6.12 模型的工作.107 6.6.13 理解损失函数.108 6.7 深度学习的优势.108 6.7.1 线性和非线性的叠加.109 6.7.2 不用再提取特征.111 6.7.3 处理线性不可分.112 6.8 手写数字识别公开数据集.114 6.9 全连接网络.117 6.9.1 输入与输出.118 6.9.2 代码解读.119 6.9.3 运行结果.125 6.10 卷积神经网络.125 6.10.1 代码解读.125 6.10.2 理解卷积神经网络的结构.132

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开