登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2025年05月出版新書

2025年04月出版新書

2025年03月出版新書

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

『簡體書』深度强化学习实战 用OpenAI Gym构建智能体

書城自編碼: 3875339
分類: 簡體書→大陸圖書→計算機/網絡人工智能
作者: 普拉文·巴拉尼沙米[Praveen Palanisamy]
國際書號(ISBN): 9787115561596
出版社: 人民邮电出版社
出版日期: 2023-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 356

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
礼教中的女性与生活中的女性:汉代女性形态研究
《 礼教中的女性与生活中的女性:汉代女性形态研究 》

售價:NT$ 296.0
无人机航拍酷炫运镜119招:从构图、拍摄到剪辑
《 无人机航拍酷炫运镜119招:从构图、拍摄到剪辑 》

售價:NT$ 449.0
慢思考,快心流:深度开发大脑潜能的思维方式(一本精准的天才训练手册,一套超凡的心流打造功法。精进领航人小务虚脑洞再开,助你开发大脑无限潜能)
《 慢思考,快心流:深度开发大脑潜能的思维方式(一本精准的天才训练手册,一套超凡的心流打造功法。精进领航人小务虚脑洞再开,助你开发大脑无限潜能) 》

售價:NT$ 296.0
伤口愈合中
《 伤口愈合中 》

售價:NT$ 296.0
《长河落日耀金戈——中国古代北方少数民族征战史例  》(以十场战争解读千年边塞历史,再现“铁马冰河入梦来”的热血豪迈)
《 《长河落日耀金戈——中国古代北方少数民族征战史例 》(以十场战争解读千年边塞历史,再现“铁马冰河入梦来”的热血豪迈) 》

售價:NT$ 194.0
瀛波志(大都会南部边缘的乌夜与拂晓,社幻小说家的机械奇趣宇宙志。一部百科全书式小说,陆源将中文重新淬炼了一遍)
《 瀛波志(大都会南部边缘的乌夜与拂晓,社幻小说家的机械奇趣宇宙志。一部百科全书式小说,陆源将中文重新淬炼了一遍) 》

售價:NT$ 500.0
黑暗时代的哲学家(哲学版的《人类群星闪耀时》,面对历史的洪流,哲学何为?)
《 黑暗时代的哲学家(哲学版的《人类群星闪耀时》,面对历史的洪流,哲学何为?) 》

售價:NT$ 398.0
国魂 : 甲午( 全三册)
《 国魂 : 甲午( 全三册) 》

售價:NT$ 826.0

建議一齊購買:

+

NT$ 505
《基于PyTorchLightning的深度学习:使用Pyth》
+

NT$ 653
《深度学习模式与实践》
+

NT$ 612
《机器视觉智能检测技术及典型行业应用》
+

NT$ 407
《自然语言处理迁移学习实战》
+

NT$ 305
《这就是ChatGPT!》
+

NT$ 653
《机器学习图解》
內容簡介:
这是一本介绍用 OpenAI Gym 构建智能体的实战指南。全书先简要介绍智能体和学习环境的一些入门知识,概述强化学习和深度强化学习的基本概念和知识点,然后重点介绍 OpenAI Gym 的相关内容,随后在具体的 Gym 环境中运用强化学习算法构建智能体。本书还探讨了这些算法在游戏、自动驾驶领域的应用。
本书适合想用 OpenAI Gym 构建智能体的读者阅读,也适合对强化学习和深度强化学习感兴趣的读者参考。读者应具备一定的 Python 编程基础。
目錄
第 1章 智能体与学习环境入门 1
1.1 智能体简介 1
1.2 学习环境 2
1.3 OpenAI Gym简介 3
1.4 理解OpenAI Gym的主要特性 8
1.4.1 简单的环境接口 8
1.4.2 可比较与可复现 8
1.4.3 进程可监控 9
1.5 OpenAI Gym工具包的作用 9
1.6 创建第 一个OpenAI Gym环境 9
1.7 小结 11
第 2章 强化学习和深度强化学习 12
2.1 强化学习简介 12
2.2 直观理解人工智能的含义和内容 13
2.2.1 监督学习 13
2.2.2 非监督学习 14
2.2.3 强化学习 14
2.3 强化学习实战 14
2.3.1 智能体 15
2.3.2 奖励 15
2.3.3 环境 15
2.3.4 状态 16
2.3.5 模型 17
2.3.6 值函数 17
2.3.7 策略 18
2.4 马尔可夫决策过程 18
2.5 动态规划 19
2.6 蒙特卡洛学习和时序差分学习 19
2.7 SARSA和Q-Learning 20
2.8 深度强化学习 21
2.9 强化学习和深度强化学习算法的实践应用 22
2.10 小结 23
第3章 开启OpenAI Gym和深度强化学习之旅 24
3.1 代码库、设置和配置 24
3.1.1 先决条件 25
3.1.2 创建conda环境 26
3.1.3 小化安装—快捷简便的方法 27
3.1.4 完整安装OpenAI Gym学习环境 28
3.2 安装深度强化学习所需的工具和库 32
3.2.1 安装必*的系统软件包 32
3.2.2 安装CUDA 33
3.2.3 安装PyTorch 34
3.3 小结 35
第4章 探索Gym及其功能 36
4.1 探索环境列表和术语 36
4.1.1 术语 37
4.1.2 探索Gym环境 38
4.2 理解Gym接口 40
4.3 Gym中的空间 43
4.4 小结 47
第5章 实现第 一个智能体—解决过山车问题 48
5.1 了解过山车问题 48
5.2 从零开始实现Q-Learning智能体 50
5.2.1 Q-Learning回顾 53
5.2.2 使用Python和NumPy实现Q-Learning智能体 53
5.3 在Gym中训练强化学习智能体 58
5.4 测试并记录智能体的性能 58
5.5 一个简单且完整的Q-Learner实现—过山车问题的解决方案 59
5.6 小结 63
第6章 用深度Q-Learning实现化控制智能体 64
6.1 优化Q-Learning智能体 65
6.1.1 用神经网络近似Q函数 65
6.1.2 经验回放 71
6.1.3 重温ε-贪婪动作策略 74
6.2 实现一个深度Q-Learning智能体 76
6.2.1 用PyTorch实现一个深度卷积Q网络 77
6.2.2 使用目标Q网络稳定智能体的学习 78
6.2.3 记录和可视化智能体的学习过程 79
6.2.4 管理超参数和配置参数 81
6.2.5 用完整的深度Q-Learner处理输入为原始像素的复杂问题 83
6.3 Atari Gym环境 89
6.4 训练深度Q-Learner玩Atari游戏 98
6.4.1 整合一个完整的深度Q-Learner 98
6.4.2 超参数 101
6.4.3 启动训练过程 102
6.4.4 在Atari游戏中测试深度Q-Learner的性能 103
6.5 小结 104
第7章 创建自定义OpenAI Gym环境—CARLA 105
7.1 理解Gym环境结构 105
7.1.1 为自定义Gym环境实现创建模板 106
7.1.2 在OpenAI Gym环境中注册自定义环境 108
7.2 创建与OpenAI Gym兼容的CARLA环境 108
7.2.1 配置和初始化 110
7.2.2 实现reset方法 111
7.2.3 为CARLA环境实现step函数 115
7.2.4 测试CARLA Gym环境 120
7.3 小结 122
第8章 用深度演员-评论家算法实现无人驾驶智能体 123
8.1 深度n步优势演员-评论家算法 123
8.1.1 策略梯度 124
8.1.2 演员-评论家算法 126
8.1.3 优势演员-评论家算法 127
8.1.4 n步优势演员-评论家算法 129
8.1.5 深度n步优势演员-评论家算法 132
8.2 实现深度n步优势演员-评论家智能体 133
8.2.1 初始化演员和评论家网络 133
8.2.2 用当前策略获取n步经验 137
8.2.3 计算演员和评论家的损失 137
8.2.4 更新演员-评论家模型 139
8.2.5 用于保存/加载、记录、可视化和监视的工具 139
8.2.6 扩展——异步深度n步优势演员-评论家 139
8.3 训练一个“聪明”的自动驾驶智能体 140
8.3.1 训练和测试深度n步优势演员-评论家智能体 140
8.3.2 训练智能体在CARLA中驾驶车辆 143
8.4 小结 144
第9章 探索学习环境全景——Roboschool、Gym Retro、StarCraft-Ⅱ和DeepMind Lab 145
9.1 Gym接口兼容的环境 146
9.1.1 Roboschool 146
9.1.2 Gym Retro 150
9.2 其他基于Python的开源学习环境 153
9.2.1 星际争霸Ⅱ—PySC2 153
9.2.2 DeepMind Lab 156
9.3 小结 160
第 10章 探索学习算法世界——DDPG(演员-评论家)、PPO (策略梯度)、Rainbow(基于值) 161
10.1 深度确定性策略梯度 162
10.2 近端策略优化 163
10.3 Rainbow 165
10.3.1 核心概念 165
10.3.2 优点及应用简要总结 169
10.4 小结 170

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2025 (香港)大書城有限公司 All Rights Reserved.