新書推薦:
《
台风天(大吴作品,每一种生活都有被看见的意义)
》
售價:NT$
245.0
《
打好你手里的牌(斯多葛主义+现代认知疗法,提升当代人的心理韧性!)
》
售價:NT$
301.0
《
新时代硬道理 广东寻路高质量发展
》
售價:NT$
352.0
《
6S精益管理实战(精装版)
》
售價:NT$
458.0
《
世界文明中的作物迁徙:聚焦亚洲、中东和南美洲被忽视的本土农业文明
》
售價:NT$
454.0
《
无端欢喜
》
售價:NT$
347.0
《
股票大作手操盘术
》
售價:NT$
245.0
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:NT$
398.0
|
內容簡介: |
本书将引领读者进入Python机器学习领域。机器学习是一套先进、深刻且内容丰富的算法集合,已成为数据科学中数据建模与分析的重要方法。Python是一款简明、高效且功能强大的开源工具,也是数据科学实践中最常用的计算机语言。学好机器学习的理论方法,掌握Python这个实用工具,是成长为数据科学人才所必需的。本书采用理论与实践相结合的方式,理论上突出可读性并兼具知识深度和广度,实践上强调可操作性并兼具应用广泛性,对机器学习的原理部分进行了深入透彻的讲解,对机器学习的算法部分给出了Python代码,并且在各章中设置了Python编程示例。全彩呈现机器学习的数据建模可视化图例(80多幅彩图),扫描书中相应二维码即可查看。提供配套数据集、源代码、教学PPT等学习资源,登录华信教育资源网(www.hxedu.com.cn)即可免费下载。本书可作为高等院校机器学习、数据分析等专业课程的教材,也可作为数据科学应用研究者及对Python机器学习感兴趣的数据建模与分析从业者的参考书。
|
關於作者: |
薛薇,工学硕士,经济学博士,中国人民大学应用统计学科研究中心副主任,中国人民大学统计学院副教授。主要研究领域:机器学习和文本挖掘、复杂网络建模等。关注统计和数据挖掘算法及软件应用。涉足企业客户终身价值测算,基于文本挖掘的热点事件主题提取和分类,金融、贸易等复杂网络动态建模等方面。主要代表性教材:《SPSS统计分析方法及应用》《R语言数据挖掘方法及应用》《R语言:大数据分析中的统计方法及应用》《SPSS Modeler数据挖掘方法及应用》《数据科学概论——从概念到应用》《Python机器学习——数据建模与分析》等。
|
目錄:
|
目 录
第1章 机器学习概述 1
1.1 机器学习的发展:人工智能中的机器学习 1
1.1.1 符号主义人工智能 2
1.1.2 基于机器学习的人工智能 2
1.2 机器学习的核心:数据和数据建模 4
1.2.1 机器学习的对象:数据集 4
1.2.2 机器学习的任务:数据建模 6
1.3 机器学习的典型应用 11
1.3.1 机器学习的典型行业应用 11
1.3.2 机器学习在客户细分中的应用 12
1.3.3 机器学习在客户流失分析中的应用 13
1.3.4 机器学习在营销响应分析中的应用 14
1.3.5 机器学习在交叉销售中的应用 15
1.3.6 机器学习在欺诈甄别中的应用 16
本章总结 16
本章习题 16
第2章 Python机器学习基础 17
2.1 Python:机器学习的首选工具 17
2.2 Python的集成开发环境:Anaconda 18
2.2.1 Anaconda的简介 19
2.2.2 Anaconda Prompt的使用 19
2.2.3 Spyder的使用 20
2.2.4 Jupyter Notebook的使用 22
2.3 Python第三方包的引用 23
2.4 NumPy使用示例 23
2.4.1 NumPy数组的创建和访问 24
2.4.2 NumPy的计算功能 26
2.5 Pandas使用示例 28
2.5.1 Pandas的序列和索引 28
2.5.2 Pandas的数据框 29
2.5.3 Pandas的数据加工处理 30
2.6 NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析 32
2.6.1 空气质量监测数据的预处理 32
2.6.2 空气质量监测数据的基本分析 34
2.7 Matplotlib的综合应用:空气质量监测数据的图形化展示 37
2.7.1 AQI的时间序列变化特点 37
2.7.2 AQI的分布特征及相关性分析 38
本章总结 40
本章相关函数列表 40
本章习题 47
第3章 数据预测与预测建模 48
3.1 从线性回归模型说起 49
3.1.1 线性回归模型的含义 49
3.1.2 线性回归模型的几何理解 50
3.1.3 线性回归模型的评价 50
3.1.4 Python应用实践:PM2.5浓度预测 51
3.2 认识线性分类模型 56
3.2.1 线性分类模型的含义 56
3.2.2 线性分类模型的几何理解 58
3.2.3 线性分类模型的评价 60
3.2.4 Python应用实践:空气质量等级预测 62
3.3 从线性预测模型到非线性预测模型 67
3.4 预测模型的参数估计 68
3.4.1 损失函数与有监督学习 68
3.4.2 参数搜索策略 70
3.5 预测模型的选择 72
3.5.1 泛化误差的估计 72
3.5.2 Python模拟和启示:理解泛化误差 75
3.5.3 预测模型过拟合问题 78
3.5.4 模型选择:偏差和方差 79
本章总结 82
本章相关函数列表 83
本章习题 83
第4章 数据预测建模:贝叶斯分类器 84
4.1 贝叶斯概率和贝叶斯法则 84
4.1.1 贝叶斯概率 84
4.1.2 贝叶斯法则 85
4.2 朴素贝叶斯分类器 85
4.2.1 从顾客行为分析角度看朴素贝叶斯分类器 85
4.2.2 Python模拟和启示:认识朴素贝叶斯分类器的分类边界 88
4.2.3 Python应用实践:空气质量等级预测 91
4.3 朴素贝叶斯分类器在文本分类中的应用 93
4.3.1 Python文本数据预处理:文本分词和量化计算 94
4.3.2 Python文本描述性分析:词云图和文本相似性 97
4.3.3 Python文本分析综合应用:裁判文书的要素提取 99
4.4 贝叶斯参数估计简介* 102
4.4.1 从科比投篮分析角度看贝叶斯参数估计的基本思想 102
4.4.2 共轭先验分布 103
4.4.3 Python应用实践:科比投篮命中率的研究 106
本章总结 108
本章相关函数列表 108
本章习题 109
第5章 数据预测建模:近邻分析 110
5.1 近邻分析:K-近邻法 110
5.1.1 距离:K-近邻法的近邻度量 111
5.1.2 参数K:1-近邻法和K-近邻法 112
5.2 回归预测中的K-近邻法 113
5.2.1 Python模拟和启示:认识K-近邻回归线 113
5.2.2 Python模拟和启示:认识K-近邻回归面 115
5.3 分类预测中的K-近邻法 117
5.3.1 基于1-近邻法和K-近邻法的分类 117
5.3.2 Python模拟和启示:参数K和分类边界 118
5.4 基于观测相似性的加权K-近邻法 120
5.4.1 加权K-近邻法的权重 121
5.4.2 Python模拟和启示:认识加权K-近邻分类边界 123
5.5 K-近邻法的Python应用实践 124
5.5.1 空气质量等级的预测 124
5.5.2 国产电视剧大众评分的预测 126
5.6 K-近邻法的适用性探讨* 127
本章总结 129
本章相关函数列表 130
本章习题 130
第6章 数据预测建模:决策树 131
6.1 决策树的基本概念 131
6.1.1 什么是决策树 131
6.1.2 决策树的深层含义 133
6.2 回归预测中的决策树 134
6.2.1 决策树的回归面 134
6.2.2 Python模拟和启示:树深度对回归面的影响 135
6.3 分类预测中的决策树 136
6.3.1 决策树的分类边界 137
6.3.2 Python模拟和启示:树深度对分类边界的影响 137
6.4 决策树的生长和剪枝 139
6.4.1 决策树的生长 140
6.4.2 决策树的剪枝 141
6.5 经典决策树算法:CART 142
6.5.1 CART的生长 142
6.5.2 CART的后剪枝 145
6.6 决策树的Python应用实践 148
6.6.1 PM2.5浓度的预测 148
6.6.2 空气质量等级的预测 149
6.6.3 药物适用性研究 151
6.7 决策树的高方差性* 153
本章总结 154
本章相关函数列表 154
本章习题 155
第7章 数据预测建模:集成学习 156
7.1 集成学习概述 156
7.1.1 高方差性问题的解决途径 157
7.1.2 从弱模型到强模型的构建 157
7.2 基于重抽样自举法的集成学习 158
7.2.1 重抽样自举法 158
7.2.2 袋装法的基本思想 158
7.2.3 随机森林的基本思想 160
7.2.4 Python应用实践:基于袋装法和随机森林预测PM2.5浓度 162
7.3 从弱模型到强模型的构建:提升法 165
7.3.1 提升法的基本思路 165
7.3.2 Python模拟和启示:弱模型联合成为强模型 166
7.3.3 分类预测中的提升法:AdaBoost.M1算法 168
7.3.4 Python模拟和启示:认识AdaBoost.M1算法中高权重的样本观测 171
7.3.5 回归预测中的提升法 173
7.3.6 Python应用实践:基于AdaBoost预测PM2.5浓度 174
7.3.7 提升法的推广算法* 176
7.4 梯度提升决策树 179
7.4.1 梯度提升算法 179
7.4.2 梯度提升回归树 183
7.4.3 Python模拟和启示:认识梯度提升回归树 184
7.4.4 梯度提升分类树 185
7.4.5 Python模拟和启示:认识梯度提升分类树 186
7.5 XGBoost算法 188
7.5.1 XGBoost算法的目标函数 188
7.5.2 目标函数的近似表达 189
7.5.3 决策树的求解 190
7.5.4 Python应用实践:基于XGBoost算法预测空气质量等级 191
本章总结 194
本章相关函数列表 194
本章习题 195
第8章 数据预测建模:人工神经网络 197
8.1 人工神经网络的基本概念 198
8.1.1 人工神经网络的基本构成 198
8.1.2 人工神经网络节点的功能 199
8.2 感知机网络 200
8.2.1 感知机网络中的节点 200
8.2.2 感知机网络节点中的加法器 201
8.2.3 感知机网络节点中的激活函数 202
8.2.4 Python模拟和启示:认识激活函数 203
8.2.5 感知机网络的权重训练 206
8.3 多层感知机网络 211
8.3.1 多层感知机网络的结构 211
8.3.2 多层感知机网络中的隐藏节点 213
8.3.3 Python模拟和启示:认识隐藏节点 215
8.4 反向传播算法 218
8.4.1 反向传播算法的基本思想 218
8.4.2 局部梯度和连接权重更新 218
8.5 多层神经网络的其他问题* 220
8.6 人工神经网络的Python应用实践 221
8.6.1 手写体邮政编码的识别 221
8.6.2 PM2.5浓度的回归预测 224
本章总结 225
本章相关函数列表 225
本章习题 226
第9章 数据预测建模:支持向量机 227
9.1 支持向量分类概述 228
9.1.1 支持向量分类的基本思路 228
9.1.2 支持向量分类的三种情况 230
9.2 完全线性可分下的支持向量分类 231
9.2.1 完全线性可分下的超平面 231
9.2.2 参数求解和分类预测 233
9.2.3 Python模拟和启示:认识支持向量 236
9.3 广义线性可分下的支持向量分类 238
9.3.1 广义线性可分下的超平面 238
9.3.2 广义线性可分下的误差惩罚和目标函数 239
9.3.3 Python模拟和启示:认识惩罚参数C 240
9.3.4 参数求解和分类预测 242
9.4 线性不可分下的支持向量分类 243
9.4.1 线性不可分问题的一般解决方式 243
9.4.2 支持向量分类克服维灾难的途径 244
9.4.3 Python模拟和启示:认识核函数 246
9.5 支持向量回归概述* 249
9.5.1 支持向量回归的基本思路 249
9.5.2 支持向量回归的目标函数和约束条件 251
9.5.3 Python模拟和启示:认识参数? 253
9.6 支持向量机的Python应用实践:老人风险体位预警 254
9.6.1 示例背景和数据说明 255
9.6.2 Python实现 255
本章总结 260
本章相关函数列表 260
本章习题 260
第10章 特征选择:过滤、包裹和嵌入策略 261
10.1 过滤策略下的特征选择 262
10.1.1 低方差过滤法 263
10.1.2 高相关过滤法中的方差分析 264
10.1.3 高相关过滤法中的卡方检验 268
10.1.4 Python应用实践:过滤策略下手写体邮政编码数字的特征选择 270
10.1.5 其他高相关过滤法* 272
10.2 包裹策略下的特征选择 274
10.2.1 包裹策略的基本思路 274
10.2.2 递归式特征剔除算法 275
10.2.3 基于交叉验证的递归式特征剔除算法 276
10.2.4 Python应用实践:包裹策略下手写体邮政编码数字
|
|