新書推薦:
《
认知行为疗法:心理咨询的顶层设计
》
售價:NT$
454.0
《
FANUC工业机器人装调与维修
》
售價:NT$
454.0
《
吕著中国通史
》
售價:NT$
286.0
《
爱琴海的光芒 : 千年古希腊文明
》
售價:NT$
908.0
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:NT$
301.0
《
SDGSAT-1卫星热红外影像图集
》
售價:NT$
2030.0
《
股市趋势技术分析(原书第11版)
》
售價:NT$
1010.0
《
汉匈战争全史
》
售價:NT$
454.0
編輯推薦:
在《R数据科学实战》(第2版)这本书中,作者用了一些篇幅描述了什么是数据科学、数据科学家是如何解决问题的,以及对他们工作的描述。其中,包括对经典监督学习方法(如线性回归和逻辑回归)的详细描述。我们喜欢本书的调研式风格,以及使用的大量的竞赛获奖方法和程序包的示例(如随机森林和xgboost)。本书涵盖了非常有用的、可共享的经验和实践建议。我们注意到,在本书中甚至包括了我们自己使用过的一-些技巧,例如使用随机森林变量重要性进行初始变量的筛选。
內容簡介:
有依据的决策对于成功至关重要。将正确的数据分析技术应用到精心筹备的业务数据中有助于做出准确预测、确定趋势,以及提前发现问题。R数据分析平台提供了许多高效率的工具,可用来处理8常的数据分析和机器学习任务。
《R数据科学实战》(第2版)是一本基于任务的教程,引导读者使用R语言参与几十个实用的数据分析实践。本书重点介绍读者在工作中将面临的重要任务,对于商业分析师和数据科学家来说都非常实用。因为数据只有在可理解的情况下才有用,所以读者也可以在表格中找到组织和展示数据的妙招,以及快速生动的可视化效果。
主要内容
●商务级统计分析
●有效的数据展示 实用的R工具
●解释复 杂的预测模型
關於作者:
Nina Zumel曾在一家独立的、非营利性研究机构SRI International 担任科学家。她曾在一家价格优化公司担任首席科学家,并创办了一家合同研究公司。Nina现在是Win-Vector LLC的首席顾问。读者可以通过nzumel@win-vector.com联系她。
John Mount曾是生物科技领域的计算科学家和股票交易算法的设计师,并且为Shopping.com 管理过一个研究团队。他现在是Win-Vector LLC 的首席顾问。读者可以通过jmount@win-vector.com联系他。
目錄 :
第Ⅰ部分 数据科学引论
第1 章 数据科学处理过程 2
1.1 数据科学项目中的角色 3
1.2 数据科学项目的阶段 5
1.2.1 制定目标 6
1.2.2 收集和管理数据 7
1.2.3 建立模型 9
1.2.4 评价和评判模型 10
1.2.5 展现结果和编制文档 12
1.2.6 部署模型 14
1.3 设定预期 14
1.4 小结 15
第2 章 从R和数据入门 16
2.1 R入门 17
2.1.1 安装R、工具和示例 18
2.1.2 R编程 18
2.2 处理文件中的数据 28
2.2.1 使用来自文件或URL的结构良好的数据 28
2.2.2 使用R处理非结构化的数据 33
2.3 使用关系数据库 37
2.4 小结 50
第3 章 探索数据 52
3.1 使用概要统计方法发现问题 54
3.2 使用图形和可视化方法发现问题 59
3.2.1 采用可视化的方法检查单变量的分布 61
3.2.2 采用可视化的方法检查两个变量之间的关系 71
3.3 小结 87
第4 章 管理数据 89
4.1 清洗数据 90
4.1.1 特定领域的数据清洗 90
4.1.2 处理缺失值 92
4.1.3 自动处理缺失值变量的vtreat程序包 96
4.2 数据转换 99
4.2.1 归一化处理 101
4.2.2 中心化和定标 102
4.2.3 针对偏态分布和广泛分布的对数转换 107
4.3 用于建模和验证的抽样处理 109
4.3.1 用于测试和训练的分组数据集 110
4.3.2 创建一个样本分组列 111
4.3.3 记录分组 112
4.3.4 数据来源 113
4.4 小结 114
第5 章 数据工程与数据整理 115
5.1 数据选取 118
5.1.1 设置行子集和列子集 118
5.1.2 删除不完整的数据的记录 124
5.1.3 对行进行排序 128
5.2 基础数据转换 133
5.2.1 添加新列 133
5.2.2 其他简单操作 139
5.3 汇总转换 140
5.4 多表之间数据的转换 144
5.4.1 快速地对两个或多个排序的数据框执行合并 144
5.4.2 合并多个表中数据的主要方法 152
5.5 重新整理和转换数据 159
5.5.1 将数据从宽表转换为窄表 159
5.5.2 将数据从窄表转换为宽表 164
5.5.3 数据坐标 169
5.6 小结 169
第Ⅱ部分 建模方法
第6 章 选择和评价模型 172
6.1 将业务问题映射为机器学习任务 173
6.1.1 分类问题 173
6.1.2 打分问题 175
6.1.3 分组:目标未知情况下的处理 176
6.1.4 从问题到方法的映射 178
6.2 模型评估 179
6.2.1 过拟合 179
6.2.2 模型性能的度量 183
6.2.3 分类模型的评价 184
6.2.4 评估打分模型 195
6.2.5 概率模型的评估 198
6.3 使用局部可解释的、与模型无关的解释技术(LIME)来解释模型预测 206
6.3.1 LIME:自动的完整性检查 208
6.3.2 LIME实现过程:一个小样本 208
6.3.3 LIME用于文本分类 216
6.3.4 对文本分类器进行训练 219
6.3.5 对分类器的预测进行解释 221
6.4 小结 227
第7 章 线性和逻辑回归 228
7.1 使用线性回归 229
7.1.1 了解线性回归 229
7.1.2 建立一个线性回归模型 235
7.1.3 预测 235
7.1.4 发现关系并抽取建议 241
7.1.5 阅读模型摘要并刻画系数质量 243
7.1.6 线性回归要点 250
7.2 使用逻辑回归 251
7.2.1 理解逻辑回归 251
7.2.2 构建逻辑回归模型 256
7.2.3 预测 257
7.2.4 从逻辑回归模型中发现关系并提取建议 262
7.2.5 解读模型摘要并刻画系数 264
7.2.6 逻辑回归的要点 272
7.3 正则化 272
7.3.1 一个准分离的例子 273
7.3.2 正则化回归方法的类型 278
7.3.3 使用glmnet程序包实现
正则化回归 280
7.4 小结 291
第8 章 高级数据准备 292
8.1 vtreat程序包的作用 293
8.2 KDD和KDD Cup 2009 295
8.2.1 使用KDD Cup 2009
数据 296
8.2.2 “莽撞”做法 298
8.3 为分类操作准备基本数据 301
8.3.1 变量的分数框 303
8.3.2 正确使用处理计划 308
8.4 适用于分类的高级数据准备 309
8.4.1 使用mkCrossFrame-
CExperiment() 309
8.4.2 建立模型 312
8.5 为回归建模准备数据 317
8.6 掌握vtreat程序包 320
8.6.1 vtreat的各个阶段 320
8.6.2 缺失值 322
8.6.3 指示变量 323
8.6.4 影响编码 324
8.6.5 处理计划 326
8.6.6 交叉框 327
8.7 小结 332
第9 章 无监督方法 333
9.1 聚类分析 334
9.1.1 距离 335
9.1.2 数据准备 338
9.1.3 使用hclust()进行层次聚类 341
9.1.4 k-均值算法 356
9.1.5 给聚类分派新的点 363
9.1.6 聚类的要点 365
9.2 关联规则 366
9.2.1 关联规则概述 366
9.2.2 示例问题 368
9.2.3 使用arules程序包挖掘关联规则 369
9.2.4 关联规则要点 379
9.3 小结 379
第10 章 高级方法探索 381
10.1 基于决策树的方法 383
10.1.1 基本决策树 384
10.1.2 使用bagging方法改进预测 387
10.1.3 使用随机森林方法进一步改进预测 390
10.1.4 梯度增强树 397
10.1.5 基于决策树的模型的要点 407
10.2 使用广义相加模型学习非单调关系 407
10.2.1 理解GAM 408
10.2.2 一维回归示例 409
10.2.3 提取非线性关系 414
10.2.4 在真实数据集上使用GAM 416
10.2.5 使用GAM实现逻辑回归 420
10.2.6 GAM要点 422
10.3 使用支持向量机解决“不可分”的问题 422
10.3.1 使用SVM解决问题 424
10.3.2 理解SVM 429
10.3.3 理解核函数 431
10.3.4 支持向量机和核方法要点 434
10.4 小结 434
第Ⅲ部分 结果交付
第11 章 文档编制和部署 438
11.1 预测热点 440
11.2 使用R markdown生成里程碑文档 441
11.2.1 R markdown是什么 441
11.2.2 knitr技术详解 444
11.2.3 使用knitr编写Buzz数据文档和生成模型 446
11.3 在运行时文档编制中使用注释和版本控制 449
11.3.1 编写有效的注释 449
11.3.2 使用版本控制记录历史 451
11.3.3 使用版本控制探索项目 457
11.3.4 使用版本控制分享工作 460
11.4 模型部署 464
11.4.1 使用Shiny部署演示 466
11.4.2 将模型部署为HTTP服务 467
11.4.3 以导出模式部署模型 470
11.4.4 本节要点 472
11.5 小结 472
第12 章 有效的结果展现 474
12.1 将结果展现给项目出资方 476
12.1.1 概述项目目标 477
12.1.2 陈述项目结果 479
12.1.3 补充细节 480
12.1.4 提出建议并讨论未来工作 482
12.1.5 针对项目出资方的演示文稿中的关键点 482
12.2 向终用户展现模型 483
12.2.1 概述项目目标 483
12.2.2 展现如何将模型应用于用户的工作流程 484
12.2.3 展现如何使用模型 486
12.2.4 终用户演示文稿中的关键点 488
12.3 向其他数据科学家展现你的工作 488
12.3.1 介绍问题 488
12.3.2 讨论相关工作 489
12.3.3 讨论你的方法 490
12.3.4 讨论结果和未来的工作 491
12.3.5 向其他数据科学家展现的要点 493
12.4 小结 493
附录A 使用R和其他工具 495
A.1 安装 495
A.1.1 安装工具 495
A.1.2 R的程序包系统 500
A.1.3 安装Git 501
A.1.4 安装RStudio 501
A.1.5 R资源 502
A.2 开始使用R语言 503
A.2.1 R语言的基本特性 505
A.2.2 R语言的主要数据类型 509
A.3 在R语言中使用数据库 515
A.3.1 使用查询生成器运行数据库查询 515
A.3.2 如何从关系角度思考数据 520
A.4 小结 522
附录B 重要的统计学概念 523
B.1 分布 524
B.1.1 正态分布 524
B.1.2 R语言中对分布的命名约定的汇总 529
B.1.3 对数正态分布 530
B.1.4 二项式分布 534
B.1.5 更多用于数据分布的R工具 541
B.2 统计理论 541
B.2.1 统计的哲学思想 541
B.2.2 A/B检验 544
B.2.3 检验的功效 548
B.2.4 专业的统计检验 550
B.3 从统计学视角观察数据的示例 552
B.3.1 采样偏差 553
B.3.2 遗漏变量偏差 556
B.4 小结 562
附录C 参考文献 563
內容試閱 :
《R数据科学实战(第2版)》是我们在自学时所希望拥有的书,它所汇集的主题和技能被称为数据科学。《R数据科学实战(第2版)》也是我们想分发给客户和同行的书。它的目的是解释统计学、计算机科学和机器学习等学科中对数据科学至关重要的内容。
数据科学利用了来自经验科学、统计学、报表技术、分析技术、可视化技术、商业智能、专家系统、机器学习、数据库、数据仓库、数据挖掘和大数据技术的各种工具。正是因为我们有太多的工具,所以需要一个涵盖所有工具的指导原则。数据科学本身与这些工具和技术的区别就在于数据科学的中心目标是将有效的决策模型部署到生产环境中。
我们的目标是从务实的、面向实践的角度来展示数据科学。我们通过聚焦在完全成功的真实数据上的示例来实现这一目标,《R数据科学实战(第2版)》展示了超过10个重要的数据集。我们认为这种方法能举例说明我们真正想要达到的教学目标,并能演示实际项目中所需要的各种准备步骤。
在《R数据科学实战(第2版)》中,我们讨论了实用的统计学和机器学习的概念,包括具体的代码示例,并探索了与非专业人员的合作和沟通方式。如果你觉得这些话题中没有新颖的主题,那么我们希望《R数据科学实战(第2版)》内容能为你近没有想到的其他一两个话题提供一些启示。