新書推薦:
《
协和专家大医说:医话肿瘤
》
售價:NT$
500.0
《
潜水指南 全彩图解第4版
》
售價:NT$
602.0
《
超大规模集成电路设计——从工具到实例
》
售價:NT$
403.0
《
村上春树·旅(一本充满村上元素的旅行指南,带你寻访电影《挪威的森林》拍摄地,全彩印刷;200余幅摄影作品)
》
售價:NT$
301.0
《
智能驾驶硬件在环仿真测试与实践
》
售價:NT$
709.0
《
都铎王朝时期英格兰海事法庭研究
》
售價:NT$
398.0
《
中年成长:突破人生瓶颈的心理自助方案
》
售價:NT$
296.0
《
维奥莱塔:一个女人的一生
》
售價:NT$
347.0
編輯推薦:
大数据时代已经到来,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具,是数据挖掘、数据分析人才的必读技能。 本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。作者不仅高度概括了R语言的强大功能,展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。第2版新增6章内容,涵盖时间序列、聚类分析、分类、高级编程、创建包和创建动态报告等,并分别详细介绍了如何使用ggplot2和lattice进行高级绘图。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,领略大量探索和展示数据的图形功能,并学会如何撰写动态报告,从而更加高效地进行分析与沟通。 想要成为备受高科技企业追捧的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷地统计与分析数据吧
內容簡介:
本书注重实用性,是一本全面而细致的R指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近200页内容,介绍数据挖掘、预测性分析和高级编程。本书适合数据分析人员及R用户学习参考。
關於作者:
Robert I. Kabacoff R语言社区学习网站Quick-R的维护者,现为全球化开发与咨询公司Management研究集团研发副总裁。此前,Kabacoff博士是佛罗里达诺瓦东南大学的教授,讲授定量方法和统计编程的研究生课程。Kabacoff还是临床心理学博士、统计顾问,擅长数据分析,在健康、金融服务、制造业、行为科学、政府和学术界有20余年的研究和统计咨询经验。 王小宁 中国人民大学统计学院14级硕士,16级博士,统计之都副主编,中国人民大学数据挖掘中心分布式计算负责人,研究兴趣包括统计机器学习和缺失数据。 刘撷芯 中国人民大学统计学院13级硕士,爱荷华大学商学院16级博士,中国人民大学数据挖掘中心核心成员之一,研究兴趣包括统计机器学习和文本分析。 黄俊文 2014年毕业于中山大学数学系,2016年毕业于加州大学圣地亚哥分校统计学专业,统计之都成员,易易网创始人之一,目前关注计算机科学和统计学的结合与应用,包括机器学习方法等。他致力于成为一个有趣的人。
目錄 :
第一部分 入门
第1章 R语言介绍3
1.1 为何要使用R4
1.2 R的获取和安装6
1.3 R的使用6
1.3.1 新手上路7
1.3.2 获取帮助10
1.3.3 工作空间10
1.3.4 输入和输出12
1.4 包13
1.4.1 什么是包14
1.4.2 包的安装14
1.4.3 包的载入14
1.4.4 包的使用方法14
1.5 批处理15
1.6 将输出用为输入:结果的重用16
1.7 处理大数据集16
1.8 示例实践16
1.9 小结18
第2章 创建数据集19
2.1 数据集的概念19
2.2 数据结构20
2.2.1 向量21
2.2.2 矩阵22
2.2.3 数组23
2.2.4 数据框24
2.2.5 因子27
2.2.6 列表28
2.3 数据的输入30
2.3.1 使用键盘输入数据31
2.3.2 从带分隔符的文本文件导入数据32
2.3.3 导入Excel数据35
2.3.4 导入XML数据36
2.3.5 从网页抓取数据36
2.3.6 导入SPSS数据36
2.3.7 导入SAS数据37
2.3.8 导入Stata数据37
2.3.9 导入NetCDF数据38
2.3.10 导入HDF5数据38
2.3.11 访问数据库管理系统38
2.3.12 通过StatTransfer导入数据40
2.4 数据集的标注40
2.4.1 变量标签40
2.4.2 值标签41
2.5 处理数据对象的实用函数41
2.6 小结42
第3章 图形初阶 43
3.1 使用图形43
3.2 一个简单的例子45
3.3 图形参数46
3.3.1 符号和线条47
3.3.2 颜色 49
3.3.3 文本属性50
3.3.4 图形尺寸与边界尺寸51
3.4 添加文本、自定义坐标轴和图例53
3.4.1 标题 54
3.4.2 坐标轴54
3.4.3 参考线56
3.4.4 图例57
3.4.5 文本标注58
3.4.6 数学标注60
3.5 图形的组合61
3.6 小结67
第4章 基本数据管理68
4.1 一个示例68
4.2 创建新变量70
4.3 变量的重编码71
4.4 变量的重命名72
4.5 缺失值74
4.5.1 重编码某些值为缺失值74
4.5.2 在分析中排除缺失值75
4.6 日期值76
4.6.1 将日期转换为字符型变量77
4.6.2 更进一步78
4.7 类型转换78
4.8 数据排序79
4.9 数据集的合并79
4.9.1 向数据框添加列79
4.9.2 向数据框添加行80
4.10 数据集取子集80
4.10.1 选入(保留)变量80
4.10.2 剔除(丢弃)变量81
4.10.3 选入观测82
4.10.4 subset函数82
4.10.5 随机抽样83
4.11 使用SQL语句操作数据框83
4.12 小结84
第5章 高级数据管理85
5.1 一个数据处理难题85
5.2 数值和字符处理函数86
5.2.1 数学函数86
5.2.2 统计函数87
5.2.3 概率函数90
5.2.4 字符处理函数92
5.2.5 其他实用函数94
5.2.6 将函数应用于矩阵和数据框95
5.3 数据处理难题的一套解决方案96
5.4 控制流100
5.4.1 重复和循环100
5.4.2 条件执行101
5.5 用户自编函数102
5.6 整合与重构104
5.6.1 转置104
5.6.2 整合数据105
5.6.3 reshape2包106
5.7 小结108
第二部分 基本方法
第6章 基本图形110
6.1 条形图110
6.1.1 简单的条形图111
6.1.2 堆砌条形图和分组条形图112
6.1.3 均值条形图113
6.1.4 条形图的微调114
6.1.5 棘状图115
6.2 饼图116
6.3 直方图118
6.4 核密度图120
6.5 箱线图122
6.5.1 使用并列箱线图进行跨组比较123
6.5.2 小提琴图125
6.6 点图127
6.7 小结129
第7章 基本统计分析130
7.1 描述性统计分析131
7.1.1 方法云集131
7.1.2 更多方法132
7.1.3 分组计算描述性统计量134
7.1.4 分组计算的扩展135
7.1.5 结果的可视化137
7.2 频数表和列联表137
7.2.1 生成频数表137
7.2.2 独立性检验143
7.2.3 相关性的度量144
7.2.4 结果的可视化145
7.3 相关145
7.3.1 相关的类型145
7.3.2 相关性的显著性检验147
7.3.3 相关关系的可视化149
7.4 t 检验 149
7.4.1 独立样本的t 检验150
7.4.2 非独立样本的t检验151
7.4.3 多于两组的情况151
7.5 组间差异的非参数检验152
7.5.1 两组的比较152
7.5.2 多于两组的比较153
7.6 组间差异的可视化155
7.7 小结155
第三部分 中级方法
第8章 回归158
8.1 回归的多面性159
8.1.1 OLS回归的适用情境159
8.1.2 基础回顾160
8.2 OLS回归160
8.2.1 用lm拟合回归模型161
8.2.2 简单线性回归163
8.2.3 多项式回归164
8.2.4 多元线性回归167
8.2.5 有交互项的多元线性回归169
8.3 回归诊断171
8.3.1 标准方法172
8.3.2 改进的方法175
8.3.3 线性模型假设的综合验证181
8.3.4 多重共线性181
8.4 异常观测值182
8.4.1 离群点182
8.4.2 高杠杆值点182
8.4.3 强影响点184
8.5 改进措施186
8.5.1 删除观测点186
8.5.2 变量变换187
8.5.3 增删变量188
8.5.4 尝试其他方法188
8.6 选择最佳的回归模型189
8.6.1 模型比较189
8.6.2 变量选择190
8.7 深层次分析193
8.7.1 交叉验证193
8.7.2 相对重要性195
8.8 小结197
第9章 方差分析 198
9.1 术语速成198
9.2 ANOVA模型拟合201
9.2.1 aov函数201
9.2.2 表达式中各项的顺序202
9.3 单因素方差分析203
9.3.1 多重比较204
9.3.2 评估检验的假设条件206
9.4 单因素协方差分析208
9.4.1 评估检验的假设条件209
9.4.2 结果可视化210
9.5 双因素方差分析211
9.6 重复测量方差分析214
9.7 多元方差分析217
9.7.1 评估假设检验218
9.7.2 稳健多元方差分析220
9.8 用回归来做ANOVA220
9.9 小结222
第10章 功效分析223
10.1 假设检验速览223
10.2 用pwr包做功效分析225
10.2.1 t检验226
10.2.2 方差分析228
10.2.3 相关性228
10.2.4 线性模型229
10.2.5 比例检验230
10.2.6 卡方检验231
10.2.7 在新情况中选择合适的效应值232
10.3 绘制功效分析图形233
10.4 其他软件包235
10.5 小结236
第11章 中级绘图237
11.1 散点图238
11.1.1 散点图矩阵240
11.1.2 高密度散点图242
11.1.3 三维散点图244
11.1.4 旋转三维散点图247
11.1.5 气泡图248
11.2 折线图250
11.3 相关图253
11.4 马赛克图258
11.5 小结260
第12章 重抽样与自助法261
12.1 置换检验261
12.2 用coin包做置换检验263
12.2.1 独立两样本和K 样本检验264
12.2.2 列联表中的独立性266
12.2.3 数值变量间的独立性266
12.2.4 两样本和K 样本相关性检验267
12.2.5 深入探究267
12.3 lmPerm包的置换检验267
12.3.1 简单回归和多项式回归268
12.3.2 多元回归269
12.3.3 单因素方差分析和协方差分析270
12.3.4 双因素方差分析271
12.4 置换检验点评271
12.5 自助法272
12.6 boot包中的自助法272
12.6.1 对单个统计量使用自助法274
12.6.2 多个统计量的自助法276
12.7 小结278
第四部分 高级方法
第13章 广义线性模型280
13.1 广义线性模型和glm函数281
13.1.1 glm函数281
13.1.2 连用的函数282
13.1.3 模型拟合和回归诊断283
13.2 Logistic回归284
13.2.1 解释模型参数286
13.2.2 评价预测变量对结果概率的影响287
13.2.3 过度离势288
13.2.4 扩展289
13.3 泊松回归289
13.3.1 解释模型参数291
13.3.2 过度离势292
13.3.3 扩展294
13.4 小结295
第14章 主成分分析和因子分析296
14.1 R 中的主成分和因子分析297
14.2 主成分分析 298
14.2.1 判断主成分的个数298
14.2.2 提取主成分300
14.2.3 主成分旋转303
14.2.4 获取主成分得分304
14.3 探索性因子分析305
14.3.1 判断需提取的公共因子数306
14.3.2 提取公共因子307
14.3.3 因子旋转308
14.3.4 因子得分312
14.3.5 其他与EFA相关的包312
14.4 其他潜变量模型312
14.5 小结313
第15章 时间序列315
15.1 在R中生成时序对象317
15.2 时序的平滑化和季节性分解319
15.2.1 通过简单移动平均进行平滑处理319
15.2.2 季节性分解321
15.3 指数预测模型326
15.3.1 单指数平滑326
15.3.2 Holt指数平滑和Holt-Winters指数平滑 329
15.3.3 ets函数和自动预测331
15.4 ARIMA 预测模型333
15.4.1 概念介绍333
15.4.2 ARMA和ARIMA模型334
15.4.3 ARIMA的自动预测339
15.5 延伸阅读340
15.6 小结340
第16章 聚类分析342
16.1 聚类分析的一般步骤343
16.2 计算距离344
16.3 层次聚类分析345
16.4 划分聚类分析350
16.4.1 K均值聚类350
16.4.2 围绕中心点的划分354
16.5 避免不存在的类356
16.6 小结359
第17章 分类360
17.1 数据准备361
17.2 逻辑回归362
17.3 决策树363
17.3.1 经典决策树364
17.3.2 条件推断树366
17.4 随机森林368
17.5 支持向量机370
17.6 选择预测效果最好的解374
17.7 用rattle包进行数据挖掘376
17.8 小结381
第18章 处理缺失数据的高级方法382
18.1 处理缺失值的步骤383
18.2 识别缺失值384
18.3 探索缺失值模式385
18.3.1 列表显示缺失值385
18.3.2 图形探究缺失数据386
18.3.3 用相关性探索缺失值389
18.4 理解缺失数据的来由和影响391
18.5 理性处理不完整数据 391
18.6 完整实例分析(行删除)392
18.7 多重插补394
18.8 处理缺失值的其他方法397
18.8.1 成对删除398
18.8.2 简单(非随机)插补398
18.9 小结399
第五部分 技能拓展
第19章 使用ggplot2进行高级绘图402
19.1 R 中的四种图形系统402
19.2 ggplot2包介绍403
19.3 用几何函数指定图的类型407
19.4 分组411
19.5 刻面413
19.6 添加光滑曲线416
19.7 修改ggplot2图形的外观418
19.7.1 坐标轴419
19.7.2 图例420
19.7.3 标尺421
19.7.4 主题423
19.7.5 多重图425
19.8 保存图形426
19.9 小结426
第20章 高级编程427
20.1 R 语言回顾427
20.1.1 数据类型427
20.1.2 控制结构433
20.1.3 创建函数436
20.2 环境437
20.3 面向对象的编程439
20.3.1 泛型函数439
20.3.2 S3模型的限制441
20.4 编写有效的代码442
20.5 调试445
20.5.1 常见的错误来源445
20.5.2 调试工具446
20.5.3 支持调试的会话选项448
20.6 深入学习451
20.7 小结451
第21章 创建包452
21.1 非参分析和npar包453
21.2 开发包457
21.2.1 计算统计量457
21.2.2 打印结果460
21.2.3 汇总结果461
21.2.4 绘制结果463
21.2.5 添加样本数据到包464
21.3 创建包的文档466
21.4 建立包467
21.5 深入学习471
21.6 小结471
第22章 创建动态报告472
22.1 用模版生成报告474
22.2 用R和Markdown创建动态报告475
22.3 用R和LaTeX创建动态报告480
22.4 用R和Open Document创建动态报告483
22.5 用R和Microsoft Word创建动态报告485
22.6 小结489
第23章 使用lattice进行高级绘图490
23.1 lattice包490
23.2 调节变量494
23.3 面板函数495
23.4 分组变量498
23.5 图形参数502
23.6 自定义图形条带503
23.7 页面布局504
23.8 深入学习507
附录A 图形用户界面508
附录B 自定义启动环境511
附录C 从R中导出数据513
附录D R中的矩阵运算515
附录E 本书中用到的扩展包517
附录F 处理大数据集522
附录G 更新R526
后记:探索R的世界528
参考文献530