新書推薦:

《
影响清帝国命运的十张面孔
》
售價:NT$
398.0

《
不缩水女士:如何面对肥胖恐惧
》
售價:NT$
332.0

《
城市轨道交通车辆构造 活页式教材
》
售價:NT$
204.0

《
好风景
》
售價:NT$
218.0

《
鱼缸实验:焦虑爱好者的生存指南
》
售價:NT$
286.0

《
我能把生活过得很好
》
售價:NT$
254.0

《
何以大明:历史的局内人与旁观者(一部充满人性温度与历史洞察的大明群像史诗;十八位人物,帝王、巨富、权宦、狂士、文人、英雄……他们是历史的书写者,也是历史的旁观者;明史学者章宪法最新力作。)
》
售價:NT$
454.0

《
新民说·管理者为何重要:无老板公司的险境
》
售價:NT$
449.0
|
編輯推薦: |
1.实战导向,即学即用:本书精选学生成绩统计、汽车数据可视化、泰坦尼克号数据分析、抖音运营预测等8个跨行业热门R语言项目,覆盖基础统计、机器学习、关联分析等核心技术,既是新手练手的优质素材,更是职场人解决实际业务问题的“工具手册”,项目代码可直接迁移至工作场景,实用性拉满!?2.体系化教学,零门槛上手:不同于零散的教程,《R语言数据分析项目全程实录》遵循“开发背景→系统设计→技术准备→功能实现→项目运行→源码下载”的项目开发流程,每章聚焦一个完整项目。读者无需担心思路断裂,跟着步骤操作即可产出可落地的成果,快速积累真实数据分析经验,收获清晰的学习成就感。?3.覆盖多场景需求,适用人群广泛:无论是R语言入门自学者想拓展实战视野,统计学/计算机专业学生做实训或毕业设计,还是高校教师、IT讲师寻找教学案例,亦或是数据分析从业者、求职者提升实战能力——本书都能提供精准助力。
|
內容簡介: |
《R语言数据分析项目全程实录》精选不同行业、不同分析方法及预测方法等8个热门R语言数据分析项目,既可作为练手项目,也可应用到实际数据分析工作中,其中的机器学习也可供参赛项目参考,总体来说各个项目实用性都非常强。具体项目包含学生成绩统计分析、汽车数据可视化分析系统、泰坦尼克号数据集分析实战、鸢尾花数据分析与预测、基于会员数据的探索和聚类分析、快团团订单数据统计分析与关联分析、抖音账号运营数据分析与预测、基于diamonds(钻石)数据集的分析与预测。本书从数据分析、机器学习的角度出发,按照项目开发的顺序,系统、全面地讲解每一个项目的开发实现过程。在体例上,每章一个项目,统一采用“开发背景→系统设计→技术准备→各功能模块实现→项目运行→源码下载”的形式完整呈现项目,给读者明确的成就感,可以让读者快速积累实际数据分析的经验与技巧,早日实现就业目标。
|
關於作者: |
明日科技,全称是吉林省明日科技有限公司,是一家专业从事软件开发、教育培训以及软件开发教育资源整合的高科技公司,其编写的教材非常注重选取软件开发中的必需、常用内容,同时也很注重内容的易学、方便性以及相关知识的拓展性,深受读者喜爱。其教材多次荣获“全行业畅销品种”“高校出版社畅销书”等奖项,多个品种长期位居同类图书销售排行榜的前列。
|
目錄:
|
目录
第1章 学生成绩统计分析 1
——openxlsx + 数据计算 + 分组统计 +基本绘图
1.1 开发背景 1
1.2 系统设计 2
1.2.1 开发环境 2
1.2.2 分析流程 2
1.2.3 功能结构 2
1.3 技术准备 2
1.3.1 技术概览 2
1.3.2 VIM 包 3
1.3.3 rank()函数详细解析 4
1.4 前期工作 6
1.4.1 安装第三方R 包 6
1.4.2 新建工程 6
1.4.3 新建项目文件夹 8
1.5 数据准备 8
1.5.1 数据集介绍 8
1.5.2 读取数据 10
1.6 数据预处理 12
1.6.1 查看数据 12
1.6.2 缺失值查看与处理 13
1.6.3 描述性统计量 14
1.7 数据统计分析 15
1.7.1 综合排名 15
1.7.2 直方图分析各科成绩 17
1.7.3 箱形图分析各科成绩 18
1.7.4 各科最高分和最低分状况分析 19
1.7.5 各科中上等成绩统计分析 20
1.7.6 语数英成绩等级状况分析 22
1.7.7 成绩波动情况分析 23
1.7.8 个人成绩排名分析 24
1.8 项目运行 25
1.9 源码下载 26
第2章 汽车数据可视化分析系统 27
——分组统计 + 基本绘图 + ggplot2 + 相关性分析
2.1 开发背景 27
2.2 系统设计 28
2.2.1 开发环境 28
2.2.2 分析流程 28
2.2.3 功能结构 28
2.3 技术准备 29
2.3.1 技术概览 29
2.3.2 ordered()函数的应用 29
2.3.3 详解 pairs.panels()函数 30
2.3.4 了解 coplot()函数 32
2.4 前期工作 34
2.4.1 安装第三方R 包 34
2.4.2 新建项目文件夹 34
2.5 数据集介绍 35
2.6 数据预处理 36
2.6.1 导入 mtcars 数据集 36
2.6.2 查看数据 36
2.6.3 缺失值查看 37
2.6.4 描述性统计分析 37
2.7 数据统计分析 39
2.7.1 矩阵图分析相关性 39
2.7.2 相关系数分析相关性 40
2.7.3 箱形图分析气缸数与里程数 41
2.7.4 箱形图分析变速器与里程数 42
2.7.5 散点图分析重量与里程数 43
2.7.6 气缸数、里程数和排量之间的关系 43
2.7.7 里程数、总马力和重量之间的关系 44
2.8 项目运行 45
2.9 源码下载 46
第3章 泰坦尼克号数据集分析实战 47
——数据计算 + 分组统计 + ggplot2 + pie+reshape2
3.1 开发背景 48
3.2 系统设计 48
3.2.1 开发环境 48
3.2.2 分析流程 48
3.2.3 功能结构 48
3.3 技术准备 49
3.3.1 技术概览 49
3.3.2 批量数据类型转换 49
3.3.3 详解 group_by()函数 50
3.3.4 巧用管道符%>% 51
3.4 前期工作 51
3.4.1 安装第三方R 包 51
3.4.2 新建项目文件夹 52
3.5 数据准备 53
3.5.1 数据集介绍 53
3.5.2 读取数据 54
3.6 数据预处理 55
3.6.1 查看数据信息 55
3.6.2 缺失值分析与处理 55
3.7 基本统计分析 58
3.7.1 乘客年龄分析 58
3.7.2 乘客性别分析 60
3.7.3 不同性别乘客的年龄分布情况 61
3.7.4 不同年龄乘客亲属数量分析 61
3.7.5 船舱等级情况分析 63
3.7.6 票价分布情况 64
3.8 乘客生存情况分析 65
3.8.1 总体生存情况分析 65
3.8.2 不同等级船舱乘客生存情况分析 65
3.8.3 各个登船港口乘客生存情况分析 66
3.8.4 性别与乘客生存情况分析 68
3.8.5 年龄和性别与乘客生存情况分析 70
3.8.6 乘客亲属数量与生存情况分析 71
3.9 项目运行 73
3.10 源码下载 74
第4章 鸢尾花数据分析与预测 75
——基本绘图 + ggplot2 + lattice + caret +随机森林 randomForest 包
4.1 开发背景 76
4.2 系统设计 76
4.2.1 开发环境 76
4.2.2 分析流程 76
4.2.3 功能结构 77
4.3 技术准备 77
4.3.1 技术概览 77
4.3.2 scale()函数详解 77
4.3.3 训练集和测试集划分 78
4.3.4 随机森林 randomForest 包 79
4.4 前期工作 84
4.4.1 安装第三方R 包 84
4.4.2 新建项目文件夹 85
4.4.3 认识鸢尾花 86
4.4.4 了解鸢尾花数据集 iris 86
4.5 查看数据概况 86
4.5.1 加载数据 86
4.5.2 查看数据 87
4.6 描述性统计分析 87
4.6.1 查看数据统计信息 87
4.6.2 分组查看数据统计信息 88
4.7 数据统计分析 89
4.7.1 绘制花萼长度的箱形图 89
4.7.2 绘制花瓣长度的箱形图 89
4.7.3 鸢尾花最常见的花瓣 90
4.7.4 直方图分析鸢尾花花瓣长度 90
4.8 相关性分析 91
4.8.1 相关系数分析 91
4.8.2 各特征之间关系矩阵图 92
4.8.3 散点图分析鸢尾花花瓣长度和宽度的关系 93
4.8.4 散点图分析鸢尾花花萼长度和宽度的关系 94
4.8.5 鸢尾花的线性关系分析 95
4.9 随机森林预测鸢尾花种类 95
4.9.1 数据标准化处理 95
4.9.2 划分训练集和测试集 96
4.9.3 构建随机森林模型 97
4.9.4 预测鸢尾花种类 98
4.9.5 评估模型性能 98
4.10 项目运行 98
4.11 源码下载 99
第5章 基于会员数据的探索和聚类分析 100
——日期时间 + 分组统计 + 基本绘图 + RFM 模型 + NbClust+wskm+cluster
5.1 开发背景 101
5.2 系统设计 101
5.2.1 开发环境 101
5.2.2 分析流程 101
5.2.3 功能结构 102
5.3 技术准备 102
5.3.1 技术概览 102
5.3.2 3 种方法统计各列缺失值 102
5.3.3 RFM 模型 103
5.3.4 k 均值聚类分析 104
5.3.5 聚类方案NbClust 包 106
5.3.6 聚类可视化 107
5.4 前期工作 109
5.4.1 安装第三方R 包 109
5.4.2 新建项目文件夹 109
5.5 数据准备 110
5.6 数据预处理 111
5.6.1 数据预览 111
5.6.2 日期时间数据处理 112
5.6.3 缺失性分析 113
5.6.4 计算RFM 值 114
5.7 数据统计分析 115
5.7.1 消费周期分析 115
5.7.2 消费频次分析 116
5.7.3 消费金额分析 117
5.8 K-means 聚类分析 118
5.8.1 数据标准化 118
5.8.2 聚类方案 119
5.8.3 K 均值聚类分析 120
5.9 项目运行 121
5.10 源码下载 122
第6章 快团团订单数据统计分析与关联分析 123
——分组统计 + 数据合并 + 基本绘图 + ggplot2 + Apriori 关联分析 + arules
6.1 开发背景 124
6.2 系统设计 124
6.2.1 开发环境 124
6.2.2 分析流程 124
6.2.3 功能结构 124
6.3 技术准备 125
6.3.1 技术概览 125
6.3.2 绘图排序 reorder()函数 125
6.3.3 详解 ggplot2 包的主题函数 theme() 126
6.3.4 Apriori 关联分析 127
6.3.5 详解 arules 包 128
6.4 前期工作 130
6.4.1 新建项目文件夹 130
6.4.2 数据准备 131
6.5 数据预处理 132
6.5.1 查看数据 132
6.5.2 缺失性分析 133
6.5.3 描述性统计分析 133
6.5.4 异常数据处理 134
6.6 数据统计分析 135
6.6.1 柱形图分析商品数量 135
6.6.2 订单商品数量分布情况 135
6.6.3 直方图分析订单商品金额 137
6.6.4 区域订单数量分析 138
6.6.5 城市订单数量分析 139
6.7 订单商品关联分析 141
6.7.1 数据处理 141
6.7.2 可视化频繁项 143
6.7.3 关联分析 143
6.8 项目运行 145
6.9 源码下载 146
第7章 抖音账号运营数据分析与预测 147
——purrr + 日期处理 + tibble + 基本绘图 + ggplot2 + 回归分析
7.1 开发背景 148
7.2 系统设计 148
7.2.1 开发环境 148
7.2.2 分析流程 148
7.2.3 功能结构 148
7.3 技术准备 149
7.3.1 技术概览 149
7.3.2 map()函数与 reduce()函数的优质结合 149
7.3.3 column_to_rownames()函数的应用 150
7.4 前期工作 152
7.4.1 安装第三方R 包 152
7.4.2 新建项目文件夹 153
7.5 数据准备 154
7.5.1 数据下载 154
7.5.2 数据集介绍 154
7.6 数据预处理 155
7.6.1 数据合并 155
7.6.2 查看数据 157
7.6.3 数据类型转换 158
7.6.4 描述性统计分析 158
7.7 数据统计分析 159
7.7.1 播放量趋势分析 159
7.7.2 粉丝净增长趋势分析 160
7.7.3 主页访问数据分析 161
7.7.4 作品数据分析 162
7.7.5 星期播放量分析 163
7.8 相关性分析 165
7.8.1 矩阵图分析相关性 165
7.8.2 相关系数分析相关性 165
7.8.3 散点图分析播放量与净增粉丝 167
7.8.4 气泡图分析播放量、净增粉丝与主页访问 168
7.9 净增粉丝预测 169
7.9.1 一元线性回归预测净增粉丝 169
7.9.2 多元线性回归预测净增粉丝 171
7.10 项目运行 172
7.11 源码下载 173
第8章 基于 diamonds(钻石)数据集的分析与预测 174
——ggplot2 + 分组统计 + 相关性分析 + kruskal.test + 多元线性回归
8.1 开发背景 175
8.2 系统设计 175
8.2.1 开发环境 175
8.2.2 分析流程 175
8.2.3 功能结构 176
8.3 技术准备 176
8.3.1 技术概览 176
8.3.2 IQR 方法 176
8.3.3 分类变量异常值检测常用方法 177
8.3.4 异常值处理方法 178
8.3.5 详解 kruskal.test()函数 179
8.4 前期工作 180
8.4.1 安装第三方R 包 180
8.4.2 新建项目文件夹 180
8.5 数据集介绍 181
8.5.1 数据集概述 181
8.5.2 变量说明 181
8.5.3 数据集特点 182
8.6 数据预处理 182
8.6.1 导入 diamonds 数据集 182
8.6.2 查看数据 183
8.6.3 描述性统计分析 184
8.7 异常值分析与处理 184
8.7.1 异常值分析 184
8.7.2 异常值检测 185
8.7.3 异常值处理 187
8.8 数据统计分析 188
8.8.1 钻石深度和台面分析 188
8.8.2 钻石切工、颜色和净度分析 188
8.8.3 钻石价格分析 190
8.9
|
內容試閱:
|
前言
丛书说明:“软件项目开发全程实录”丛书第 1 版于 2008 年 6 月出版,因其定位于项目开发案例、面向实际开发应用,并解决了社会需求和高校课程设置相对脱节的痛点,在软件项目开发类图书市场上产生了很大的反响,在软件项目开发零售图书排行榜中名列前茅。
“软件项目开发全程实录”丛书第 2 版于 2011 年 1 月出版,第 3 版于 2013 年 10 月出版,第 4 版于 2018 年 5 月出版。经过十六年的锤炼打造,不仅深受广大程序员的喜爱,还被百余所高校选为计算机科学、软件工程等相关专业的教材及教学参考用书,更被广大高校学子用作毕业设计和工作实习的参考用书。
“软件项目开发全程实录”丛书第 5 版在继承前 4 版所有优点的基础上,进行了大幅的改版升级。首先,结合当前技术发展的趋势与市场需求,增加了程序员求职急需的新图书品种;其次,对图书内容进行了深度更新、优化,新增了当前热门的流行项目,优化了原有经典项目,将开发环境和工具更新为目前的新版本等,使之更与时代接轨,更适合读者学习;最后,录制了全新的项目精讲视频,并配备了更加丰富的学习资源与服务,可以给读者带来更好的项目学习及使用体验。
随着人工智能和机器学习的迅猛发展,R语言作为一种强大的统计分析工具,将更深入地融入这些技术中,以提升数据处理和模型构建的能力。R语言社区也不断推出新版本,优化了性能,增加了新功能,特别是在机器学习、深度学习及大数据处理方面取得了显著进展。作为开源软件的典范,R语言在范围内拥有庞大的用户群体和活跃的社区支持。未来,R语言有望在以下几个方面继续深入发展。
(1)与人工智能的深度融合:R语言将进一步整合先进的机器学习算法和深度学习框架,如 TensorFlow和 PyTorch,提供更高效的模型训练和预测能力。这将使 R语言在自然语言处理、计算机视觉等前沿领域发挥更大作用。
(2)大数据处理能力的提升:随着数据量的爆炸式增长,R语言将继续优化其与 Hadoop、Spark等大数据平台的集成,提升处理海量数据的效率。同时,R语言将引入更多并行计算和分布式计算技术,以应对复杂的数据分析任务。
(3)数据隐私与安全的强化:随着数据隐私法规的日益严格,R语言将进一步加强数据加密、匿名化处理等功能,确保用户数据的安全性和合规性。这将使 R语言在金融、医疗等对数据安全要求极高的领域更具竞争力。
(4)跨平台与跨语言的协作:R语言将更加注重与其他编程语言(如 Python、Julia)的互操作性,推动跨平台的数据分析和模型开发。这将使 R语言用户能够更灵活地利用不同工具的优势,提升工作效率。
(5)教育与培训的普及:随着 R语言应用场景的扩展,范围内针对掌握 R语言的教育和培训需求也将大幅增加。R语言社区将继续推动在线课程、教材和认证项目的发展,帮助更多初学者和专业人士掌握这一工具。
(6)行业应用的拓展:除了传统的统计分析领域,R语言将在更多新兴行业中找到应用场景。例如,在智能汽车领域,R语言可以用于车辆数据的实时分析和预测;在金融科技领域,R语言可以用于风险评估和量化交易;在医疗健康领域,R语言可以用于基因组数据分析和疾病预测。
总之,R语言作为数据科学领域的重要工具,将继续在技术创新和行业应用中发挥重要作用。随着数据驱动决策的趋势不断加强,R语言的重要性将愈发凸显,成为未来数据分析和人工智能领域不可或缺的一部分。
本书以中小型项目为载体,带领读者切身感受数据分析在各个领域应用的实际过程,从而提升数据分析技能和数据分析项目经验,掌握各种分析方法以及预测方法。全书内容不是枯燥的语法和陌生的术语,而是一步一步地引导读者实现一个个热门的项目,从而激发读者学习数据分析的兴趣,变被动学习为主动学习。另外,本书的项目开发过程完整,可以应用到实际工作中,本书可以作为数据分析师以及从事数据相关工作的人员提升数据分析项目经验的工具书,同时也可以作为大学生毕业设计的项目参考用书。
本书内容
本书提供不同行业、不同分析方法及预测方法等 8 个热门 R语言数据分析项目,具体项目包括:学生成绩统计分析、汽车数据可视化分析系统、泰坦尼克号数据集分析实战、鸢尾花数据分析与预测、基于会员数据的探索和聚类分析、快团团订单数据统计分析与关联分析、抖音账号运营数据分析与预测、基于 diamonds(钻石)数据集的分析与预测。
本书特点
(1)项目典型。本书精选 8 个热点项目。所有项目均是当前实际开发领域常见的热门项目,且均从实际应用角度出发展开系统性的讲解,可以让读者从项目学习中积累丰富的数据分析经验。
(2)流程清晰。本书项目从软件工程的角度出发,统一采用“开发背景→系统设计→技术准备→各功能模块实现→项目运行→源码下载”的形式呈现内容,可以让读者更加清晰项目的完整开发流程,给读者明确的成就感和信心。
(3)技术新颖。本书所有项目的实现技术均采用目前业内推荐使用的稳定版本,与时俱进,实用性极强。同时,项目全部配备“技术准备”,对项目中用到的 R语言数据分析基本技术点、高级应用、第三方 R包等进行精要讲解,在 R语言数据分析基础和项目开发之间搭建了有效的桥梁,为仅有 R语言数据分析基础的初级编程人员参与数据分析项目扫清了障碍。
(4)精彩栏目。本书根据项目学习的需要,在每个项目讲解过程的关键位置添加了“注意”“说明”等特色栏目,点拨项目的开发要点和精华,以便读者能更快地掌握相关技术的应用技巧。
(5)源码下载。本书每个项目最后都安排了“源码下载”一节,读者能够通过扫描对应二维码下载对应项目的完整源码,方便学习。
(6)项目视频。本书为每个项目提供了开发及使用微视频,使读者能够更加轻松地搭建、运行、使用项目,并能够随时随地查看学习。
读者对象:数据分析爱好者;高等院校的教师; R语言爱好者;IT培训机构的教师与学员;提升数据分析技能的职场人员;数据分析师;参加毕业设计的学生;编程爱好者。
资源与服务
本书提供了大量的辅助学习资源,同时还提供了专业的知识拓展与答疑服务,旨在帮助读者提高学习效率并解决学习过程中遇到的各种疑难问题。读者需要刮开图书封底的刮刮卡,扫描并绑定微信,以获取学习权限。
(1)开发环境搭建视频。搭建环境对于项目开发非常重要,它确保项目开发在一致的环境下进行,减少因环境差异导致的错误和冲突。通过搭建开发环境,可以方便地管理项目依赖,提高开发效率。本书提供了环境搭建的讲解视频,可以引导读者快速准确地搭建本书项目的开发环境。扫描二维码即可观看学习。
(2)项目精讲视频。本书每个项目均配有对应的项目精讲微视频,主要针对项目的需求背景、应用价值、功能结构、业务流程、实现逻辑以及所用到的核心技术点进行精要讲解,可以帮助读者了解项目概要,把握项目要领,快速进入学习状态。扫描每章首页的对应二维码即可观看学习。
(3)项目源码。本书每章围绕一个项目,系统全面地讲解了该项目的前后端设计及实现过程。为了方便读者学习,本书提供了完整的项目源码(包含项目中用到的所有素材,如图片、数据表等)。扫描每章最后的二维码即可下载。
(4)AI 辅助开发手册。在人工智能浪潮的席卷之下,AI大模型工具呈现百花齐放之态,辅助编程开发的代码助手类工具不断涌现,
|
|