新書推薦:

《
史记 全六册
》
售價:NT$
2030

《
图解计算机科学数学基础(原书第3版)
》
售價:NT$
607

《
柏拉图《理想国》指南(想读《理想国》,一直看不懂?这本书就是你的哲学通关攻略)
》
售價:NT$
407

《
你的代谢还好吗:控制“五高”饮食运动法
》
售價:NT$
254

《
战国史料编年辑证(全二册)(杨宽著作集)
》
售價:NT$
1265

《
流动的世界想象:中国当代电影与视觉文化
》
售價:NT$
347

《
传播与帝国:1860—1930 年的媒体、市场与全球化(跨洲史料详尽呈现全球通信全景,资本视角重新定
》
售價:NT$
458

《
不再为他人而活:接纳自我的阿德勒心理学
》
售價:NT$
301
|
| 編輯推薦: |
|
想入门机器学习,用R语言搞定数据分析与预测建模?《机器学习与R语言(原书第4版)》经典升级!从数据处理、特征工程到监督/无监督学习,从基础算法到进阶优化,全流程拆解核心逻辑。搭配泰坦尼克号、野生蘑菇等真实数据集,本书新增超参数调优、高维数据处理等实战内容,配套代码与工具实操方案。不管你是学生、数据分析师还是行业从业者,都能通过本书搭建完整知识体系,夯实算法基础,轻松应对数据分析与建模任务,在AI浪潮中站稳脚跟!
|
| 內容簡介: |
|
R本身是一款十分优秀的数据分析和数据可视化软件。本书由机器学习领域的专家撰写,通过将实践案例与核心的理论知识相结合,全面介绍多种重要的机器学习算法,从对案例数据的探索、整理到模型的建立和模型的评估,每一步都给出详尽的步骤和R代码,为读者深入理解并灵活应用R语言进行数据挖掘和机器学习提供翔实参考。无论你是经验丰富的R语言用户还是初学者,作者都会教你如何进行数据预处理、发现关键见解、做出新的预测以及将结果可视化。这本书新增了机器学习成功之道、高级数据准备、构建更好的学习器以及利用大数据等章节,反映了机器学习在过去几年中取得的进步,帮助你掌握更多的数据科学技能,解决更具挑战性的问题。这本书已更新至 R语言 4.2.2版,其中包含更新、更好的库,关于机器学习中的道德和偏见问题的建议以及深度学习方面的介绍。无论你是想迈出使用R进行机器学习的第一步,还是想确保技能和知识与时俱进,这本书都是不可错过的读物。
|
| 關於作者: |
布雷特·兰茨(Brett Lantz) 在应用创新的数据方法理解人类行为方面有近20年经验。作为一名科班出身的社会学家,他最初在研究一个包含青少年社交网络档案的大型数据库时,便对机器学习产生了浓厚兴趣。布雷特是DataCamp平台的讲师,曾在全球多地开展机器学习工作坊教学。他热衷于探索数据科学在体育、电子游戏、自动驾驶汽车、外语学习等多个领域的应用,并致力于在个人网站dataspelunking.com上就这些主题撰写文章分享见解。
卢浩,从事信息系统相关专业研究三十余年,始终紧密跟踪学习前沿技术,获军队科技进步二等奖1项、三等奖1项,获全军优秀电教教材评比一等奖2项、空军一等奖1项。参与建设空军首个云计算实验室并负责实验室管理与运维,主持完成空军首个慕课平台、云桌面信息集中管控系统、军运会空军五项信息系统等项目建设并广泛推广应用。
|
| 目錄:
|
目 录 Contents 译者序 前言 关于作者 关于审校者 第1章 机器学习概述1 1.1 机器学习起源1 1.2 机器学习的应用与滥用3 1.2.1 机器学习能做什么4 1.2.2 机器学习的局限性5 1.2.3 机器学习伦理6 1.3 机器如何学习8 1.3.1 数据存储9 1.3.2 抽象9 1.3.3 泛化11 1.3.4 评估12 1.4 机器学习实践13 1.4.1 输入数据类型13 1.4.2 机器学习算法分类15 1.4.3 选择合适的算法17 1.5 基于R语言的机器学习18 1.5.1 安装R软件包18 1.5.2 加载和卸载R软件包19 1.5.3 安装RStudio19 1.5.4 为何选择R语言20 1.6 小结21 第2章 管理与解读数据22 2.1 R语言中的数据结构22 2.1.1 向量23 2.1.2 因子24 2.1.3 列表26 2.1.4 数据框28 2.1.5 矩阵和数组30 2.2 管理数据32 2.2.1 保存、加载、删除数据 结构32 2.2.2 从CSV文件导入和保存 数据集33 2.2.3 用RStudio导入数据集34 2.3 探索和解读数据36 2.3.1 数据结构分析36 2.3.2 数值型特征分析37 2.3.3 类别型特征分析45 2.3.4 特征间的关系47 2.4 小结51 第3章 懒惰学习—最近邻分类52 3.1 最近邻分类52 3.1.1 k-NN算法53 3.1.2 何为“懒惰”算法58 3.2 示例:用k-NN算法诊断乳腺癌59 3.2.1 第1步:收集数据59 3.2.2 第2步:探索并准备 数据59 3.2.3 第3步:训练模型63 3.2.4 第4步:评估模型性能64 3.2.5 第5步:优化模型性能65 3.3 小结67 第4章 概率学习—朴素贝叶斯 分类69 4.1 朴素贝叶斯算法69 4.1.1 贝叶斯算法的基本概念70 4.1.2 朴素贝叶斯算法简介74 4.2 示例:用朴素贝叶斯算法过滤 手机垃圾短信78 4.2.1 第1步:收集数据78 4.2.2 第2步:探索并准备 数据79 4.2.3 第3步:训练模型91 4.2.4 第4步:评估模型 性能92 4.2.5 第5步:优化模型 性能93 4.3 小结94 第5章 分而治之—用决策树和 规则分类95 5.1 决策树95 5.1.1 分而治之96 5.1.2 C5.0决策树算法99 5.2 示例:使用C5.0决策树识别 高风险银行贷款101 5.2.1 第1步:收集数据102 5.2.2 第2步:探索并准备 数据102 5.2.3 第3步:训练模型105 5.2.4 第4步:评估模型性能108 5.2.5 第5步:优化模型性能109 5.3 分类规则113 5.3.1 离而治之114 5.3.2 1R算法115 5.3.3 RIPPER算法116 5.3.4 决策树中的规则117 5.3.5 何为决策树和规则的 贪婪118 5.4 示例:用规则学习器识别 毒蘑菇119 5.4.1 第1步:收集数据120 5.4.2 第2步:探索并准备 数据120 5.4.3 第3步:训练模型121 5.4.4 第4步:评估模型性能122 5.4.5 第5步:优化模型性能123 5.5 小结125 第6章 预测数值型数据 —回归法126 6.1 回归126 6.1.1 简单线性回归128 6.1.2 普通最小二乘估计129 6.1.3 相关性131 6.1.4 多重线性回归132 6.1.5 广义线性模型与逻辑 回归135 6.2 示例:用线性回归预测汽车保险 理赔成本138 6.2.1 第1步:收集数据138 6.2.2 第2步:探索并准备 数据139 6.2.3 第3步:训练模型143 6.2.4 第4步:评估模型性能146 6.2.5 第5步:优化模型性能147
6.2.6 更进一步:用逻辑回归 预测保险客户流失152 6.3 回归树和模型树156 6.4 示例:用回归树和模型树评估 葡萄酒的品质158 6.4.1 第1步:收集数据159 6.4.2 第2步:探索并准备 数据159 6.4.3 第3步:训练模型161 6.4.4 第4步:评估模型性能164 6.4.5 第5步:优化模型性能165 6.5 小结168 第7章 黑盒法—神经网络和支持 向量机169 7.1 神经网络169 7.1.1 从生物神经元到人工 神经元170 7.1.2 激活函数171 7.1.3 网络拓扑结构173 7.1.4 用反向传播训练神经 网络176 7.2 示例:用ANN对混凝土强度进行 建模177 7.2.1 第1步:收集数据178 7.2.2 第2步:探索并准备 数据178 7.2.3 第3步:训练模型179 7.2.4 第4步:评估模型性能181 7.2.5 第5步:优化模型性能182 7.3 支持向量机187 7.3.1 用超平面分类187 7.3.2 使用核函数处理非线性 空间190 7.4 示例:使用SVM进行OCR 识别191 7.4.1 第1步:收集数据192 7.4.2 第2步:探索并准备 数据192 7.4.3 第3步:训练模型193 7.4.4 第4步:评估模型性能195 7.4.5 第5步:优化模型性能196 7.5 小结199 第8章 发掘模式—用关联规则 进行购物篮分析200 8.1 关联规则200 8.1.1 Apriori算法201 8.1.2 衡量规则的兴趣度 —支持度和置信度203 8.1.3 用先验原则建立规则203 8.2 示例:用关联规则识别热销 商品204 8.2.1 第1步:收集数据205 8.2.2 第2步:探索并准备 数据205 8.2.3 第3步:训练模型211 8.2.4 第4步:评估模型性能214 8.2.5 第5步:优化模型性能217 8.3 小结222 第9章 寻找数据分组—k均值 聚类223 9.1 聚类223 9.1.1 基于聚类的机器学习224 9.1.2 聚类算法中的簇225 9.1.3 k均值聚类算法228 9.2 用k均值聚类找出青少年用户 细分市场232 9.2.1 第1步:收集数据232 9.2.2 第2步:探索并准备 数据233 9.2.3 第3步:训练模型237 9.2.4 第4步:评估模型性能239 9.2.5 第5步:优化模型性能242 9.3 小结243 第10章 评估模型性能244 10.1 衡量分类性能244 10.1.1 分类器预测245 10.1.2 进一步了解混淆矩阵248 10.1.3 用混淆矩阵衡量性能249 10.1.4 除准确率之外的其他 性能衡量指标251 10.1.5 用ROC曲线可视化 性能权衡260 10.2 估算未来性能267 10.2.1 留出法267 10.2.2 交叉验证270 10.2.3 自助抽样273 10.3 小结274 第11章 机器学习成功之道275 11.1 机器学习从业指南275 11.2 何为成功的机器学习模型277 11.2.1 规避浅显的预测279 11.2.2 进行公平的评估280 11.2.3 考虑现实影响283 11.2.4 建立对模型的信任286 11.3 为数据科学注入“科学”元素288 11.3.1 使用R笔记本和 R标记291 11.3.2 高级数据探索294 11.4 小结307 第12章 高级数据准备308 12.1 特征工程简介308 12.1.1 人机角色309 12.1.2 大数据和深度学习的 影响311 12.2 特征工程实践315 12.2.1 建议1:集思广益 构建新特征316 12.2.2 建议2:找出文本 中蕴含的信息317 12.2.3 建议3:转换数值 范围318 12.2.4 建议4:观测相邻 数据319 12.2.5 建议5:利用相关行319 12.2.6 建议6:分解时间 序列320 12.2.7 建议7:引入外部 数据323 12.3 探索tidyverse325 12.3.1 用tibble构建清晰的 表结构325 12.3.2 用readr和readxl快速 读取数据表326 12.3.3 用dplyr准备并传输 数据327 12.3.4 用stringr转换文本330 12.3.5 用lubridate处理日期 数据335 12.4 小结339 第13章 难以处理的数据—过多、 太少,或过于复杂340 13.1 高维数据340 13.1.1 特征选择342 13.1.2 特征提取349 13.2 稀疏数据357 13.2.1 识别稀疏数据358
13.2.2 示例:重映射稀疏 分类数据359 13.2.3 示例:划分数值型 稀疏数据区间362 13.3 缺失数据365 13.3.1 缺失数据的类型366 13.3.2 缺失值填补367 13.4 数据不平衡问题369 13.4.1 平衡数据的简单 策略370 13.4.2 用SMOTE生成 合成平衡数据集372 13.4.3 平衡的取舍375 13.5 小结376 第14章 构建更好的学习器377 14.1 优化现有模型以提升性能377 14.1.1 确定超参数调优 范围378 14.1.2 示例:用caret 进行自动调优380 14.2 用集成法提高模型性能387 14.2.1 集成学习388 14.2.2 常用的集成算法390 14.3 元学习模型堆叠408 14.3.1 模型堆叠与融合409 14.3.2 用R语言实现融合与 堆叠410 14.4 小结412 第15章 利用大数据414 15.1 深度学习应用414 15.1.1 深度学习简介415 15.1.2 卷积神经网络418 15.2 无监督学习和大数据426 15.2.1 用嵌入表示高维 概念426 15.2.2 高维数据可视化435 15.3 用R语言处理大型数据集441 15.3.1 SQL数据库查询441 15.3.2 用并行处理提升 性能446 15.3.3 利用专用硬件和 算法451 15.4 小结456
|
| 內容試閱:
|
Preface??前 言 机器学习的核心在于将数据转化为智能决策的算法,这意味着机器学习非常适合当今的大数据时代。如果没有机器学习,我们几乎不可能理解我们所面临的海量信息流。 R语言提供的跨平台特性以及极易上手的统计学编程环境,为机器学习提供了理想的入门途径。它提供了功能强大且简单易学的工具,有助于我们从数据中获得真知灼见。 本书通过将实践案例研究与理解这些算法运行机制所需的基本理论相结合的方式,提供了理解机器学习理论并将其应用于自身项目实践中所需的全部知识。 本书适用对象 本书的目标读者是数据应用领域的从业者(商业分析师、社会科学家等),他们能够获取数据并希望将其用于生产环境。或许你对机器学习已经略知一二,但从未使用过R语言。抑或对R语言有初步了解,但对机器学习还是个新手。或者你对两者都完全陌生!无论是哪种情况,本书都将帮助你快速上手。如果对基础数学和编程的相关概念有一定了解,会有所帮助,但不需要事先具备任何经验,所需要的只是好奇心。 本书涵盖的内容 第1章明确机器学习领域的相关术语和概念,了解学习任务及与之相对应的算法。 第2章尝试动手在R语言环境中进行数据操作,探讨用于加载、探索和解读数据的流程,以及最基本的数据结构。 第3章讨论如何理解简单而强大的机器学习算法,并将其应用于首个实际任务:识别恶性肿瘤样本。 第4章揭示顶尖的垃圾邮件过滤系统中所使用概率的基本概念。在构建垃圾邮件过滤器的过程中,你将学会文本信息挖掘的基础知识。 第5章探讨几种学习算法,这些算法不仅预测准确,而且易于理解。我们将把这些方法应用到非常在意透明度(可解释性)的任务中。 第6章介绍用于进行数值预测的机器学习算法。由于这些技术在统计学领域具有重要地位,因此在这部分内容中你还将学习理解数值关系所需的基本指标。 第7章涵盖两种复杂但强大的机器学习算法。虽然这些数学概念可能看起来有点令人生畏,但我们将通过示例,用简洁明了的语言来揭示其背后的工作原理。 第8章揭示许多零售商使用的推荐系统中用到的算法。如果你曾感到好奇,为何零售商比你自身更了解你的购物习惯,本章将揭示背后的秘密。 第9章介绍一种查找相关簇的方法,并采用这种算法来识别线上社区中的个人资料。 第10章介绍怎样衡量在线学习项目的成功与否,以及如何依据后续数据来获得对学习器性能的有效评估。 第11章阐述从书本上的数据集过渡到现实世界中的机器学习问题时常见的问题,以及解决这些问题所需的工具、策略和软技能。 第12章介绍一套名为“tidyverse”的软件包,它可用于处理大型数据集,提取有价值的信息,辅助完成机器学习的流程。 第13章探讨一系列常见问题的解决方案,当有用信息迷失于海量数据集中时,就像大海捞针一样,这些情况可能会导致机器学习项目失败。 第14章揭示在机器学习竞赛排行榜上名列前茅的团队所采用的方法。如果你勇于竞争,或者想从数据中获得最大收益,就需要掌握这些技术。 第15章探讨机器学习的前沿领域。从处理超大数据集到提高R语言的运行效率,所涉及的主题能帮助我们突破R语言的极限,甚至能利用谷歌(Google)等大型组织开发的复杂工具来识别图像和理解文本数据。 学习本书所需的环境 本书中的示例代码均基于R语言4.2.2版,在Microsoft Windows、Mac OS X和Linux系统中进行了测试,这些代码通常也适用于其他最新版本的R语言环境,可在 />在第1章中有更详细的有关RStudio集成开发环境的介绍,强烈推荐将它作为R语言的附加组件,这样能极大地改善用户体验。RStudio的开源版可从Posit( Pro专业版,可为商业机构提供优先技术支持及其他功能。 下载示例代码文件和彩色图像 本书的代码包托管在GitHub上,地址是: Learning-with-R-Fourth-Edition。 我们还提供了一个PDF文件,其中包含本书中使用的截图/图表的彩色图像,地址是:https:// packt.link/TZ7os。
|
|