登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』数据科学难点解惑

書城自編碼： 4150429
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者： [墨西哥]丹尼尔沃恩[Daniel Vaughan]
國際書號(ISBN)： 9787523901557
出版社：中国电力出版社
出版日期： 2025-08-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 449

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《加密货币突破数字边界》
售價：NT$ 352

《养元筑基调气血》
售價：NT$ 356

《永夜微光：拉康与未竟之精神分析革命》
售價：NT$ 602

《古希腊社会生活史》
售價：NT$ 254

《维特根斯坦传》
售價：NT$ 296

《暮日耀光：张居正与明代中后期政局》
售價：NT$ 959

《厚土中华》
售價：NT$ 500

《镜头设计：电影、短剧与短视频的拍摄之道》
售價：NT$ 500

編輯推薦：

编辑推荐
本书提供了一系列在传统数据工程和数据科学教育中被忽视的技术和最佳实践。一个普遍的误解是，优秀的数据科学家是该领域“重大主题”的专家，即机器学习和编程。然而，大多数情况下，这些工具只能帮助我们到达某个程度。实际上，真正区分顶级数据科学家与普通数据科学家的是这些重大主题中的细微差别，以及对业务产生影响的能力。
总体而言，本书使一名普通数据科学家候选人与在行业中表现卓越的数据科学家之间产生了差异。本书作者将这些技能汇集、扩展并应用于为来自不同公司和行业的数据科学家创造价值和培训。
专家推荐
“Daniel又写了一部杰作，作为数据科学家与商业高管之间价值创造的连接纽带。这本书是实现数据科学商业成功所缺失的手册。”
——Adri Purkayastha
Global Head of AI Technology Risk， BNP Paribas
“涵盖了从经济学到广告，再到流行病学的所有内容，以及如何在实践中应用数据科学技术。它从大多数书籍结束的地方开始，即基于数据洞察的实际决策过程。这是任何数据科学家书架上早该添加的作品。”
——Brett Holleman
F

內容簡介：

本书的主要内容有：确保数据科学工作流程创造价值。设计可操作的、及时的和相关的指标。提供引人瞩目的叙述以获得利益相关者的支持。使用模拟确保你的机器学习算法是解决该问题的正确工具。识别、纠正和预防数据泄露。通过估计因果效应理解增量性。

關於作者：

Daniel Vaughan曾领导不同公司和行业的数据团队，目前正在为几家金融科技公司提供咨询，帮助确保其数据、机器学习和人工智能计划的成功。他拥有超过 15年的机器学习开发经验和超过 8年的数据科学团队领导经验。Daniel 获得了纽约大学经济学的博士学位。

目录
前言 1
第一部分数据分析技术
第1 章那又怎样？利用数据科学创造价值 . 11
1.1 价值是什么 11
1.2 是什么：了解业务 12
1.3 所以呢：在DS 中创造价值的要点 .14
1.4 现在怎么办：成为一个积极进取的人 15
1.5 衡量价值16
1.6 关键要点18
1.7 扩展阅读19
第2 章指标设计 21
2.1 指标应具备的理想属性 .21
2.1.1 可衡量 21
2.1.2 可操作性 .22
2.1.3 相关性 22
2.1.4 及时性 22
2.2 指标分解23
2.2.1 漏斗分析 .23
2.2.2 存量流量分解 24
2.2.3 P×Q 型分解 .25
2.3 例子：另一种收入分解 .25
2.4 例子：市场 26
2.5 关键要点27
2.6 扩展阅读28
第3 章增长分解：理解顺境与逆境 29
3.1 为什么要进行增长分解 .29
3.2 加法分解30
3.2.1 例子 30
3.2.2 解释和用例 31
3.3 乘法分解32
3.3.1 例子 33
3.3.2 解释 34
3.4 混合比率分解 .34
3.4.1 例子 35
3.4.2 解释 36
3.5 数学推导37
3.5.1 加法分解 .37
3.5.2 乘法分解 .37
3.5.3 混合比率分解 38
3.6 关键要点39
3.7 扩展阅读39
第4 章 2×2 设计 .41
4.1 简化的案例 41
4.2 什么是2×2 设计 .42
4.3 示例：测试模型和新功能 44
4.4 示例：了解用户行为 46
4.5 例子：信贷发放和接收 .48
4.6 示例：确定工作流程的优先级 49
4.7 关键要点50
4.8 扩展阅读51
第5 章构建商业案例 53
5.1 构建商业案例的一些原则 53
5.2 示例：主动留存策略 54
5.3 欺诈罪预防 56
5.4 购买外部数据集 57
5.5 从事一个数据科学项目 .58
5.6 关键要点58
5.7 扩展阅读59
第6 章提升度是什么 61
6.1 定义提升度 61
6.2 示例：分类器模型 62
6.3 自选择偏差和幸存者偏差 63
6.4 提升度的其他用途 65
6.5 关键要点65
6.6 扩展阅读66
第7 章叙述 67
7.1 什么是叙述：用你的数据来讲故事.67
7.1.1 清晰明了的 68
7.1.2 可信的 70
7.1.3 难忘的 71
7.1.4 可操作的 .72
7.2 构建一个故事 .72
7.2.1 科学讲述 .72
7.2.2 什么，那又怎样，现在怎么办 .74
7.3 最后的阶段 75
7.3.1 写TL；DR .75
7.3.2 如何撰写令人难忘的TL；DR .76
7.3.3 示例：为本章节写TL；DR 77
7.3.4 进行有力的电梯演讲.79
7.3.5 展现你的叙述 79
7.4 关键要点80
7.5 扩展阅读81
第8 章数据可视化：选择正确的图表来传递信息 83
8.1 一些有用的和不太常用的数据可视化 83
8.1.1 条形图和折线图 83
8.1.2 斜线图 85
8.1.3 瀑布图 86
8.1.4 平滑散点图 87
8.1.5 绘制分布 .88
8.2 一般建议90
8.2.1 为你想传达的信息找到正确的图表 90
8.2.2 明智的选择颜色 91
8.2.3 图表中的不同维度 .92
8.2.4 争取足够大的数据墨水比率 .92
8.2.5 定制与半自动化相比.93
8.2.6 从一开始就确定正确的字体大小 93
8.2.7 交互的或者静态的 .94
8.2.8 保持简单 .94
8.2.9 从解释图表开始 95
8.3 关键要点95
8.4 扩展阅读95
第二部分机器学习
第9 章模拟法和自助法 .99
9.1 基本的模拟 100
9.2 模拟线性模型和线性回归 .103
9.3 什么是部分依赖图 .105
9.4 遗漏变量偏差 110
9.5 模拟分类问题 113
9.5.1 潜在变量模型 .113
9.5.2 比较不同算法 .114
9.6 自助法 . 116
9.7 关键要点. 119
9.8 扩展阅读.120
第10 章线性回归：回到基础 121
10.1 什么是系数 .121
10.2 Frisch-Waugh-Lovell 定理 125
10.3 为什么你应该关心FWL 128
10.4 干扰因子 129
10.5 额外变量 131
10.6 在机器学习中变化是中心角色 .133
10.7 关键要点 137
10.8 扩展阅读 138
第11 章数据泄露 141
11.1 什么是数据泄露 141
11.1.1 结果也是一个特征 142
11.1.2 特征是结果的函数 142
11.1.3 不良控制变量 142
11.1.4 时间戳标记错误 .143
11.1.5 具有不规则时间聚合的多个数据集 .143
11.1.6 其他信息的泄露 .144
11.2 检测数据泄露 145
11.3 完全分离 147
11.4 窗口方法 149
11.4.1 选择窗户的长度 .151
11.4.2 训练阶段与评分阶段相对应 .152
11.4.3 实现窗口方法 153
11.5 有数据泄露了：现在怎么办 154
11.6 关键要点 155
11.7 扩展阅读 155
第12 章生产化模型 . 157
12.1 “生产就绪”是什么意思157
12.1.1 批量评分（离线） 158
12.1.2 实时模型对象 160
12.2 数据和模型漂移 161
12.3 任何生产流程中的基本步骤 163
12.3.1 获取和转换数据 .163
12.3.2 验证数据 164
12.3.3 训练和评分阶段 .166
12.3.4 验证模型和评分 .166
12.3.5 部署模型和评分 .167
12.4 关键要点 167
12.5 扩展阅读 168
第13 章机器学习中的故事讲述 171
13.1 机器学习故事讲述的全过程 171
13.2 事前和期间讲故事 172
13.2.1 提出假设 173
13.2.2 特征工程 176
13.3 事后讲故事：打开黑盒子179
13.3.1 可解释性和性能的权衡 179
13.3.2 线性回归：设置一个基准 .181
13.3.3 特征重要性183
13.3.4 热图 185
13.3.5 部分依赖图187
13.3.6 累积局部效应 189
13.4 关键要点 191
13.5 扩展阅读 192
第14 章从预测到决策 . 195
14.1 剖析决策制定 196
14.2 明智的阈值产生简单的决策规则 197
14.2.1 精确率和召回率 .198
14.2.2 例子：潜在客户生成 200
14.3 混淆矩阵优化 202
14.4 关键要点 204
14.5 扩展阅读 204
第15 章增量：数据科学的圣杯 205
15.1 定义增量 205
15.1.1 从因果推理到提升预测 206
15.1.2 因果推理作为差异化因素 .206
15.1.3 提升决策制定 207
15.2 干扰因子和对撞因子 .207
15.3 选择偏差 211
15.4 无混淆假设 .215
15.5 打破选择偏差：随机化 216
15.6 匹配 217
15.7 机器学习和因果推理 .220
15.7.1 打开源代码库 221
15.7.2 双重机器学习 222
15.8 关键要点 224
15.9 扩展阅读 225
第16 章 A/B 测试 229
16.1 什么是A/B 测试 229
16.2 决策标准 230
16.3 最小可检测效应 234
16.3.1 选择统计功效、显著性水平和P 值 .237
16.3.2 估计结果的方差 .238
16.3.3 模拟 239
16.3.4 例子：转换费率 .240
16.3.5 设置MDE .241
16.4 假设列表 242
16.4.1 指标 243
16.4.2 假设 243
16.4.3 排名 243
16.5 实验治理 244
16.6 关键要点 245
16.7 扩展阅读 246
第17 章大型语言模型和数据科学实践 . 249
17.1 当前人工智能的状态 .249
17.2 数据科学家们做什么 .251
17.3 不断演变的数据科学家职位描述 253
17.3.1 案例学习：A/B 测试 255
17.3.2 案例学习：数据清理 256
17.3.3 案例学习：机器学习 256
17.4 LLM 和本书 257
17.5 关键要点 258
17.6 扩展阅读 259

內容試閱：

前言我认为学习和实践数据科学是困难的。这是因为人们期望你不仅要成为一名优秀的程序员，掌握数据结构及其计算复杂性的细微差别，还要精通Python 和SQL。统计学及最新的机器学习预测技术应该是你的第二语言，你还需要能够应用所有这些知识来解决可能出现的实际商业问题。然而，这项工作也很困难，因为你还必须成为一位优秀的沟通者，能够向不熟悉数据驱动决策的非技术利益相关者讲述引人入胜的故事。所以，让我们诚实一点：数据科学的理论与实践很难几乎是不言而喻的。任何旨在覆盖数据科学困难部分的书籍，要么是百科全书式的全面，要么必须经过预筛选流程，剔除某些主题。我必须一开始就承认，这是一系列我认为在数据科学学习中较难的主题，而这一标签本质上是主观的。为了减少主观性，我想说这些主题并不是因为复杂性而更难学习，而是因为在当今阶段，这个职业对这些作为入门主题的重要性评估相对较低。因此，在实践中，它们更难学习，因为很难找到相关的材料。数据科学课程通常强调学习编程和机器学习，这也是我称之为数据科学中的“大主题”。几乎所有其他内容都要在工作中学习，不幸的是，能否找到一个导师，对你的第一份或第二份工作有很大影响。大型科技公司好的地方在于它们拥有同样庞大的人才密度，所以这些相对隐形的主题成为当地公司亚文化的一部分，而这些信息对许多从业人员来说是难以获得的。这本书旨在帮助你成为一名更高效的数据科学家。我将其分为两个部分：数据分析的主题和数据科学的软技能，以及关于机器学习（ML）。尽管可以按照任意顺序阅读而不会产生重大摩擦，但某些章节确实引用了之前的章节；大多数情况下，你可以跳过这些引用，内容仍然会保持清晰和自解释。引用主要用于提供在看似独立主题之间的统一感。第一部分包含的主题：第1 章，那又怎样？利用数据科学创造价值数据科学在为组织创造价值中的作用是什么？如何衡量？第2 章，指标设计我认为数据科学家最适合改进可操作指标的设计。在这里，我向你展示如何做到这一点。第3 章，增长分解：理解顺境与逆境了解业务发生的情况并提出引人注目的故事是数据科学家常见的任务。本章介绍一些可以用来自动化部分工作流程的增长分解。第4 章，2×2 设计学习简化世界可以帮助你走得更远，而2×2 设计将帮助你实现这一目标，并改善与利益相关者的沟通。第5 章，构建商业案例在开始项目之前，你应该有一个商业案例。本章向你展示如何做到这一点。第6 章，提升度是什么虽然很简单，提升度可以加快你可能考虑用机器学习完成的分析。我在本章中解释提升度。第7 章，叙述数据科学家需要变得更擅长讲故事和构建引人入胜的叙述。在这里，我向你展示如何做到。第8 章，数据可视化：选择正确的图表来传递信息花足够的时间在数据可视化上也应该有助于你的叙述。本章讨论了一些最佳实践。第二部分是关于机器学习（ML）的部分：第9 章，模拟法和自助法模拟技术可以帮助你加强对不同预测算法的理解。我将向你展示如何使用，以及使用你最喜欢的回归和分类技术时的一些注意事项。我还讨论了可以用来找到一些难以计算的估计值的置信区间的抽样技术。第10 章，线性回归：回到基础深入了解线性回归对于理解一些更高级的主题至关重要。在这一章中，我回到基础知识，希望能够为机器学习算法提供更强的直观基础。第11 章，数据泄露什么是数据泄露，如何识别和防止它？本章将说明。第12 章，生产化模型一个模型只有在它达到生产阶段时才是有用的。幸运的是，这是一个被很好理解和结构化的问题，我会展示这些步骤中的关键步骤。第13 章，机器学习中的故事讲述你可以使用一些优秀的技术来打开黑箱子，以便在机器学习中出色地讲述故事。第14 章，从预测到决策我们通过数据驱动和机器学习驱动的流程增强决策能力，从而创造价值。这里我向你展示如何从预测转向决策的例子。第15 章，增量：数据科学的圣杯因果关系在数据科学中得到了越来越多的关注，但仍然被视为一个相对小众的领域。在这章中，我将介绍基础知识，并提供可以在你的组织中直接应用的示例和代码。第16 章，A/B 测试A/B 测试是估计替代行动增量性的典型例子。但实验需要一些强大的统计学背景（和商业知识）。第17 章是比较特殊的，因为这是唯一一章没有呈现任何技术的地方。在这里，我对数据科学的未来做了一些推测，考虑到生成性人工智能（AI）的出现。主要收获是，我预计职位描述在未来几年会发生剧烈变化，数据科学家应该为这场革命做好准备。这本书面向所有级别和资历的数据科学家编写。为了充分利用本书，最好具备中高级的机器学习算法知识，因为我不会花时间介绍线性回归、分类和回归树或集成学习，例如随机森林或梯度提升机。排版约定本书采用以下排版约定。斜体（Italic）表示新术语、URL、电子邮件地址、文件名和文件扩展名。等宽字体（Constant width）表示程序清单，在段落内表示程序元素，例如变量、函数名称、数据库、数据类型、环境变量、语句和关键字。使用代码示例本书附带资源（代码示例、练习等）的下载地址：https://oreil.ly/dshp-repo。与本书相关的技术问题，或者在使用代码示例上有疑问，请发电子邮件到bookquestions@oreilly.com。本书是要帮你完成工作的。一般来说，如果本书提供了示例代码，你可以把它用在你的程序或文档中。除非你使用了很大一部分代码，否则无需联系我们获得许可。比如，用本书的几个代码片段写一个程序就无需获得许可，销售或分发O’Reilly 图书的示例集则需要获得许可；引用本书中的示例代码回答问题无需获得许可，将书中大量的代码放到你的产品文档中则需要获得许可。我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和ISBN，例如：“Data Science: The Hard Parts by Daniel Vaughan (O’Reilly). Copyright 2024 Daniel Vaughan， 978-1-098-14647-4”。如果你觉得自己对示例代码的使用超出了上述许可范围，请通过permissions@oreilly.com 与我们联系。O’Reilly 在线学习平台（O’Reilly Online Learning）近40 年来，O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。公司独有的专家和改革创新者网络通过O’Reilly 书籍、文章以及在线学习平台，分享他们的专业知识和实践经验。O’Reilly 在线学习平台按照您的需要提供实时培训课程、深入学习渠道、交互式编程环境以及来自O’Reilly 和其他200 多家出版商的大量书籍与视频资料。更多信息，请访问网站：https://www.oreilly.com/。联系我们任何有关本书的意见或疑问，请按照以下地址联系出版社。美国：O’Reilly Media， Inc.1005 Gravenstein Highway NorthSebastopol， CA 95472中国：北京市西城区西直门南大街2 号成铭大厦C 座807 室（100035）奥莱利技术咨询（北京）有限公司勘误、示例和其他信息可访问https://oreil.ly/data-science-the-hard-parts 获取。对本书中文版的勘误可以发电子邮件到errata@oreilly.com.cn。欲了解本社图书和课程的新闻和信息，请访问https://oreilly.com。我们的LinkedIn：https://linkedin.com/company/oreilly-media。我们的Twitter：https://twitter.com/oreillymedia。我们的YouTube：https://youtube.com/oreillymedia。致谢我在Clip 的内部技术研讨会上展示了本书涵盖的许多主题。因此，我要感谢我有幸领导、指导和学习的优秀数据团队。他们的专业知识对本书的内容和形式的塑造至关重要。我还要由衷感谢我的编辑Corbin Collins，他耐心且友好地校对了手稿，发现了错误和遗漏，并提出了很多建议，从而在许多方面显著改善了呈现效果。我还特别感谢Jonathon Owen（产品编辑）和Sonia Saruba（校对编辑），感谢他们敏锐的眼光、卓越的技能和奉献精神。他们的共同努力显著提升了本书的质量，对此我将永远感激。感谢技术审阅人员，他们找到书中内容和代码示例的错误和打字错误，并提出改进建议。特别感谢Naveen Krishnaraj、Brett Holleman 和Chandra Shukla，感谢他们提供的详细反馈。尽管我们并不总是达成一致，但他们的建设性批评在使我谦卑的同时也让我感受到加强。不用说，所有剩余的错误都是我自己的。他们永远不会看到这段文字，但我永远感激我的狗Matilda 和Domingo，感谢它们无尽的爱、欢笑、温柔和陪伴。我还要感谢我的朋友和家人，感谢他们的无条件支持和鼓励。特别感谢Claudia：你在我不断讨论这些想法时给予的耐心，尽管这些想法对你来说几乎毫无意义，这种耐心是无法估量的。最后，我要感谢无数在数据科学领域工作的研究人员和从业者，他们的工作启发了我并为我提供了信息。如果没有他们的奉献和贡献，本书将无法存在，我荣幸地成为这个充满活力的社区的一部分。感谢大家的支持。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2026 （香港）大書城有限公司　All Rights Reserved.