登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2025年05月出版新書

2025年04月出版新書

2025年03月出版新書

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

『簡體書』AI辅助数据质量监控 [美]杰里米·斯坦利 [美]佩奇·施瓦茨

書城自編碼: 4117721
分類: 簡體書→大陸圖書→計算機/網絡人工智能
作者: [美]杰里米·斯坦利,[美]佩奇·施瓦茨
國際書號(ISBN): 9787111780250
出版社: 机械工业出版社
出版日期: 2025-05-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 403

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
天气好极了,钱几乎没有: 契诃夫书信集 1876—1904
《 天气好极了,钱几乎没有: 契诃夫书信集 1876—1904 》

售價:NT$ 419.0
天才基本法
《 天才基本法 》

售價:NT$ 290.0
歧路彷徨:明代小读书人的选择与困境
《 歧路彷徨:明代小读书人的选择与困境 》

售價:NT$ 528.0
穿衣自由?——时尚背后的文化与抗争
《 穿衣自由?——时尚背后的文化与抗争 》

售價:NT$ 325.0
二战战术手册:美军快速航母特混舰队和装甲步兵战术
《 二战战术手册:美军快速航母特混舰队和装甲步兵战术 》

售價:NT$ 509.0
李小龙基本中国拳法
《 李小龙基本中国拳法 》

售價:NT$ 230.0
会速算的人,人生都不会太差
《 会速算的人,人生都不会太差 》

售價:NT$ 245.0
我们的中国 揭秘立体翻翻书+地图 精装硬壳儿童3D立体书 小学生中国地理百科 少儿百科知识翻翻书启蒙读物
《 我们的中国 揭秘立体翻翻书+地图 精装硬壳儿童3D立体书 小学生中国地理百科 少儿百科知识翻翻书启蒙读物 》

售價:NT$ 754.0

編輯推薦:
当ChatGPT因数据噪声输出误导结论,当企业仪表盘数字遭高管质疑——本书正是根治数据信任危机的‘手术刀’。译者团队深谙国内数据痛点,将硅谷前沿技术本土化: 技术深度:独创‘数据质量四大支柱’框架,详解无监督学习模型调优 行业温度:Discover金融、BuzzFeed等案例验证千倍ROI 人文洞察:以姥鲨隐喻‘微小数据缺陷的致命影响’,唤醒质量敬畏 数据工程师告别‘救火’,决策者远离直觉依赖——这或是企业智能化转型中最关键的一本书!
內容簡介:
本书主要介绍了如何确保企业所依赖的数据的质量。书中详细阐述了自动化数据质量监控的重要性,并提供了实用的方法,帮助企业高效地覆盖所有数据表,主动发现数据问题,并立即解决。作者们解释了如何构建无监督机器学习模型来检测数据问题,以及如何实施通知机制以减少警报疲劳,并迅速分类和解决这些问题。此外,本书还探讨了如何将自动化数据质量监控与数据目录、BI和ML系统集成,以克服自动化监控的局限性,并在大规模环境中部署和管理监控解决方案。这本书是数据质量领域的实用指南,为企业提供了确保数据质量的有效策略和方法。
關於作者:
Jeremy Stanley是Anomalo公司的联合创始人兼首席技术官。此前,他曾在Instacart公司担任数据科学副总裁,在那里他领导了机器学习项目,并推动了旨在提高公司盈利能力的各项举措。Paige Schwartz是Anomalo公司的一名专业技术作家,曾为包括Airbnb(爱彼迎)、Grammarly和OpenAI等在内的企业客户撰写文案。她曾担任谷歌的产品经理,擅长机器学习和数据相关领域的话题。
目錄
目录序1前言3第1章 数据质量监控势在必行91.1 高质量的数据是新时代的黄金111.1.1 数据驱动型公司是当今的颠覆者 111.1.2 数据分析的普及 121.1.3 人工智能和机器学习是竞争优势之源 131.1.4 公司正在投资现代数据栈 141.2 数据越多,问题越多 151.2.1 数据工厂中的问题 151.2.2 数据迁移 171.2.3 第三方数据源 181.2.4 公司的成长与变化 191.2.5 外界因素 211.3 为什么我们需要数据质量监控231.3.1 数据疤痕 241.3.2 数据冲击 251.4 自动化数据质量监控:一个全新的领域26第2章 数据质量监控策略与自动化的角色282.1 监控需求282.2 数据可观测性:必要但不充分302.3 传统的数据质量监控方法322.3.1 人工数据质量检测 322.3.2 基于规则的测试 342.3.3 指标监控 392.4 使用无监督机器学习实现自动化数据质量监控412.4.1 什么是无监督机器学习 422.4.2 类比:车道偏离警告 452.4.3 自动化的局限性 462.5 数据质量监控的四大支柱方法49第3章 对自动化数据质量监控的商业影响进行评估523.1 对数据进行评估533.1.1 数量 533.1.2 种类 543.1.3 速度 593.1.4 真实性 603.1.5 特殊情况 613.2 评估你的行业613.2.1 监管压力 623.2.2 人工智能/机器学习的风险 633.2.3 数据即产品 663.3 评估你的数据成熟度673.4 评估对利益相关方的好处693.4.1 工程师 693.4.2 数据团队领导者 703.4.3 科学家 723.4.4 消费者 723.5 进行投资回报率分析723.5.1 定量指标 733.5.2 定性指标 743.6 总结77第4章 利用机器学习使数据质量监控自动化784.1 要求784.1.1 敏感性 794.1.2 特异性 794.1.3 透明度 804.1.4 可扩展性 804.1.5 非必要需求 804.1.6 数据质量监控不等同于异常检测 814.2 机器学习方法和算法824.2.1 数据抽样 844.2.2 特征编码 894.2.3 模型开发 914.2.4 模型可解释性 954.3 整体思路的伪代码实现994.4 其他应用1014.5 总结103第5章 构建一个适用于真实数据的模型1055.1 数据挑战及应对措施1055.1.1 季节性 1055.1.2 基于时间的特征 1065.1.3 混乱程度 1075.1.4 就地更新表格 1085.1.5 列之间的相关性 1115.2 模型测试1125.2.1 引入合成异常 1135.2.2 基准测试 1175.2.3 模型改进 1245.3 总结125第6章 实施警报机制同时避免警报疲劳1266.1 如何通过通知促进数据问题响应1266.1.1 分类处理 1276.1.2 路由 1276.1.3 解决方案 1286.1.4 文档记录 1286.2 在没有通知的情况下采取行动1286.3 一个通知的解析1296.3.1 可视化 1306.3.2 操作 1316.3.3 文本描述 1326.3.4 检查的创建者/最后编辑者 1336.4 发送通知1336.4.1 通知的受众 1336.4.2 通知的渠道 1356.4.3 通知的时机 1376.5 避免警报疲劳1376.5.1 合理安排检查顺序 1386.5.2 使用机器学习对警报进行聚类 1386.5.3 抑制通知 1406.6 自动化根因分析1446.7 总结146第7章 集成监控与数据工具和系统1487.1 监控数据堆栈1497.2 数据仓库1507.2.1 与数据仓库集成 1507.2.2 安全性 1547.2.3 多仓库之间的数据协调 1557.3 数据编排器1567.4 数据目录1607.5 数据使用者1637.5.1 BI和分析工具 1637.5.2 MLOps 1647.6 总结166第8章 大规模运营解决方案1678.1 自建还是购买1678.2 配置1718.2.1 确定最重要的表格 1718.2.2 决定监控表格中的哪些数据 1728.2.3 大规模配置 1738.3 启用1738.3.1 用户角色和权限 1738.3.2 培训、支持与推广 1748.4 持续改善数据质量1758.4.1 数据健康计划 1768.4.2 衡量指标 1768.5 从混乱到清晰178附录 数据质量问题的类型180
內容試閱
序快问快答,你会如何区分一个真正在生产环境中构建过项目的数据科学家和一 个只是简单摆弄过数据的人呢?答案是:真正部署过数据的科学家一定在数据 质量问题上栽过大跟头。他们绝不仅仅踩过一两次坑,一定都曾被数据质量问 题搞得遍体鳞伤。数据科学团队的一天通常是这样的:某位高管在早上看到仪表板里的数据出现 异常,于是询问团队成员这些数字是否准确,而整个数据团队一上午四小时就 要一直为寻找这个问题的答案而忙碌。他们最终发现:原来是一名工程师忘了 添加正确的跟踪机制。这会儿已经是午后了,该团队还完全没有开始处理当天 冗长的计划任务清单。一旦陷入紧急应对状态,数据团队就很难再继续推动其 他有价值的工作了。换言之,我们总是让紧急的事情阻碍了重要的事情。这种做法不仅延误了工作, 还削弱了人们对数据的信任。数据科学团队也总在疲于防守,而无暇进攻。我曾多次亲眼看见这种情况。在新冠疫情大流行的初期,我被邀请帮助加利福尼亚州评估该疾病可能带来的影响。在那段全力以赴的时期,尽管我们拥有丰 富的资源和数据,但我们还是对诸如 ICU 床位数量或某医院剩余防护装备数量 等仪表板上的基本数字存疑。为了查明数据管道中的问题所在,我们不得不采 取原始的调试手段。而令人遗憾的是,我们没有办法通过简单的诊断来解决这 些问题,而这些问题带来的后果却极其严重。仪表板和决策中出现的问题只是表象—那人工智能,特别是生成式人工智能中出现的问题呢?所有这些新的技术都很激动人心,但我们有时似乎忘记了初心,从而忽视了数据质量的重要性。与传统软件不同,我们无法直接检查和调 试人工智能系统。虽然其中蕴藏的机会巨大,但风险也同样不小,而缺乏数据 质量控制的黑箱模型操作的前景令人担忧。数据科学家和工程师能够认识到这些问题本身就已经是一个巨大的进步,因为 这意味着我们已经进入到数据利用的新阶段。最初是数据的民主化,大家开 始积极地使用数据了!而责任也随之而来。我们需要数据团队能够更好地掌 控自己的命运。就像工程师的工具箱中所拥有的可观测性平台( observability platform)、值班系统( on-call system)、QA 环境和 DevOps 工具一样,数据从 业者也应该配备能够让他们提前发现并解决数据问题的工具,而这也是本书的 核心内容。要写一本真正出色的技术书籍,需要作者本人有着丰富的亲身经历。Jeremy 不 仅在组织中从事数据质量方面的工作,还在多个部门和跨行业的团队中处理过 数据质量问题,积累了丰富的经验。此外,他还创立了一家该领域的公司(顺 便提一下,我也是这家公司的投资者)。他对整个技术栈的问题都了如指掌,包 括文化、政治和技术动态。真正能解决数据可观测性问题的人,是那些对这些 问题有着深刻同理心的人,而这正是这本书所展现的。我给读者的建议是:你不必急于一口气阅读完这本书。相反,你不妨先浏览一 遍,大致了解一下情况,就像处理一个数据集一样。你可以先初步探索它,看 看有什么内容吸引你,然后逐渐深入。你可以逐步应用本书中的内容,慢慢吸 收,并在面对具体问题时随时参考。我相信你会一次又一次不断翻看这些内 容的。—DJ Patil 博士GreatPoint Ventures普通合伙人,美国第一位首席数据科学家前言多数企业在达到一定规模后,都会开始审视自己的数据是否值得信赖。人们 在仪表板上观察到一些明显不准确的数字。突然间,机器学习模型在实际应 用中的性能开始变差。企业内部也开始流传起“垃圾进,垃圾出”(garbage in, garbage out )这一说法—也就是使用可能包含错误、缺失部分和其他不准确的 数据来构建产品和功能的问题。当人们对企业的数据信任开始下降或者可能根本就不存在信任时,人们就必须 直面并解决这个问题。数据质量并不会随着企业的不断发展而神奇地得到提高, 实际上,由于数据复杂性的增加,它只会变得更为糟糕。数据质量就像软件质 量一样需要持续进行监控,以便在问题出现时迅速解决。许多企业都在理论上赞同这个想法,但在实践中却难以实现企业级的数据质量 监控。当 Jeremy 和 Elliott 在 2018 年创立 Anomalo 时,正因为亲身经历了这些 难题,他们才意识到现有的数据质量监控方法是无法满足现代企业需求的。为每个表和每个列编写检查所有业务逻辑的规则,也许在企业只维护几个小而 可控的表时还能行得通。但在当前的数据量下,这么干就像是要试图“煮沸整 个海洋”一样徒劳。追踪关键绩效指标(KPI)可以为你提供有关数据质量的重 要信号,而观察基本的元数据(例如数据是否按时到达等),也能有所帮助。但 遗憾的是,这样的涵盖范围已然不够,而且无法捕捉到那些你未曾想到的问题。这就是为什么我们对这本书中将要分享的方法感到如此兴奋:利用机器学习来 进行自动化数据质量监控。机器学习是一种强大到令人难以置信的工具,它正在引领各个领域内的创新,而数据质量领域也不例外。在本书中,我们会分享 在过去五年中构建由机器学习驱动的数据质量监控平台的经验知识,该平台被 企业用户广泛应用于各行各业。这些章节包含我们所知道的最前沿的技术—无论是如何开发一个无监督模型 来检测数据中的问题,如何对该模型进行基准测试和调优,还是如何确保你收 到通知不会过于频繁。如果你决定投资这项技术,那么你的选择很可能恰逢其时。通过更好的决策、 自动化和生成式人工智能,数据正在推动新一轮的技术变革。你的数据质量最 终会影响你的企业在这个全新且不断变化的环境中的产品和服务的影响力。当 企业能够构建更好的技术时,集体创新带来的经济、社会乃至个人层面的益处 将惠及我们每一个人。所以,提高数据质量,你也许就真的可能拯救世界。这么说或许有些夸张,但 我们确实认为你能从这本书中学到一些知识,我们也希望你在这个过程中能够 获得乐趣。数据质量监控是一段持续的旅程。这个领域目前正在不断涌现出大量的创新, 未来我们也希望看到更多创新的出现。或许,作为读者的你会将书中的技术做 进一步的提升—这正是我们所希望的。如果真的如此,我们将很乐意听到你 的反馈。你可以直接与本书的作者联系,邮箱为:automating-data 、quality、 monitoring@anomalo.com。目标读者本书在编写时主要考虑了三类目标读者。第一类是首席数据与分析官( Chief Data and Analytics O?cer, CDAO)或数据 副总裁。作为企业数据团队的高层,整本书的内容都与你息息相关。不过你可 能对第 1~3 章最感兴趣,在这几章中,我们将清晰地解释为什么你应该关注企 业的自动化数据质量监控,并逐步了解如何评估自动化数据质量监控平台的投 资回报率。第 8 章也同样重要,将讨论如何随时间推移来跟踪并提升数据质量。本书的第二类目标读者是数据治理的负责人。在这个职位上,你可能是企业内 部最直接负责管理数据质量的人。尽管整本书对你都将大有裨益,但我们相信, 第 1~3 章中有关自动化的内容,以及第 7 章、第 8 章中关于集成和运营的内 容,尤其值得关注。我们的第三类目标读者是数据实践者。无论你是数据科学家、分析师还是数据 工程师,你的工作都会依赖数据质量,而你所使用的监控工具将对你的日常工作产生重大影响。那些构建或操作数据质量监控平台的人应该特别关注第4~7章,我们在其中将介绍如何开发模型、设计通知以及如何将平台与数据生态系统进行集成。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2025 (香港)大書城有限公司 All Rights Reserved.