新書推薦:

《
问心三部曲 追问初心撕裂 名家力荐 持续畅销的现象级作品
》
售價:HK$
602

《
风声(珍藏纪念版,全4册)
》
售價:HK$
806

《
美学四讲
》
售價:HK$
332

《
不可辨识的生命—影像 融合文化研究、后现代视角与图像学,评析戏剧影视艺术,洞察社会思潮,思想美学并重
》
售價:HK$
398

《
大国重器—中国盾构机创新发展之路
》
售價:HK$
551

《
长路行(带你看民国顶级书香世家的真实生活日常)
》
售價:HK$
347

《
人体脂肪的秘密
》
售價:HK$
352

《
社会史:理论与实践(增订版)(德国著名社会史学家于尔根·科卡重要文集。全面展现德国社会史学派的兴起与
》
售價:HK$
500
|
編輯推薦: |
在数据量爆发式增长、AI与业务深度融合的当下,传统数据仓库与数据湖的割裂已成为企业数字化转型的瓶颈——数据冗余、性能不足、治理混乱等问题,让数据价值难以释放。而《湖仓架构:大规模数据平台的设计和实现》,正是为数据从业者带来的“破局之作”。本书作者Gaurav Ashok Thalpati深耕数据领域20年,其方法论历经多行业验证,为湖仓落地提供了权威支撑。
书中最难得的是“理论体系与实战落地”的完美平衡:既解析湖仓“存算分离”核心逻辑,对比Iceberg、Hudi等表格式差异,又提供从需求调研到灾备设计的全流程模板,配套AWS、Azure等云平台实操案例。从数据架构师的顶层设计,到工程师的管道搭建,再到管理者的成本优化,均能找到适配方案,堪称湖仓领域兼具深度与广度的典籍。
|
內容簡介: |
本书全面阐述了湖仓架构相关知识。首先介绍数据架构及其在构建数据平台中的作用,剖析湖仓架构的概念、特征和优势。接着对比传统架构(数据湖与数据仓库)和现代数据平台,明确湖仓架构在未来数据平台的重要地位。然后讲解行存储与列存储等概念,以及云对象存储、文件格式和表格式等组件,还给出设计存储时的考量因素。接着阐述数据目录、计算引擎在湖仓架构中的功能、类型选择和设计要点。在数据治理与安全方面,强调在湖仓架构中的统一治理和安全流程。之后提供了湖仓平台从前期准备到具体设计和实施的详细指南。最后探讨湖仓架构的未来发展趋势,如数据网格、混合事务与分析处理等。通过学习本书,读者可系统掌握湖仓架构知识,为相关实践提供有力支持。
|
關於作者: |
Gaurav Ashok Thalpati是一名独立顾问,专注于云数据架构和数据管理领域。在20多年的从业经历中,他曾担任过数据架构师、数据分析师、数据工程师等多个职位。
王磊,光大银行科技部数据领域架构师,曾任职于IBM全球咨询服务部从事技术咨询工作,具有十余年数据领域研发及咨询经验。
|
目錄:
|
目录
前言1
第1章 湖仓架构简介7
1.1 理解数据架构8
1.1.1 什么是数据架构8
1.1.2 数据架构如何帮助构建数据平台8
1.1.3 数据平台的核心组件10
1.2 为什么需要一个新的数据架构16
1.3 湖仓架构:一种新的模式17
1.3.1 湖仓:博采众长17
1.3.2 理解湖仓架构19
1.3.3 湖仓架构的特征22
1.3.4 湖仓架构的优势23
1.4 关键要点28
1.5 参考30
第2章 传统架构与现代数据平台31
2.1 传统架构:数据仓库与数据湖32
2.1.1 数据仓库基础32
2.1.2 数据湖基础36
2.2 现代数据平台39
2.2.1 在云端寻找答案40
2.2.2 独立方式41
2.2.3 组合方式42
2.2.4 现代数据平台的期望44
2.3 比较:数据仓库、数据湖、湖仓46
2.3.1 能力与局限性46
2.3.2 实施活动48
2.3.3 管理与运营49
2.3.4 业务成果50
2.4 湖仓架构:是未来数据平台的默认选择吗51
2.5 关键要点52
2.6 参考53
第3章 存储:湖仓架构的核心55
3.1 湖仓存储:关键概念55
3.1.1 行式存储与列式存储55
3.1.2 基于存储的性能优化56
3.2 湖仓存储组件57
3.2.1 云对象存储57
3.2.2 文件格式59
3.2.3 表格式67
3.3 关键设计考虑因素78
3.3.1 生态系统支持79
3.3.2 社区支持79
3.3.3 支持的文件格式80
3.3.4 支持的计算引擎81
3.3.5 支持的特性81
3.3.6 商业产品支持81
3.3.7 当前版本和未来版本82
3.3.8 性能基准测试82
3.3.9 比较83
3.3.10 共享特征83
3.4 关键要点83
3.5 参考85
第4章 数据目录86
4.1 理解元数据86
4.1.1 技术元数据87
4.1.2 业务元数据87
4.2 元存储与数据目录的协同工作方式88
4.3 数据目录的特性90
4.3.1 搜索、探索与发现数据90
4.3.2 数据分类90
4.3.3 数据治理与安全91
4.3.4 数据血缘91
4.4 统一数据目录92
4.4.1 竖井式元数据管理的挑战92
4.4.2 什么是统一数据目录92
4.4.3 统一数据目录的优势93
4.5 实施数据目录:关键设计考虑因素与选项94
4.5.1 使用HMS95
4.5.2 使用AWS服务95
4.5.3 使用Azure服务97
4.5.4 使用GCP服务100
4.5.5 使用Databricks101
4.6 关键要点103
4.7 参考104
第5章 湖仓架构的计算引擎106
5.1 湖仓架构的数据计算优势106
5.1.1 独立扩展106
5.1.2 跨区域、跨账户访问107
5.1.3 统一的批处理和实时处理107
5.1.4 增强的BI性能107
5.1.5 选择不同引擎类型的自由108
5.1.6 跨区域分析109
5.2 湖仓平台的计算引擎选项110
5.2.1 开源工具111
5.2.2 云服务113
5.2.3 第三方平台118
5.3 关键设计考虑因素120
5.3.1 开放表格式支持122
5.3.2 支持的版本和特性122
5.3.3 生态系统支持123
5.3.4 基于人物角色的偏好123
5.3.5 托管开源、云原生与第三方产品124
5.3.6 数据消费类工作负载125
5.4 关键要点127
5.5 参考128
第6章 湖仓架构中的数据(与AI)治理和安全130
6.1 什么是数据治理和数据安全130
6.2 数据治理和数据安全的优势132
6.3 湖仓架构中的统一治理和安全132
6.4 湖仓架构中的治理和安全流程133
6.4.1 元数据管理133
6.4.2 合规和法规134
6.4.3 数据与机器学习模型质量135
6.4.4 贯穿数据资产和AI资产的血缘136
6.4.5 数据资产与AI资产共享138
6.4.6 数据所有权138
6.4.7 审计和监控139
6.4.8 访问管理140
6.4.9 数据保护141
6.4.10 处理敏感数据143
6.5 你的角色是什么144
6.6 关键要点147
6.7 参考148
第7章 全景视图:设计与实施湖仓平台150
7.1 设计前的活动150
7.1.1 理解平台需求151
7.1.2 研究现有系统152
7.1.3 理解组织的愿景与数据战略153
7.1.4 组织研讨会和访谈153
7.2 选择合适的架构153
7.3 建立指导原则155
7.3.1 数据生态系统156
7.3.2 可扩展性和性能157
7.3.3 成本控制和优化157
7.3.4 平台运营157
7.3.5 治理和安全158
7.4 设计考虑因素与实施最佳实践158
7.4.1 架构蓝图158
7.4.2 数据摄取159
7.4.3 数据存储162
7.4.4 数据处理166
7.4.5 数据消费和交付169
7.4.6 通用服务171
7.5 设计参考175
7.5.1 分步设计指南175
7.5.2 设计问卷177
7.6 关键要点179
7.7 参考180
第8章 现实世界中的湖仓181
8.1 交付一个现实世界的湖仓181
8.2 估算与规划阶段182
8.2.1 估算183
8.2.2 规划183
8.3 分析与设计阶段184
8.3.1 分析现有系统184
8.3.2 数据建模185
8.3.3 确定技术栈186
8.4 实施与测试阶段188
8.4.1 历史数据迁移188
8.4.2 数据核对与测试190
8.4.3 逆向工程191
8.4.4 数据质量和敏感数据处理192
8.5 支持与维护阶段193
8.5.1 审计与跟踪193
8.5.2 灾难恢复策略193
8.5.3 旧系统下线195
8.6 交付参考196
8.6.1 项目交付成果196
8.6.2 参考架构198
8.7 关键要点201
8.8 参考202
第9章 未来的湖仓203
9.1 从仓库到湖仓:接下来是什么203
9.1.1 数据网格204
9.1.2 HTAP205
9.1.3 零ETL206
9.2 互操作性与新格式207
9.2.1 UniForm208
9.2.2 Apache XTable209
9.2.3 即将推出的文件格式和表格式210
9.3 公有云和私有云的托管平台211
9.3.1 Microsoft Fabric和其他平台212
9.3.2 私有云平台的托管湖仓架构214
9.4 湖仓中的AI216
9.5 关键要点217
9.6 本书总结218
9.7 参考219
|
內容試閱:
|
前言
2024年—人工智能之年!
就像2023年、2022年,以及再往前的几年一样。
在当今世界,人工智能无处不在。然而,人工智能需要数据—高质量的数据、易于发现的数据、人类和机器都能轻松使用的数据。
但是我们如何确保能够提供这些数据呢?
通过构建强大的数据平台,这些平台能够摄取、存储和维护数据,以便将其向所有用户开放。
如今,最先进的数据驱动型组织充分利用人工智能技术,并高度依赖数据资源。这些组织已经在现代数据平台上投入巨资,以支持其当前及未来的需求。为了满足从商业智能(BI)到人工智能(AI)的各种需求,现代数据平台必须建立在诸如湖仓(lakehouse)等先进的数据架构之上。
湖仓架构是本书的核心主题,它利用技术进步简化数据平台设计,使组织能够构建可扩展且开放的平台。近年来,湖仓架构逐渐流行,许多组织、产品供应商和数据从业者已开始使用这一架构来构建平台。现在正是探索、理解并评估湖仓架构的最佳时机,本书将帮助你开启这一旅程。
目标读者
本书面向所有处理海量数据以及肩负设计与实施现代数据平台重任的数据从业者。
本书是数据架构师的权威指南,可帮助他们在构建数据平台时深入理解关键考量因素、建立设计原则并做出关键的决策。对于数据工程师而言,本书将帮助他们掌握开放表格式、模式演进和时间旅行等核心概念,并在实现数据管道时灵活运用这些知识。此外,数据分析师和数据科学家等也将从中学习到湖仓数据管理、数据发现、访问控制和敏感数据处理等关键主题的精髓。
刚接触湖仓架构的数据从业者可以通过本书学习核心概念。资深数据架构师和高级数据工程师可以在设计阶段参考本书做出关键决策。同时,数据领导者在规划湖仓项目时也可以参考本书。
为什么撰写本书
几年前,当我开始参与一个湖仓项目时,开放表格式仍在不断演进,许多云服务尚未支持像开放表格式这样的湖仓技术。彼时,大多数数据从业者既不了解湖仓架构的优势,也不清楚它如何简化数据环境。市面上几乎找不到关于如何跨云平台使用不同技术设计和实施湖仓的全面指导材料。正是在这种背景下,我开始通过博客分享自己的学习心得和探索成果。当我有机会撰写本书时,我意识到是时候向更广泛的受众分享我的知识和见解了。
本书旨在以浅显易懂的语言阐释湖仓的设计与实施方法。我在书中列举了多个基于AWS、Azure、GCP、Databricks、Snowflake等平台的实例,详细讲解了各种数据管理和治理流程。衷心希望此书能为你构建数据平台提供切实有效的指导。
本书内容
本书共分为9章,每章涵盖设计和实施湖仓数据平台的不同方面。
第1章为你揭示湖仓架构的奥秘,详细阐述其关键概念、特性以及在数据平台实施中的显著优势。本章还将帮助你深入理解构建数据平台的核心理念,为你的数据之旅奠定坚实基础。
第2章深入探讨数据仓库和数据湖等传统架构,并详细阐述湖仓架构相较于这些模式的突出优势。对于初次接触数据仓库或数据湖概念的读者而言,本章是理解这些架构的绝佳入门指南。
第3章深入探讨湖仓架构的核心—存储层。本章将详细阐述Apache Iceberg、Apache Hudi和Delta Lake等开放表格式,并系统分析用于评估不同文件和表格式的关键考量因素,旨在帮助读者在具体的应用场景下做出正确的选择。
第4章聚焦数据目录,旨在帮助你全面掌握湖仓架构中的元数据管理流程。本章将概述AWS、Azure和GCP三大云平台的数据目录服务,同时介绍几款广受欢迎的第三方产品。
第5章深入探讨数据工程和数据消费活动中可供选择的各类计算引擎。本章详细阐述在选取计算引擎时影响决策的关键因素。
第6章深入探讨湖仓架构中的数据(与AI)治理和安全。此外,本章还会根据不同角色详细列举维护湖仓数据治理与安全所应执行的具体活动。
第7章从宏观视角全面展现如何融合存储、计算和数据目录以构建湖仓架构。本章对于在设计过程中需要做出关键选择的数据架构师而言尤为重要。本章末尾的一份问卷,可供你在与各方利益相关者沟通时作为参考工具。
在前几章探讨完理想的数据湖仓实现方案后,第8章为我们带来了现实检验,着重阐述在实际落地湖仓时可能面临的挑战。本章将对比理想情况与现实场景,详细说明如何应对这些挑战,以在现实环境中成功构建湖仓。
第9章,即最后一章,探讨湖仓的未来。本章将介绍一些新的文件格式、表格式、创新产品,以及实施湖仓平台的新方法。
O’Reilly在线学习平台(O’Reilly Online Learning)
40多年来,O’Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。
排版约定
本书使用以下排版约定:
斜体(Italic)
表示新的术语、URL、电子邮件地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单,以及段落中的程序元素,例如,变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。
该图示表示提示或建议。
该图示表示一般性说明。
该图示表示警告或注意。
如何联系我们
对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。
美国:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
针对本书中文版的勘误内容,请发送电子邮件至errata@oreilly.com.cn。
本书配套网站https://oreil.ly/lakehouse-architecture上列出了勘误表、示例以及其他信息。
关于书籍和课程的更多信息,请访问我们的网站https://oreilly.com。
我们在LinkedIn上的地址:https://linkedin.com/company/oreilly-media。
我们在YouTube上的地址:https://youtube.com/oreillymedia。
致谢
20年前,我偶然踏上了数据之旅。当初怀揣着成为动画师的梦想,却因缘际会成了一名ETL开发培训生。在过去的20年里,我不断学习、领悟并探索着数据的千姿百态。在这段旅程中,众多人士给予了我帮助、支持与鼓励,本书正是他们努力的结晶。
我衷心感谢所有给予我机会参与激动人心的数据与分析项目的同事、导师和客户。特别要向全球各地的数据社区、用户群体、内容创作者和书籍作者致以诚挚的谢意,感谢他们慷慨分享知识。正是他们的启发,激励我完成了本书的写作。
衷心感谢本书的技术审阅者Shivam Panicker、Sivakumar Ponnusamy和Ankush Gautam。三位独到的见解和宝贵的建议,不仅提升了本书的整体质量,更为读者带来了实实在在的附加价值。
终于梦想成真,撰写了一本关于我最喜欢的主题的书。感谢整个O’Reilly团队给予我这次千载难逢的机会。我想感谢:
我的策划编辑Andy Kwan,他信任我撰写本书,并在初期提案和审批过程中给予帮助。
我的开发编辑Jeff Bleiel,他在整本书的撰写过程中给予了我支持。如果没有他的编辑、建议和鼓励,本书是不可能完成的。
Nicole Taché,她对本书的文字编辑,使其在内容和形式上更加完善。
我的制作编辑Christopher Faucher,他协调并管理了整个制作流程,并为本书进行了最终的润色。
感谢我的家人—父母Ashok和Archana,以及姐姐Kirti—他们的无私奉献使我达到人生的这一阶段。我的妻子Vishakha一直是我坚实的支柱,而儿子Soham则是我最坚定的支持者。没有他们持续不断的鼓励,这本书就不可能问世。
最后,感谢你—本书的读者,感谢你投入时间阅读本书。
|
|