新書推薦:
《
光焰摇曳——变革与守望的梁启超
》
售價:NT$
440.0
《
发展与制约:明清江南生产力研究(壹卷李伯重文集:江南水乡,经济兴衰,一本书带你穿越历史的迷雾)
》
售價:NT$
480.0
《
走进史学(壹卷李伯重文集:李伯重先生的学术印记与时代见证)
》
售價:NT$
360.0
《
故宫书画集(精编盒装)版传统文化收藏鉴赏艺术书法人物花鸟扇面雕刻探秘故宫书画简体中文注释解析
》
售價:NT$
1490.0
《
《往事和近事(增订本)》(著名学者葛剑雄教授代表作,新增修订、全新推出。跨越三十多年的写作,多角度讲述中华文明)
》
售價:NT$
349.0
《
往事和近事:历史地理学泰斗、百家讲坛主讲葛剑雄经典文集
》
售價:NT$
349.0
《
父母的关键认知
》
售價:NT$
225.0
《
三国志(插图珍藏本)(全六册)
》
售價:NT$
3190.0
|
內容簡介: |
本书介绍了如何使用 Python 实现企业级的大数据全栈式开发、设计和编程工作,涉及的知识点包括数据架构整体设计、数据源和数据采集、数据同步、消息队列、关系数据库、NoSQL 数据库、批处理、流处理、图计算、人工智能、数据产品开发。 本书既深入浅出地介绍了不同技术组件的基本原理,又通过详细对比介绍了如何根据不同场景选择最佳实践技术方案,并通过代码实操帮助读者快速掌握常用技术的应用过程,最后通过项目案例介绍了如何将所学知识应用于实际业务场景中。
|
關於作者: |
宋天龙,触脉咨询副总裁、合伙人。负责创新型业务的架构和方案设计、产品与技术研发、数据团队建设及管理。张伟松,现就职于埃森哲,担任数据架构师职位。在大数据、数据分析、云计算等领域有多年的实践经验,并拥有阿里云、谷歌云等多项专业认证。
|
目錄:
|
第1章 数据架构整体设计11.1 数据架构概述11.2 数据架构设计的8个考虑因素11.2.1 适用性21.2.2 延伸性21.2.3 安全性31.2.4 易用性31.2.5 高性能41.2.6 成本限制51.2.7 应用需求51.2.8 运维管理51.3 数据架构设计的4个核心内容61.3.1 物理架构61.3.2 逻辑架构101.3.3 技术架构131.3.4 数据流架构151.4 常见的6种数据架构171.4.1 简单数据库支撑的数据架构171.4.2 传统数仓支撑的数据架构181.4.3 传统大数据架构201.4.4 流式大数据架构221.4.5 流批一体大数据架构231.4.6 存算分离的流批一体大数据架构251.5 案例:某B2B企业的数据架构选型261.5.1 企业背景261.5.2 应用预期271.5.3 数据现状271.5.4 选型分析271.5.5 选型方案281.5.6 未来拓展291.6 常见问题29第2章 数据源和数据采集322.1 数据源概述322.1.1 常见的3种数据类型322.1.2 常见的8种数据源332.2 企业内部流量数据采集技术选型332.2.1 企业内部流量数据采集常用的技术342.2.2 内部流量数据采集技术选型的因素372.2.3 内部流量数据采集技术选型总结392.3 企业外部互联网数据采集技术选型402.3.1 外部互联网数据采集常用的4种技术402.3.2 外部互联网数据采集技术选型的5个因素442.3.3 外部互联网数据采集技术选型总结442.4 使用Requests+BeautifulSoup抓取数据并写入Sqlite452.4.1 安装配置452.4.2 基本示例462.4.3 高级用法472.4.4 技术要点532.5 使用Scrapy+XPath抓取数据并写入MongoDB542.5.1 安装配置542.5.2 基本示例552.5.3 高级用法622.5.4 技术要点692.6 案例:某B2C电商企业的数据源结构692.6.1 企业背景692.6.2 业务系统692.6.3 数据源结构712.7 常见问题71第3章 数据同步743.1 数据同步概述743.1.1 数据同步的3种模式743.1.2 数据同步的5种预处理技术753.2 数据同步的技术选型763.2.1 数据同步的7种技术763.2.2 数据同步选型的9个因素803.2.3 数据同步技术选型总结823.3 Python操作DataX实现数据同步833.3.1 安装配置843.3.2 基本示例843.3.3 高级用法893.3.4 技术要点953.4 Python操作第三方库实现Google Analytics数据同步963.4.1 安装配置963.4.2 基本示例1003.4.3 高级用法1043.4.4 技术要点1113.5 案例:某O2O企业离线数据同步案例1123.6 常见问题114第4章 消息队列1174.1 消息队列概述1174.1.1 消息队列的核心概念1174.1.2 选择消息队列的3种技术应用场景1184.2 消息队列的技术选型1194.2.1 常见的6种消息队列技术1194.2.2 消息队列技术选型的4个维度1214.2.3 消息队列技术选型总结1234.3 Python操作RabbitMQ处理消息队列服务1244.3.1 安装配置1244.3.2 基本示例1254.3.3 高级用法1294.3.4 技术要点1314.4 Python操作Kafka处理消息队列服务1324.4.1 安装配置1324.4.2 基本示例1354.4.3 高级用法1384.4.4 技术要点1394.5 Python操作ZeroMQ处理消息队列服务1404.5.1 安装配置1404.5.2 基本示例1404.5.3 高级用法1464.5.4 技术要点1504.6 案例:利用消息队列采集电商用户行为数据1514.6.1 案例背景1514.6.2 主要技术1514.6.3 案例过程1524.6.4 案例小结1554.7 常见问题156第5章 关系数据库1585.1 关系数据库概述1585.1.1 关系数据库的相关概念1585.1.2 使用关系数据库的3种场景1585.2 关系数据库的技术选型1595.2.1 常见的5种技术选型1595.2.2 关系数据库选型的3个维度1615.2.3 关系数据库技术选型总结1625.3 使用基于DB-API 2.0规范的PyMySQL操作MySQL数据库1625.3.1 安装配置1635.3.2 基本示例1635.3.3 高级用法1655.3.4 技术要点1695.4 使用基于ORM技术的SQLAlchemy操作PostgreSQL数据库1705.4.1 安装配置1705.4.2 基本示例1715.4.3 高级用法1755.4.4 技术要点1805.5 案例:某传统零售企业基于关系数据库的数据集市1815.5.1 企业背景1815.5.2 企业为什么选择SQL Server作为数据集市1815.5.3 数据字典1815.5.4 应用场景1835.6 常见问题184第6章 NoSQL数据库1866.1 NoSQL数据库概述1866.1.1 NoSQL数据库的相关概念1866.1.2 使用NoSQL数据库的5种场景1876.2 不同类型NoSQL数据库的技术选型1886.2.1 常见的3种键值数据库技术选型1886.2.2 常见的3种文档型数据库的技术选型1886.2.3 常见的两种列式存储数据库的技术选型1906.2.4 常见的两种图数据库的技术选型1906.2.5 NoSQL数据库技术选型的五大维度1916.2.6 NoSQL数据库技术选型总结1926.3 使用Python操作HBase1936.3.1 安装配置1936.3.2 基本示例1956.3.3 HBase应用过滤器进行复杂查询1996.3.4 批量操作2016.3.5 技术要点2016.4 使用Python操作Redis2026.4.1 安装配置2026.4.2 基本示例2036.4.3 使用HyperLogLog实现独立IP计数器2106.4.4 Redis数据持久化2126.4.5 技术要点2136.5 使用Python操作ES2136.5.1 安装配置2136.5.2 基本示例2156.5.3 批量加载文档到ES+使用Kibana进行分析2206.5.4 技术要点2286.6 使用Python操作Neo4j2306.6.1 安装配置2306.6.2 基本示例2316.6.3 APOC2346.6.4 技术要点2366.7 使用Python操作MongoDB2376.7.1 安装配置2376.7.2 基本示例2376.7.3 文档聚合与管道2396.7.4 技术要点2426.8 案例:某菜谱网站基于ES+Redis构建智能搜索推荐引擎2436.8.1 案例背景2436.8.2 为什么选择ES+Redis2436.8.3 系统架构2446.8.4 相关要点2456.8.5 案例延伸2466.9 常见问题246第7章 批处理2477.1 批处理概述2477.1.1 批处理的基本特征2477.1.2 批处理的3类应用场景2487.2 批处理的技术选型2487.2.1 批处理的5种技术2487.2.2 批处理选型的8个技术因素2507.2.3 批处理选型总结2517.3 Python使用PyHive操作HQL进行批处理2527.3.1 安装配置2527.3.2 基本示例2527.3.3 数据批量加载及处理2567.3.4 Hive函数2597.3.5 窗口2687.3.6 技术要点2727.4 PySpark操作DataFrame进行批处理2737.4.1 安装配置2737.4.2 基本示例2737.4.3 常用Spark DataFrame操作示例2777.4.4 使用Spark MLlib + DataFrame进行特征工程2817.4.5 技术要点2827.5 案例:某B2C企业基于PySpark实现用户画像标签的构建2837.6 常见问题285第8章 流处理2888.1 流处理概述2888.1.1 流处理的核心概念2888.1.2 流处理的3个特征2898.1.3 流处理的适用/不适用场景2898.2 流处理的依赖条件2908.2.1 流数据2908.2.2 流式应用2918.3 流处理的技术选型2918.3.1 流处理的3种技术2918.3.2 流处理选型的7个技术因素2958.3.3 流处理技术选型总结2958.4 Python操作Structured Streaming实现流处理2968.4.1 安装配置2968.4.2 基本示例2988.4.3 高级用法3228.4.4 技术要点3288.5 案例:某B2C企业基于Structured Streaming实现实时话题热榜统计3308.6 常见问题331第9章 图计算3339.1 图计算概述3339.1.1 图计算的特征3339.1.2 图计算的算法和应用场景3349.2 图计算引擎的技术选型3359.2.1 图计算的8种技术3359.2.2 图计算选型的8个技术因素3389.2.3 图计算选型总结3399.3 Python操作GraphFrames实现图计算3419.3.1 安装配置3419.3.2 构建图3419.3.3 视图分析3429.3.4 子顶点、子边和子图过滤3449.3.5 度分析3459.3.6 模体查找3469.3.7 图持久化3489.3.8 广度优先搜索3489.3.9 最短路径搜索3499.3.10 连通分量和强连通分量3519.3.11 标签传播3519.3.12 通用网页排名和个性化网页排名3529.3.13 三角形计数3549.3.14 技术要点3559.4 案例:基于用户社交行为的分析3559.5 常见问题359第10章 人工智能36110.1 人工智能概述36110.1.1 人工智能的4种应用场景36110.1.2 人工智能的12类常用算法介绍36210.2 人工智能的技术选型36610.2.1 常见的3种技术框架36610.2.2 人工智能选型的6个因素36810.2.3 人工智能选型总结36910.3 PySpark ML的应用实践37010.3.1 准备数据37110.3.2 特征工程和处理37310.3.3 核心算法应用37510.3.4 Pipeline式应用38110.3.5 训练和预测拆分及持久化操作38410.3.6 超参数优化的
|
|