新書推薦:
《
悬壶杂记:医林旧事
》
售價:NT$
240.0
《
谁之罪?(汉译世界文学5)
》
售價:NT$
240.0
《
民国词社沤社研究
》
售價:NT$
640.0
《
帕纳索传来的消息(文艺复兴译丛)
》
售價:NT$
495.0
《
DK威士忌大百科
》
售價:NT$
1340.0
《
小白学编织
》
售價:NT$
299.0
《
Android游戏开发从入门到精通 第2版 王玉芹
》
售價:NT$
495.0
《
西班牙内战:秩序崩溃与激荡的世界格局:1936-1939
》
售價:NT$
990.0
|
編輯推薦: |
本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术、算法和应用场景,帮助读者培养大数据的技术选型和系统架构能力。
|
內容簡介: |
本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。
|
關於作者: |
赵勇,清华苏研院大数据处理中心副主任,聚云浩海(苏州)信息科技有限公司技术总监,现任中国计算机学会大数据专家委员会委员,是大数据专委会首批委员。 美国芝加哥大学博士,师从世界网格之父Ian Foster教授,其间在美国IBM研发中心、美国Argonne国家实验室实习。出版畅销书
|
目錄:
|
第1章 大数据技术概述1
1.1 大数据的概念1
1.2 大数据的行业价值4
1.3 大数据问题的爆发9
1.4 大数据处理流程12
1.5 大数据技术13
1.5.1 基础架构支持14
1.5.2 数据采集14
1.5.3 数据存储15
1.5.4 数据计算16
1.5.5 展现与交互18
1.6 练习题19
参考文献19
第2章 大数据基础支撑——数据中心及云计算20
2.1 数据中心概述20
2.1.1 云计算时代数据中心面临的问题21
2.1.2 新一代数据中心关键技术22
2.1.3 业界发展动态24
2.1.4 小结25
2.2 云计算简介25
2.2.1 云计算定义26
2.2.2 云计算主要特征27
2.2.3 Web服务、网格和云计算28
2.2.4 云计算应用分类29
2.2.5 小结31
2.3 大数据与云计算的关系32
2.3.1 大数据是信息技术发展的必然阶段33
2.3.2 云计算等新兴信息技术正在真正地落地和实施34
2.3.3 云计算等新兴技术是解决大数据问题的核心关键34
2.4 云资源调度与管理35
2.4.1 云资源管理36
2.4.2 云资源调度策略38
2.4.3 云计算数据中心负载均衡调度40
2.5 开源云管理平台OpenStack44
2.5.1 OpenStack的构成45
2.5.2 OpenStack各组件之间的关系46
2.5.3 OpenStack的逻辑架构47
2.5.4 小结49
2.6 软件定义网络49
2.6.1 起源与发展50
2.6.2 OpenFlow标准和规范50
2.6.3 OpenFlow的应用53
2.7 虚拟机与容器55
2.7.1 VM虚拟化与Container虚拟化55
2.7.2 Docker55
2.8 练习题57
参考文献57
第3章 云计算先行者——Google的三驾马车59
3.1 Google的三驾马车59
3.1.1 GFS——一个可扩展的分布式文件系统59
3.1.2 MapReduce——一种并行计算的编程模型64
3.1.3 BigTable——一个分布式数据存储系统69
3.2 Google新“三驾马车”77
3.2.1 Caffeine——基于Percolator的搜索索引系统77
3.2.2 Pregel——高效的分布式图计算的计算框架80
3.2.3 Dremel——大规模数据的交互式数据分析系统85
3.3 练习题89
参考文献89
第4章 云存储系统91
4.1 云存储的基本概念91
4.1.1 云存储结构模型91
4.1.2 云存储与传统存储系统的区别94
4.2 云存储关键技术95
4.2.1 存储虚拟化技术95
4.2.2 分布式存储技术97
4.3 云存储系统分类98
4.3.1 分布式文件存储99
4.3.2 分布式块存储105
4.3.3 分布式对象存储109
4.3.4 统一存储117
4.4 其他相关技术124
4.5 练习题127
参考文献127
第5章 数据采集系统129
5.1 Flume130
5.1.1 Flume架构130
5.1.2 Flume核心组件133
5.1.3 Flume环境搭建与部署134
5.2 Scribe139
5.2.1 Scribe架构139
5.2.2 Scribe中的Store140
5.2.3 Scribe环境搭建与部署141
5.3 Chukwa144
5.3.1 Chukwa的设计目标144
5.3.2 Chukwa架构145
5.3.3 Chukwa 环境搭建与部署147
5.4 Kafka150
5.4.1 Kafka架构150
5.4.2 Kafka存储152
5.4.3 Kafka的特点152
5.4.4 Kafka环境搭建与部署154
5.5 练习题155
参考文献155
第6章 Hadoop与MapReduce156
6.1 Hadoop平台156
6.1.1 Hadoop概述156
6.1.2 Hadoop的发展简史157
6.1.3 Hadoop的功能和作用158
6.1.4 HDFS159
6.1.5 HBase162
6.2 MapReduce171
6.2.1 第一代MapReduce(MRv1)172
6.2.2 MapReduce 2.0——Yarn180
6.3 Hadoop相关生态系统184
6.3.1 交互式数据查询分析184
6.3.2 数据收集、转换工具187
6.3.3 机器学习工具188
6.3.4 集群管理与监控188
6.3.5 其他工具189
6.4 Hadoop应用案例191
6.5 练习题192
参考文献192
第7章 Spark——大数据统一计算平台193
7.1 Spark简介193
7.1.1 Spark193
7.1.2 BDAS195
7.2 RDD197
7.2.1 RDD基本概念197
7.2.2 RDD示例199
7.2.3 RDD与分布式共享内存200
7.3 Spark SQL201
7.4 MLlib203
7.5 GraphX206
7.6 Spark Streaming206
7.6.1 基本概念207
7.6.2 编程模型208
7.7 Spark的安装210
7.7.1 单机运行Spark210
7.7.2 使用Spark Shell与Spark交互213
7.8 Shark、Impala、Hive对比214
7.9 练习题216
参考文献216
第8章 Storm流计算系统218
8.1 流计算系统218
8.1.1 流计算系统的特点218
8.1.2 流计算处理基本流程219
8.2 Storm流计算框架220
8.2.1 Storm简介220
8.2.2 Storm关键术语221
8.2.3 Storm架构设计223
8.3 Storm编程实例225
8.4 Storm应用228
8.4.1 Storm应用场景228
8.4.2 Storm应用实例228
8.5 其他流计算框架229
8.6 练习题231
参考文献231
第9章 SQL、NoSQL与NewSQL232
9.1 传统SQL数据库232
9.1.1 关系模型232
9.1.2 关系型数据库的优点233
9.1.3 关系型数据库面临的问题234
9.2 NoSQL234
9.2.1 NoSQL与大数据235
9.2.2 NoSQL理论基础235
9.2.3 分布式模型238
9.2.4 NoSQL数据库分类241
9.3 NewSQL255
9.3.1 系统分类255
9.3.2 Google Spanner256
9.3.3 MemSQL258
9.3.4 VoltDB260
9.4 练习题263
参考文献263
第10章 大数据与数据挖掘264
10.1 数据挖掘的主要功能和常用算法264
10.1.1 数据挖掘的主要功能264
10.1.2 常用算法265
10.2 大数据时代的数据挖掘280
10.2.1 传统数据挖掘解决方案280
10.2.2 分布式数据挖掘解决方案280
10.3 数据挖掘相关工具282
10.3.1 Mahout282
10.3.2 语言工具——Python288
10.4 数据挖掘与R语言289
10.4.1 R语言简介289
10.4.2 R语言在数据挖掘上的应用290
10.5 练习题294
参考文献294
第11章 深度学习298
11.1 深度学习介绍299
11.1.1 深度学习的概念299
11.1.2 深度学习的结构299
11.1.3 从机器学习到深度学习301
11.2 深度学习基本方法302
11.2.1 自动编码器302
11.2.2 稀疏编码304
11.3 深度学习模型305
11.3.1 深度置信网络306
11.3.2 卷积神经网络308
11.4 深度学习的训练加速310
11.4.1 GPU加速310
11.4.2 数据并行311
11.4.3 模型并行312
11.4.4 计算集群313
11.5 深度学习应用313
11.5.1 Google314
11.5.2 百度314
11.5.3 腾讯Mariana315
11.6 练习题316
参考文献316
第12章 电子商务与社会化网络大数据分析318
12.1 推荐系统简介318
12.1.1 推荐系统的评判标准319
12.1.2 推荐系统的分类319
12.1.3 在线推荐系统常用算法介绍320
12.1.4 相关算法知识323
12.2 计算广告327
12.2.1 计算广告简介327
12.2.2 计算广告发展阶段327
12.2.3 计算广告相关算法330
12.2.4 计算广告与大数据332
12.2.5 大数据在计算广告中的应用案例333
12
|
|