新書推薦:
《
中国年画 1950-1990 THE NEW CHINA: NEW YEAR PICTURE 英文版
》
售價:NT$
1100.0
《
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
》
售價:NT$
435.0
《
画楼:《北洋画报》忆旧(年轮丛书)
》
售價:NT$
1573.0
《
大国脊梁:漫画版
》
售價:NT$
374.0
《
跟着渤海小吏读历史:大唐气象(全三册)
》
售價:NT$
989.0
《
心智的构建:大脑如何创造我们的精神世界
》
售價:NT$
352.0
《
美国小史(揭秘“美国何以成为美国”,理解美国的经典入门读物)
》
售價:NT$
352.0
《
中国古代北方民族史丛书——东胡史
》
售價:NT$
576.0
|
內容簡介: |
本书站在大数据学科发展前沿和大数据产业发展方向上,结合学术界和工业界的研究成果和实践经验,传播大数据领域的研究动态和先进技术。
全书通过“基础、进阶、实战、应用”四个篇章,既深入浅出地介绍大数据的基本概念,又面面俱到地剖析了大数据整体解决方案所涉及的具体技术细节。
本书既适合初学者作为基础学习资料,又适合科研人员作为理论研究教程,更适合从业人员作为技术参考书目。
|
關於作者: |
陈敏,男,1980年12月出生,教授,博士生导师,华中科技大学嵌入与普适计算实验室主任,23岁获华南理工大学通信与信息系统博士学位。发表学术论文180余篇,其中包括SCI论文90余篇,IEEEACM期刊论文40余篇;相关论文在美国科技信息索引SCI 数据库中他引总数500次,Google Scholar中引用总数超过4250次,单篇论文引用超高520次,其中十篇第一作者论著引用次数超过1800次,H-index = 29;曾获第五届国际异构网服务质量大会QShine 2008最佳论文奖和IEEE ICC 2012最佳论文奖。2012年入选国家第二批“青年千人计划”,长期从事普适计算、移动通信、多媒体通信、传感网、云计算、远程医疗等领域的研究工作,担任Information Science等7个国际SCI学术期刊的副编辑或编委,以及IEEE Wireless Communications及IEEE Network等多个著名国际杂志及期刊的特邀编辑。任IEEE CIT 2012,TRIDENTCOM 2014,Mobimedia 2015等国际学术大会副总主席,任Cloudcomp 20142015大会指导委员会成员。陈敏教授具有多年海外工作经验,曾在韩国国立汉城大学、加拿大不列颠哥伦比亚大学从事博士后研究,曾任韩国首尔大学助理教授。1999年入选国际电子电气工程师学会(IEEE)高级会员,2014年担任IEEE计算机协会大数据技术委员会主席。入选爱思唯尔2014年中国高被引学者。
|
目錄:
|
目录
1大数据背景8
1.1大数据时代的到来8
1.2大数据定义及特征4
1.3大数据价值6
1.4大数据备受关注7
1.5大数据带来的挑战8
2大数据基础10
2.1云计算10
2.1.1云计算概述10
2.1.2云计算与大数据的联系12
2.2物联网13
2.2.1物联网概述13
2.2.2物联网与大数据14
2.3数据中心14
2.3.1数据中心概述14
2.3.2数据中心与大数据15
3大数据的生成和采集19
3.1大数据生成19
3.1.1企业内部数据19
3.1.2物联网数据20
3.1.3互联网数据21
3.1.4生物医疗数据21
3.1.5其他科学数据22
3.2大数据采集22
3.2.1数据收集23
3.2.2数据传输25
3.2.3数据预处理26
4大数据存储28
4.1海量存储系统28
4.2分布式存储系统29
4.3大数据存储机制31
4.3.1数据库技术32
4.3.2数据库编程模型36
5大数据分析39
5.1传统数据分析方法39
5.2大数据分析方法40
5.3大数据分析架构42
5.4大数据挖掘和分析软件43
大数据浪潮——大数据整体解决方案及关键技术探索目录6大数据整体解决方案47
6.1大数据解决方案方法论47
6.1.1大数据解决方案参考模型48
6.1.2大数据解决方案分类49
6.2大数据硬件平台50
6.2.1可扩展性设计51
6.2.2可定制性设计52
6.3大数据软件系统55
6.3.1大数据处理系统核心模块55
6.3.2发行版增强功能、企业应用优化和增值服务56
6.3.3基于内存计算的大数据处理系统60
6.4大数据典型处理流程63
6.5大数据一体化解决方案比较67
7分布式文件系统HDFS72
7.1Hadoop IO操作72
7.1.1IO操作中的数据检查73
7.1.2数据的压缩76
7.1.3数据的IO中序列化操作78
7.2Hadoop文件系统87
7.3HDFS体系结构89
7.3.1HDFS的特点和局限89
7.3.2HDFS相关概念90
7.3.3HDFS架构91
7.4 HDFS文件结构94
7.4.1NameNode的文件结构94
7.4.2编辑日志edit log及文件系统映像filesystem image95
7.4.3Secondary NameNode的目录结构96
7.4.4DataNode的目录结构97
7.5HDFS读写数据流98
7.5.1文件的读取98
7.5.2文件的写入99
7.5.3一致性模型101
7.6HDFS命令详解102
7.6.1通过distcp进行并行复制102
7.6.2HDFS平衡103
7.6.3其他命令103
8并行编程模型MapReduce108
8.1MapReduce体系结构108
8.1.1MapReduce基本模型108
8.1.2MapReduce作业执行流程108
8.2MapReduce关键流程详解110
8.2.1partiton过程110
8.2.2combine过程111
8.2.3shuffle过程112
8.3MapReduce高级应用114
8.3.1二次排序114
8.3.2全排序119
8.3.3分布式缓存121
8.3.4MapReduce 小文件处理与文件压缩123
8.3.5MapReduce负载均衡125
9NoSQL数据库HBase128
9.1HBase体系结构128
9.2RowKey的设计与数据访问132
9.3过滤器135
9.3.1比较过滤器137
9.3.2专用过滤器137
9.3.3附加过滤器139
9.3.4FilterList139
9.3.5自定义过滤器140
9.4HBase多维数据访问142
9.4.1通过Filter实现142
9.4.2通过设计RowKey实现143
9.5协处理器Coprocessor143
9.5.1Coprocessor类144
9.5.2协处理器的加载144
9.5.3观察者146
9.5.4终端150
9.6二级索引154
9.6.1全局索引(global index)154
9.6.2本地索引(local index)155
10交互式查询语言Hive157
10.1Hive体系结构157
10.1.1Hive客户端159
10.1.2Metastore159
10.2Hive数据类型160
10.2.1基本类型161
10.2.2复杂类型161
10.3Hive存储方式和压缩类型162
10.3.1托管表和外部表162
10.3.2存储方式163
10.4Hive关键技术164
10.4.1HiveQL简介164
10.4.2Hive表的创建165
10.4.3Hive表的数据加载166
10.4.4Hive表的查询167
10.4.5Hive表的更改170
10.4.6Hive表的删除171
10.4.7Hive表的分区171
10.4.8Hive表的分桶173
10.4.9用户定义函数174
10.5Hive优化技术175
10.5.1Join优化175
10.5.2数据倾斜优化176
10.5.3Map和Reduce个数控制177
11资源管理和调度框架——YARN180
11.1MRv1架构面临的问题180
11.2YARN架构181
11.2.1YARN整体架构181
11.2.2RM组件的作用183
11.2.3AM组件的作用184
11.2.4NM组件的作用185
11.2.5运行在YARN上的计算框架186
11.2.6在YARN上定制计算框架187
11.3YARN管理后台简介188
11.4YARN资源调度192
12内存计算引擎Spark197
12.1Spark简介197
12.2Spark整体架构198
12.3Spark核心概念199
12.3.1弹性分布式数据集199
12.3.2RDD模型的优点200
12.3.3Spark DAG201
12.4Spark编程模型202
12.4.1Spark初始化203
12.4.2RDDs203
12.4.3Shared Variables205
12.5Spark相关组件207
12.6Spark应用实例208
12.6.1InMemory Analytics208
12.6.2Traffic Modeling209
12.6.3Twitter Spam Classification 209
13大数据应用213
13.1大数据应用演化213
13.2大数据分析的关键领域214
13.2.1结构化数据分析214
13.2.2文本分析215
13.2.3Web分析216
13.2.4多媒体分析217
13.2.5网络分析218
13.2.6移动分析219
14大数据案例分析221
14.1物联网大数据221
14.1.1物联网大数据的表示222
14.1.2物联网大数据的预处理223
14.1.3物联网大数据的快速处理224
14.1.4物联网大数据的并行分析226
14.1.5物联网大数据处理平台的搭建227
14.2其他大数据的典型应用231
14.2.1企业级应用231
14.2.2社交网络大数据232
14.2.3医疗健康234
14.2.4群智感知235
14.2.5智能电网235
15总结237
15.1大数据的研究热点及研究方向237
15.1.1基础理论研究237
15.1.2关键技术研究238
15.1.3应用实践研究238
15.1.4数据安全研究239
15.2展望240
参考文献243
|
|