新書推薦:
《
场景供应链金融:将风口变成蓝海
》
售價:NT$
509.0
《
汗青堂丛书146·布鲁克王朝:一个英国家族在东南亚的百年统治
》
售價:NT$
418.0
《
人生是旷野啊
》
售價:NT$
332.0
《
甲骨文丛书· “安国之道”:英国的殖民情报系统及其在亚洲的扩张
》
售價:NT$
403.0
《
台北人(2024版)
》
售價:NT$
398.0
《
万千心理·成人情绪障碍跨诊断治疗的统一方案:应用实例
》
售價:NT$
602.0
《
让孩子更有力量:赋权型家庭教育指南
》
售價:NT$
305.0
《
白夜追凶(上下)
》
售價:NT$
500.0
|
內容簡介: |
本书主要介绍了Hadoop、HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop、Flume、Kafka的功能、特点,以及体系架构、数据类型、运行环境等内容,相关内容均配有项目实战内容,供读者深入了解应用。本书在每个项目开篇处均设有【职业素养】栏目,帮助学生深刻理解数据技术是未来技术的理念,充分认识实施国家大数据战略的重要意义,树立学好大数据技术、成为数据新人才的目标,培养学生服务社会的责任感和报效祖国的使命感。
|
關於作者: |
徐鲁辉,副教授,西京学院信息工程学院数据科学与大数据技术专业负责人、教研室主任,目前主讲课程包括《Python语言程序设计》《大数据技术原理及应用》等。主编教材《Hadoop大数据原理与应用》《Hadoop大数据原理与应用实验教程》等。先后参与国家自然科学基金项目1项、省厅级项目7项、校级科研项目4项,主持校级教改项目1项、参与校级教改项目2项;公开发表教研论文和学术论文8篇;获得软件著作权1项;主持获得省级教学成果奖一等奖1项、三等奖1项,参与获得校级教学成果奖特等奖1项。
|
目錄:
|
项目1部署全分布模式Hadoop 集群
1.1 初识Hadoop
1.2 Hadoop 生态系统
1.3 Hadoop 体系架构
1.4 Hadoop 部署要点
1.5 项目实训 部署全分布模式Hadoop 集群
1.6 习题与实践
项目2HDFS 实战
2.1 初识HDFS
2.2 HDFS 体系架构
2.3 HDFS 文件存储原理
2.4 HDFS 数据读写
2.5 HDFS 接口
2.6 项目实训 HDFS 实战
2.7 习题与实践
项目3MapReduce 编程
3.1 初识MapReduce
3.2 MapReduce 作业执行流程
3.3 MapReduce 入门案例WordCount 剖析
3.4 MapReduce 数据类型
3.5 MapReduce 接口
3.6 项目实训 MapReduce 编程
3.7 习题与实践
项目4YARN 实战
4.1 初识YARN
4.2 YARN 体系架构
4.3 YARN 工作流程
4.4 YARN 接口
4.5 项目实训 YARN 实战
4.6 习题与实践
项目5部署ZooKeeper 集群和ZooKeeper 实战
5.1 初识ZooKeeper
5.2 ZooKeeper 工作原理
5.3 ZooKeeper 数据模型
5.4 ZooKeeper 部署要点
5.5 ZooKeeper 接口
5.6 项目实训 部署ZooKeeper 集群和ZooKeeper 实战
5.7 习题与实践
项目6部署全分布模式HBase 集群和HBase 实战
6.1 初识HBase
6.2 HBase 数据模型
6.3 HBase 体系架构
6.4 HBase 部署要点
6.5 HBase 接口
6.6 项目实训 部署全分布模式HBase 集群和HBase 实战
6.7 习题与实践
项目7部署本地模式Hive 和Hive 实战
7.1 初识Hive
7.2 Hive 体系架构
7.3 Hive 数据类型
7.4 Hive 数据模型
7.5 Hive 函数
7.6 Hive 部署要点
7.7 Hive 接口
7.8 项目实训 部署本地模式Hive 和Hive 实战
7.9 习题与实践
项目8Sqoop 实战
8.1 初识Sqoop
8.2 Sqoop 体系架构
8.3 Sqoop 部署要点
8.4 Sqoop 接口
8.5 项目实训 部署Sqoop 和Sqoop 实战
8.6 习题与实践
项目9Flume 实战
9.1 初识Flume
9.2 Flume 体系架构
9.3 Flume 部署要点
9.4 Flume Shell 常用命令
9.5 项目实训 部署单机模式Flume 和Flume 实战
9.6 习题与实践
项目10Kafka 实战
10.1 初识Kafka
10.2 Kafka 体系架构
10.3 Kafka 部署要点
10.4 Kafka Shell 常用命令
10.5 项目实训 部署Kafka 集群和Kafka 实战
10.6 习题与实践
|
內容試閱:
|
项目1 部署全分布模式Hadoop 集群
项目导读
本项目简要介绍了Hadoop 的功能、起源和版本;详细介绍了Hadoop 的生态系统、体系架构、运行环境、运行模式及配置文件等基本原理和知识;最后在上述理论基础上引入项目实训,详细阐述了在Linux 操作系统下安装、配置、启动和验证全分布模式Hadoop 集群的实战过程。
学习目标
了解Hadoop 的功能、起源和版本。
理解Hadoop 的生态系统组成及各组件的作用。
理解Hadoop 的体系架构。
掌握Hadoop 的部署要点,包括运行环境、运行模式和主要配置文件等。
能够熟练地在Linux 环境下部署全分布模式Hadoop 集群。
职业素养
本项目通过引入Hadoop 的起源,让学生学习前辈们勇于攀登的科学精神、刻苦钻研的学习精神;通过部署Hadoop 集群的实训,解决部署过程中遇到的问题和困难,帮助学生养成锲而不舍、严谨求实的科学素养,培养学生善于发现问题、勇于解决问题的能力,提高学习内驱力,并内化为行为准则。
1.1初识Hadoop
Hadoop 是Apache 开源组织提供的一个分布式存储和计算的软件框架,它具有高可用、弹性可扩展的特点,非常适合处理海量数据。Apache Hadoop 于2008 年1 月成为Apache 顶级项目。
Hadoop 是由Apache Lucence 的创始人道格·卡丁(Doug Cutting)创建的,Lucence是一个应用广泛的文本搜索系统库。Hadoop 起源于开源的网络搜索引擎Apache Nutch,它本身是Lucence 项目的一部分。
第一代Hadoop(即Hadoop 1.0)的核心由分布式文件系统HDFS 和分布式计算框架MapReduce 组成。后来,为了克服Hadoop1.0 中HDFS 和MapReduce 的架构设计和应用性能方面的各种问题,设计者提出了第二代Hadoop(即Hadoop 2.0),Hadoop 2.0的核心包括分布式文件系统HDFS、统一资源管理和调度框架YARN、分布式计算框架MapReduce。HDFS 是谷歌文件系统GFS 的开源实现,是面向普通硬件环境的分布式文件系统,适用于大数据场景的数据存储,提供了高可靠、高扩展、高吞吐率的数据存储服务。MapReduce 是谷歌MapReduce 的开源实现,是一种简化的分布式应用程序开发的编程模型,允许开发人员在不了解分布式系统底层细节和缺少并行应用开发经验的情况下,能快速轻松地编写出分布式并行程序,并将其运行于计算机集群上,完成对大规模数据集的存储和计算。YARN 是将MapReduce 1.0 中JobTracker 的资源管理功能单独剥离出来而形成,它是一个纯粹的资源管理和调度框架,解决了Hadoop 1.0 中只能运行MapReduce 框架的限制,可在YARN 上运行各种不同类型的计算框架,包括MapReduce、Spark、Storm 等。
|
|