新書推薦:

《
温病类证论治
》
售價:NT$
1163.0

《
海上墨林:大师眼中的海派画家
》
售價:NT$
449.0

《
赌注:海难、叛变和谋杀的故事
》
售價:NT$
352.0

《
工业机器人自动化生产线集成与运维 杨铨 黄洁
》
售價:NT$
356.0

《
战争与史学家:李维历史书写中的汉尼拔战争
》
售價:NT$
296.0

《
低卡料理,30天神奇变瘦
》
售價:NT$
305.0

《
古韵新声
》
售價:NT$
8568.0

《
常见中药炮制品在方剂中的选用
》
售價:NT$
454.0
|
編輯推薦: |
1.实际项目开发与理论教学紧密结合:为了使读者能快速地掌握相关技术并按实际项目开发要求熟练运用,本书在各个项目中重要知识点后面都根据实际项目设计相关实训,最后一个项目引入独立的综合案例进行有独立的学习与训练。 2.内容充实、实用:本书的训练紧紧围绕着实际项目进行,各项目完成技术准备后,为完成系统中功能设计和实现建立良好的环境,最后为完整的系统设计和实现准备做出指导,并完成详细工作。 3.产教融合,校企合作:在教材编写过程中,积极开展校企合作,加入企业真实案例。 4.资源丰富:本书提供微课、配套习题集、上机实验、多媒体课件、实验操作步骤等,同时实验操作内容提供操作视频。
|
內容簡介: |
本书较为全面地介绍了Hadoop的应用与开发。全书共11个项目,主要介绍了大数据的基本概念及应用领域、Hadoop的产生及其生态系统、搭建Hadoop集群、HDFS、MapReduce分布式计算、ZooKeeper、Hive数据仓库、HBase实战、Flume实战、Kafka实战等,还提供了1个综合案例分析,通过练习和操作实践,帮助读者巩固所学内容。 本书可以作为高等院校大数据技术专业“Hadoop大数据开发”课程的教材,也可以作为Hadoop大数据开发培训的教材,也适合大数据开发人员、大数据平台运维人员和广大大数据技术爱好者自学使用。
|
關於作者: |
薛明志,博士,教授,商丘职业技术学院党委书记、院长。河南省“三五人才工程”第三层次科研人员,度河南省教育厅学术技术带头人,曾获商丘市首届青年科技创新杰出奖,河南省高校优秀青年骨干教师。
|
目錄:
|
目录 走进大数据世界 1 项目导读 1 项目目标 1 课前学习 1 任务一 认识大数据 2 一、大数据产生的时代背景 2 二、大数据概念 3 三、大数据特点 4 四、大数据的应用领域 5 五、大数据的发展历程和发展趋势 7 任务二 认识大数据计算模式 9 一、批处理计算 9 二、流计算 10 三、图计算 10 四、查询分析计算 10 任务三 认识大数据处理流程 11 一、大数据采集 11 二、大数据预处理 11 三、大数据存储 12 四、大数据分析处理 12 五、大数据可视化 12 任务四 认识大数据信息安全 13 项目小结 14 项目考核 15
走进Hadoop世界 16
项目导读 16 项目目标 16 课前学习 16 任务一 认识Hadoop 17 一、Hadoop简介 17 二、Hadoop的产生与发展 17 三、Hadoop的特性 18 四、Hadoop版本变迁 18 五、Hadoop应用现状 20 任务二 认识Hadoop生态系统 21 任务三 认识Spark 23 项目小结 25 项目考核 25
搭建Hadoop集群 26
项目导读 26 项目目标 26 课前学习 26 任务一 安装CentOS 7 27 一、创建虚拟机 27 二、安装CentOS 7 29 三、克隆虚拟机 35 任务二 配置虚拟机集群环境 37 一、设置静态IP地址 37 二、修改主机名 40 三、绑定主机名和IP地址 41 四、配置SSH免密登录 43 任务三 搭建Hadoop分布式集群 44 一、安装JDK 44 二、安装与配置Hadoop 47 三、启动Hadoop分布式集群 51 项目实训 55 项目小结 55 项目考核 55
HDFS 57
项目导读 57 项目目标 57 课前学习 57 任务一 认识分布式文件系统 58 任务二 认识HDFS 58 一、HDFS简介 59 二、HDFS的特点 59 三、块 60 四、名称节点和数据节点 61 五、第二名称节点 62 任务三 认识HDFS运行机制 64 一、副本机制 64 二、高可用集群机制 64 三、心跳机制 66 四、数据回收机制 66 五、集群安全模式 66 任务四 HDFS工作流程 67 一、启动流程 67 二、读数据流程 68 三、写数据流程 68 任务五 HDFS基本操作 69 一、HDFS命令行操作 69 二、HDFS API操作 71 项目实训 74 项目小结 75 项目考核 75
MapReduce分布式 计算 76
项目导读 76 项目目标 76 课前学习 76 任务一 MapReduce概述 77 一、分布式并行计算 77 二、MapReduce简介 78 三、MapReduce的特点 79 任务二 MapReduce框架原理 80 一、MapReduce工作流程 80 二、数据分片 82 三、Map阶段 83 四、Shuffle阶段 83 五、Reduce阶段 84 任务三 Hadoop序列化 84 任务四 单词统计分析 86 一、MapReduce编程规范 86 二、设计思路 86 三、设计过程 87 四、代码实现 88 任务五 YARN资源调度管理框架 92 一、YARN基本架构 92 二、YARN的配置 93 三、将MapReduce程序提交给 YARN运行 95 任务六 案例分析 99 一、数据清洗案例 99 二、使用MapReduce求TOPN 103 三、MapReduce开发总结 108 任务七 MapReduce性能调优 109 一、MapReduce性能 109 二、MapReduce优化方法 110 三、常用的调优参数 111 项目实训 113 项目小结 113 项目考核 114
ZooKeeper 115
项目导读 115 项目目标 115 课前学习 115 任务一 ZooKeeper概述 116 一、ZooKeeper简介 116 二、ZooKeeper工作机制 116 任务二 ZooKeeper的安装与配置 117 任务三 搭建高可用集群 120 项目实训 126 项目小结 126 项目考核 126
Hive数据仓库 127
项目导读 127 项目目标 127 课前学习 127 任务一 Hive概述 128 一、Hive应用场景 128 二、数据仓库 128 三、Hive简介 129 任务二 Hive的安装与配置 131 一、MySQL的安装 131 二、安装与配置Hive 133 三、验证Hive 136 任务三 表操作 138 一、创建数据库 138 二、查询数据库 138 三、删除数据库 139 四、Hive表 139 五、数据导入 144 六、数据导出 145 七、修改表 147 八、删除表 147 九、查询 147 任务四 Hive数据类型 152 一、基本数据类型 152 二、复合数据类型 152 任务五 Hive函数 154 一、内置函数 154 二、窗口函数 155 任务六 数据迁移工具Sqoop 156 一、Sqoop简介 156 二、安装Sqoop 157 三、导入导出数据 157 任务七 案例分析 160 一、汉字统计分析 160 二、统计日志数据 161 项目实训 164 项目小结 164 项目考核 164
HBase实战 166
项目导读 166 项目目标 166 课前学习 166 任务一 HBase概述 167 一、非关系型数据库简介 167 二、HBase简介 168 三、HBase实现原理 169 四、HBase的数据模型 171 任务二 HBase的安装与配置 173 任务三 HBase Shell命令操作 176 任务四 HBase Java API操作 178 项目实训 181 项目小结 182 项目考核 182
Flume实战 184
项目导读 184 项目目标 184 课前学习 184 任务一 Flume概述 185 一、Flume简介 185 二、Flume工作机制 186 任务二 Flume的安装与配置 188 任务三 采集日志数据到HDFS 188 任务四 采集文件数据到HDFS 191 任务五 采集端口数据到HDFS 192 项目实训 194 项目小结 194 项目考核 194
Kafka实战 195
项目导读 195 项目目标 195 课前学习 195 任务一 Kafka概述 196 一、消息队列 196 二、Kafka简介 197 三、Kafka工作机制 199 任务二 Kafka的安装 201 一、安装Scala 201 二、Kafka的安装步骤 202 任务三 组件验证部署 203 任务四 Kafka API 205 一、消息发送流程 205 二、异步发送API 206 三、Consumer API 208 任务五 案例分析 211 项目实训 213 项目小结 213 项目考核 214
综合案例分析 215
项目导读 215 项目目标 215 课前学习 215 任务一 案例简介 216 任务二 数据采集 216 任务三 数据预处理 217 任务四 离线计算 227 任务五 数据分析 233
|
|