新書推薦:
《
诛吕:“诸吕之乱”的真相与吕太后时期的权力结构
》
售價:NT$
454.0
《
炙野(全2册)
》
售價:NT$
356.0
《
女人的胜利
》
售價:NT$
255.0
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:NT$
1214.0
《
500万次倾听:陪伤心的人聊聊
》
售價:NT$
245.0
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
|
編輯推薦: |
Hadoop是大数据处理的同义词。Hadoop的编程模型简单,“一次编码,任意部署”,且生态圈日益完善,已成为一个可供不同技能水平的程序员共同使用的全方位平台。今天,面临着处理和分析大数据的任务,Hadoop成了理所当然的工具。Hadoop 2.0扩展了羽翼,能覆盖各种类型的应用模式,并解决更大范围的问题。
|
內容簡介: |
这本高阶教程将通过大量示例帮助你精通Hadoop,掌握Hadoop实践和技巧。主要内容包括:Hadoop MapReduce、Pig 和Hive 优化策略,YARN 审读剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想将自己的技能再提高一个层次,本书是你的不二之选。
|
關於作者: |
Sandeep Karanth
Scibler公司联合创始人,负责数据智能产品的架构;DataPhi Labs公司联合创始人兼首席架构师,专注于构建和实施软件系统。他拥有14年以上的软件行业从业经验,既设计过企业数据应用,也开发过新一代移动应用。他曾就职于微软总部和微软印度研究院。他的Twitter账号是@karanths,GitHub账号是https:github.comKaranth。
|
目錄:
|
第1 章 Hadoop 2.X 1
1.1 Hadoop 的起源 1
1.2 Hadoop 的演进 2
1.3 Hadoop 2.X 6
1.3.1 Yet Another Resource Negotiator(YARN) 7
1.3.2 存储层的增强 8
1.3.3 支持增强 11
1.4 Hadoop 的发行版 11
1.4.1 选哪个Hadoop 发行版 12
1.4.2 可用的发行版 14
1.5 小结 16
第2 章 MapReduce 进阶 17
2.1 MapReduce 输入 18
2.1.1 InputFormat 类 18
2.1.2 InputSplit 类 18
2.1.3 RecordReader 类 19
2.1.4 Hadoop 的“小文件”问题 20
2.1.5 输入过滤 24
2.2 Map 任务 27
2.2.1 dfs.blocksize 属性 28
2.2.2 中间输出结果的排序与溢出 28
2.2.3 本地reducer 和Combiner 31
2.2.4 获取中间输出结果——Map 侧 31
2.3 Reduce 任务 32
2.3.1 获取中间输出结果——Reduce 侧 32
2.3.2 中间输出结果的合并与溢出 33
2.4 MapReduce 的输出 34
2.5 MapReduce 作业的计数器 34
2.6 数据连接的处理 36
2.6.1 Reduce 侧的连接 36
2.6.2 Map 侧的连接 42
2.7 小结 45
第3 章 Pig 进阶 47
3.1 Pig 对比SQL 48
3.2 不同的执行模式 48
3.3 Pig 的复合数据类型 49
3.4 编译Pig 脚本 50
3.4.1 逻辑计划 50
3.4.2 物理计划 51
3.4.3 MapReduce 计划 52
3.5 开发和调试助手 52
3.5.1 DESCRIBE 命令 52
3.5.2 EXPLAIN 命令 53
3.5.3 ILLUSTRATE 命令 53
3.6 Pig 操作符的高级特性 54
3.6.1 FOREACH 操作符进阶 54
|
|