登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』Spark快速数据处理（系统讲解Spark的数据处理工具及使用方法，为快速编写高效分布式程序提供实用指南）

書城自編碼： 2276288
分類：簡體書→大陸圖書→計算機/網絡→程序設計
作者： [美]凯洛著，余璜，张磊译
國際書號(ISBN)： 9787111463115
出版社：机械工业出版社
出版日期： 2014-05-01
版次： 1 印次： 1
頁數/字數： 114/
書度/開本：大32开釘裝：平装

售價：NT$ 261

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《走出秦制：清末民初六十年（慈禧、奕?、李鸿章、张之洞、袁世凯、康有为、梁启超、宋教仁等对中国前途的思》
售價：NT$ 602

《古典与文明·独尊儒术前夕的思想争锋：汉初“前经学时代”研究》
售價：NT$ 459

《史记全六册》
售價：NT$ 2030

《图解计算机科学数学基础（原书第3版）》
售價：NT$ 607

《柏拉图《理想国》指南（想读《理想国》，一直看不懂？这本书就是你的哲学通关攻略）》
售價：NT$ 407

《你的代谢还好吗：控制“五高”饮食运动法》
售價：NT$ 254

《战国史料编年辑证（全二册）（杨宽著作集）》
售價：NT$ 1265

《流动的世界想象：中国当代电影与视觉文化》
售價：NT$ 347

建議一齊購買：

NT$ 407
《颠覆大数据分析：基于Storm、Spark等Hadoop替代》

NT$ 540
《Spark大数据处理技术》

NT$ 531
《Storm实战：构建大数据实时计算》

NT$ 441
《Storm实时数据处理（从多个角度全面讲解Storm实时数据》

編輯推薦：

从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能，快速编写高效分布式程序

內容簡介：

Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持，如阿里巴巴、百度、网易、英特尔等公司。

本书系统讲解Spark的使用方法，包括如何在多种机器上安装Spark，如何配置一个Spark集群，如何在交互模式下运行第一个Spark作业，如何在Spark集群上构建一个生产级的脱机独立作业，如何与Spark集群建立连接和使用SparkContext，如何创建和保存RDD（弹性分布式数据集），如何用Spark分布式处理数据，如何设置Shark，将Hive查询集成到你的Spark作业中来，如何测试Spark作业，以及如何提升Spark任务的性能。

關於作者：

Holden Karau　资深软件开发工程师，现就职于Databricks公司，之前曾就职于谷歌、亚马逊、微软和Foursquare等著名公司。他对开源情有独钟，参与了许多开源项目，如Linux内核无线驱动、Android程序监控、搜索引擎等，对存储系统、推荐系统、搜索分类等都有深入研究。

译者简介
余璜　阿里巴巴核心系统研发工程师，OceanBase核心开发人员，对分布式系统理论和工程实践有深刻理解，专注于分布式系统设计、大规模数据处理，乐于分享，在CSDN上分享了大量技术文章。

张磊　Spark爱好者，曾参与分布式OLAP数据库系统核心开发，热衷于大数据处理、分布式计算。

译者序
作者简介
前言
第1章　安装Spark以及构建Spark集群
　1.1　单机运行Spark
　1.2　在EC2上运行Spark
　1.3　在ElasticMapReduce上部署Spark
　1.4　用Chefopscode部署Spark
　1.5　在Mesos上部署Spark
　1.6　在Yarn上部署Spark
　1.7　通过SSH部署集群
　1.8　链接和参考
　1.9　小结
第2章　Sparkshell的使用
　2.1　加载一个简单的text文件
　2.2　用Sparkshell运行逻辑回归
　2.3　交互式地从S3加载数据
　2.4　小结
第3章　构建并运行Spark应用
　3.1　用sbt构建Spark作业
　3.2　用Maven构建Spark作业
　3.3　用其他工具构建Spark作业
　3.4　小结
第4章　创建SparkContext
　4.1　Scala
　4.2　Java
　4.3　Java和Scala共享的API
　4.4　Python
　4.5　链接和参考
　4.6　小结
第5章　加载与保存数据
　5.1　RDD
　5.2　加载数据到RDD中
　5.3　保存数据
　5.4　连接和参考
　5.5　小结
第6章　操作RDD
　6.1　用Scala和Java操作RDD
　6.2　用Python操作RDD
　6.3　链接和参考
　6.4　小结
第7章　Shark-Hive和Spark的综合运用
　7.1　为什么用HiveShark
　7.2　安装Shark
　7.3　运行Shark
　7.4　加载数据
　7.5　在Spark程序中运行HiveQL查询
　7.6　链接和参考
　7.7　小结
第8章　测试
　8.1　用Java和Scala测试
　8.2　用Python测试
　8.3　链接和参考
　8.4　小结
第9章　技巧和窍门
　9.1　日志位置
　9.2　并发限制
　9.3　内存使用与垃圾回收
　9.4　序列化
　9.5　IDE集成环境
　9.6　Spark与其他语言
　9.7　安全提示
　9.8　邮件列表
　9.9　链接和参考
　9.10　小结

內容試閱：

第1章　安装Spark以及构建
Spark集群
1.1　单机运行Spark
1.2　在EC2上运行Spark
1.3　在ElasticMapReduce上部署Spark
1.4　用Chefopscode部署Spark
1.5　在Mesos上部署Spark
1.6　在Yarn上部署Spark
1.7　通过SSH部署集群
1.8　链接和参考
1.9　小结
本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试，同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群，使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署，本章将介绍在EC2（基本环境和EC2MR）上的部署。如果你的机器或者集群中已经部署了Spark，可以跳过本章直接开始使用Spark编程。
不管如何部署Spark，首先得获得Spark的一个版本，截止到写本书时，Spark的最新版本为0.7版。对于熟悉github的程序员，则可以从git:github.commesosspark.git直接复制Spark项目。Spark提供基本源码压缩包，同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统HDFS交互，需要在编译源码前设定相应的集群中所使用的Hadoop版本。对于0.7版本的Spark，已经编译好的压缩包依赖的是1.0.4版本的Hadoop。如果想更深入地学习Spark，推荐自己编译基本源码，因为这样可以灵活地选择HDFS的版本，如果想对Spark源码有所贡献，比如提交补丁，自己编译源码是必须的。你需要安装合适版本的Scala和与之对应的JDK版本。对于Spark的0.7.1版本，需要Scala 2.9.2或者更高的Scala 2.9版本（如2.9.3版）。在写本书时，Linux发行版Ubuntu的LTS版本已经有Scala 2.9.1版，除此之外，最近的稳定版本已经有2.9.2版。Fedora 18已经有2.9.2版。Scala官网上的最新版在选择Spark支持的Scala版本十分重要，Spark对Scala的版本很敏感。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2026 （香港）大書城有限公司　All Rights Reserved.