新書推薦:

《
星海赞歌(第十三届北京科幻创作创意大赛“光年奖”获奖作品集)
》
售價:NT$
449

《
沪派江南·古今桥韵——高颜值的文化瑰宝
》
售價:NT$
500

《
中产阶级的孩子们:六十年代与文化领导权
》
售價:NT$
500

《
谈鬼说神
》
售價:NT$
1846

《
走出秦制:清末民初六十年(慈禧、奕?、李鸿章、张之洞、袁世凯、康有为、梁启超、宋教仁等对中国前途的思
》
售價:NT$
602

《
古典与文明·独尊儒术前夕的思想争锋:汉初“前经学时代”研究
》
售價:NT$
459

《
史记 全六册
》
售價:NT$
2030

《
图解计算机科学数学基础(原书第3版)
》
售價:NT$
607
|
| 內容簡介: |
大数据技术涵盖面广、体系庞大,涉及不同层面及其相关技术。本书主要介绍大数据应用中的两大关键技术,即数据存储和数据处理与分析。首先介绍大数据的基本概念,然后基于Hadoop架构简要讲解HDFS大数据存储原理,剖析MapReduce和Spark分布式计算模型,重点通过Python语言详细介绍大数据处理、数据可视化和数据分析的方法及相关技术,同时详细介绍PySpark大数据分析的方法,最后通过综合案例演示大数据处理和分析过程。
本书力求较全面地介绍大数据的理论以及Python数据处理和分析的实践,使读者轻松学会利用Python进行大数据分析及应用的技术。本书适合信息类专业开设大数据技术课程时作为教材使用,也适合大数据相关技术人员作为入门参考书使用。
|
| 目錄:
|
第1章 大数据概述
1.1 什么是大数据
1.2 大数据的发展历程
1.3 大数据关键技术
1.4 大数据计算模式
本章小结
课后习题
第2章 大数据分布式存储
2.1 大数据处理架构 Hadoop
2.2 分布式文件系统 HDFS
本章小结
课后习题
第3章 大数据分布式处理
3.1 MapReduce
3.2 Spark
本章小结
课后习题
第4章 Python语言基础
4.1 Python基本语法
4.2 NumPy简介
4.3 Pandas简介
本章小结
课后习题
第5章 Python基本数据处理
5.1 数据清洗
5.2 数据透视
5.3 数据分组
5.4 离散化处理
5.5 合并数据集
本章小结
课后习题
第6章 Python 数据可视化
6.1 matplotlib绘图基础
6.2 matplotlib可视化实例
6.3 Seaborn绘图
6.4 中文分词及词云图
6.5 图像处理简介
本章小结
课后习题
第7章 数据分析之机器学习
7.1 机器学习基本概念
7.2 机器学习库sklearn简介
7.3 回归算法原理与应用
7.4 支持向量机算法原理与应用
7.5 KNN分类算法原理与应用
7.6 KMeans 聚类算法原理与应用
本章小结
课后习题
第8章 数据分析之文本分析
8.1 距离度量和相似性度量
8.2 文本向量表示及应用
本章小结
课后习题
第9章 PySpark 数据处理及分析
9.1 PySpark数据基本操作
9.2 PySpark 机器学习
9.3 Spark Streaming流处理技术
9.4 Kafka消息发布-订阅系统
本章小结
课后习题
第10章 大数据应用综合案例
10.1 网络爬行器
10.2 案例需求分析
10.3 案例设计
10.4 案例实现
本章小结
课后习题
参考文献
|
|