新書推薦:

《
微积分学教程(第二卷)(第8版)
》
售價:NT$
545.0

《
16至20世纪知识史中的流亡者与客居者
》
售價:NT$
484.0

《
家庭经济学:用经济学视角解读家庭关系
》
售價:NT$
380.0

《
攻金之工:早期东西文明交流中的金属艺术
》
售價:NT$
6528.0

《
人间词话汇编汇校汇评(新)
》
售價:NT$
254.0

《
王名扬全集:美国行政法(上下) 王名扬老先生行政法三部曲之一
》
售價:NT$
806.0

《
心学的诞生
》
售價:NT$
347.0

《
军人与国家:军政关系的理论与政治
》
售價:NT$
653.0
|
內容簡介: |
大数据技术涵盖面广、体系庞大,涉及不同层面及其相关技术。本书主要介绍大数据应用中的两大关键技术,即数据存储和数据处理与分析。首先介绍大数据的基本概念,然后基于Hadoop架构简要讲解HDFS大数据存储原理,剖析MapReduce和Spark分布式计算模型,重点通过Python语言详细介绍大数据处理、数据可视化和数据分析的方法及相关技术,同时详细介绍PySpark大数据分析的方法,最后通过综合案例演示大数据处理和分析过程。
本书力求较全面地介绍大数据的理论以及Python数据处理和分析的实践,使读者轻松学会利用Python进行大数据分析及应用的技术。本书适合信息类专业开设大数据技术课程时作为教材使用,也适合大数据相关技术人员作为入门参考书使用。
|
目錄:
|
第1章 大数据概述
1.1 什么是大数据
1.2 大数据的发展历程
1.3 大数据关键技术
1.4 大数据计算模式
本章小结
课后习题
第2章 大数据分布式存储
2.1 大数据处理架构 Hadoop
2.2 分布式文件系统 HDFS
本章小结
课后习题
第3章 大数据分布式处理
3.1 MapReduce
3.2 Spark
本章小结
课后习题
第4章 Python语言基础
4.1 Python基本语法
4.2 NumPy简介
4.3 Pandas简介
本章小结
课后习题
第5章 Python基本数据处理
5.1 数据清洗
5.2 数据透视
5.3 数据分组
5.4 离散化处理
5.5 合并数据集
本章小结
课后习题
第6章 Python 数据可视化
6.1 matplotlib绘图基础
6.2 matplotlib可视化实例
6.3 Seaborn绘图
6.4 中文分词及词云图
6.5 图像处理简介
本章小结
课后习题
第7章 数据分析之机器学习
7.1 机器学习基本概念
7.2 机器学习库sklearn简介
7.3 回归算法原理与应用
7.4 支持向量机算法原理与应用
7.5 KNN分类算法原理与应用
7.6 KMeans 聚类算法原理与应用
本章小结
课后习题
第8章 数据分析之文本分析
8.1 距离度量和相似性度量
8.2 文本向量表示及应用
本章小结
课后习题
第9章 PySpark 数据处理及分析
9.1 PySpark数据基本操作
9.2 PySpark 机器学习
9.3 Spark Streaming流处理技术
9.4 Kafka消息发布-订阅系统
本章小结
课后习题
第10章 大数据应用综合案例
10.1 网络爬行器
10.2 案例需求分析
10.3 案例设计
10.4 案例实现
本章小结
课后习题
参考文献
|
|