新書推薦:
《
资治通鉴熊逸版:第四辑
》
售價:NT$
2195.0
《
中国近现代名家精品——项维仁:工笔侍女作品精选
》
售價:NT$
308.0
《
宋瑞驻村日记(2012-2022)
》
售價:NT$
539.0
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:NT$
594.0
《
人世事,几完缺 —— 啊,晚明
》
售價:NT$
539.0
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:NT$
2215.0
《
真谛全集(共6册)
》
售價:NT$
5390.0
《
敦煌通史:魏晋北朝卷
》
售價:NT$
780.0
|
內容簡介: |
本书介绍了大数据分析的多种模型、所涉及的算法和技术、实现大数据分析系统所需的工具以及大数据分析的具体应用。本书共16章。第1章为绪论,就大数据、大数据分析等概念进行了阐释,并对本书内容进行了概述;第2~7章介绍了关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8章介绍大数据分析的数据预处理问题;第9章介绍降维方法;第10章介绍了数据仓库的概念、内涵、组成、体系结构和建立方法,还介绍了分布式数据仓库系统和内存数据仓库系统。第11章介绍大数据分析算法中的回归算法、关联规则挖掘算法、分类算法以及聚类算法的实现。第12~14章介绍了三种用于实现大数据分析算法的平台,即并行计算平台、流式计算平台和大图分析平台。第15章和第16章介绍两类大数据分析的具体应用,分别讲述了社会网络分析和推荐系统。本书可作为高等院校大数据相关专业的教学用书,也可以作为从事大数据相关工作的工程技术人员的参考用书。
|
關於作者: |
王宏志,博士,博士生导师,哈尔滨工业大学计算机科学与技术学院副教授,中国计算机学会高级会员,YOCSEF黑龙江省分论坛AC。2008年7月在哈尔滨工业大学计算机软件与理论学科获得博士学位,博士论文获得中国计算机学博士论文和哈尔滨工业大学博士论文。研究方向包括XML数据管理、图数据管理、数据质量、信息集成等。先后被评为微软学者、中国数据库工程师和IBM博士英才。曾先后担任全国数据库会议等多个学术会议的程序委员会委员和IEEE TKDE等多个重要国际期刊的审稿人。
|
目錄:
|
目录
序
前言
教学建议
第1章 绪论1
1.1 什么是大数据1
1.2 哪里有大数据3
1.3 什么是大数据分析4
1.4 大数据分析的过程、技术与难点5
1.5 全书概览8
小结10
习题10
第2章 大数据分析模型11
2.1 大数据分析模型建立方法11
2.2 基本统计量13
2.2.1 全表统计量14
2.2.2 皮尔森相关系数15
2.3 推断统计16
2.3.1 参数估计16
2.3.2 假设检验20
2.3.3 假设检验的阿里云实现23
小结28
习题28
第3章 关联分析模型30
3.1 回归分析31
3.1.1 回归分析概述31
3.1.2 回归模型的拓展35
3.1.3 回归的阿里云实现43
3.2 关联规则分析52
3.3 相关分析54
小结57
习题58
第4章 分类分析模型60
4.1 分类分析的定义60
4.2 判别分析的原理和方法61
4.2.1 距离判别法61
4.2.2 Fisher判别法64
4.2.3 贝叶斯判别法67
4.3 基于机器学习分类的模型71
4.3.1 支持向量机72
4.3.2 逻辑回归74
4.3.3 决策树与回归树75
4.3.4 k近邻78
4.3.5 随机森林78
4.3.6 朴素贝叶斯81
4.4 分类分析实例82
4.4.1 二分类实例82
4.4.2 多分类实例94
小结101
习题102
第5章 聚类分析模型105
5.1 聚类分析的定义105
5.1.1 基于距离的亲疏关系度量105
5.1.2 基于相似系数的相似性度量108
5.1.3 个体与类以及类间的亲疏关系度量110
5.1.4 变量的选择与处理111
5.2 聚类分析的分类111
5.3 聚类有效性的评价112
5.4 聚类分析方法概述112
5.5 聚类分析的应用113
5.6 聚类分析的阿里云实现114
小结119
习题119
第6章 结构分析模型122
6.1 最短路径122
6.2 链接排名123
6.3 结构计数125
6.4 结构聚类126
6.5 社团发现128
6.5.1 社团的定义128
6.5.2 社团的分类128
6.5.3 社团的用途128
6.5.4 社团的数学定义128
6.5.5 基于阿里云的社团发现130
小结132
习题133
第7章 文本分析模型135
7.1 文本分析模型概述135
7.2 文本分析方法概述136
7.2.1 SplitWord136
7.2.2 词频统计137
7.2.3 TF-IDF138
7.2.4 PLDA140
7.2.5 Word2Vec147
小结148
习题149
第8章 大数据分析的数据预处理150
8.1 数据抽样和过滤150
8.1.1 数据抽样150
8.1.2 数据过滤154
8.1.3 基于阿里云的抽样和过滤实现154
8.2 数据标准化与归一化157
8.3 数据清洗159
8.3.1 数据质量概述159
8.3.2 缺失值填充160
8.3.3 实体识别与真值发现162
8.3.4 错误发现与修复169
小结171
习题171
第9章 降维173
9.1 特征工程173
9.1.1 特征工程概述173
9.1.2 特征变换175
9.1.3 特征选择178
9.1.4 特征重要性评估183
9.2 主成分分析191
9.2.1 什么是主成分分析191
9.2.2 主成分分析的计算过程192
9.2.3 基于阿里云的主成分分析194
9.2.4 主成分的表现度量195
9.3 因子分析196
9.3.1 因子分析概述196
9.3.2 因子分析的主要分析指标196
9.3.3 因子分析的计算方法197
9.4 压缩感知203
9.4.1 什么是压缩感知203
9.4.2 压缩感知的具体模型204
9.5 面向神经网络的降维205
9.5.1 面向神经网络的降维方法概述205
9.5.2 如何利用神经网络降维206
9.6 基于特征散列的维度缩减207
9.6.1 特征散列方法概述207
9.6.2 特征散列算法207
9.7 基于Lasso算法的降维208
9.7.1 Lasso方法简介208
9.7.2 Lasso方法209
9.7.3 Lasso算法的适用情景211
小结211
习题212
第10章 面向大数据的数据仓库系统214
10.1 数据仓库概述214
10.1.1 数据仓库的基本概念214
10.1.2 数据仓库的内涵215
10.1.3 数据仓库的基本组成215
10.1.4 数据仓库系统的体系结构216
10.1.5 数据仓库的建立217
10.2 分布式数据仓库系统221
10.2.1 基于Hadoop的数据仓库系统221
10.2.2 Shark:基于Spark的数据仓库系统227
10.2.3 Mesa228
10.3 内存数据仓库系统231
10.3.1 SAP HANA231
10.3.2 HyPer234
10.4 阿里云数据仓库简介236
小结238
习题239
第11章 大数据分析算法240
11.1 大数据分析算法概述240
11.2 回归算法242
11.3 关联规则挖掘算法248
11.4 分类算法255
11.4.1 二分类算法256
11.4.2 多分类算法273
11.5 聚类算法283
11.5.1 k-means算法283
11.5.2 CLARANS算法291
小结293
习题293
第12章 大数据计算平台295
12.1 Spark295
12.1.1 Spark简介295
12.1.2 基于Spark的大数据分析实例296
12.2 Hyracks299
12.2.1 Hyracks简介299
12.2.2 基于Hyracks的大数据分析实例299
12.3 DPark
|
內容試閱:
|
前言本书的缘起与成书过程大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在大数据 涉及的领域(如工业、医疗、农业、教育等)有了广泛的应用。大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的。
然而,人们对大数据分析的解读有多个不同方面。从分析的角度解读,大数据分析可以看作统计分析的延伸;从 数据的角度解读,大数据分析可以看作数据管理与挖掘的扩展;从大的角度解读,大数据分析可以看作数据密集高性能计算的具体化。
而大数据分析的有效实施也需要多个方面的知识。从分析的角度来讲,需要统计学、数据分析、机器学习等方面的知识;从数据处理的角度来讲,需要数据库、数据挖掘等方面的知识;从计算平台的角度来讲,需要并行系统和并行计算的知识。
上述多样化造成了目前大数据分析的教材和参考书的多样化:有些书重点介绍统计学或者机器学习知识,突出分析;有些书重点介绍实现平台和技术,突出大;有些书重点介绍数据挖掘知识及其应用,突出数据。笔者认为,这三类知识对大数据分析都是必不可少的,于是试图编写一本教材来融合这三类知识,给读者展示一个相对广阔的大数据分析图景。
也正是因为解读的角度和所需知识的多样化,本书的成书过程也比较曲折。在成书的过程中,笔者对大数据分析的认识也在不断加深,因而在编写过程中几次变换结构和体例。由于笔者主要从事数据相关工作,所以起初以大数据分析算法和相关技术为主,对数据分析模型方面的知识只是一笔带过。在和业内人士的交流中发现,对于很多读者来说,了解分析模型可能更重要,因为很多分析算法和大数据分析所需的技术都有平台实现,分析模型却需要了解业务的人来建立,于是笔者增加了较多数据分析模型方面的内容。而后通过和阿里云的合作,笔者又进一步了解了大数据分析的需求,于是增加了数据预处理等内容,并基于阿里云的技术和平台对书中的一些内容做了实现。这就是本书现在的版本。
本书的内容本书力求系统地介绍大数据分析过程中的模型、技术、实现平台和应用。考虑到不同部分的侧重不同,故采取了不同的写作方法,尽可能使本书的内容适合更多的读者阅读。
模型部分主要突出了大数据分析模型的描述方法。通过这一部分的学习,读者可以在不考虑实现的情况下,针对应用需求建立大数据分析模型,即使不了解实现平台和具体技术,读者也可以独立学习这部分内容。在实践中,可以将分析模型表达为R语言,甚至像阿里云提供的可视化工具中那样分析流程,即使不掌握算法等方面的技术,同样可以进行大数据分析。
当然,如果对大数据分析相关技术有深入了解,会更加快速有效地进行分析,因而技术部分介绍了大数据分析所涉及的技术,重点在于解决大数据分析的效率和可扩展性问题。
工欲善其事,必先利其器,有了好的开发平台,就可以有效地实现相关的技术,因而实现平台部分介绍了多种开发大数据分析系统的实现平台。
最后两章针对推荐系统和社交网络这两个大数据分析的典型应用涉及的一些模型和技术进行了介绍,也是前面内容在应用中的具体体现。
大数据是一个比较宽泛的概念,本书围绕着分析过程进行讲解,突出大数据的特点,与大数据算法、大数据系统、大数据程序的编程实现、机器学习、统计学等书籍具有互补性,读者可以相互参考。
为方便读者的学习,笔者总结了一些大数据分析常用系统和工具的安装与配置方法,读者可登录华章网站(www.hzbook.com)在本书网页中下载文档。
本书没讲什么由于大数据分析涉及的内容过于宽泛,尽管笔者试图从多个角度介绍大数据分析,但是限于本书的写作周期和篇幅,有一些读者关心的内容并没有包括在本书之中,比如:
数据流分析算法神经网络深度学习大数据可视化大图分析算法大数据分析技术在医疗、社会安全、教育、工业等多个领域的应用一方面,读者可以阅读相关的书籍了解这些领域的内容;另一方面,笔者也正在筹划,期望能够在本书的再版中列入上述内容。
致使用本书的教师本书涉及多方面内容,对于教学而言,本书适用于多门课程的教学,除了直接用于大数据分析或者数据科学课程的教学之外,还可以作为数理统计数据挖掘机器学习等课程的补充教材。
针对不同专业的教学,教师可以选择不同的内容。针对计算机科学专业的本科生或者研究生,可以全面讲授本书的内容,但深度和侧重点上可以有所差别。针对培养数据科学家的数据科学专业的学生,如果培养方案中没有计算机系统和算法相关的课程,可以重点讲授第1~7章的内容,第8~11章可以着重讲解技术的选用而不是原理,第15~16章着重讲解背景和模型,其中的算法部分可以略去。针对培养工程师的技术类课程或者培训,可以重点讲授第8~14章,第1~7章中对模型的介绍可以略去,仅通过例子
|
|