梁栋,博士毕业于北京邮电大学信号与系统专业,现任教于北京邮电大学,硕士研究生导师,曾主持和参加多项国家自然科学基金项目、国家863课题项目、国家973科技项目和多项省部级科研项目,主要研究方向为大数据、数据挖掘与智慧运营,所带领的研究团队在包括IEEE Internet of things Journal、IEEE International Conference on Data Mining等著名学术期刊和会议上发表高水平学术论文20多篇,并且长期与中国移动等运营商企业进行科技产业化合作,在大数据、数据挖掘技术运用于企业智慧化运营方面有着丰富的落地经验。
目錄:
第1章 大数据、数据挖掘与智慧运营综述 1
1.1 数据挖掘的发展史 2
1.1.1 数据挖掘的定义与起源 2
1.1.2 数据挖掘的早期发展 3
1.1.3 数据挖掘的算法前传 4
1.1.4 数据挖掘的第一个里程碑 8
1.1.5 最近十年的发展与应用 11
1.2 数据挖掘的主要流程与金字塔模型 13
1.2.1 数据挖掘的任务 14
1.2.2 数据挖掘的基本步骤 16
1.2.3 数据挖掘的架构云计算 17
1.2.4 金字塔模型 20
1.3 数据挖掘对智慧运营的意义 22
1.3.1 互联网 时代的来临及其对运营商的冲击和挑战 22
1.3.2 大数据时代的来临及其对运营商的挑战和机遇 24
1.3.3 电信运营商运营发展面临的主要瓶颈 26
1.3.4 电信运营商发展的三条曲线 27
1.3.5 智慧运营与大数据变现 29
1.3.6 数据挖掘对于提升智慧运营效率的意义 30
1.4 大数据时代已经来临 31
1.4.1 大数据的定义 31
1.4.2 大数据的4V特征32
1.4.3 结构化数据与非结构化数据33
1.5 非结构化数据挖掘的研究进展 34
1.5.1 文本挖掘34
1.5.2 模式识别36
1.5.3 语音识别40
1.5.4 视频识别44
1.5.5 其他非结构化数据挖掘48
1.6 数据挖掘与机器学习、深度学习、人工智能及云计算 50
1.6.1 机器学习51
1.6.2 深度学习53
1.6.3 人工智能55
1.6.4 云计算56
1.7 现有数据挖掘的主要分析软件与系统 61
1.7.1 Hadoop61
1.7.2 Storm 63
1.7.3 Spark 65
1.7.4 SPASS(SPSS) 66
1.7.5 SAS 68
参考文献 70
第2章数据统计与数据预处理73
2.1 数据属性类型 74
2.1.1 数据属性定义74
2.1.2 离散属性74
2.1.3 连续属性75
2.2 数据的统计特性 77
2.2.1 中心趋势度量77
2.2.2 数据散布度量78
2.2.3 数据相关性82
2.3 数据预处理 87
2.3.1 数据预处理概述87
3.6 基于网格的聚类:CLIQUE 140
3.6.1 基于网格的聚类算法概述140
3.6.2 CLIQUE算法的基本原理141
3.6.3 CLIQUE算法的优势与劣势142
参考文献 143
第4章分类分析 145
4.1 分类分析概述 146
4.2 分类分析的评估 148
4.3 决策树分析 152
4.3.1 决策树算法的基本原理152
4.3.2 CHAID决策树160
4.3.3 ID3决策树 167
4.3.4 C4.5决策树171
4.3.5 CART 决策树175
4.3.6 决策树中的剪枝问题179
4.3.7 决策树在SPSS中的应用180
4.4 最近邻分析(KNN) 185
4.4.1 KNN算法的基本原理185
4.4.2 KNN算法流程186
4.4.3 KNN算法的若干问题187
4.4.4 KNN分类器的特征188
4.4.5 KNN算法在SPSS中的应用 188
4.5 贝叶斯分析 191
4.5.1 贝叶斯定理191
4.5.2 朴素贝叶斯分类192
4.5.3 贝叶斯网络195
4.6 神经网络 199
4.6.1 感知器200
4.6.2 多重人工神经网络201
4.6.3 人工神经网络的特点203
4.7 支持向量机 204
第6章关联分析 245
6.1 关联分析概述 246
6.2 关联分析的评估指标 247
6.2.1 支持度247
6.2.2 置信度248
6.2.3 算法复杂度248
6.3 Apriori 算法 249
6.3.1 频繁项集的定义与产生249
6.3.2 先验原理251
6.3.3 基于支持度的计数与剪枝252
6.3.4 候选项集生成253
6.3.5 基于置信度的剪枝259
6.3.6 Apriori算法规则生成 259
6.4 FP-tree 算法 261
6.4.1 频繁模式树261
6.4.2 FP-tree算法频繁项集的产生263
6.4.3 FP-tree算法规则生成263
6.4.4 算法性能对比与评估264
6.5 SPSS Modeler 关联分析实例 265
参考文献 269
第7章增强型数据挖掘算法 271
7.1 增强型数据挖掘算法概述 272
7.1.1 组合方法的优势272
7.1.2 构建组合分类器的方法272
7.2 随机森林 273
7.2.1 随机森林的原理273
7.2.2 随机森林的优缺点276
7.2.3 随机森林的泛化误差276
7.2.4 输入特征的选择方法277
7.3 Bagging 算法 277
8.4.4 多元线性回归建模350
8.4.5 制定层次化、个性化精准营销方案351
8.4.6 落地效果评估与模型调优352
8.5 客户保有 353
8.5.1 总结客户流失的历史规律354
8.5.2 细分潜在流失客户群体357
8.5.3 客户保有效益建模与最优决策359
8.5.4 落地效果评估361
8.6 投诉预警 363
8.6.1 客户投诉现象分析363
8.6.2 挖掘潜在客户群体366
8.6.3 制定个性化关怀方案368
8.7 网络质量栅格化呈现 368
8.7.1 栅格化呈现的基本原理369
8.7.2 覆盖栅格化370
8.7.3 基于流量聚簇的网络优化策略372
8.8 无线室内定位 376
8.8.1 传统室内定位方法376
8.8.2 基于Wi-Fi 信号的指纹定位算法 378
8.8.3 基于数据挖掘算法的改进定位方法379
参考文献 383
第9章面向未来大数据的数据挖掘与机器学习发展趋势 385
9.1 大数据时代数据挖掘与机器学习面临的新挑战 386
9.2 IEEE ICDM 会议数据挖掘与机器学习的最新研究进展 395
9.3 计算机奥运会Sort Benchmark 400
参考文献 402
內容試閱:
数据挖掘(Data Mining),是指从数据中发现知识的过程(Knowledge Discovery
in Databases,KDD。狭义的数据挖掘一般指从大量的、不完全的、有噪声的、模糊
的、随机的实际应用数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用
知识的过程。自从计算机发明之后,科学家们先后提出了许多优秀的数据挖掘算法。
2006年12月,在数据挖掘领域的权威学术会议the IEEE International Conference on
Data Mining(ICDM)上,科学家们评选出了该领域的十大经典算法:C4.5、K-Means、
SVM、Apriori、EM、PageRank、 AdaBoost、kNN、Naive Bayes和CART。这是数据
挖掘学科的一个重要里程碑,从此数据挖掘在理论研究和实际应用两方面均进入飞速
发展时期,并得到广泛关注。