新書推薦:

《
国内外高句丽渤海墓葬研究文献目录
》
售價:NT$
918

《
中国书法分体史(函套版)
》
售價:NT$
3203

《
唐代官制:官吏体系与机构运行
》
售價:NT$
551

《
超简单的量子力学 波粒二象性 量子隧穿效应 不确定性原理 量子纠缠 一小时掌握描述微观世界本质规律的
》
售價:NT$
184

《
隋唐五代史(图文导读版)吕思勉历史著作集 精装 全2册
》
售價:NT$
1163

《
彩虹:从神话到数学(启蒙文化数学译丛)
》
售價:NT$
551

《
超级合作者
》
售價:NT$
663

《
清华大学藏战国竹简校释(陆):越公其事
》
售價:NT$
383
|
| 編輯推薦: |
1.引入大量案例,注重实践和工程应用。 2.引入产教融合项目,案例为产教融合项目成果和科研成果,具有前沿性和引领性。 3. 配套资源丰富,教学资源丰富。
|
| 內容簡介: |
|
本书系统地介绍了数据仓库和数据挖掘的基本原理和应用方法,内容主要包括数据仓库的概念和相关技术发展、数据模型、数据 ETL,数据挖掘的数据预处理、数据分类、回归分析、关联规则挖掘、数据聚类、异常检测、数据可视化等算法,以及大数据智能平台的设计与实现。各章节以数据为“经”组织,以算法为“纬”讲述,既自然衔接又相对独立。读者可按教材的自然顺序学习,也可据实际需要挑选相关章节学习。 本书适合高等学校大数据科学与技术、人工智能、计算机科学与技术、软件工程等专业方向的本科生、研究生作为教材或参考书,也可供相关领域的科研、工程人员参考。
|
| 關於作者: |
|
王树良,教授,博士生导师,北京理工大学电子政务研究院执行院长,第十一届全国青联委员,中国制造企业双创发展联盟副理事长,国家科技创新专项专家咨询组秘书长,高等学校软件工程专业教学指导委员会委员,中国指挥与控制学会认知与行为专业委员会主任,数字政府建设服务联盟专家指导委员会委员,大数据系统软件国家工程研究中心技术指导委员会委员,Chinese Journal of Electronics编委。 入选国家高层次领军人才、科技部领军人才、新世纪优秀人才、CICC青年科学家等。 主持国家重点研发计划项目、国家科技创新战略重大专项、国家自然科学基金项目等。 获国家科学技术进步奖一等奖、全国优秀博士学位论文、中国指挥与控制学会技术发明一等奖等。
|
| 目錄:
|
第1章 概述 1 1.1 引言 1 1.1.1 数据剧增 1 1.1.2 生产要素 2 1.1.3 数据战略 2 1.2 研究历程 3 1.2.1 数据管理分析的历程 3 1.2.2 数据挖掘的历程 4 1.2.3 大数据的历程 5 1.3 数据挖掘的流程 6 1.3.1 业务理解 7 1.3.2 数据理解 7 1.3.3 数据准备 8 1.3.4 建立模型 8 1.3.5 模型评估 8 1.3.6 结果部署 9 1.4 数据驱动的应用 9 1.4.1 能源环保 9 1.4.2 医疗卫生 9 1.4.3 社会治安 10 1.4.4 城市发展 10 1.4.5 影视娱乐 10 1.4.6 推荐系统 11 1.5 关键挑战 11 1.5.1 数据庞大价值疏 11 1.5.2 多源异构变化快 12 1.5.3 解释困难隐私多 13 本章习题 13 第2章 数据 14 2.1 数据的基本内容 14 2.1.1 蕴含内容 14 2.1.2 基本类型 14 2.1.3 数据形态 18 2.1.4 数据属性 18 2.2 数据的统计特征 20 2.2.1 集中趋势 20 2.2.2 离散程度 21 2.2.3 分布形状 22 2.3 数据的相似相异 23 2.3.1 集合距离 24 2.3.2 几何距离 24 2.3.3 语义距离 25 本章习题 26 第3章 数据预处理 27 3.1 数据清洗 27 3.1.1 被污染的数据 27 3.1.2 数据清洗的过程 30 3.1.3 数据清洗的方法 30 3.2 数据变换 33 3.2.1 数据平滑 33 3.2.2 数据锐化 33 3.2.3 数据规范化 34 3.2.4 数据离散化 35 3.3 数据集成 38 3.3.1 基于数据仓库的方案 38 3.3.2 基于虚拟集成系统的方案 39 3.4 数据融合 40 3.4.1 基于知识图谱的数据融合 41 3.4.2 基于知识图谱的融合数据应用 42 3.5 数据归约 42 3.5.1 属性归约 42 3.5.2 数值归约 44 本章习题 46 第4章 数据仓库和数据湖 47 4.1 数据仓库的概念 47 4.1.1 从数据库到数据仓库 47 4.1.2 数据仓库的特点 48 4.1.3 传统数据仓库的Inmon模式、Kimball模式 49 4.1.4 动态数据仓库 50 4.1.5 海量数据仓库 50 4.2 数据仓库模型 51 4.2.1 星型模型 51 4.2.2 雪花型模型 52 4.2.3 星-雪花型模型 53 4.2.4 数据立方体 53 4.3 数据ETL 55 4.3.1 数据抽取 55 4.3.2 数据转换 56 4.3.3 数据加载 57 4.4 OLAP 57 4.4.1 从OLTP到OLAP 57 4.4.2 OLAP系统分类 58 4.4.3 OLAP基本操作 59 4.4.4 基于OLAP的数据挖掘 61 4.5 数据湖 61 4.5.1 数据湖的架构 62 4.5.2 数据湖的组成部分及其关系 62 4.5.3 存储系统 64 4.5.4 数据探索 65 4.6 湖仓一体 66 4.6.1 湖仓一体的架构 67 4.6.2 湖仓一体的优劣 68 本章习题 68 第5章 关联规则 69 5.1 关联规则的基本思想 69 5.2 关联规则的主要算法 71 5.2.1 Apriori算法 72 5.2.2 FP-Growth算法——Apriori算法的优化 77 5.3 关联规则的研发历程 79 本章习题 80 第6章 聚类 81 6.1 聚类的基本思想 81 6.1.1 簇 81 6.1.2 聚类分析 81 6.1.3 聚类评价指标 82 6.2 聚类的主要算法 84 6.2.1 k-means算法 85 6.2.2 高斯混合模型 90 6.2.3 层次聚类算法 92 6.2.4 DBSCAN聚类算法 98 6.2.5 网格聚类 101 6.2.6 拓扑图聚类 103 6.2.7 引力聚类 105 6.2.8 深度聚类 107 6.3 聚类的研发历程 109 本章习题 110 第7章 分类 111 7.1 分类的基本思想 111 7.1.1 相关概念 111 7.1.2 算法评价指标 111 7.2 分类的主要算法 113 7.2.1 决策树算法及其优化 113 7.2.2 CART算法 121 7.2.3 SVM算法 124 7.2.4 KNN算法 129 7.2.5 朴素贝叶斯算法 132 7.3 分类的研发历程 136 本章习题 137 第8章 回归分析 138 8.1 回归分析的基本思想 138 8.2 回归分析的主要模型 138 8.2.1 线性回归模型 139 8.2.2 非线性回归模型 143 8.2.3 逐步回归分析 145 8.2.4 逻辑回归分析 146 8.3 回归分析的研发历程 148 本章习题 149 第9章 异常检测 150 9.1 异常检测的基本思想 150 9.1.1 异常种类 150 9.1.2 异常检测方法 150 9.2 异常检测的主要算法 151 9.2.1 基于统计的异常检测 152 9.2.2 基于距离的异常检测 156 9.2.3 基于密度的异常检测 157 9.2.4 基于聚类的异常检测 159 9.2.5 时间序列异常检测 162 9.3 异常检测的研发历程 164 本章习题 166 第10章 高级数据分析方法 167 10.1 集成学习 167 10.1.1 装袋算法 167 10.1.2 提升 168 10.2 深度学习 169 10.2.1 多层感知机 170 10.2.2 卷积神经网络 172 10.2.3 递归神经网络 173 10.2.4 Transformer 174 10.3 强化学习 178 10.3.1 马尔可夫决策过程 178 10.3.2 基于值的强化学习 179 10.3.3 基于策略的强化学习 181 10.4 大模型预训练 183 10.4.1 BERT 183 10.4.2 GPT 185 10.4.3 BERT与GPT对比分析 186 本章习题 187 第11章 数据可视化 189 11.1 可视化基本思想 189 11.1.1 可视化人机交互 189 11.1.2 可视化分析 189 11.2 可视化主要方法 189 11.2.1 统计数据可视化方法 190 11.2.2 高维数据可视化方法 193 11.2.3 图数据可视化方法 194 11.2.4 文本数据可视化方法 197 11.2.5 时空数据可视化方法 199 11.2.6 交互可视化方法 199 11.3 基于可视化的交互式数据挖掘方法 200 11.3.1 基于可视化的交互式数据挖掘方法分类 200 11.3.2 可视化增强的通用数据挖掘方法 200 11.3.3 面向应用场景的方法 201 11.4 可视化数据分析挖掘的研发历程 203 本章习题 204 第12章 典型应用 205 12.1 客户流失预测 205 12.1.1 业务理解 205 12.1.2 数据理解 205 12.1.3 数据准备 207 12.1.4 构建模型 215 12.1.5 评估模型 221 12.1.6 结果部署 223 12.2 客户稳定度评估 224 12.2.1 业务理解 224 12.2.2 数据理解 225 12.2.3 数据准备 229 12.2.4 构建模型 230 12.2.5 评估模型 237 12.2.6 结果部署 239 12.3 基于梧桐·鸿鹄大数据实训平台的案例实践 239 12.3.1 客户流失预测 240 12.3.2 客户稳定度评估 244 本章习题 245 参考文献 246
|
|