新書推薦:

《
“欧洲之心”人文视角下的捷克国别研究
》
售價:HK$
500

《
书立方 中国文化常识口袋文库 礼盒装共30册
》
售價:HK$
1530

《
突破平面Photoshop 2025设计与制作剖析
》
售價:HK$
352

《
如果未来可以被编辑 关于基因编辑的技术、哲学和艺术悖论
》
售價:HK$
301

《
数字芯片后端设计基础与实践(微课版)
》
售價:HK$
305

《
AI赋能财务:写给CFO的AI使用手册
》
售價:HK$
458

《
无人机技术 未来趋势与实际应用
》
售價:HK$
857

《
谁在研究中国:海外中国研究中心要览
》
售價:HK$
408
|
| 編輯推薦: |
|
本书遵循教指委相关指导文件和高等院校学生学习规律编写而成。践行四新理念,融入思政元素,注重理论与实践相结合。
|
| 內容簡介: |
|
本书以数据挖掘项目的完整开发流程为主线,系统地介绍了数据挖掘生命周期的各个环节,深入剖析了其中涉及的核心概念、关键技术和方法论体系。针对数据挖掘的基础算法部分,本书通过理论阐述、实例演示和深入讨论相结合的方式,全面展现了算法的本质内涵,帮助读者实现从认知到掌握的进阶学习。 在内容架构上,本书完整覆盖了数据挖掘的理论体系、算法实现和实际应用三大维度,具体包括数据采集、预处理、分类分析、聚类分析、关联分析等关键环节,以及数据挖掘系统的工程化应用。通过典型应用场景的引入,本书创新性地实现了理论知识与工程实践的有机融合,既保证了专业深度,又突出了实践指导价值。 本书既适合作为普通高校计算机科学与技术、信息管理、大数据等相关专业的核心课教材,也可为企事业单位的数据分析人员和管理者提供专业的技术参考。 本书配有电子课件,及与书中例题、作业题配套的数据素材,习题答案详解,欢迎选用本书作教材的教师发邮件到jinacmp@163.com索取,或登录www.cmpedu.com注册后下载。
|
| 目錄:
|
|
前言第1章 绪论 11.1 信息爆炸与大数据 11.2 什么是数据挖掘 51.3 数据挖掘的任务 61.4 数据挖掘的应用 71.5 数据挖掘系统结构 91.6 数据挖掘面临的挑战 91.7 数据挖掘样例数据和相关资料 10本章小结 13思考与练习 13参考文献 13第2章 数据挖掘的过程 142.1 数据分析能力 142.2 数据挖掘的过程 162.3 三阶段过程模型 172.3.1 数据准备 172.3.2 数据挖掘 182.3.3 解释评估 192.4 SEMMA方法 192.4.1 SEMMA过程 192.4.2 数据抽样 202.4.3 数据特征的探索、分析和预处理 202.4.4 问题明确化、数据调整和技术选择 202.4.5 模型研发与知识发现 212.4.6 模型和知识的综合解释和评价 212.5 CRISP-DM过程模型 212.5.1 商业理解 222.5.2 数据理解 222.5.3 数据准备 232.5.4 模型建立 232.5.5 模型评估 242.5.6 模型发布 242.6 5A模型 252.7 模型融合 25本章小结 26思考与练习 26参考文献 26第3章 数据准备 283.1 数据收集 283.2 数据抽样 293.2.1 抽样方法 293.2.2 数据挖掘的抽样策略 313.3 数据集成 323.3.1 数据联邦 343.3.2 数据仓库 363.3.3 中间件 383.3.4 数据集成应用模式 393.4 数据清理 393.4.1 数据问题 393.4.2 清洗方法 403.5 维度归约 423.5.1 维归约 433.5.2 特征子集选择 433.5.3 特征创建 463.6 数据变换 473.6.1 离散化和概念分层 473.6.2 数据编码 483.6.3 主成分分析法 503.6.4 因子分析 533.6.5 线性判别分析 56本章小结 59思考与练习 59参考文献 61第4章 数据探索 624.1 数据探索的作用 624.2 数据可视化 644.2.1 直方图 654.2.2 盒状图 694.2.3 茎叶图 704.2.4 饼图 724.2.5 累积分布图 724.2.6 散点图 734.2.7 等高线图 754.2.8 曲面图 754.2.9 低维切片图 764.2.10 矩阵图 764.2.11 平行坐标系图 774.2.12 其他技术 784.2.13 可视化的原则 804.2.14 应用可视化方法 804.3 数据统计分析 814.3.1 集中量数 814.3.2 差异量数 854.3.3 多元汇总统计 874.3.4 相关性分析 884.4 加载Excel插件 894.4.1 加载数据分析插件 894.4.2 加载统计分析插件 90本章小结 90思考与练习 91参考文献 92第5章 关联分析 935.1 关联分析原理 935.1.1 问题提出 935.1.2 基本概念 945.1.3 关联规则挖掘 965.2 由候选项集产生频繁项集 975.2.1 蛮力方法 975.2.2 先验算法 995.2.3 Fk-1×F1方法 1045.2.4 Fk-1×Fk-1方法 1045.3 计算支持度计数 1065.3.1 用事务去逐个统计候选项集 1065.3.2 枚举各事务中的项集并计数 1075.3.3 Hash树 1085.4 FP-Growth算法 1105.4.1 FP-树的创建 1105.4.2 从FP-树中提取频繁项集 1125.4.3 FP-Growth算法 1165.5 产生频繁项集算法复杂度 1175.5.1 Apriori原理下的算法复杂度 1175.5.2 FP-Growth算法的复杂度 1195.6 生成规则 1195.6.1 关联规则的概念 1195.6.2 生成规则的方法 1195.7 关联规则的评估 1245.7.1 提升度 1245.7.2 杠杆率 1255.7.3 确信度 1255.7.4 兴趣因子 1265.7.5 Kulc度量 1275.7.6 余弦度量 1275.7.7 不平衡比 1285.7.8 相关分析 1285.7.9 IS度量 128本章小结 129思考与练习 129参考文献 131第6章 分类预测 1326.1 分类的原理 1326.1.1 分类的基本原理 1326.1.2 建立分类模型的算法 1346.1.3 对分类算法的要求 1356.2 决策树分类 1356.2.1 决策树分类的原理 1356.2.2 CLS算法 1396.2.3 不同属性的划分方法 1406.2.4 信息增益 1426.2.5 信息增益率 1466.2.6 GINI系数 1486.2.7 分类误差 1506.2.8 连续数值型属性的离散化与划分 1526.2.9 决策树剪枝 1546.2.10 常见算法 1636.2.11 决策树回归分析 1646.2.12 决策树分类的特点 1656.3 k-近邻分类 1676.3.1 相似性的度量方法 1676.3.2 k值确定 1726.3.3 多数投票机制 1736.3.4 以近邻半径判定 1736.3.5 k-近邻回归 1736.3.6 算法特点 1746.4 贝叶斯分类器 1756.4.1 贝叶斯定理 1776.4.2 基于贝叶斯定理的分类应用 1786.4.3 朴素贝叶斯分类器 1796.4.4 贝叶斯分类器评估 1856.4.5 贝叶斯信念网络 1866.5 人工神经网络 1926.5.1 基本结构 1936.5.2 基本特性 1976.5.3 BP人工神经网络 1986.5.4 其他神经网络 2056.6 支持向量机 2056.6.1 支持向量机的原理 2066.6.2 求解分割超平面 2106.6.3 复杂数据分类 2126.7 集成分类器 2156.7.1 提升(Boosting) 2166.7.2 自助聚合(Bagging) 2216.8 模型评估 2236.8.1 混淆矩阵及二元分类评估 2236.8.2 马修相关系数(Mathew Correlation Coeff icient,MCC) 2256.8.3 F度量(F-Measure) 2256.8.4 ROC 2266.8.5 PR曲线 228本章小结 229思考与练习 230参考文献 231第7章 聚类分析 2337.1 聚类的基本概念 2337.1.1 相似性的度量方法 2347.1.2 聚类分析的分类 2357.1.3 典型聚类算法 2367.2 k均值(k-means)聚类方法 2367.2.1 k-means算法 2367.2.2 k-means算法的特点 2427.2.3 k中心点(k-medoids)算法 2437.3 层次聚类 2447.3.1 层次聚类的算法 2457.3.2 簇的相似度衡量方法 2487.3.3 层次聚类的特点 2517.4 DBSCAN聚类 2517.4.1 DBSCAN算法 2517.4.2 选择Eps和minPts 2527.4.3 DBSCAN算法的特点 2567.5 谱聚类 2577.5.1 谱聚类算法 2577.5.2 谱聚类算法的特点 2637.6 聚类算法评估 2647.6.1 聚类算法的要求 2647.6.2 簇评估 265本章小结 267思考与练习 268参考文献 269第8章 回归分析 2708.1 回归分析的概念 2708.2 回归算法 2718.2.1 一元线性回归分析 2718.2.2 多元线性回归分析 2748.2.3 非线性回归数据分析 2768.2.4 Logistic回归 2788.3 回归的评估与检验 2838.3.1 R方 2838.3.2 F检验 2848.3.3 t检验 286本章小结 288思考与练习 288参考文献 291第9章 数据挖掘的工具 2929.1 MATLAB 2929.2 SPSS Modeler 2939.3 SAS Enterprise Miner 2949.4 WEKA 2969.5 Python 296本章小结 297参考文献 298第10章 WEKA数据挖掘应用 29910.1 WEKA简介 29910.1.1 WEKA安装与运行 29910.1.2 Arff数据格式 30010.2 Explorer 30210.2.1 Preprocess(数据预处理) 30310.2.2 Associate(关联分析) 30510.2.3 Classify(分类分析) 30910.2.4 回归分析 32810.2.5 Cluster(聚类分析) 33610.2.6 Select Attributes(选择属性) 34310.2.7 Visualize(可视化) 34710.3 Experimenter 34810.3.1 设置模块 34810.3.2 运行模块 34810.3.3 分析模块 34810.4 KnowledgeFlow 35010.5 WEKA API 35510.6 WEKA的设置和使用 35610.6.1 显示汉字 35610.6.2 安装算法包 357本章小结 358思考与练习 358参考文献 359
|
| 內容試閱:
|
|
随着现代信息技术的迅猛发展和现代管理理论的持续创新,人类社会对信息资源的开发利用正经历着前所未有的变革。信息已成为知识的基石,数据成为连接万物的纽带,这种转变深刻影响着社会经济、科技创新、生产管理、文化传播和生活方式等各个领域。数据采集与应用技术的进步,正推动着工业生产向标准化和精准化转型,促进城市管理向智慧化升级,引领社会服务向人性化和精细化发展。数据资源化进程不仅催生了全新的数据生产与消费产业,更使数据成为现代社会运转不可或缺的核心要素。人类文明在经历了农业社会、工业社会和信息社会的演进后,正迈入一个崭新的历史阶段—数据社会。 数据的核心价值在于其全生命周期的开发利用,包括采集存储、组织积累、处理分析和挖掘应用等关键环节。在数据爆炸式增长与社会需求的双重驱动下,借助互联网和信息传播技术的突破性发展,现代数据呈现出显著的“4V”特征:数据体量庞大(Volume)、数据类型多样(Variety)、处理速度要求高(Velocity)以及价值密度降低(Value)。这种变革使人们无论主动或被动,都已置身于大数据时代的洪流之中。 大数据时代的来临孕育了一门新兴学科—数据科学。该学科致力于研究数据处理、分析和应用的技术与方法,旨在充分挖掘数据潜在价值,推动人类社会进步。学科发展最直观地体现在科技创新和教育改革领域。为满足社会对数据科学技术的迫切需求,近年来高等院校纷纷设立数据科学与大数据技术、智能科学与技术、人工智能、机器人工程以及大数据管理与应用等交叉融合的新兴专业,在数据科学研究和人才培养方面取得了重要突破。 面对海量数据资源及其对社会发展的深远影响,开发高效的数据价值挖掘工具和方法成为当务之急。数据挖掘作为一门融合统计学、机器学习、数据库技术和人工智能的交叉学科应运而生。虽然兴起于20世纪末,但凭借其强大的生命力和显著的应用成效,这项智能分析技术已展现出广阔的发展前景。 作为一门综合性新兴学科,数据挖掘技术应用范围广泛,正快速渗透到各个领域。数据分析师、科研人员和工程技术专家都迫切需要掌握这项关键技术。在高等教育领域,数据挖掘已成为工科、理科乃至金融、医学等专业的重要课程,体现了它在多学科交叉中的核心地位。 数据挖掘技术的根本价值在于:通过系统的技术方法和管理流程,在工业、科研和商业等领域,从海量数据中发掘潜在的有价值的知识,最终解决实际生产、经营和服务中的各类问题。为此,本书特别强调对数据挖掘全流程各个环节的深入理解和掌握,通过详尽的阐述,让读者认识到数据挖掘不仅是算法应用和模型构建,更是一个包含问题分析、数据理解、数据处理、算法实现,以及最重要的实际问题解决等完整环节的系统工程。只有全面把握这些关键环节,才能真正实现通过数据挖掘提升管理效能和服务质量的目标。 本书系统阐述了数据挖掘的基本原理、技术流程和应用实践,整合了信息科学、计算科学和统计学的理论方法,详细介绍了主流挖掘算法及其实现。通过真实案例解析,帮助读者深入理解各类数据挖掘模型。学习本书需要具备概率统计、程序设计、数据结构和数据库等基础知识。本书既适合作为数据科学与大数据技术、信息与计算科学、信息管理等专业的教材,也可供跨学科研究者参考使用。 本书共10章,系统地介绍了数据挖掘的理论与实践。第1章阐述数据挖掘的发展历程和基本概念;第2章详细解析数据挖掘的完整流程及各环节的任务,帮助读者建立整体认知框架;第3章重点讲解数据收集、抽样和清理等预处理的关键方法;第4章介绍在正式建模前进行数据初步探索和分析的必要内容;第5~8章分别深入讲解数据挖掘的核心算法,即关联分析、分类预测、聚类分析和回归分析;第9章概述当前主流的数据挖掘软件工具;第10章专门介绍易用性强的开源数据挖掘系统WEKA软件。 2025年上半年,对本书第1版进行了全面修订并推出了第2版。本次修订主要修正了第1版中的错误与疏漏,并对全书进行了规范化处理。具体包括:第3章重新调整了内容结构,新增了特征选择、数据编码等关键技术环节,同时补充了因子分析方法,优化了线性判别分析的介绍;第6章增加了k-近邻分类算法的详细说明,以及Boosting和Bagging集成分类器的内容;第7章新增了谱聚类算法的原理和应用;第8章完善了有序和无序Logistic回归的介绍;为保持全书的一致性,第10章也更新了相关内容。此外,还对其余部分章节内容进行了更新,扩充了各章的思考与练习的题目,并优化了参考答案的质量。 在本书的编写过程中,力求内容全面、科学严谨且通俗易懂,为此参考了大量互联网上热心学者和爱好者分享的宝贵资料,同时也借鉴了诸多相关专业书籍。在此,谨向所有被参考资料的作者致以诚挚的谢意。 由于本书内容涵盖多学科领域的专业知识,加之编者水平和精力有限,书中难免存在疏漏或不足之处。恳请广大读者在使用过程中不吝赐教,如有任何宝贵意见或建议,欢迎发送邮件至1184844262@qq.com进行交流,定将认真对待并及时回复致谢。 葛东旭
|
|