新書推薦:
《
慢慢变富66招
》
售價:NT$
245.0
《
战国竹书复原综论
》
售價:NT$
449.0
《
走出内心的深渊:快节奏人群心理疾病与健康指南(原书第3版)
》
售價:NT$
352.0
《
趋势跟踪: 汤姆·巴索的交易谋略
》
售價:NT$
352.0
《
滚滚红尘(《滚滚红尘》电影原著)
》
售價:NT$
250.0
《
罗马之变(法语直译,再现罗马共和国走向罗马帝国的辉煌历史)
》
售價:NT$
500.0
《
自然之争:1600年以来苏格兰和英格兰北部地区的环境史(新史学译丛)
》
售價:NT$
485.0
《
硝烟下的博弈:工业革命与中西方战争
》
售價:NT$
398.0
|
編輯推薦: |
这是一本真正具备中国特色的数据挖掘手册,各种常规方法一应俱全,作者是高校教授,同时也是若干公司的数据挖掘顾问,难得的理论储备与实践经验都十分深厚,表达能力也很强,也了解痛点。基于这些背景创作的这本书,非常好。
|
內容簡介: |
大数据时代,我们需要对各种海量数据进行筛选、清洗、挖掘,在这个过程中,获取有效数据的方式方法和模型算法成为了整个数据挖掘过程的重点,MATLAB作为一个数据挖掘工具,如何正确和准确地使用它成为了重中之重。
针对实际应用数据挖掘技术的要求,本书既介绍了数据挖掘的基础理论和技术,又较为详细地介绍了各种算法以及MATLAB程序。本书共分4篇,分别介绍了数据挖掘的基本概念、技术与算法以及应用实例。期望通过大量的实例分析帮助广大读者掌握数据挖掘技术,并应用于实际的研究中,提高对海量数据信息的处理及挖掘能力。本书针对性和实用性强,具有较高的理论和实用价值。
本书作者就职于部队高校,专攻数据挖掘,并应用于大量实际项目,本书同时得到了国内著名数据挖掘公司的技术支持,很多案例来自实际项目。
本书可作为高等院校计算机工程、信息工程、生物医学工程、化学、环境、经济、管理等学科的研究生、本科生的教材或教学参考书,亦可作为企事业单位管理者、信息分析人员、市场营销人员和研究与开发人员的参考资料。
|
目錄:
|
目 录
第1章 绪论 1
1.1 数据挖掘概述 2
1.2 数据挖掘的分类 4
1.3 数据挖掘的过程 5
1.4 数据挖掘的任务 6
1.5 数据挖掘的对象 8
1.5.1 数据库 8
1.5.2 文本 10
1.5.3 图像与视频数据 10
1.5.4 Web数据 11
1.6 数据挖掘建模方法 11
1.6.1 业务理解 12
1.6.2 数据理解 13
1.6.3 数据准备 13
1.6.4 建模 14
1.6.5 评估 15
1.6.6 部署 16
1.7 数据挖掘的应用 16
1.7.1 在金融领域的应用 16
1.7.2 在零售业中的应用 17
1.7.3 在电信业的应用 18
1.7.4 在管理中的应用 19
1.7.5 在化学研究领域中的应用 19
1.7.6 在材料研究、生产方面的应用 20
1.7.7 在机械故障诊断与监测中的应用 21
1.7.8 在医疗领域中的应用 22
第2章 数据挖掘算法 25
2.1 决策树算法 26
2.1.1 决策树基本算法 27
2.1.2 ID3算法 29
2.1.3 C4.5算法 30
2.1.4 CART算法 31
2.1.5 决策树的评价标准 32
2.1.6 决策树的剪枝及优化 33
2.1.7 基于matlab的决策树分析 34
2.2 人工神经网络算法 41
2.2.1 人工神经网络概述 41
2.2.2 人工神经网络的基本模型 41
2.2.3 BP神经网络 43
2.2.4 RBF神经网络 45
2.2.5 SOM神经网络 46
2.2.6 反馈型神经网络(Hopfield) 47
2.2.7 基于matlab的神经网络方法 49
2.3 进化算法 55
2.3.1 进化算法的基本原理 56
2.3.2 基因算法的主要步骤 60
2.3.3 基本遗传算法 61
2.3.4 进化规划算法 63
2.3.5 进化策略计算 64
2.3.6 量子遗传算法 68
2.3.7 人工免疫算法 72
2.3.8 基于matlab的进化算法 80
2.4 统计分析方法 87
2.4.1 假设检验 87
2.4.2 回归分析 91
2.4.3 二项逻辑(logistic)回归 100
2.4.4 方差分析 104
2.4.5 主成分分析 107
2.4.6 因子分析 110
2.4.7 基于matlab的统计分析方法 113
2.5 贝叶斯网络方法 141
2.5.1 贝叶斯定理、先验和后验 142
2.5.2 贝叶斯网络 142
2.5.3 贝叶斯网络学习 143
2.5.4 主要贝叶斯网络模型 145
2.5.5 基于matlab的贝叶斯网络方法 148
2.6 支持向量机 160
2.6.1 支持向量机概述 160
2.6.2 核函数 162
2.6.3 基于matlab的支持向量机方法 164
|
內容試閱:
|
前 言
计算机技术和通信技术的迅猛发展将人类社会带入了信息时代,在最近十几年里数据库中存储的数据量急剧增大。网络经济、注意力经济等新概念的提出,以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学引人注目的研究课题。大量的信息在给人们提供方便的同时也带来了一系列的问题,由于信息量过大,超出了人们掌握、理解信息的能力,因而给正确运用信息带来了困难。诸如信息过量、难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理,等等,造成了数据丰富,知识贫乏。
决策者很难从海量的数据中提取出有价值的知识,促使人们产生了对数据分析工具的强烈需求,如何理解已有的历史数据并用以预测未来的行为,如何从这些海量数据中发现信息,变被动的数据为主支的知识,如何快速、准确地获得有价值的网络信息和网络服务,为用户提供重要的、未知的信息或知识、指导政府决策、企业决策、获取更大的经济效益和社会效益,这些都迫使人们去寻找新的、更为有效的数据分析手段,对各种数据矿藏进行有效的挖掘以发挥其应用潜能,20世纪80年代后期至今,数据挖掘正是在这样的应用需求背景下产生并迅速发展起来的,它是开发信息资源的一套科学方法、算法及软件工具和环境。
利用数据分析工具所获取的信息和知识,可以广泛地用于商务管理、生产控制、市场分析、工程设计和科学研究与探索等诸多方面。它不仅是一个重要的研究领域,而且在现实世界具有重大的潜在应用价值。
数据挖掘技术涉及人工智能的机器学习、模式识别、数据库与数据仓库、统计学、可视化图形学等各个领域,吸引了大批学者从事学术研究和工具产品的开发。20世纪90年代中后期,在国外数据挖掘已经形成高潮,我国研究数据挖掘的学者数量也在迅速增长。
由于数据挖掘是一门新兴的、正在不断发展的学科,其理论仍然不成熟,没有完善的理论体系,很多人在没有经历数据挖掘成熟应用项目的情况下,投入到这方面的技术探索与实践工作中来,效果不明显,使得他们对于数据挖掘的许多方面都在打问号,认为数据挖掘是虚的,是炒作。实际上数据挖掘与很多技术一样是一项很实用的技术,它必然会给各行各业的工作带来高效益和高效率。
从应用的角度看,数据挖掘是一个工具,为了很好地应用数据挖掘,首先要了解数据挖掘,尽量掌握数据挖掘的技术和方法,须知道什么时候应该使用何种数据挖掘技术,了解模型内部机制,这样才可以知道如何有效地准备建模所用的数据集,以及如何使用不同参数来改进模型的输出结果。现在有关数据挖掘的书籍越来越多,但这些书籍理论性太强,满篇数学公式,即使给出算法,也只是伪代码,看不到源代码以及算法的实际效果和各种算法的对比结果,而且应用实例很少,这往往使大多数读者感到困惑,让人难以理解,不知如何下手。有时虽然可以借助现在的专业计算机软件来完成数据挖掘工作,但因涉及知识产权保护和价格等因素,不可能每个需要进行数据挖掘的读者都能拥有此类软件。对大多数读者而言,目前确实还缺少一本具有较强系统性、可比性和实用性的有关数据挖掘的参考书。基于这点考虑,作者撰写了本书,向读者介绍各种数据挖掘技术、方法及基于MATLAB的具体算法。想通过系统的介绍和实例分析,让众多的读者不仅具备数据挖掘的理论,而且能掌握数据挖掘应用方法,可以在各自的学科实际研究中予以应用,也使数据挖掘技术更易于使用和开发。
本书按照理论基础、实现步骤、实例三部分内容进行阐述,避免空洞的理论说教,着重介绍应用实例,具有较强的指导性和实用性,使读者不至于面对如此丰富的理论和方法无所适从,而是通过了解各种算法的实现思路和方法,体会算法源代码的意义,这样即使所举的实例不属于读者从事的学科,也能举一反三,掌握数据挖掘技术并应用于自己从事的科学研究中。
本书分为4篇,每篇涵盖的内容比较广泛,既有对数据挖掘概念的讨论,也有对数据挖掘技术和原理的介绍,而且编写了大量的实例,并给出了相应的程序。第1篇介绍数据挖掘的相关概念以及在多个领域中的应用情况;第2篇介绍数据挖掘算法,包括人工神经网络、决策树、遗传算法、关联分析、统计分析方法、支持向量机及一些聚类算法;第3篇介绍与数据挖掘相关的一些技术,包括数据仓库、模糊集理论、粗糙集技术、目标优化技术、可视化技术、公式发现、多媒体数据挖掘技术及Web数据挖掘技术;第4篇介绍数据挖掘具体应用实例,重点介绍数据预处理技术、聚类、分类、预测、关联规则分析、时间序列分析等方法。
本书的出版得到了清华大学出版社的大力支持,编辑栾大成为本书内容等许多方面提出了宝贵的意见。书中参考了许多学者的研究成果,在此一并表示衷心的感谢!
由于数据挖掘的内容非常丰富,所涉及的学科也较多,且限于作者学识水平,书中难免存在缺点、错误以及疏漏,敬请读者批评斧正。
本书为读者提供实例中给出的MATLAB程序,需要者可登录清华大学出版社网站,注册之后进行下载。读者反馈:xuggsx@sina.com或者QQ号693131033,作者随时解答读者问题。
许国根
本书习题代码下载
说明:本书习题按照篇分类,共三个文件夹,请对应正文的习题编号进行查询。
5.1 假设检验 假设检验中有二类重要问题,第一个是根据样本的信息判断总体分布是否具有指定的特征;第二个是在估计某未知参数时,除了求出它的点估计外,还希望在一定的置信水平上估计出一个范围,即的置信区间。
5.1.1 随机误差的判断 随机误差的大小可用试验数据的精密度来反映,而精密度的高低可用方差来量度,所以对测试结果进行方差检验,即可判断各试验方法或试验结果的随机误差之间的关系。
1. 2检验
2检验适用于单个正态总体的方差检验,即在试验数据的总体方差已知的情况下,对试验数据的随机误差或精密度进行检验。
假设有一组数据x1,x2,,xn服从正态分布,则统计量
对于给定的显著性水平,可与由相应的2分布表查得的临界值进行比较,就可判断两方差之间有无显著差异。显著性水平一般为0.01和0.05。
双尾检验时,若,则可判断该组数据的方差与原总体方差无显著差异,否则有显著差异,并且标准差2在1-水平上的置信区间为。
单尾检验时,若,则判定该组数据的方差与原总体方差无显著性减小,否则有显著减小,并且标准差2在1-水平上的置信区间为。此为左尾检验。
若,则判定该组数据的方差与原总体方差无显著增大,否则有显著增大,并且标准差2在1-水平上的置信区间为。此为右尾检验。
如果对所研究的问题只需判断有无显著差异,则采用双尾检验;如果所关心的是某个参数是否比某个值偏大(或偏小),则宜采用单尾检验。
2. F检验
F检验适用于两组具有正态分布的试验数据间的精密度的比较。
设有两组试验数据x1,x2,,xn1与y1,y2,,yn2,两组数据都服从正态分布,样本方差分别为和,则统计量
对于给定的检验水平,将所计算的统计量F与查表得到的临界值比较,即可得出检验结论。
双尾检验时,若,表示和无显著性差异,否则有显著差异。
单尾检验时,若F<1,且,则可判断比无显著减小,否则有显著减小,此为左尾检验;若F>1,且,则可判断比无显著性增大,否则有显著增大,此为右尾检验。
|
|