《R语言数据挖掘》 - 台灣·大書城 - [哈萨克斯坦]贝特·麦克哈贝尔 - 机械工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』R语言数据挖掘

書城自編碼： 2915782
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者： [哈萨克斯坦]贝特·麦克哈贝尔
國際書號(ISBN)： 9787111547693
出版社：机械工业出版社
出版日期： 2016-10-01
版次： 1 印次： 1
頁數/字數： 201/350000
書度/開本： 16开釘裝：平装

售價：NT$ 368

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《大数据导论（第2版）》
售價：NT$ 352.0

《帝国时代》
售價：NT$ 959.0

《现象学的心灵（第三版）（中国现象学文库·现象学原典译丛·扎哈维系列）》
售價：NT$ 500.0

《近世通儒——纪念沈曾植逝世100周年学术研讨会论文集》
售價：NT$ 857.0

《光速声波物理学. 1、2、3 》
售價：NT$ 2295.0

《天下之极：世界枢纽观念的古今之变》
售價：NT$ 449.0

《认识现代社会之真相：杨照讲马克斯·韦伯》
售價：NT$ 439.0

《幻想底尽头：穆旦传（《穆旦年谱》编撰者历时二十余年心血之作，基于《穆旦评传》精心修订，文献翔实可靠，完整讲述了一位中国诗人与翻译家并不平顺的一生。）》
售價：NT$ 653.0

建議一齊購買：

NT$ 353
《大数据时代的算法：机器学习、人工智能及其典型实例》

NT$ 518
《机器人控制系统的设计与MATLAB仿真：基本设计方法》

NT$ 443
《玩转乐高拓展EV3》

NT$ 443
《神经网络与深度学习》

NT$ 360
《丝路好时光：哈萨克斯坦女博士的中国情缘》

NT$ 510
《Моя китайская история丝路好时光（俄文》

內容簡介：

本书介绍了关联规则、分类、聚类分析、异常值探测、数据流挖掘、时间序列、图形挖掘、网络分析、文本挖掘和网络分析等流行的数据挖掘算法，给出了具体算法以及这些算法的伪代码和R语言实现。本书可以作为统计学、计算机等相关专业高年级本科生或研究生的教材，也可以作为数据分析和挖掘等相关研究人员的参考资料。

關於作者：

作者简介 About the AuthorBater Makhabel（LinkedIn： BATERMJ和GitHub： BATERMJ）为系统构架师，生活在中国北京、上海和乌鲁木齐等地。他于1995至2002年之间在清华大学学习，并获得计算机科学和技术的学士和博士学位。他在机器学习、数据挖掘、自然语言处理（NLP）、分布系统、嵌入系统、网络、移动平台、算法、应用数学和统计领域有丰富的经验。他服务过的客户包括CA Technologies、META4ALL和EDA（DFR的一家子公司）。同时，他也拥有在中国创办公司的经历。Bater的生活开创性地在计算机科学和人文科学之间取得了平衡。在过去的12年中，他在应用多种先进计算机技术于文化创作方面获得了经验，其中一项是人机界面，通过哈萨克语与计算机系统进行交互。他一直和他工作领域中的其他作家有合作，但是本书是他的正式作品。About the Reviewers 审校者简介Jason H.D. Cho在伊利诺伊大学香槟分校获得计算机硕士学位，现在在攻读博士。他对应用自然语言处理和大数据解决医学信息问题特别感兴趣。尤其是，他希望能在社交媒体上找到病人关心的健康需求。他曾带领一个学员小组在美国一项主要的保健竞赛（CIMIT）中跻身前10名。Jason也为自然语言处理和大数据研究领域的文章进行审稿。Gururaghav Gopal现在在Paterson证券公司工作，其职位是量化分析员、开发人员、交易员和分析师。以前，他是一个和电商行业相关的数据科学咨询师。他曾经在印度韦洛尔的韦洛尔理工大学教授大学生和研究生模式识别课程。他曾经在一些研究机构做过研究助理，包括IFMR和NAL。Gururaghav获得了电子工程的学士学位、计算机科学和工程的硕士学位，并在IFMR辅修金融工程和风险管理方面的课程。之后，他便在金融相关领域工作。他获得过多个奖项并以他的名字发表过多篇文章。他对编程、教学和咨询感兴趣。在闲暇时间，他会听音乐。Vibhav Kamath获得了位于孟买的印度理工学院工业工程和运筹学的硕士学位，并具有位于浦那的工学院的电子工程学士学位。大四期间，他对算法和数学模型产生了兴趣，从此便进入分析领域。Vibhav现在在班加罗尔的一家IT服务公司工作，其工作的一部分内容是应用R编程语言基于优化和线性回归技术来开发统计和数学模型。他曾经审阅过Packt出版社出版的两本R语言图书：R Graphs Cookbook,Second Edition和Social Media Mining with R，他曾经应用SAS、SQL和ExcelVBA做过数据可视化，为一家银行开发过仪表盘程序。过去，Vibhav从事过离散时间仿真和语言处理（均基于MATLAB）等方面的学术工作。他涉猎过机器人领域，建立了一个浏览魔方的机器人Micromouse。除了分析和编程之外，Vibhav喜欢阅读小说类读物。空闲时，他打乒乓球、板球和网球，实在无聊时就玩田字格游戏（数独和数谜）。可以通过邮件vibhav.kamath@hotmail.com或者领英in.linkedin.cominvibhavkamath与他联系。Hasan Kurban于2012年在布卢明顿的印度大学获得计算机硕士学位，现在在该校的信息与计算机学院攻读博士学位，专业为计算机科学同时辅修统计学。他的研究方向为数据挖掘、机器学习和统计学。

目录 Contents译者序作者简介审校者简介前言致谢第1章　预备知识11.1　大数据21.2　数据源31.3　数据挖掘41.3.1　特征提取41.3.2　总结41.3.3　数据挖掘过程51.4　社交网络挖掘71.5　文本挖掘91.5.1　信息检索和文本挖掘101.5.2　文本挖掘预测101.6　网络数据挖掘101.7　为什么选择R121.8　统计学121.8.1　统计学与数据挖掘131.8.2　统计学与机器学习131.8.3　统计学与R语言131.8.4　数据挖掘中统计学的局限性131.9　机器学习131.9.1　机器学习方法141.9.2　机器学习架构141.10　数据属性与描述151.10.1　数值属性161.10.2　分类属性161.10.3　数据描述161.10.4　数据测量171.11　数据清洗181.11.1　缺失值181.11.2　垃圾数据、噪声数据或异常值191.12　数据集成191.13　数据降维201.13.1　特征值和特征向量201.13.2　主成分分析201.13.3　奇异值分解201.13.4　CUR分解211.14　数据变换与离散化211.14.1　数据变换211.14.2　标准化数据的变换方法221.14.3　数据离散化221.15　结果可视化231.16　练习241.17　总结24第2章　频繁模式、关联规则和相关规则挖掘252.1　关联规则和关联模式概述262.1.1　模式和模式发现262.1.2　关系或规则发现292.2　购物篮分析302.2.1　购物篮模型312.2.2　Apriori算法312.2.3　Eclat算法352.2.4　FP-growth算法372.2.5　基于最大频繁项集的GenMax算法412.2.6　基于频繁闭项集的Charm算法432.2.7　关联规则生成算法442.3　混合关联规则挖掘462.3.1　多层次和多维度关联规则挖掘462.3.2　基于约束的频繁模式挖掘472.4　序列数据集挖掘482.4.1　序列数据集482.4.2　GSP算法482.5　R语言实现502.5.1　SPADE算法512.5.2　从序列模式中生成规则522.6　高性能算法522.7　练习532.8　总结53第3章　分类543.1　分类553.2　通用决策树归纳法563.2.1　属性选择度量583.2.2　决策树剪枝593.2.3　决策树生成的一般算法593.2.4　R语言实现613.3　使用ID3算法对高额度信用卡用户分类613.3.1　ID3算法623.3.2　R语言实现643.3.3　网络攻击检测643.3.4　高额度信用卡用户分类663.4　使用C4.5算法进行网络垃圾页面检测663.4.1　C4.5算法673.4.2　R语言实现683.4.3　基于MapReduce的并行版本693.4.4　网络垃圾页面检测703.5　使用CART算法判断网络关键资源页面723.5.1　CART算法733.5.2　R语言实现743.5.3　网络关键资源页面判断743.6　木马程序流量识别方法和贝叶斯分类753.6.1　估计753.6.2　贝叶斯分类763.6.3　R语言实现773.6.4　木马流量识别方法773.7　垃圾邮件识别和朴素贝叶斯分类793.7.1　朴素贝叶斯分类793.7.2　R语言实现803.7.3　垃圾邮件识别803.8　基于规则的计算机游戏玩家类型分类和基于规则的分类813.8.1　从决策树变换为决策规则823.8.2　基于规则的分类823.8.3　序列覆盖算法833.8.4　RIPPER算法833.8.5　计算机游戏玩家类型的基于规则的分类853.9　练习863.10　总结86第4章　高级分类算法874.1　集成方法874.1.1　Bagging算法884.1.2　Boosting和AdaBoost算法894.1.3　随机森林算法914.1.4　R语言实现914.1.5　基于MapReduce的并行版本924.2　生物学特征和贝叶斯信念网络924.2.1　贝叶斯信念网络算法934.2.2　R语言实现944.2.3　生物学特征944.3　蛋白质分类和k近邻算法944.3.1　kNN算法954.3.2　R语言实现954.4　文档检索和支持向量机954.4.1　支持向量机算法974.4.2　R语言实现994.4.3　基于MapReduce的并行版本994.4.4　文档检索1004.5　基于频繁模式的分类1004.5.1　关联分类1004.5.2　基于判别频繁模式的分类1014.5.3　R语言实现1014.5.4　基于序列频繁项集的文本分类1024.6　基于反向传播算法的分类1024.6.1　BP算法1044.6.2　R语言实现1054.6.3　基于MapReduce的并行版本1054.7　练习1064.8　总结107第5章　聚类分析1085.1　搜索引擎和k均值算法1105.1.1　k均值聚类算法1115.1.2　核k均值聚类算法1125.1.3　k模式聚类算法1125.1.4　R语言实现1135.1.5　基于MapReduce的并行版本1135.1.6　搜索引擎和网页聚类1145.2　自动提取文档文本和k中心点算法1165.2.1　PAM算法1175.2.2　R语言实现1175.2.3　自动提取和总结文档文本1175.3　CLARA算法及实现1185.3.1　CLARA算法1195.3.2　R语言实现1195.4　CLARANS算法及实现1195.4.1　CLARANS算法1205.4.2　R语言实现1205.5　无监督的图像分类和仿射传播聚

內容試閱：

Preface 前言世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题。由于人们对数据分析领域的兴趣日益增加，所以R语言提供了一个免费且开源的环境，非常适合学习和有效地利用现实世界中的预测建模方案。随着R语言社区的不断发展及其大量程序包的不断增加，它具备了解决众多实际问题的强大功能。R编程语言诞生已经有数十年了，它已经变得非常知名，不但被社区的科学家而且被更广泛的开发者社区所熟知。它已经成长为一个强大的工具，可以帮助开发者在执行数据相关任务时生成有效且一致的源代码。由于R语言开发团队和独立贡献者已经创建了良好的文档，所以使用R语言编程并不困难。进而，你可以使用来自R语言官方网站的程序包。如果你想不断提高自己的专业水平，那么你可能需要阅读在过去几年中已经出版的书籍。你应该始终铭记：创建高水平、安全且国际兼容的代码比初始创建的第一个应用程序更加复杂。本书的目的是帮助你处理在复杂的统计项目中遇到的一系列可能比较困难的问题。本书的主题包括：学习在运行R语言程序时，如何使用R代码段处理数据，挖掘频繁模式、关联规则和相关规则。本书还为那些具有R语言基础的读者提供了成功创建和自定义最常用数据挖掘算法的技能和知识。这将有助于克服困难，并确保在运用R语言公开可用的丰富程序包开发数据挖掘算法时，R编程语言能够得到最有效的使用。本书的每一章是独立存在的，因此你可以自由地跳转到任何一章，学习你觉得自己需要对某个特定的话题进行更加深入了解的章节。如果你觉得自己遗漏了一些重要的知识，你可以回顾前面的章节。本书的组织方式有助于逐步拓展你的知识框架。你需要了解如何编写不同的预测模型、流数据和时间序列数据的代码，同时你还会接触到基于MapReduce算法（一种编程模型）的解决方案。学完本书，你将会为自己所具备的能力（知道哪种数据挖掘算法应用于哪种情况）而感到自信。我喜欢使用R编程语言进行多用途数据挖掘任务的开发与研究，我非常高兴能与大家分享我的热情和专业知识，帮助大家更有效地使用R语言，更舒适地使用数据挖掘算法的发展成果与应用。本书主要内容第1章阐述数据挖掘的概要知识，数据挖掘与机器学习、统计学的关系，介绍数据挖掘基本术语，如数据定义和预处理等。第2章包含使用R语言编程时，学习挖掘频繁模式、关联规则和相关规则所需的高级且有趣的算法。第3章帮助你学习使用R语言编写经典分类算法，涵盖了应用于不同类型数据集的多种分类算法。第4章讲述更多的分类算法，如贝叶斯信念网络、支持向量机（SVM）和k近邻算法。第5章讲述如何使用流行与经典的算法进行聚类，如k均值、CLARA和谱算法。第6章介绍与当前行业热点话题相关的高级聚类算法的实现，如EM、CLIQUE和DBSCAN等。第7章介绍如何应用经典和流行算法来检测现实世界案例中的异常值。第8章运用最流行、最经典以及一流的算法来讲解流数据、时间序列和序列数据挖掘这3个热点话题。第9章介绍图挖掘和社交挖掘算法的概要及其他有趣的话题。第10章介绍应用领域中最流行算法的有趣应用。附录包含算法和数据结构的列表以便帮助你学习数据挖掘。学习本书的准备知识任何一台装有Windows、Linux或者Mac OS系统的个人计算机都可以运行本书给出的代码示例。本书所使用的软件都是开源的，可以从http：www.r-project.org上免费获取。读者对象本书适合对R语言和统计学具有基本知识的数据科学家、定量分析师和软件工程师。本书假定读者只熟悉非常基本的R语言知识，如主要的数据类型、简单的函数和如何来回移动数据。不需要先前熟悉数据挖掘软件包。但是，你应该对数据挖掘的概念和过程有基本的认知。即使你对于数据挖掘完全是一个新人，你也能够同时掌握基本和高级的数据挖掘算法的实现。你将学习如何从各种数据挖掘算法中选择合适的算法，将这些算法应用于现实世界可用的大多数数据集中的某些特定数据集中。约定本书中，你将发现多种文字印刷格式，它们用于对不同类型的信息进行区分。下面是关于这些格式的一些例子以及它们的含义。文本中的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter ID如下所示：我们可以通过使用include指令来包含其他的上下文。新的术语和重要词用粗体标示。例如，在屏幕上、菜单中或者对话框中看到的词将这样出现在文本中：单击Next按钮进入下一个界面。警告或者重要的说明将会出现在这样的图标后面。提示或技巧将会出现在这样的图标后面。读者反馈读者的反馈始终是受欢迎的。让我们知道你如何看待本书你喜欢哪些内容或者你可能不喜欢哪些内容。读者的反馈对于我们制定使读者真正获得最大效用的主题是十分重要的。可以通过发送电子邮件至邮箱feedback@packtpub.com，并在电子邮件的主题中提及书名来给我们提供意见。如果你对于某个主题有专长，或者你有兴趣编写一本书或协助完成一本书，可以到网站www.packtpub.comauthors看一看我们的撰稿指南。客户支持既然你现在自豪地拥有了一本Packt书，那么我们可以做很多事来帮助你充分利用你购买的书籍。下载示例代码你可以从你在http：www.packtpub.com网站的账户上下载所有你已经购买的Packt书的示例代码。如果你在其他地方购买本书，你可以访问http：www.packtpub.comsupport网站并注册，我们将通过电子邮件直接给你发送文件。你也可以在网站https：github.combatermjlearning-data-mining-with-r找到本书的代码文件。勘误表虽然我们已经尽力确保书中内容的准确性，但错误难免会发生。如果你在我们的某一本书中发现错误（可能是文本或者代码中的错误）并向我们报告错误，我们将不胜感激。由此，你可以使其他读者免于困惑并帮助我们改进该书的后续版本。如果你发现任何错误，请通过访问http：www.packtpub.comsubmit-errata网站，选择相应图书，单击errata submission form（勘误提交表单）的链接，并输入错误的详细信息以便报告给我们。一旦你的错误得到验证，你的提交将被接受并上传到我们的网站，或者添加到现有的勘误表中，列于该标题下的勘误表部分。任何现有的勘误表均可从http：www.packtpub.comsupport网站上选择你所需要的标题进行查看。盗版行为因特网上版权材料的盗版行为是所有媒介一直存在的问题。在Packt，我们非常重视对版权和许可证的保护。如果你在网络上遇到任何形式非法复制我们著作的行为，请立刻向我们提供位置地址或者网站名称以便我们能够寻找补救方法。我们的联系方式是copyright@packtpub.com，请一并附上关于涉嫌盗版材料的链接。我们非常感谢你对我们的作者以及我们为你带来有价值内容的能力的保护。问题如果你对本书有任何方面的问题，可以联系我们（questions@packtpub.com），我们将竭尽所能帮助你解决。Acknowledgements?致谢感谢我的妻子Zurypa Dawletkan和儿子Bakhtiyar。他们支持我利用多个周末和夜晚使得本书得以出版。我也要感谢Luke Presland，给予我机会来撰写这本书。十分感谢Rebecca Pedley和Govindan K，你们对本书的贡献是巨大的。感谢Jalasha Dcosta和其他技术编辑及团队为该书出版付出的努力，使得本书看起来还不错。同时，感谢组稿编辑和技术审校者。我也要谢谢我的兄弟Bolat Makhabel博士（LinkedIn： BOLATMJ），他给我提供了本书英文版封面的照片，他具有医学背景。照片中的植物名为Echinops（植物学的拉丁名字），哈萨克语称为Lahsa，在中国称为蓝刺头。这种植物用于传统的哈萨克医药，也是我兄弟研究的一部分。尽管我的专业知识来源于不断的实践，但它也来源于我的母校（清华大学）和戴梅萼教授、赵雁南教授、王家钦教授、Ju Yuma教授以及其他众多老师为我打下的坚实基础。他们的精神鼓励我在计算机科学和技术领域继续努力。我要感谢我的岳父母Dawletkan Kobegen和Burux Takay，感谢他们照顾我的儿子。最后，我要对我的姐姐Aynur Makhabel和姐夫Akimjan Xaymardan表达我最大的敬意。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.