新書推薦:
《
掌故家的心事
》
售價:NT$
390.0
《
农为邦本——农业历史与传统中国
》
售價:NT$
340.0
《
郊庙之外:隋唐国家祭祀与宗教 增订版 (三联·哈佛燕京学术丛书)
》
售價:NT$
480.0
《
小麦文明:“黄金石油”争夺战
》
售價:NT$
445.0
《
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
》
售價:NT$
614.0
《
无法忍受谎言的人:一个调查记者的三十年
》
售價:NT$
290.0
《
战争社会学专论
》
售價:NT$
540.0
《
剑桥意大利戏剧史(剑桥世界戏剧史译丛)
》
售價:NT$
740.0
|
編輯推薦: |
本书适合人群:
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及,而且都辅以图形做形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件都与商业数据分析的主题匹配。在教学实践中,我们发现业务经验丰富和有较好商业模式理解的学员,在学习数据挖掘时有更好的效果,主要原因可能是这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单地模仿和套用数学公式。
|
內容簡介: |
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材。
|
關於作者: |
经管之家( www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。常国珍,北京大学光华管理学院会计学在读博士生,北京大学人口研究所社会学硕士,河北联合大学土木工程专业学士。德勤管理咨询公司兼职咨询顾问,SAS专业培训讲师。曾以数据挖掘工程师身份就职于亚信科技(中国)有限公司市场部。具有八年的数据挖掘实战经验,主要从事电信和银行业数据挖掘工作。项目涉及客户精准营销、信用评估、欺诈侦测和流失预警等,尤其熟悉银行个人客户精准营销的建模工作。
|
目錄:
|
第1章商业数据分析基础
1.1 商业数据分析的本质
1.2 商业数据分析中心的建设
第 2 章 数据分析的武器库
2.1 数据挖掘简介
2.2 R 语言简介
2.3 R 与 RStudio 的下载和安装
2.4 在 RStudio 中安装包
2.5 练习题
第 3 章 R 语言编程
3.1 R 的基本数据类型
3.2 R 的基本数据结构
3.3 R 的程序控制
3.4 R 的函数
3.5 R 的日期与时间数据类型
3.6 在 R 中读写数据
3.7 练习题
第 4 章 R 描述性统计分析与绘图
4.1 描述性统计分析
4.2 制图的步骤
4.3 R 基础绘图包
4.4 ggplot2 绘图
4.5 练习题
第 5 章 数据整合和数据清洗
5.1 数据整合
5.2 R 中的高级数据整合
5.3 R 中的抽样
5.4 R 的数据清洗 .
5.5 数据整合
第 6 章 统计推断基础
6.1 基本的统计学概念
6.3 双样本 t 检验
6.4 方差分析(分类变量和连续变量关系检验)
6.5 相关分析(两连续变量关系检验)
6.6 卡方检验(两分类变量关系检验)
6.7 练习题.
第 7 章 客户价值预测:线性回归模型与诊断
7.1 相关性分析
7.2 线性回归
7.3 线性回归诊断
7.4 正则化方法
7.5 练习题
第 8 章 Logistic 回归构建初始信用评级
8.1 Logistic 回归的相关关系分析
8.2 Logistic 回归模型及实现
8.3 最大熵模型与极大似然法估计
8.4 模型评估
8.5 练习题
第 9 章 使用决策树进行信用评级
9.1 决策树建模思路
9.2 决策树算法
9.3 在 R 中实现决策树
9.4 组合算法(Ensemble Learning)
9.5 练习题
第 10 章 神经网络
10.1 神经元模型
10.2 人工神经网络模型
10.3 单层感知器
10.4 BP 神经网络
10.5 RBF 神经网络
10.6 神经网络设计与 R 代码实现
10.7 练习题
第 11 章 分类器入门:最近邻域与贝叶斯网络.
11.1 分类器的概念
11.2 KNN 算法
11.3 朴素贝叶斯
11.4 贝叶斯网络
11.5 练习题
第 12 章 高级分类器:支持向量机
12.1 线性可分与线性不可分
12.2 线性可分支持向量机
12.3 线性支持向量机
12.4 非线性支持向量机
12.5 R 中的支持向量机
12.6 练习题
第 13 章 连续变量的维度归约
13.1 维度归约方法概述
13.2 主成分分析
13.3 因子分析
13.4 奇异值分解
13.5 对应分析和多维尺度分析
13.6 练习题
第 14 章 聚类
14.1 聚类分析概述
14.2 聚类算法逻辑.
14.3 层次聚类.
14.4 k-means 聚类
14.5 基于密度的聚类.
14.6 聚类模型的评估
14.7 高斯混合模型(Gaussian Mixture Model)
14.8 客户分群
14.9 练习题
第 15 章 关联规则与推荐算法
15.1 长尾理论
15.2 关联规则
15.3 序贯模型
15.4 推荐算法与推荐系统.
15.5 练习题.
第 16 章 时间序列建模
16.1 认识时间序列
16.2 简单时间序列分析.
16.3 平稳时间序列分析 ARMA 模型
16.4 非平稳时间序列分析 ARIMA 模型
第 17 章 特征工程( Feature Engineering)(博文视点官方网站下载)
17.1 特征工程概述.
17.2 数据预处理(Data Preprocessing)
17.3 特征构造(Feature Construction)
17.4 特征抽取(Feature Extraction)
17.5 特征选择(Feature Selection)
第 18 章 R 文本挖掘(博文视点官方网站下载)
18.1 文本挖掘
18.2 文本清洗
18.3 中文分词与文档模型.
18.4 文本的特征选择及相关性度量
18.5 文本分类
18.6 主题模型
18.7 综合案例.
附录 A 数据说明(博文视点官方网站下载)
|
內容試閱:
|
前言
本书有别于其他数据挖掘书籍最大的特点在于参与写作的主要作者均为非理工科背景并具有数据挖掘岗位数年的实际工作经验,且从事3年以上的培训工作。这使得本书更贴近实际运用的同时,紧抓初学者的痛点,语言更浅显易懂,操作性更强。当然,这也使得本书在前沿方法的讲解上略显不足。因为一个算法要在商业数据挖掘中得到运用需要大致3~5年的时间。所以本书仅适合数据挖掘入门人员使用。而且本系列教材强调追求浅显易懂,只注重运用中是否够用,不关心算法知识的全面性,因此在算法推导过程中降低了难度,不涉及非关键且不易理解的部分。当读者从事数据挖掘2~3年后,本书的知识就不能满足其更高的需求了,需要参考内容更深入的书籍,比如更专业的《统计学习方法》、《机器学习》等。
本书按照数据挖掘工程师规范化学习体系而定,对于一名初学者,应该先掌握必要的编程工具、统计理论基础、数据挖掘算法等内容。进而,数据挖掘需要根据业务问题选择合适的方法,按照标准流程,即数据的获取、储存、整理、清洗、归约等一系列数据处理技术,并最终得出果,绘制图表并解读数据,这些内容在本书中进行了详细的讲解和操作分析。本书整体风格是理论技术应用的一个学习过程,最终目的在于商业业务应用,为欲从事数据挖掘的各界人士提供一个规范化的数据分析师学习体系。
读者对象
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数
据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及,而且都辅以图形做形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件都与商业数据分析的主题匹配。在教学实践中,我们发现业务经验丰富和有较好商业模式理解的学员,在学习数据挖掘时有更好的效果,主要原因可能是这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单地模仿和套用数学公式。
工具介绍
当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消逝殆尽。商业数据分析的真正目的是为了解决业务的分析需求,构造稳健的数据挖掘模型。数据挖掘产品的质量是通过对分析流程的严格掌控而得以保障的。本书注重实用,直指数据挖掘实施的要点,精选业界使用最广泛的实施方案,为读者节约宝贵的时间。相对于Python,R偏向于统计分析、计量经济学和统计内容。R不仅在学术研究中拥有广泛的用户基础,而且和Oracle、SQLSever等数据库软件的结合使其不再受内存的限制,从而在商业上有了一定的用武之地。而且R和Hadoop、Spark等大数据分析平台也可以自由连接。
阅读指南
本书包括18章,内容涉及使用R做数据挖掘的主要分析方法。其中,第1、2章为数据分析方法概述,第3章为R语言编程基础,第4章至第8章为统计学习方法,第9章至第16章为数据挖掘方法,第17章为特征工程,第18章为R文本挖掘。每章都根据涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。为方便读者学习,本书提供书中案例的源文件下载,请读者进入CDA官网(http:cda.cnview22045.html)的相应专栏下载数据和源代码。
本书特点
本书作为CDA第一本数据挖掘教材,和其他统计软件图书有很大的不同,文体结构新颖,案例贴近实际,讲解深入透彻。这些特点主要表现在以下几方面。
场景式设置
本书对互联网、电商、电信、银行等商业案例进行精心归纳,提炼出各类数据分析的运用场景,方便读者查找与实际工作相似的问题。
开创式结构
本书案例中的解决方案环节是对问题的解决思路的解说,结合操作方法环节中的步骤让读者更容易理解。原理分析环节则主要解释所使用代码的工作原理或者详细解释思路。知识扩展环节是对与案例相关的知识点的补充,既能拓展读者的视野,同时也有利于理解案例本身的解决思路。
启发式描述
本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现、总结和运用规律,从而启发读者快速地找出解决问题的方法。
学习方法
俗话说,打把势全凭架势,像不像,三分样。只有熟悉数据挖掘的流程,才能实现从模仿到
灵活运用的提升。在产品质量管理方面,对流程的掌控是成功的关键,在数据挖掘过程中,流程同样是重中之重。数据挖掘是一个先后衔接的过程,一个步骤的失误会带来完全错误的结果。一个数据挖掘的流程大致包括抽样、数据清洗、数据转换、建模和模型评估这几个步骤。如果抽样中的取数逻辑不正确,就有可能使因果关系倒置,因而得到完全相反的结论。如果数据转换方法选择不正确,模型就难以得到预期的结果。而且,数据分析是一个反复试错的过程,每一步都要求有详细的记录和操作说明,否则数据挖掘人员很可能迷失方向。学习数据挖掘最好的方法就是动手做一遍,本书语言通俗但高度凝炼,很少有公式,以避免读者麻痹大意。本书按照相关商业数据分析主题提供了相应的练习数据,同时提供相关方面的参考资料,供读者学习。
序言:数据分析是当代商业的主旋律
CDA 数据分析研究院历经多年研发,最终呈现给大家这一系列教材。CDA是注册数据分析师的英文缩写。CDA 行业有当前的发展,主要是时势使然。遥想成立之时,金融海啸正逐步向实体经济蔓延,国际大型跨国企业由于经营业绩下滑,纷纷裁员。例如国际制药企业默沙东全球裁员5000余人,但奇特的是其不仅没有裁减亚太研究中心的数据分析人员,反而还在各大高校积极招聘。出现这种怪现象主要是因为数据分析职业是逆经济周期发展的。商业发展前景越悲观、行业竞争越激烈,企业对数据分析人员的需求就越旺盛。这和在经济低迷时,化妆品和电信公司收入反而提高是一个道理。我国大数据的元年为2013 年,与金融海啸相隔5 年,在这5 年里,金融的风险向实体经济逐渐释放。自2008 年后,国际贸易逐渐走弱,代工类企业的收入明显下降。很多外向型企业逐渐瞄准国内市场,但是这谈何容易。这类企业对国内市场很陌生,市场推介主要是依靠各类展销,一年的生产目标仅靠几个大订单就能确定。企业过去的商业模式基本上就是一个成本中心,只要控制好成本,就算万事大吉。如今一旦进入国内散客市场,创建自主品牌,商业模式便会完全改变。企业要进行客户分析、了解市场结构与客户偏好,并投入研发、宣传、开拓市场等工作中。之前接触过一些转型中的企业,它们一开始都不知道客户在哪里,产品需求分析与趋势预测更是无从谈起。管理学大师德鲁克曾指出,在未来的社会中,不能正确预测趋势将导致企业100%的失败。这从侧面反映了当时企业的尴尬境地。企业在困境中一方面要进一步控制成本,对内通过数据治理实现效率的提高;另一方面,要积极获取外部数据用于市场分析、客户研究,从而指导产品研发和市场策略,这就是大数据相关行业火热起来的根本原因。
大环境利好数据分析,但是企业在实施数据分析项目时却步履维艰,这主要是由于专业人才的匮乏。麦肯锡公司的一份研究预测称,到2018 年,在具有深入分析能力的人才方面,美国可能面临着14 万到19 万人的缺口,而可以利用大数据分析来做出有效决策的经理和分析师的缺口则会达到150 万人。谷歌首席科学家范里安直接指出数据非常之多而且具有战略重要性,但是真正缺少的是从数据中提取价值的能力。我国是人口大国,却是人力资源弱国。据艾瑞的研究报告,未来与数据分析相关的就业岗位会在1000 万个左右,而目前国内合格的数据分析师不足5 万人,建立一个科学有效的数据分析师认证与培训体系迫在眉睫。北京国富如荷网络科技有限公司应时代需求,依托经管之家(原人大经济论坛)十几年来在商业、金融、管理等方向的数据分析教学领域的基奠,联合中华资料采矿协会及数据分析领域专家、学者于2013 年发起成立CDA 数据分析师职业认证,积极推动商业数据分析知识体系建设和认证标准制定等工作的开展。国富如荷在CDA 数据分析研究方面,设有CDA 数据分析师培训中心、CDA 数据分析师考试中心和大数据及数据分析教研部,分别负责知识体系构建、认证题库建设和商业数据分析教学研发工作。经过4 年的发展,成果喜然,参与培训和认证的人数每年均以50%以上的速度增长,成功见证了数千名数据分析师的成长。未来,我们将继续提供高水平、多层次的数据分析培训和认证服务,以在行业积累多年的影响力,吸引更好、更多的优秀师资,瞄准行业内重要的数据分析问题和难点,不断突破,建立更加规范的行业培训体系,引领数据分析培训行业向规范化、有效化和前瞻化方向发展,为数据分析的商业运用做出应有的贡献。
常国珍
2017 年1 月1 日
|
|