新書推薦:
《
蛋壳头骨
》
售價:NT$
295.0
《
尼泊尔史:王权与变革
》
售價:NT$
430.0
《
战争事典085:德国人眼中的欧战胜利日:纳粹德国的最终失败
》
售價:NT$
499.0
《
步履匆匆:陈思和讲当代人文(杰出学者陈思和的人文之思、情怀之笔!)
》
售價:NT$
299.0
《
宋朝三百年
》
售價:NT$
790.0
《
行动中的理性
》
售價:NT$
440.0
《
礼制考古经典选读
》
售價:NT$
1340.0
《
MATLAB实用教程(第六版)
》
售價:NT$
695.0
|
編輯推薦: |
《从1开始数据分析师成长之路》从简单的制作报表开始和大家一起学习数据分析的五大模块:报表BI系统、异常数据分析、解决数据需求、项目性数据分析以及数据建模,为大家全方位、体系化地呈现数据分析到底是什么。
|
內容簡介: |
数据分析行业就像所有新兴行业初期一样,伴随着混乱和盲目,一方面市场上培训机构巧立名目颁发证书,另一方面也有许多国外的著作被生搬硬套过来供自学者学习。本书是*本结合国内公司实际状况和作者多年数据分析经验,系统而又详尽地介绍数据分析工作的作品。相较于使用Excel进行数据统计工作更加专业化、系统化,相较于数据挖掘与编程算法更加易于理解和贴合业务。从简单的制作报表开始和大家一起学习数据分析的五大模块:报表BI系统、异常数据分析、解决数据需求、项目性数据分析以及数据建模,为大家全方位、体系化地呈现数据分析到底是什么。
|
關於作者: |
张旭东,江苏宿迁人,数据科学家。先后就读于苏州大学与中国人民大学数学专业。2010年至今总计发表各类文献百万余字,诣在推行数学语言简易化、通俗化、平民化。
|
目錄:
|
第1章数字、数据、数学1
1.1数字的起源2
1.2数据4
1.3数字与数据6
1.4数学8
1.5统计学13
第2章分析、逻辑与思维18
2.1描述、概括、分析19
2.2逻辑思维26
第3章大数据到底是什么32
3.1时代的现状33
3.2大数据与传统数据35
3.3大数据在说什么40
第4章数据分析与数据挖掘43
4.1分析与挖掘44
4.2选择自己的路46
第5章如何做好数据分析50
5.1数据分析51
5.2制作报表52
5.3异常数据分析62
5.4MySQL查询语言72
5.5数据需求处理77
5.6进行项目分析88
5.7数据分析的结构化梳理99
第6章数据分析师进阶101
6.1思维与态度102
6.2软件升级:R or Python107
6.3数据分析师的格局109
第7章数据分析实战115
7.1报表系统116
7.2发现异常129
7.3数据需求135
7.4项目分析144
第8章初识R语言160
8.1安装与编辑器161
8.2数据读取163
8.3数据处理165
8.4经典算法167
第9章行业的未来170
9.1市场需求171
9.2重要性、必要性176
9.3大数据,下一个风口183
第10章数据分析测试题与答案187
10.1MySQL测试题188
10.2逻辑题189
|
內容試閱:
|
序言
20世纪80年 代,伴随着微型智能计算机的发展,第三次工业革命进入了一个崭新的时代,计算机科学伴随着摩尔定律一路高歌猛进冲进了每个人的生活。从工业化时代转换到互 联网时代一个最为突出的特征就是信息爆炸,近30年来人类生产的信息已超过过去5000年信息生产的总和。而当下信息的主要载体是数据库,庞大的信息 量对应着庞大的数据量,那么这些承载着庞大信息量的数据处理就显得尤为重要,数据分析作为一门新兴的行业也变得越来越受人瞩目。
就 像在计算机行业刚刚火爆的那些年,由于没有现成的体系化的知识,几乎所有人都在摸索中前进。大家的知识一方面来源于相互探讨交流,另一方面借鉴西方发达国 家的教材资料。数据分析现在同样没有体系化的知识结构,没有成熟的经验教训,数据分析从业者中一部分是从计算机编程开始做数据挖掘,另一部分是从统计学开 始做数据分析,还有一小部分人是凭借着自己的兴趣爱好自己探索着前进。国内对于数据分析的解读一方面偏向于基于Excel可视化报表,另一方面偏向于数据 挖掘与编程算法,前者太过流于表面,后者又十分晦涩难懂。张旭东的这本《从1开始数据分析师成长之路》算是国内第一本详尽而又系统的介绍数据分析前因 后果的书籍了,在保证通俗易懂的同时又有数据分析的深度,作为数据分析的入门书籍的确是相当不错。
数据分析行业一定会伴随着大数据时代的到来逐渐被大家重视和认可,如果你想把握住机会成为大数据时代的弄潮儿,这本书值得一看。
卢斌
中国人民大学高礼研究院执行院长
前言
随 着大数据这个概念被越来越多的人提起,数据分析与数据挖掘这两个词汇频繁地出现在人们的视野中,越来越得到大家的重视和青睐。从事数据分析工作的这些年, 身边不断有人问起数据分析如何入门或是如何做好数据分析,市场也有各类速成数据分析或是零基础数据分析等培训课程,颇有当年人人都去做产品经理的 势头。与此同时在一些问答类网站上出现了许多诸如这样的问题:
文科生如何转行数据分析?
数学基础不好能做数据分析吗?
听了某某专家的演讲觉得数据分析很棒,如何入门?
问题下面往往有很多因各种各样的原因推荐的书籍、教程、公众号内容乏善可陈的同时太容易误导新人,看着着实心痛。
与 此同时,通过这些年来的了解和熟悉,身边有太多盲目的数据分析从业人员,只是了解了Excel中相关图表与统计的功能,在从事分析工作时也有许多的不 严谨和漏洞。在一些社区或是平台经常遇到一些人把原始数据直接挂在网上,问该怎么分析数据甚至是通过这些数据能得出什么结论。现在想一想,他们真的适合做 数据分析吗?数据保密性的职业素养不说,不经大脑思考地贴数据要结果的分析员真的能胜任这份工作吗?
写这本书最大的愿望就是能够通过简单的描述让大家对数据分析有一个简单的了解,对自己是否适合这个职位有一个概念,不要盲目从众,能有自己的判断。市场上从零开始入门的教程鱼龙混杂,在入门之前大家首先要考虑这扇门真的适合你吗?
这本书写在数据分析入门之前,会向读者们简单地介绍究竟什么是数据分析,重点放在这个岗位有怎样的要求和特质以及如何才能达到这样的标准,也会简单介绍数据分析岗位未来的职业发展,希望对有志于从事数据分析工作的你有所帮助。
作 者
描述、概括、分析
大家 在日常生活中经常会听到这些词汇:描述、概括、分析、知道、认识、了解、熟悉、掌握等。这些似乎意思差不多的词汇,粗略看起来并没有什么区别,但是许多时 候是说者有心而听者无意,数据分析尤其如此。我们需要描述一个事件还是分析一个事件?这两者中间大有区别,为了便于大家理解先来讲个故事吧。
慵懒的下午,你坐在咖啡馆里看窗外人来人往,这时突然有一位美女闯入了你的眼帘,惊艳了时光,叨扰了岁月。在你的注视中美女就那么徐徐地走了,而你仍旧久久不能忘怀,难得这样的心动时刻,你需要把它记录下来:
2015年10月21日,星期三,天气如同心情一样好,邂逅一美女,撰文以记之。
她就那么突然地闯入我的视线,像一只骄傲的猫,带着比肩的短发,蚕眉冷艳,眼波流转;鼻梁不高但棱角分明,唇不红艳自带一份雅致;黑色的小皮鞋轻快地敲打着地砖,颀秀的两条腿包裹在粉色的丝袜中傲娇而不媚俗;白色毛衣披风就那么搭在肩上欲滑将落
她就那么徐徐地走着,带着独特地隐藏在优雅中的俏皮,伴随着一丝倔强和傲气,轻快又不显急躁地走着
矫健的步伐配合着摇曳的臂摆透漏了内心的快乐与活力,让人不禁想象这个女孩不管在工作中还是生活中应该都是乐观的吧,平时应该比较爱笑,周围朋友也会很多,应该会很好相处吧!我能不能成为她的朋友呢?
亲爱的朋友,能不能从上面的一段矫情的日记里面说出哪里是描述哪里是概括哪里是分析呢?
描述
抽 象来说,描述就是对事物或是对象的直接描写,就好像上文中这个姑娘眼睛、鼻子、嘴唇长什么样,这是对这个对象的客观印象,就好像画画时选择的颜色,我选择 红色颜料来描绘他的嘴唇。 如果我们把描述这样一个概念对应到数据上可以理解为这一堆数据长什么样,按照这样一个标准我们尝试着描述一堆数据。通过对数据的描述能够让别人通过这 些描述的话语感受到数据的真实面貌。
对于对人体外貌的描述再详细生动都不如直接看到 被描述的这个人,或者给这个人拍一张照片也能直观地反映其外貌。而对于数据来说,直接看数据可能什么都看不出来,而通过对数据的描述反而能让我们更加清晰 地看到数据真实的面貌。在了解此间差异之前我们不妨先熟悉几个描述性的统计变量:平均数、众数、中位数、方差、极差、四分位点,这些指标就好像一堆数据的 鼻子、眼睛、嘴唇。平均数不用介绍大家都知道,下面介绍下其他几个数据指标:
众数:数据中出现频率最高的数值,比如面条就可以算做小明数据中的众数。
中位数:将数据从小到大排列,位置处于中间的数值。
方差:每个数据与平均值的差值的平方,再取平均值。
极差:最大数减去最小数。
上下四分位点:将数据从大到小排列,位置处于前14或是后14的数值。
例如
下面数据记录了小明参加射箭俱乐部时击中的环数:
1 1 2 2 3 5 5 5 6 7 7
上述数据的各项指标如下:
平均数=4411=4
众数=5(5出现3次)
中位数=5
方差=4
极差=7-1=6
上四分位点=6
下四分位点=2
我们一般会用上述的6个指标来描述一组数据的长相,平均值用来展示整体的平均水平,众数用来展示数据点主要集中的范围,中位数用来与平均数进行对比判断数据是否平滑,方差用来判断数据波动情况。
到 这里,我们发现通过对一组数据的平均数、众数、中位数、方差、极差、四分位点进行解读,很容易对这一批数字有具体的认识,而直接看数字可能就感受不到这些 信息。不仅如此,我们在数学统计的过程中常常面临着成千上万的数字,如果把这些数字全部罗列在屏幕上可能很难看出什么名堂来,而通过上述6个指标能让这些 庞大繁杂的数据一目了然,虽不见数据却也知道数据长什么样,这就是描述性统计变量。
|
|