登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

『簡體書』重构大数据统计

書城自編碼: 2445155
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作 者: 杨旭 著
國際書號(ISBN): 9787121225000
出版社: 电子工业出版社
出版日期: 2014-08-01
版次: 1 印次: 1
頁數/字數: 404/502000
書度/開本: 16开 釘裝: 平装

售價:NT$ 711

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
纯数学教程
《 纯数学教程 》

售價:NT$ 390.0
威尔士史:历史与身份的演进
《 威尔士史:历史与身份的演进 》

售價:NT$ 490.0
黄金、石油和牛油果:16件商品中的拉丁美洲发展历程
《 黄金、石油和牛油果:16件商品中的拉丁美洲发展历程 》

售價:NT$ 395.0
母亲的选择:看不见的移民保姆与女性工作
《 母亲的选择:看不见的移民保姆与女性工作 》

售價:NT$ 340.0
城邦政治与灵魂政治——柏拉图《理想国》中的政治哲学研究
《 城邦政治与灵魂政治——柏拉图《理想国》中的政治哲学研究 》

售價:NT$ 590.0
3分钟漫画墨菲定律:十万个为什么科普百科思维方式心理学 胜天半子人定胜天做事与成事的权衡博弈之道
《 3分钟漫画墨菲定律:十万个为什么科普百科思维方式心理学 胜天半子人定胜天做事与成事的权衡博弈之道 》

售價:NT$ 249.0
1911:危亡警告与救亡呼吁
《 1911:危亡警告与救亡呼吁 》

售價:NT$ 349.0
旷野人生:吉姆·罗杰斯的全球投资探险
《 旷野人生:吉姆·罗杰斯的全球投资探险 》

售價:NT$ 345.0

建議一齊購買:

+

NT$ 407
《 颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用 》
+

NT$ 621
《 大数据日知录:架构与算法 》
+

NT$ 531
《 Storm实战:构建大数据实时计算 》
+

NT$ 713
《 发现数据之美:数据分析原理与实践 》
編輯推薦:
大型互联网公司一线大数据分析实践!
《重构大数据统计》提出了一套适合于分布式计算的统计计算方法 ,梳理出一套对大数据分析有实用价值的统计理论,并形成参考代码,对于从事大数据分析的工程师而言,这些内容有相当的参考价值。
《重构大数据统计》是作者在一线工作中的实践总结。在研发的过程中,作者遇到了资源优化(成本)以及计算时间优化(性能)的问题,通过反复的实践和论证,总结出一套行之有效的理论和方法。在此方法指导下开发的数据分析工具,已经被阿里巴巴集团内部所使用,并取得了显著的效果。
开卷有益,《重构大数据统计》给您带来实用的解决思路,在此启发下,相信您也能摸索出适合自己实际情况的大数据分析之道,大大地提升数据分析效率。
內容簡介:
大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》作者就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显著效果。另外,《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
《重构大数据统计》适合对大数据分析感兴趣的读者阅读,《重构大数据统计》前面章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识。建议读者根据自己的兴趣和工作需要,选择相应的内容进行参考。
目錄
第1章基本概念.
1.1数据类型
1.2总体和样本
1.3参数和统计量
1.4分布式计算.
第2章单变量基本统计量.
2.1数量统计量
2.1.1样本方差为何除以n-1
2.1.2数据分布与标准差的关系
2.1.3新的计算公式
2.1.4代码实现.
2.2频数统计量
2.3次序统计量.
2.3.1通过排序方法计算次序统计量.
2.3.2不需排序就可计算的次序统计量
2.3.3基于频数信息计算次序统计量.
2.3.4中位数、众数和均值的关系
第3章单变量数据的分布
3.1直方图
3.1.1直方图的计算
3.1.2算法实现
3.1.3已知数据频数的情况下求直方图
3.1.4日期类型直方图
3.2经验分布
3.3近似分位数和近似百分位数
3.4PP、QQ概率图
3.5单变量的基本统计信息
第4章多变量的数据特征
4.1协方差
4.2相关系数.
4.3协方差和相关系数的计算实现
4.4数据表的基本统计结果
第5章数据探索
5.1扩展直方图
5.1.1计算方法
5.1.2代码实现
5.2交叉表
第6章极限定理
6.1大数定理
6.2中心极限定理
第7章常用的分布函数介绍
7.1基本定义
7.2标准正态分布(Z分布或U分布)
7.3卡方分布(分布)
7.4学生T分布
7.5F分布
第8章常用分布函数计算
8.1函数定义
8.2函数性质及相互间的关系
8.3分布函数关系图
8.4分布函数的计算
8.4.1计算
8.4.2计算
8.4.3计算.
8.4.4计算和
8.4.5其他函数的计算
8.5生成常用分布的随机数
第9章参数估计
9.1点估计与区间估计
9.2单个总体的参数估计.
9.2.1不同情况的参数估计表达式
9.2.2单个总体参数估计的实现.
9.3两个总体的参数估计
9.3.1不同情况的参数估计表达式
9.3.2两个总体参数估计的实现.
第10章假设检验
10.1基本概念.
10.2参数检验
10.3单个总体参数的检验
10.3.1各种情况下的检验方法
10.3.2单个总体参数检验方法的实现
10.3.3不同检验方法的选择.
10.4两个总体参数的检验.
10.4.1各种情况下的检验方法
10.4.2两个总体参数检验方法的实现
10.4.3不同检验方法的选择.
第11章非参数检验
11.1Pearson拟合优度检验
11.2两个变量的列联表检验.
11.3K-S检验
11.3.1单样本K-S检验
11.3.2双样本K-S检验
11.4符号检验.
11.5秩统计量和秩检验方法
11.5.1Wilcoxon秩和检验.
11.5.2Wilcoxon符号秩和检验
11.5.3Kruskal-Wallis检验.
11.5.4Friedman检验.
第12章方差分析
12.1单因素方差分析.
12.1.1计算流程
12.1.2代码实现
12.1.3方差分析与T检验的关系
12.1.4方差分析中的多重比较方法.
12.2双因素方差分析.
12.2.1无交互作用的双因素方差分析
12.2.2有交互作用的双因素方差分析
第13章多元线性回归
13.1数学模型
13.2显著性检验
13.3计算步骤
13.4代码实现
13.5多重共线性
13.5.1度量指标.
13.5.2代码实现
13.5.3应用示例
13.6逐步回归.
第14章主成分分析.
14.1计算步骤
14.2代码实现
14.3应用举例
第15章判别分析.
15.1距离判别
15.1.1Mahalanobis距离.
15.1.2模型训练和预测
15.2Fisher判别
15.3Bayes判别
15.3.1朴素Bayes判别
15.3.2模型训练和预测
15.4判别算法的综合模型.
15.5应用举例
第16章模型评估曲线
16.1相关概念.
16.2定义
16.2.1ROC曲线
16.2.2上升图和反馈率—精确率线.
16.3计算实现.
参考文献
內容試閱
大数据的统计计算是进行数据探索和分析挖掘的基础。在实际应用中,随着数据规模的快速增长,数据会分布式存储在多台计算机上,即使最简单的求和操作都需要多台计算机协同完成,并且需要分钟级别的计算时间,这样我们将面对如下两个问题:
需要使用多少资源,即所要付出的成本。
计算需要多少时间,它关系到数据探索分析的效率和效果。
人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。这就是我在大数据统计实践中经常遇到的情况,当研究了一个又一个计算性能问题之后,我惊奇地发现,这些不同的算法间是有共性的,这就吸引我去深入研究,最终形成了一套完整的理论,包括常用的各种统计量和统计方法。基于本书内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得了显著效果。
首先举一个例子,使大家有一个直观的印象:对于10TB 的数据,大约有1.25 万亿个数据,以求和计算为例,使用很多人熟悉的分布式SQL 进行计算:
SELECT SUMCOL1 AS COL1_SUM, COUNTCOL2 AS COL2_CNT, … FROM DATA_TABLE;
共运行了4 分44.062 秒,在该SQL 语句中,每列只算了一个统计量。
然后使用本书的计算方法,计算更多的统计量,包括:总个数、总和、均值、方差、标准差、标准误、变异系数、立方和、四次方和、二阶原点矩、三阶原点矩、四阶原点矩、二阶中心矩、三阶中心矩、四阶中心矩、偏度、峰度;最大值、最小值、极差、最大的100 个值、最小的100 个值;数据分布直方图、经验分布函数、近似百分位值。如果不同数值的个数小于10000个,会将其频数信息计算出来,并有精确百分位值、中值、众数;协方差矩阵、相关系数矩阵。
得到所有的这些统计量使用的计算节点数目与用SQL 语句获得的基本相同,花费的计算时间为:4 分53.673 秒。计算这么多内容才多花约10 秒,说明本书介绍的算法够高效吧!但这还只是一个开头。
接下来,做一个更有挑战的实验,除了上面这些统计量,我们再加入一些高级的统计计算,区间估计、参数检验、非参数检验、线性回归、共线性分析、方差分析、主成分分析,完成这些需要多久呢?答案是4 分53.766 秒。多么神奇的事情!对这些大数据进行高级统计计算只多用了不到0.1 秒。这种计算效率的提高够显著了吧,我们无须再为资源和时间发愁了。
本书通过文字描述、数学表达式和程序代码,将整个统计计算过程清晰地展现在读者眼前。全书揭示了各种统计概念和方法,以及它们内在的关联,并根据其特点,对各自的计算公式进行恒等变换,找到更适合大数据的计算方式。书中提供的示例程序代码可以帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
本书适合对大数据分析感兴趣的读者阅读,本书前面的章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识,建议读者根据自己的兴趣和工作需要,选择相应的内容进行参考。
在本书编写过程中,感谢初敏、陈一宁、张东晖的支持和帮助,感谢蔡宁、高志涵在算法方面的讨论和交流,感谢邓钟强、蔡宁、高志涵、蒋耘、罗毅、谭望达、代斌、周俊、王少萌、姜晓燕、王乐珩、曹传宇等同事,一同将此理论应用于实际。
因作者水平有限,书中难免有不妥或疏漏之处,敬请广大专家和读者批评、指正! 我的电子邮件地址为:yangxu@alibaba-inc.com。
杨旭
2014 年7 月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.