新書推薦:

《
肌骨复健实践指南:运动损伤与慢性疼痛
》
售價:NT$
1367.0

《
数据库原理与应用(MySQL版)
》
售價:NT$
301.0

《
商业数据与分析决策:解锁数据资产,提高商业创新能力
》
售價:NT$
367.0

《
倾盖如故:人物研究视角下的近世东亚海域史
》
售價:NT$
357.0

《
史学视角下的跨文化研究(一): 追踪谱系、轨迹与多样性
》
售價:NT$
485.0

《
历史文本的文化间交织:中国上古历史及其欧洲书写(论衡系列)
》
售價:NT$
551.0

《
1688:第一次现代革命(革命不是新制度推翻旧制度,而是两条现代化道路的殊死斗争!屡获大奖,了解光荣革命可以只看这一本)
》
售價:NT$
1010.0

《
东方小熊日本幼儿园思维训练 听力专注力(4册)
》
售價:NT$
408.0
|
內容簡介: |
大數據時代是一個充滿著機會和挑戰的時代,僅需要有一個得心應手的工具--MLlib就是這個工具。
本書的主要目的是介紹如何使用MLlib進行資料採擷。MLlib是Spark中最核心的部分,它是Spark機器學習函數庫,可以執行在分散式叢集上的資料採擷工具。吸引了大量程式設計和開發人員進行相關內容的學習與開發。
本書理論內容由淺而深,採取實例和理論相結合的方式,內容全面而詳盡,適合SparkMLlib初學者、大數據採擷、大數據分析的工作人員。
|
目錄:
|
前言
Chapter01 星星之火
1.1大數據時代
1.2大數據分析時代
1.3簡單、優雅、有效--這就是Spark
1.4核心--MLlib
1.5星星之火,可以燎原
1.6小結
Chapter02 Spark安裝和開發環境設定
2.1Windows單機模式Spark安裝和設定
2.2經典的WordCount
2.3小結
Chapter03 RDD詳解
3.1RDD是什麼
3.2RDD工作原理
3.3RDD應用API詳解
3.4小結.
Chapter04 MLlib基本概念
4.1MLlib基本資料型態
4.2MLlib數理統計基本概念
4.3小結
Chapter05 協作過濾演算法
5.1協作過濾
5.2相似度度量
5.3MLlib中的交替最小平方法(ALS演算法)
5.4小結
Chapter06MLlib線性回歸理論與實戰
6.1隨機梯度下降演算法詳解
6.2MLlib回歸的過擬合
6.3MLlib線性回歸實戰
6.4小結
Chapter07MLlib分類實戰
7.1邏輯回歸詳解
7.2支援向量機詳解
7.3單純貝氏詳解
7.4小結
Chapter08決策樹與保序回歸
8.1決策樹詳解
8.2保序回歸詳解
8.3小結
Chapter09MLlib中分群詳解
9.1分群與分類
9.2MLlib中的Kmeans演算法
9.3高斯混合分群
9.4快速反覆運算分群
9.5小結
Chapter10MLlib中連結規則
10.1Apriori頻繁項集演算法
10.2FP-growth演算法
10.3小結
Chapter11資料降維
11.1奇異值分解(SVD)
11.2主成分分析(PCA)
11.3小結
Chapter12特徵分析和轉換
12.1TF-IDF
12.2詞向量化工具
12.3以卡方檢定為基礎的特徵選擇
12.4小結
Chapter13MLlib實戰演練--鳶尾花分析
13.1建模說明
13.2資料前置處理和分析
13.3長與寬之間的關係--資料集的回歸分析
13.4使用分類和分群對鳶尾花資料集進行處理
13.5最後的判斷--決策樹測試
13.6小結
|
|