| 
 新書推薦:
 
  《 
			钩针编织曼陀罗花样
			》
 售價:HK$ 
			305
 
  《 
			两晋南北朝史 一口气看懂两晋南北朝史
			》
 售價:HK$ 
			347
 
  《 
			这样吃 长得高 临床营养师和新手父母的儿童营养指南 专注解决0到16岁孩子营养问题
			》
 售價:HK$ 
			265
 
  《 
			暗黑历史书系·古代战争史
			》
 售價:HK$ 
			500
 
  《 
			索恩丛书·马克斯·韦伯:跨越时代的人生
			》
 售價:HK$ 
			505
 
  《 
			无路之路
			》
 售價:HK$ 
			305
 
  《 
			棒针编织阿兰花样背心马甲
			》
 售價:HK$ 
			305
 
  《 
			大明300年 推演关键性事件 锁定冲突 重构大明300年棋局 剖析帝国兴亡的核心规则
			》
 售價:HK$ 
			347
 
 
 | 
         
          | 編輯推薦: |   
          | 以Python语言为基础,配合原理、方法、案例进行讲解 专注预测专题,体系化介绍预测技术工程实施的必备技能
 深度剖析预测原理,细致解读数据分析算法
 |  
         
          | 內容簡介: |   
          | Python 是一种面向对象的脚本语言,其代码简洁优美,类库丰富,开发效率也很高,得到越来越多开发者的喜爱,广泛应用于Web 开发、网络编程、爬虫开发、自动化运维、云计算、人工智能、科学计算等领域。预测技术在当今智能分析及其应用领域中发挥着重要作用,也是大数据时代的核心价值所在。随着AI 技术的进一步深化,预测技术将更好地支撑复杂场景下的预测需求,其商业价值不言而喻。基于Python 来做预测,不仅能够在业务上快速落地,还让代码维护更加方便。对预测原理的深度剖析和算法的细致解读,是本书的一大亮点。本书共分为3 篇。第1 篇介绍预测基础,主要包括预测概念理解、预测方法论、分析方法、特征技术、模型优化及评价,读者通过这部分内容的学习,可以掌握预测的基本步骤和方法思路。第2 篇介绍预测算法,该部分包含多元回归分析、复杂回归分析、时间序列及进阶算法,内容比较有难度,需要细心品味。第3 篇介绍预测案例,包括短期日负荷曲线预测和股票价格预测两个实例,读者可以了解到实施预测时需要关注的技术细节。希望读者在看完本书后,能够将本书的精要融会贯通,进一步在工作和学习实践中提炼价值。 |  
         
          | 關於作者: |   
          | 游皓麟,大数据分析、数据挖掘专家,高级培训讲师。毕业于东南大学,从事大数据相关领域工作8年有余,专注大数据架构、机器学习、数据挖掘、NLP、知识图谱等领域的方案设计、算法研究与工程实现。在游戏、互联网、电信、电力、军工等行业具有丰富的工程实践经验,多次作为特邀嘉宾参加行业会议并发表主题演讲,著有《R语言预测实战》等多本书籍。 |  
         
          | 目錄: |   
          | 第1 篇 预测入门 第1 章 认识预测 . 2
 1.1 什么是预测 . 2
 1.1.1 占卜术 . 3
 1.1.2 神秘的地动仪 . 3
 1.1.3 科学预测 . 5
 1.1.4 预测的原则 . 7
 1.2 前沿技术 . 9
 1.2.1 大数据与预测 . 10
 1.2.2 大数据预测的特点 11
 1.2.3 人工智能与预测 . 15
 1.2.4 人工智能预测的特点 . 17
 1.2.5 典型预测案例 . 18
 1.3 Python 预测初步 . 26
 1.3.1 数据预处理 . 27
 1.3.2 建立模型 . 31
 1.3.3 预测及误差分析 . 34
 第2 章 预测方法论 . 37
 2.1 预测流程 . 37
 2.1.1 确定主题 . 38
 2.1.2 收集数据 . 40
 2.1.3 选择方法 . 42
 2.1.4 分析规律 . 43
 2.1.5 建立模型 . 48
 2.1.6 评估效果 . 51
 2.1.7 发布模型 . 52
 2.2 指导原则 . 53
 2.2.1 界定问题 . 53
 2.2.2 判断预测法 . 55
 2.2.3 外推预测法 . 56
 2.2.4 因果预测法 . 58
 2.3 团队构成 . 59
 2.3.1 成员分类 . 59
 2.3.2 数据氛围 . 61
 2.3.3 团队合作 . 63
 第3 章 探索规律 . 65
 3.1 相关分析 . 65
 3.1.1 自相关分析 . 65
 3.1.2 偏相关分析 . 68
 3.1.3 简单相关分析 . 69
 3.1.4 互相关分析 . 80
 3.1.5 典型相关分析 . 82
 3.2 因果分析 . 87
 3.2.1 什么是因果推断 . 87
 3.2.2 因果推断的方法 . 90
 3.2.3 时序因果推断 . 93
 3.3 聚类分析 . 98
 3.3.1 K-Means 算法 . 98
 3.3.2 系统聚类算法 . 102
 3.4 关联分析 110
 3.4.1 关联规则挖掘 110
 3.4.2 Apriori 算法 . 111
 3.4.3 Eclat 算法 120
 3.4.4 序列模式挖掘 . 123
 3.4.5 SPADE 算法 124
 第4 章 特征工程 . 136
 4.1 特征变换 . 136
 4.1.1 概念分层 . 137
 4.1.2 标准化 . 138
 4.1.3 离散化 . 141
 4.1.4 函数变换 . 143
 4.1.5 深入表达 . 144
 4.2 特征组合 . 145
 4.2.1 基于经验 . 145
 4.2.2 二元组合 . 146
 4.2.3 高阶多项式 . 148
 4.3 特征评价 . 151
 4.3.1 特征初选 . 151
 4.3.2 影响评价 . 152
 4.3.3 模型法 . 167
 4.4 特征学习 . 172
 4.4.1 基本思路 . 173
 4.4.2 特征表达式 . 174
 4.4.3 初始种群 . 183
 4.4.4 适应度 . 185
 4.4.5 遗传行为 . 187
 4.4.6 实例分析 . 192
 第2 篇 预测算法
 第5 章 参数优化 . 199
 5.1 交叉验证 . 199
 5.2 网格搜索 . 201
 5.3 遗传算法 . 203
 5.3.1 基本概念 . 203
 5.3.2 遗传算法算例 . 204
 5.3.3 遗传算法实现步骤 . 209
 5.3.4 遗传算法Python 实现 210
 5.4 粒子群优化 . 213
 5.4.1 基本概念及原理 . 213
 5.4.2 粒子群算法的实现步骤 . 214
 5.4.3 用Python 实现粒子群算法 215
 5.5 模拟退火 . 220
 5.5.1 基本概念及原理 . 220
 5.5.2 模拟退火算法的实现步骤 . 221
 5.5.3 模拟退火算法Python 实现 222
 第6 章 线性回归及其优化 226
 6.1 多元线性回归 . 226
 6.1.1 回归模型与基本假定 . 226
 6.1.2 最小二乘估计 . 227
 6.1.3 回归方程和回归系数的显著性检验 . 228
 6.1.4 多重共线性 . 229
 6.2 Ridge 回归 233
 6.2.1 基本概念 . 233
 6.2.2 岭迹曲线 . 233
 6.2.3 基于GCV 准则确定岭参数 . 235
 6.2.4 Ridge 回归的Python 实现 . 237
 6.3 Lasso 回归 . 237
 6.3.1 基本概念 . 237
 6.3.2 使用LAR 算法求解Lasso . 238
 6.3.3 Lasso 算法的Python 实现 . 240
 6.4 分位数回归 . 242
 6.4.1 基本概念 . 242
 6.4.2 分位数回归的计算 . 245
 6.4.3 用单纯形法求解分位数回归及Python 实现 246
 6.5 稳健回归 . 248
 6.5.1 基本概念 . 249
 6.5.2 M 估计法及Python 实现 . 250
 第7 章 复杂回归分析 . 254
 7.1 梯度提升回归树(GBRT) . 254
 7.1.1 Boosting 方法简介 254
 7.1.2 AdaBoost 算法 255
 7.1.3 提升回归树算法 . 257
 7.1.4 梯度提升 . 259
 7.1.5 GBRT 算法的Python 实现 261
 7.2 深度神经网络 . 264
 7.2.1 基本概念 . 264
 7.2.2 从线性回归说起 . 269
 7.2.3 浅层神经网络 . 272
 7.2.4 深层次拟合问题 . 277
 7.2.5 DNN 的Python 实现 278
 7.3 支持向量机回归 . 281
 7.3.1 基本问题 . 281
 7.3.2 LS-SVMR 算法 . 284
 7.3.3 LS-SVMR 算法的Python 实现 . 285
 7.4 高斯过程回归 . 286
 7.4.1 GPR 算法 287
 7.4.2 GPR 算法的Python 实现 . 289
 第8 章 时间序列分析 . 292
 8.1 Box-Jenkins 方法 292
 8.1.1 p 阶自回归模型 293
 8.1.2 q 阶移动平均模型 295
 8.1.3 自回归移动平均模型 . 296
 8.1.4 ARIMA 模型 . 300
 8.1.5 ARIMA 模型的Python 实现 . 301
 8.2 门限自回归模型 . 309
 8.2.1 TAR 模型的基本原理 309
 8.2.2 TAR 模型的Python 实现 . 310
 8.3 GARCH 模型族 313
 8.3.1 线性ARCH 模型 313
 8.3.2 GRACH 模型 315
 8.3.3 EGARCH 模型 . 315
 8.3.4 PowerARCH 模型 . 316
 8.4 向量自回归模型 . 318
 8.4.1 VAR 模型基本原理 318
 8.4.2 VAR 模型的Python 实现 . 320
 8.5 卡尔曼滤波 . 324
 8.5.1 卡尔曼滤波算法介绍 . 324
 8.5.2 卡尔曼滤波的Python 实现 326
 8.6 循环神经网络 . 328
 8.6.1 RNN 的基本原理 329
 8.6.2 RNN 算法的Python 实现 332
 8.7 长短期记忆网络 . 335
 8.7.1 LSTM 模型的基本原理 . 336
 8.7.2 LSTM 算法的Python 实现 341
 第3 篇 预测应用
 第9 章 短期日负荷曲线预测 . 345
 9.1 电力行业负荷预测介绍 . 345
 9.2 短期日负荷曲线预测的基本要求 . 346
 9.3 预测建模准备 . 347
 9.3.1 基础数据采集 . 347
 9.3.2 缺失数据处理 . 349
 9.3.3 潜在规律分析 . 352
 9.4 基于DNN 算法的预测 355
 9.4.1 数据要求 . 356
 9.4.2 数据预处理 . 356
 9.4.3 网络结构设计 . 357
 9.4.4 建立模型 . 358
 9.4.5 预测实现 . 359
 9.4.6 效果评估 . 359
 9.5 基于LSTM 算法的预测 361
 9.5.1 数据要求 . 361
 9.5.2 数据预处理 . 362
 9.5.3 网络结构设计 . 362
 9.5.4 建立模型 . 363
 9.5.5 预测实现 . 364
 9.5.6 效果评估 . 364
 第10 章 股票价格预测 . 367
 10.1 股票市场简介 . 367
 10.2 获取股票数据 . 368
 10.3 基于VAR 算法的预测 . 371
 10.3.1 平稳性检验 . 371
 10.3.2 VAR 模型定阶 372
 10.3.3 预测及效果验证 . 373
 10.4 基于LSTM 算法的预测. 375
 10.4.1 数据要求 . 375
 10.4.2 数据预处理 . 376
 10.4.3 网络结构设计 . 377
 10.4.4 建立模型 . 377
 10.4.5 预测实现 . 378
 10.4.6 效果评估 . 378
 参考文献 . 381
 |  
         
          | 內容試閱: |   
          | 前 言 为什么要写这本书?
 2016 年10 月笔者出版了《R 语言预测实战》,书中总结了笔者在预测领域的一些思考和经验,并通过书籍的媒介作用,和广大读者进行了一次深度的对话交流,书中基于R 语言对常用的数据分析、预测类算法进行了实现,并结合案例讲解了预测模型的实现过程。该书自出版以来,不断收到读者的好评,笔者也时常收到读者发来的邮件,或是对书籍内容感兴趣,希望可以长期交流,或者提出书籍中的一些瑕疵,希望在下个版本进行改善,或是咨询一些实际业务问题,如此等等。总地来看,《R 语言预测实战》这本书还是很受读者喜爱的。由于人工智能在近些年的发展,Python 语言越来越流行,更多的朋友想从Python 入手学习。为了能将《R 语言预测实战》的精华介绍给更多的读者,同时可以有机会修改R 这本书中存在的一些问题,尤其是代码中的瑕疵,笔者开始考虑将其改写为Python 版本。与《R 语言预测实战》相比,本书介绍的算法和案例加入了使用深度学习算法来做预测的内容,同时剪掉了一些不必要的段落,代码方面也做了很多优化,相信能够给读者带来
 更好的阅读学习体验。
 阅读对象
 ? 对数据挖掘、机器学习、预测算法及商业预测应用感兴趣的大专院校师生;
 ? 从事数据挖掘工作,有一定经验的专业人士;
 ? 各行各业的数据分析师、数据挖掘工程师;
 ? 对数据挖掘、预测专题感兴趣的读者。
 勘误和支持
 由于笔者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可以把意见或建议直接发至笔者的邮箱cador.ai@aliyun.com。书籍中的数据和代码,可通过访问cador.cn 来获取。笔者会定期发布勘误表,并统一回复。同时,如果你有什么问题,也可以发邮箱来提问,笔者将尽量为读者提供最满意的解答,期待你们的反馈。
 如何阅读这本书
 本书包括3 篇,共有10 章。
 第1 章介绍预测的基本概念,以及大数据时代预测的特点,并结合案例进行讲解,最后基于Python讲解一个预测案例。本章适合初学者入门。
 第2 章介绍预测的方法论,其中预测流程是基础,它说明了从预测实施的各个阶段。然后介绍了预测的指导原则,它是预测工作者必知必会的。另外,还介绍了预测工作的团队要求。本章内容适合常期品味,活学活用。
 第3 章介绍分析方法,本章内容是数据分析、数据挖掘常见的分析方法,出现在这里,主要是为预测技术的数据处理做铺垫。如果预测工作者没有掌握有效的分析思路和方法,去提炼有用的指标和特征,那么预测工作是很难进行下去的。本章提供了规律发现的常用方法和技巧。
 第4 章介绍特征工程,不仅介绍了常见的特征变换方法,还介绍了特征组合的方法,特别值得一提的是,本章包含了特征学习的方法,它是基于遗传编程实现的。从事数据挖掘的朋友都很清楚,好的特征在建模时是非常重要的,然而,有时我们拿到的基础数据直接拿去建模效果不见得好,如果进行规律挖掘,也比较费时费力,比较好的做法就是特征自动生成。感兴趣的朋友,可以细致品味这个章节。
 从第1 章到第4 章为本书的第1 篇,主要介绍预测的入门知识,如果读者对预测有一定的功底,可以跳过本部分,直接进入第2 篇,了解预测算法的基本原理和实现。
 第5 章介绍模型参数的优化。我们在建立数据挖掘和预测模型时,参数的确定通常不是一步到位的,我们往往需要做一些优化或改进,以提升最终的效果。本章介绍的遗传算法、粒子群优化、模拟退火等问题求解算法,有助于找到模型的最优或接近最优的参数。
 第6 章介绍线性回归技术,主要包括多元线性回归、Ridge 回归、Lasso 回归、分位数回归、稳健回归的内容。在实际工作或实践中,读者应该有选择地使用对应的回归方法,以确保应对回归问题的有效性。
 第7 章介绍复杂回归技术,主要包括梯度提升回归树(GBRT)、神经网络、支持向量机、高斯过程回归的内容。这是回归技术的进阶部分,涉及到统计学习以及机器学习的内容,想挑战难度的朋友,一定要好好读一读这部分。
 第8 章介绍时间序列分析技术,主要包括Box-Jenkins 方法、门限自回归模型、GARCH 模型族、向量自回归模型、卡尔曼滤波、循环神经网络、长短时记忆网络等内容。本章不仅介绍了常见的Box-Jenkins 方法,还介绍了门限自回归等高阶时序分析技术。
 从第5 章到第8 章为本书的第2 篇,主要介绍预测算法,本部分的算法选择有一定的难度,基本包含了常见的以及部分高阶的预测回归算法,读者可细致品味。
 第9 章介绍短期日负荷曲线预测技术,首先介绍电力行业负荷预测的行业知识,接着从预测的基本要求出发,经过预测的建模准备,进入预测建模的环节。本章使用了DNN 和LSTM 两种算法来建立预测模型,并对预测效果进行了评估。
 第10 章介绍股票价格预测技术,首先从股票市场的简介开始,接着介绍股票数据的获取,然后基于VAR 和LSTM 两种算法对预测模型进行了实现,最后检验了预测的准确性。
 最后两章为本书的第3 篇,主要介绍预测案例,由于写书太过仓促,案例部分略显单薄。另外,由于商业关系,有些案例分析的细节内容不便在书中全面展开介绍,有兴趣的读者,可以邮件联系。
 致谢
 感谢电子工业出版社的编辑石倩,没有你的敦促,我可能不会这么快地写完这本书,同时也感谢电子工业出版社!
 感谢造物主给我一颗孜孜不倦的心,让我在学习的道路上不至于因工作忙碌而有所懈怠,也不至于因有所成就而不知进取。
 青山不改,绿水长流。谨以此书,献给我最亲爱的家人和朋友,以及热爱Python 和从事数据相关领域的朋友们。
 游皓麟
 中国 成都
 |    |