新書推薦:
《
大学问·昌明国粹:柳诒徵及其弟子之学术
》
售價:NT$
454.0
《
好天气(茅盾文学奖得主苏童《黄雀记》后历时11年长篇新作)
》
售價:NT$
403.0
《
有兽焉.10
》
售價:NT$
305.0
《
人文传统一(“人文传统”系列丛书第七版,人文传统1:史前时期—中世纪,回溯人类文明的源头)
》
售價:NT$
653.0
《
西瓜船
》
售價:NT$
255.0
《
轻松阅读:如何高效阅读一本书
》
售價:NT$
305.0
《
帝都绘“图解世界文化遗产”三部曲(长城、中轴线、大运河)
》
售價:NT$
1856.0
《
左岸译丛:袜子的哲学
》
售價:NT$
245.0
編輯推薦:
近年来,新型机器学习架构的种类和复杂性迅速增加,这就要求开发出更好的方法来设计、分析、评估和理解机器学习技术。本书为学生、工程师和科学家提供了数理统计和非线性优化理论方面的工具,帮助他们成为机器学习领域的专家。特别需要指出的是,本书的内容适用于传统的、新发展的以及未来的非线性高维机器学习算法的数学分析和设计。本书内容自成体系,读者仅需掌握线性代数和概率论相关基础知识即可理解。读者对象包括统计学、计算机科学、电子工程以及应用数学领域的研究生或学习积极性较高的本科生。此外,专业工程师和科研人员在验证确定性和随机机器学习优化算法的收敛性,以及表征算法的采样误差和泛化性能时,也可参考本书。本书特色:?所涵盖的统一经验风险最小化框架可用于对广泛使用的监督机器学习算法、无监督机器学习算法和强化学习算法进行严格的数学分析。?所涵盖的矩阵微积分方法可用于机器学习分析和设计。?给出了保证最小化单峰与多峰目标函数的适应性学习算法、批量学习算法、小批量学习算法,以及MCEM和MCMC学习算法收敛的准确条件。?表征了可能存在模型误判的情况下的M估计渐近条件与模型选择准则,如AIC和BIC。
內容簡介:
本书主要介绍由一组核心定理支撑的统计机器学习框架,书中通过相关机器学习案例帮助学生理解框架中的核心定理。对于实践型的专业工程师和科学家来说,本书可以帮助他们验证确保许多常用的确定性和随机机器学习优化算法收敛的充分条件,以及正确使用常用的统计工具来表征抽样误差和泛化性能。此外,由于本书包含大量示例,机器学习课程的教师以及从事机器学习应用的研究人员也会发现本书非常有用。本书的读者需要具备统计学、计算机科学、电子工程或应用数学方面的基本知识。全书共分为四部分:?第一部分包含第1~3章,通过实例介绍机器学习算法概念和描述算法的数学工具;?第二部分包含第4~7章,讨论确定性学习机的渐近行为;?第三部分包含第8~12章,讨论随机推理机和随机学习机的渐近行为;?第四部分包含第13~16章,关注机器学习算法的泛化性能表征问题。
關於作者:
Richard M. Golden是得克萨斯大学达拉斯分校认知科学教授,并兼任该校电子工程系教授。在过去三十年间,戈尔登教授在统计学与机器学习领域发表了大量学术论文,并在国际学术会议上就广泛议题发表演讲。他的长期研究兴趣包括:确立确定性及随机性机器学习算法的收敛条件,以及探究存在概率模型误设情况下的估计与推断问题。
目錄 :
目 录
译者序
前言第一部分 推理机与学习机第1章 统计机器学习框架2
1.1 统计机器学习:概述2
1.2 机器学习环境3
1.2.1 特征向量3
1.2.2 平稳统计环境5
1.2.3 机器学习算法的训练
策略6
1.2.4 先验知识6
1.3 经验风险最小化框架8
1.3.1 ANN图形符号8
1.3.2 风险函数9
1.3.3 正则化项10
1.3.4 优化方法11
1.4 基于理论的系统分析和设计13
1.4.1 第一阶段:系统规范13
1.4.2 第二阶段:理论分析14
1.4.3 第三阶段:具体实施14
1.4.4 第四阶段:系统行为
评估14
1.5 监督学习机16
1.5.1 差异函数16
1.5.2 基函数与隐单元18
1.5.3 循环神经网络22
1.6 无监督学习机25
1.7 强化学习机34
1.7.1 强化学习概述35
1.7.2 值函数被动式强化学习37
1.7.3 策略梯度反应式强化
学习39
1.8 扩展阅读43第2章 概念建模的集合论46
2.1 集合论与逻辑学48
2.2 关系49
2.2.1 关系类型49
2.2.2 有向图50
2.2.3 无向图51
2.3 函数52
2.4 度量空间53
2.5 扩展阅读57第3章 形式化机器学习算法58
3.1 环境模型58
3.1.1 时间环境58
3.1.2 事件环境59
3.2 学习机模型60
3.2.1 动态系统60
3.2.2 迭代映射61
3.2.3 向量场63
3.3 智能机模型64
3.4 扩展阅读67第二部分 确定性学习机第4章 机器学习的线性代数70
4.1 矩阵符号与运算符70
4.2 线性子空间投影定理75
4.3 线性方程组解定理79
4.4 扩展阅读82第5章 机器学习的矩阵
微积分83
5.1 收敛性和连续性83
5.1.1 确定性收敛83
5.1.2 连续函数87
5.2 向量导数91
5.2.1 向量导数的定义91
5.2.2 矩阵导数计算定理92
5.2.3 深度学习的有效导数
计算94
5.2.4 深度学习的梯度反向
传播98
5.3 目标函数分析101
5.3.1 泰勒级数展开101
5.3.2 梯度下降型算法102
5.3.3 临界点分类104
5.3.4 拉格朗日乘数110
5.4 扩展阅读120第6章 时不变动态系统
收敛性122
6.1 动态系统存在性定理122
6.2 不变集124
6.3 李雅普诺夫收敛定理126
6.3.1 李雅普诺夫函数126
6.3.2 不变集定理127
6.4 扩展阅读134第7章 批量学习算法收敛性135
7.1 搜索方向和步长选择135
7.1.1 搜索方向选择135
7.1.2 步长选择137
7.2 下降算法收敛性分析141
7.3 下降策略145
7.3.1 梯度和最速下降145
7.3.2 牛顿式下降146
7.3.3 L-BFGS与共轭梯度
下降法149
7.4 扩展阅读151第三部分 随机学习机第8章 随机向量与随机函数154
8.1 概率空间155
8.1.1 σ域155
8.1.2 测度156
8.2 随机向量158
8.2.1 可测函数158
8.2.2 离散随机向量、连续随机
向量与混合随机向量161
8.3 Radon-Nikodm密度存在性
(选读)164
8.3.1 勒贝格积分164
8.3.2 Radon-Nikodm密度
函数166
8.3.3 向量支集规范测度166
8.4 期望运算168
8.4.1 随机函数170
8.4.2 随机函数的期望170
8.4.3 条件期望和独立性172
8.5 浓度不等式174
8.6 扩展阅读176第9章 随机序列177
9.1 随机序列的类型177
9.2 部分可观测随机序列179
9.3 随机收敛181
9.3.1 以概率1收敛182
9.3.2 均方收敛184
9.3.3 依概率收敛185
9.3.4 依分布收敛185
9.3.5 随机收敛关系186
9.4 随机序列的组合与变换188
9.5 扩展阅读190第10章 数据生成概率模型192
10.1 概率模型的可学习性192
10.1.1 正确模型和误判
模型192
10.1.2 平滑参数概率模型195
10.1.3 局部概率模型195
10.1.4 缺失数据概率模型196
10.2 吉布斯概率模型197
10.3 贝叶斯网络201
10.3.1 链式因式分解202
10.3.2 贝叶斯网络因式
分解202
10.4 马尔可夫随机场205
10.4.1 马尔可夫随机场
概念206
10.4.2 吉布斯分布的马尔可夫
随机场含义208
10.5 扩展阅读216第11章 蒙特卡罗马尔可夫链算法
收敛性217
11.1 MCMC算法218
11.1.1 有限状态空间上的可数
无限一阶链218
11.1.2 MCMC收敛性分析220
11.1.3 混合MCMC算法221
11.1.4 寻找全局极小值点及
计算期望223
11.1.5 MCMC收敛性能的
评估与改进224
11.2 Metropolis-Hastings MCMC
算法227
11.2.1 Metropolis-Hastings
算法定义227
11.2.2 Metropolis-Hastings
算法的收敛性分析229
11.2.3 Metropolis-Hastings
算法的重要特例230
11.2.4 Metropolis-Hastings
算法在机器学习中的
应用232
11.3 扩展阅读235第12章 适应性学习算法的
收敛性236
12.1 随机逼近理论236
12.1.1 被动式统计环境与
反应式统计环境236
12.1.2 平均下降237
12.1.3 退火策略238
12.1.4 主随机逼近定理239
12.1.5 随机逼近算法收敛性
评估244
12.2 基于随机逼近的被动式统计
环境学习246
12.2.1 不同优化策略应用246
12.2.2 提高泛化性能250
12.3 基于随机逼近的反应式统计
环境学习254
12.3.1 策略梯度强化学习254
12.3.2 随机逼近期望
最大化257
12.3.3 马尔可夫随机场学习
(对比散度)259
12.3.4 生成式对抗网络
学习260
12.4 扩展阅读261第四部分 泛化性能第13章 统计学习目标函数
设计264
13.1 经验风险函数265
13.2 最大似然估计法271
13.2.1 最大似然估计:概率论
解释271
13.2.2 最大似然估计:信息论
解释276
13.2.3 交叉熵全局极小值点
性质280
13.2.4 伪似然经验风险
函数282
13.2.5 缺失数据似然经验风险
函数283
13.3 最大后验估计方法285
13.3.1 参数先验与超参数286
13.3.2 最大后验风险函数287
13.3.3 最大后验估计的贝叶斯
风险解释289
13.4 扩展阅读291第14章 泛化评估模拟方法293
14.1 采样分布概念295
14.1.1 K折交叉验证295
14.1.2 无穷数据的采样分布
估计296
14.2 采样分布模拟的bootstrap
方法297
14.2.1 采样分布的bootstrap
近似298
14.2.2 蒙特卡罗bootstrap
采样分布估计299
14.3 扩展阅读305第15章 评估泛化的解析公式306
15.1 渐近分析假设306
15.2 理论采样分布分析311
15.3 置信区间317
15.4 模型比较决策的假设检验321
15.4.1 经典假设检验321
15.4.2 贝叶斯假设检验324
15.5 扩展阅读326第16章 模型选择与评估328
16.1 交叉验证风险MSC329
16.2 贝叶斯风险MSC334
16.2.1 贝叶斯模型选择
问题334
16.2.2 多维积分的拉普拉斯
逼近法335
16.2.3 贝叶斯信息准则336
16.3 误判检测MSC340
16.3.1 评估模型误判的嵌套
模型方法340
16.3.2 信息矩阵差异MSC341
16.4 扩展阅读344参考文献346
內容試閱 :
前 言
统计机器学习是一个多学科领域,涵盖了机器学习、数理统计和数值优化理论。它涉及统计不确定性环境中机器推理能力的提升与评估问题。近来,随着机器学习架构在新颖性、多样性和复杂度方面的快速发展,人们迫切需要研究和创新能够对机器学习进行分析、设计、评估以及理解的技术方法。本书的主要目的是为学生、工程师和科学家提供一套针对基于数理统计和非线性优化理论的机器学习算法的实用精准工具,以对各种各样、不断发展的机器学习算法进行分析和设计。
需要强调的是,本书旨在从数理分析角度向读者提供简明扼要、严密的统计机器学习介绍。对于那些偏向工程应用而不是数理分析的读者,可选择其他资料。例如,市面上有许多面向软件实践的机器学习书籍,能够帮助读者实现各种机器学习架构的快速开发和评估(Géron,2019;James et al.,2013;Muller & Guido,2017;Raschka & Mirjalili,2019)。读者可以使用这类软件工具快速开发和评估各种各样的机器学习架构。在初步使用这类工具以后,读者往往会希望对这些机器学习系统有更深入的了解,以便合理应用和正确评估这些模型。针对这一问题,现在有很多优秀的书籍(Duda et al.,2001;Hastie et al.,2001;Bishop,2006;Murphy,2012;Goodfellow et al.,2016)对各类重要机器学习算法进行了全面的、精辟的分析和介绍。鉴于硕士研究生可从其他书籍学习和掌握优化理论及数理统计方面的相关知识,这些书籍往往会省略某些特定技术和数理分析细节。
然而,当面对新型的非线性机器学习架构时,如果要对其进行理解、分析、设计和评估,就必须掌握这些被忽略的数理分析及技术细节。因此,明确地将这些细节纳入系统、简明的机器学习应用分析中很有意义。这些技术细节和数理分析有助于对机器学习算法进行更好的规范、验证、归类和理解。此外,这些方法还可以为机器学习算法的快速开发和部署提供重要支持,以及启发开发者对可重用模块化软件设计架构有所创新。
内容概览
本书的核心是统计机器学习框架,该框架以基于机器学习算法获得真实数据生成过程(DGP)概率分布的最佳近似为前提。统计机器学习框架由一组核心定理支撑,能够用来分析许多常见机器学习算法对DGP的渐近性。本书通过相关机器学习案例帮助学生理解框架中的核心定理,全书共分为四部分。
第一部分包含第1~3章,通过实例介绍机器学习算法概念和描述算法的数学工具。第1章举例说明多数监督学习、无监督学习和强化学习算法都可以看作经验风险函数优化算法。第3章形式化分析如何从语义上将最小化风险函数的优化算法解释为理性决策机。
第二部分包含第4~7章,讨论确定性学习机的渐近性。第6章给出表征离散和连续时不变动态系统渐近性的充分条件,第7章给出一大类确定性批量学习算法收敛于供学习的目标函数临界点集的充分条件。
第三部分包含第8~12章,讨论随机推理机和随机学习机的渐近性。第11章探讨有限状态空间的蒙特卡罗马尔可夫链(Monte Carlo Markov Chain,MCMC)算法渐近收敛理论。第12章给出被动式和反应式学习环境中适应性学习算法的相关渐近收敛分析。列举的实例包括:吉布斯采样、Metropolis-Hastings算法、小批量随机梯度下降、随机逼近期望最大化和策略梯度强化适应性学习(基于策略梯度的强化学习)。
第四部分包含第13~16章,关注机器学习算法的泛化性能表征问题,包括机器学习环境概率模型仅大体正确的情况。第13章讨论语义可解释目标函数的分析与设计。第14~16章描述如何使用bootstrap方法(第14章)与渐近公式(第15章、第16章)表征所述机器学习算法的泛化性能。
此外,本书还全面介绍了机器学习相关的高等矩阵微积分知识(第5章),以及实分析(第2章)、线性代数(第4章)、测度论(第8章)和随机序列(第9章),为第7章和第10~16章核心内容提供的数学知识。
目标读者
本书内容适合统计学、计算机科学、电气工程或应用数学等领域的一、二年级研究生或高年级本科生自主阅读。
此外,专业工程师和科研人员在验证确定性和随机机器学习优化算法的收敛性,以及表征算法的采样误差和泛化性能时,也可参考本书。
本书对读者的数学理论基础要求较低。因此,本书也适合专业工程师和跨学科的非理学科研人员阅读。读者唯一需具备的基础知识是概率论课程相关的线性代数和微积分知识。对于仅满足最低数学知识要求的学生,本书具有一定难度,但仍可理解。
关于符号
标量一般使用非粗体小写斜体字母表示(例如,a表示标量变量)。在科学文献和相关教材中,通常使用大写加粗斜体字母表示矩阵(例如,A表示矩阵),使用小写加粗斜体字母表示向量(例如向量a)。符号A~表示由随机变量组成的矩阵。符号A^通常表示由随机函数组成的矩阵。因此,A可以是A^或A~的实值。这种符号的优势是可以清楚地区分随机标量变量、随机向量和随机矩阵及其实值。
但是,后一种符号并不是数理统计中的标准符号,在数理统计中,大写字母通常表示随机变量,小写字母表示其实值。与此同时,数理统计符号无法明确区分向量和矩阵。由于本书所涉及的工程问题比较复杂,因此需要一种能够区分矩阵、向量和标量的符号,数理统计标准化符号是有缺陷的。鉴于工程和优化理论中的符号无法明确区分随机向量及其实值,所以也不能直接套用工程和优化理论中的标准符号。计量经济学家(Abadir & Magnus,2002)和统计学家(Harville,2018)发现并提出了这些符号缺失的问题。
本书所使用的符号系统为克服这个问题提供了一种解决方案。特别地,本书使用的符号是对工程和优化理论中典型矩阵向量符号的增强,明确区分了随机变量及其实值。
教学策略
教学过程的第一个阶段为机器学习数学理论学习阶段,内容包括第1~5章、第8~10章,其中第3章是该部分的简要概述。第一阶段内容是第二阶段的必要基础条件。第二阶段为统计机器学习阶段,内容包括第6章、第7章、第11~16章,其中第6章是该部分的简要概述。前两个阶段的学习应当略过相关定理的证明,重点关注如下问题:(1)为什么这些定理很重要;(2)如何将定理与实际机器学习分析和设计问题相关联。
本书也可用于“高级统计机器学习数学”这类高年级研究生研讨课程,该课程涵盖本书定理的证明。该课程的课前基础是完成上述两阶段的学习。只有当学生理解了定理的重要性,并掌握了如何在实践中应用定理以后,才需要学习相关定理的证明细节。在学习过程中,建议首先了解每个定理证明的基本思路,然后再详细地了解定理证明的每个步骤。
在每一章的末尾,都有一个“扩展阅读”小节,可以帮助学生更加深入地理解该章内容。课后大部分练习的设计都是为了帮助学生掌握关键定理,使他们能够将其应用于各类机器学习算法的分析和设计中。此外,课后还包括了算法设计问题,以帮助学生理解所学理论的实际意义。
致谢
感谢我的博士生Athul Sudheesh提出的超立方体封面概念。
感谢我的博士生James Ryland对学习算法和矩阵微积分的相关研究。感谢他们的师兄Shaurabh Nandy对经验风险框架、MCMC采样和适应性学习等模型收敛性及模型选择问题的研究。与James和Shaurabh的讨论帮助我确定了本书的具体框架及进一步的阐述和分析。
非常感谢我的妻子Karen在我多年的著书过程和整个学术生涯中对我的充分理解与支持。
我也将本书献给我的父母Sandy和Ralph,感谢他们对我无条件的鼓励和支持。
最后,感谢在过去十年中与我就本书内容和观点进行探讨的学生,他们提出的简单问题或表现出的疑惑,都极大地帮助了本书的完成!
对学生的建议和鼓励
学习策略
每一章的开头都会列出具体的学习目标。请仔细阅读这些学习目标,并按照这些学习目标确定学习策略。此外,多数章节提供了秘诀框,目的是给出书中关键定理的应用秘诀。例如,秘诀框0.1给出了一些学习策略建议。秘诀框0.1 阅读本书的建议
●步骤1 第1章通读一遍。
如果对本章具体细节有疑问,无须担心。在阅读第3章至第16章时,可随时重温本章。
●步骤2 第2章通读一遍。
无须记住具体定义。仔细学习所有的定义与示例。在阅读第3章至第16章时,可随时重温本章。
●步骤3 第3章第一遍通读。
理解本章定理与本章学习目标的关系。无须理解定理的假设条件。略读所带示例,了解它们的重要性。略过定理的证明,重点关注本章的秘诀框。
●步骤4 第3章第二遍通读。
重点关注定理的描述。仔细研究每个定理的假设与结论。认真学习本章的所有示例,略过定理证明。尝试求解课后练习。
●步骤5 阅读剩余内容。
对本书的其余章节重复步骤3和步骤4。
●步骤6 学习定理证明的基本思路。
在做好相关准备后,研究定理证明的基本思路,但是必须以理解定理及其与工程应用的关联关系为基础。熟悉证明过程,进一步掌握定理,也会提升你在实践中正确运用定理的能力。最后,可进一步验证所有证明的技术细节。
激励和指导
下面再次给准备阅读本书的同学一些有用的建议。多年来,我个人认为这些建议对我的工作很有价值。
●天才是1%的灵感和99%的汗水(托马斯·阿尔瓦·爱迪生,20世纪美国发明家)。
●从一而知万物(宫本武藏,16—17世纪日本著名剑术家)。
●致虚极,守静笃。万物并作,吾以观其复(老子,中国古代思想家、哲学家、文学家和史学家)。
最后,还有下面两个重要观点:
●美丽就在细节之中(古斯塔夫·福楼拜,19世纪法国小说家)。
●细节决定成败(尼采,19世纪德国哲学家、诗人)。