新書推薦:
《
新民说·现实政治史:从马基雅维利到基辛格
》
售價:NT$
454.0
《
宽容是件奢侈品(人生360度·一分钟经典故事)
》
售價:NT$
203.0
《
甲骨拼合六集
》
售價:NT$
1520.0
《
视觉美食家:商业摄影实战与创意解析
》
售價:NT$
602.0
《
中国经济发展的新阶段:机会与选择
》
售價:NT$
454.0
《
DK月季玫瑰百科
》
售價:NT$
959.0
《
为你想要的生活
》
售價:NT$
301.0
《
关键改变:如何实现自我蜕变
》
售價:NT$
352.0
|
編輯推薦: |
深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。本书会介绍深度学习领域的许多主题。
本书囊括了数学及相关概念的背景知识,包括线性代数、概率论、信息论、数值优化以及机器学习中的相关内容。同时,它还介绍了工业界中实践者用到的深度学习技术,包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实践方法等,并且调研了诸如自然语言处理、语音识别、计算机视觉、在线推荐系统、生物信息学以及视频游戏方面的应用。最后,本书还提供了一些研究方向,涵盖的理论主题包括线性因子模型、自编码器、表示学习、结构化概率模型、蒙特卡罗方法、配分函数、近似推断以及深度生成模型。
|
內容簡介: |
《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。
《深度学习》适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。
|
關於作者: |
Ian Goodfellow,谷歌公司(Google) 的研究科学家,2014 年蒙特利尔大学机器学习博士。他的研究兴趣涵盖大多数深度学习主题,特别是生成模型以及机器学习的安全和隐私。Ian Goodfellow 在研究对抗样本方面是一位有影响力的早期研究者,他发明了生成式对抗网络,在深度学习领域贡献卓越。
Yoshua Bengio,蒙特利尔大学计算机科学与运筹学系(DIRO) 的教授,蒙特利尔学习算法研究所(MILA) 的负责人,CIFAR 项目的共同负责人,加拿大统计学习算法研究主席。Yoshua Bengio 的主要研究目标是了解产生智力的学习原则。他还教授“机器学习”研究生课程(IFT6266),并培养了一大批研究生和博士后。
Aaron Courville,蒙特利尔大学计算机科学与运筹学系的助理教授,也是LISA 实验室的成员。目前他的研究兴趣集中在发展深度学习模型和方法,特别是开发概率模型和新颖的推断方法。Aaron Courville 主要专注于计算机视觉应用,在其他领域,如自然语言处理、音频信号处理、语音理解和其他AI 相关任务方面也有所研究。
中文版审校者简介
张志华,北京大学数学科学学院统计学教授,北京大学大数据研究中心和北京大数据研究院数据科学教授,主要从事机器学习和应用统计学的教学与研究工作。
译者简介:
赵申剑,上海交通大学计算机系硕士研究生,研究方向为数值优化和自然语言处理。
黎彧君,上海交通大学计算机系博士研究生,研究方向为数值优化和强化学习。
符天凡,上海交通大学计算机系硕士研究生,研究方向为贝叶斯推断。
李凯,上海交通大学计算机系博士研究生,研究方向为博弈论和强化学习。
|
目錄:
|
目 录
第 1 章 引言 . . . . 1
1.1 本书面向的读者 7
1.2 深度学习的历史趋势 8
1.2.1 神经网络的众多名称和命运变迁 . 8
1.2.2 与日俱增的数据量 . . . 12
1.2.3 与日俱增的模型规模 .13
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击 . . . 15
第 1 部分 应用数学与机器学习基础
第 2 章 线性代数 . . . 19
2.1 标量、向量、矩阵和张量 19
2.2 矩阵和向量相乘 . . . .21
2.3 单位矩阵和逆矩阵 . 22
2.4 线性相关和生成子空间 . 23
2.5 范数 . . . .24
2.6 特殊类型的矩阵和向量 . 25
2.7 特征分解 . . . . 26
2.8 奇异值分解 . . . 28
2.9 Moore-Penrose 伪逆 28
2.10 迹运算 . . 29
2.11 行列式 . . 30
2.12 实例:主成分分析 .30
第 3 章 概率与信息论 .34
3.1 为什么要使用概率 . 34
3.2 随机变量 . 35
3.3 概率分布 . 36
3.3.1 离散型变量和概率质量函数 . . . . 36
3.3.2 连续型变量和概率密度函数 . . . . 36
3.4 边缘概率 . 37
3.5 条件概率 . 37
3.6 条件概率的链式法则 . . . . 38
3.7 独立性和条件独立性 . . . . 38
3.8 期望、方差和协方差 . . . . 38
3.9 常用概率分布 . 39
3.9.1 Bernoulli 分布 . 40
3.9.2 Multinoulli 分布 . . . . 40
3.9.3 高斯分布 . 40
3.9.4 指数分布和 Laplace 分布 . 41
3.9.5 Dirac 分布和经验分布 . . . . 42
3.9.6 分布的混合 . . . . 42
3.10 常用函数的有用性质 . . .43
3.11 贝叶斯规则 . . 45
3.12 连续型变量的技术细节 45
3.13 信息论 . . 47
3.14 结构化概率模型 . . 49
第 4 章 数值计算 52
4.1 上溢和下溢 . . . 52
4.2 病态条件 . 53
4.3 基于梯度的优化方法 . . . . 53
4.3.1 梯度之上:Jacobian 和 Hessian 矩阵 . 56
4.4 约束优化 . 60
4.5 实例:线性最小二乘 . . . . 61
第 5 章 机器学习基础 .63
5.1 学习算法 . 63
5.1.1 任务 T . . 63
5.1.2 性能度量 P . . . . 66
5.1.3 经验 E . . . 66
5.1.4 示例:线性回归 68
5.2 容量、过拟合和欠拟合 . . 70
5.2.1 没有免费午餐定理 . . . 73
5.2.2 正则化 . . . 74
5.3 超参数和验证集 . . . .76
5.3.1 交叉验证 . 76
5.4 估计、偏差和方差 . .77
5.4.1 点估计 . . . 77
5.4.2 偏差 78
5.4.3 方差和标准差 . . 80
5.4.4 权衡偏差和方差以最小化均方误差 . . . 81
5.4.5 一致性 . . . 82
5.5 最 大似然估计 . 82
5.5.1 条件对数似然和均方误差 . .84
5.5.2 最 大似然的性质 84
5.6 贝叶斯统计 . . . 85
5.6.1 最 大后验 (MAP) 估计 . . . . 87
5.7 监督学习算法 . 88
5.7.1 概率监督学习 . . 88
5.7.2 支持向量机 . . . . 88
5.7.3 其他简单的监督学习算法 . .90
5.8 无监督学习算法 . . . .91
5.8.1 主成分分析 . . . . 92
5.8.2 k-均值聚类 94
5.9 随机梯度下降 . 94
5.10 构建机器学习算法 96
5.11 促使深度学习发展的挑战 . . . 96
5.11.1 维数灾难 97
5.11.2 局部不变性和平滑正则化 97
5.11.3 流形学习 99
第 2 部分 深度网络:现代实践
第 6 章 深度前馈网络 . . . . 105
6.1 实例:学习 XOR . . 107
6.2 基于梯度的学习 . . 110
6.2.1 代价函数 111
6.2.2 输出单元 113
6.3 隐藏单元 119
6.3.1 整流线性单元及其扩展 . . 120
6.3.2 logistic sigmoid 与双曲正切函数 . . . . 121
6.3.3 其他隐藏单元 . 122
6.4 架构设计 123
6.4.1 万能近似性质和深度 123
6.4.2 其他架构上的考虑 . .126
6.5 反向传播和其他的微分算法 .126
6.5.1 计算图 . . 127
6.5.2 微积分中的链式法则 128
6.5.3 递归地使用链式法则来实现反向传播 128
6.5.4 全连接 MLP 中的反向传播计算 . . . . 131
6.5.5 符号到符号的导数 . .131
6.5.6 一般化的反向传播 . .133
6.5.7 实例:用于 MLP 训练的反向传播 . . .135
6.5.8 复杂化 . . 137
6.5.9 深度学习界以外的微分 . . 137
6.5.10 高阶微分 . . . . 138
6.6 历史小记 139
第 7 章 深度学习中的正则化 . . 141
7.1 参数范数惩罚 142
7.1.1 L2 参数正则化 142
7.1.2 L1 正则化 . . . . 144
7.2 作为约束的范数惩罚 . . .146
7.3 正则化和欠约束问题 . . .147
7.4 数据集增强 . . 148
7.5 噪声鲁棒性 . . 149
7.5.1 向输出目标注入噪声 150
7.6 半监督学习 . . 150
7.7 多任务学习 . . 150
7.8 提前终止 151
7.9 参数绑定和参数共享 . . .156
7.9.1 卷积神经网络 . 156
7.10 稀疏表示 . . . .157
7.11 Bagging 和其他集成方法 . . .158
7.12 Dropout 159
7.13 对抗训练 . . . .165
7.14 切面距离、正切传播和流形正切分类器 . . . 167
第 8 章 深度模型中的优化 169
8.1 学习和纯优化有什么不同 . . . 169
8.1.1 经验风险最小化 . . . . 169
8.1.2 代理损失函数和提前终止 170
8.1.3 批量算法和小批量算法 . . 170
8.2 神经网络优化中的挑战 173
8.2.1 病态 . . . . 173
8.2.2 局部极小值 . . . 174
8.2.3 高原、鞍点和其他平坦区域 . . . .175
8.2.4 悬崖和梯度爆炸 . . . . 177
8.2.5 长期依赖 177
8.2.6 非精确梯度 . . . 178
8.2.7 局部和全局结构间的弱对应 . . . 178
8.2.8 优化的理论限制 . . . . 179
8.3 基本算法 180
8.3.1 随机梯度下降 . 180
8.3.2 动量 . . . . 181
8.3.3 Nesterov 动量 .183
8.4 参数初始化策略 . . 184
8.5 自适应学习率算法 187
8.5.1 AdaGrad . . . . 187
8.5.2 RMSProp . . . . 188
8.5.3 Adam . . . 189
8.5.4 选择正确的优化算法 190
8.6 二阶近似方法 190
8.6.1 牛顿法 . . 190
8.6.2 共轭梯度 191
8.6.3 BFGS . . . 193
8.7 优化策略和元算法 194
8.7.1 批标准化 194
8.7.2 坐标下降 196
8.7.3 Polyak 平均 . . 197
8.7.4 监督预训练 . . . 197
8.7.5 设计有助于优化的模型 . . 199
8.7.6 延拓法和课程学习 . .199
第 9 章 卷积网络 . . . . 201
9.1 卷积运算 201
9.2 动机 . . . . 203
9.3 池化 . . . . 207
9.4 卷积与池化作为一种无限强的先验 . . . 210
9.5 基本卷积函数的变体 . . .211
9.6 结构化输出 . . 218
9.7 数据类型 219
9.8 高效的卷积算法 . . 220
9.9 随机或无监督的特征 . . .220
9.10 卷积网络的神经科学基础 . . 221
9.11 卷积网络与深度学习的历史 . . . . 226
第 10 章 序列建模:循环和递归网络 . . . . 227
10.1 展开计算图 . 228
10.2 循环神经网络 . . . .230
10.2.1 导师驱动过程和输出循环网络 232
10.2.2 计算循环神经网络的梯度 . . . . 233
10.2.3 作为有向图模型的循环网络 . . 235
10.2.4 基于上下文的 RNN 序列建模 237
10.3 双向 RNN . . 239
10.4 基于编码 - 解码的序列到序列架构 . . . 240
10.5 深度循环网络 . . . .242
10.6 递归神经网络 . . . .243
10.7 长期依赖的挑战 . 244
10.8 回声状态网络 . . . .245
10.9 渗漏单元和其他多时间尺度的策略 . . 247
10.9.1 时间维度的跳跃连接 . . . .247
10.9.2 渗漏单元和一系列不同时间尺度 . . . 247
10.9.3 删除连接 . . . . 248
10.10 长短期记忆和其他门控 RNN . 248
10.10.1 LSTM 248
10.10.2 其他门控 RNN . . .250
10.11 优化长期依赖 . . .251
10.11.1 截断梯度 . . . 251
10.11.2 引导信息流的正则化 . . 252
10.12 外显记忆 . . 253
第 11 章 实践方法论 256
11.1 性能度量 . . . .256
11.2 默认的基准模型 . 258
11.3 决定是否收集更多数据 . . . . 259
11.4 选择超参数 . 259
11.4.1 手动调整超参数 . . .259
11.4.2 自动超参数优化算法 . . . .262
11.4.3 网格搜索 . . . . 262
11.4.4 随机搜索 . . . . 263
11.4.5 基于模型的超参数优化 . 264
11.5 调试策略 . . . .264
11.6 示例:多位数字识别 . . 267
第 12 章 应用 . . .269
12.1 大规模深度学习 . 269
12.1.1 快速的 CPU 实现 . 269
12.1.2 GPU 实现 . . . 269
12.1.3 大规模的分布式实现 . . . .271
12.1.4 模型压缩 . . . . 271
12.1.5 动态结构 . . . . 272
12.1.6 深度网络的专用硬件实现 . . . . 273
12.2 计算机视觉 . 274
12.2.1 预处理 . 275
12.2.2 数据集增强 . . 277
12.3 语音识别 . . . .278
12.4 自然语言处理 . . . .279
12.4.1 n-gram .280
12.4.2 神经语言模型 281
12.4.3 高维输出 . . . . 282
12.4.4 结合 n-gram 和神经语言模型 286
12.4.5 神经机器翻译 287
12.4.6 历史展望 . . . . 289
12.5 其他应用 . . . .290
12.5.1 推荐系统 . . . . 290
12.5.2 知识表示、推理和回答 . . 292
第 3 部分 深度学习研究
第 13 章 线性因子模型 . . . 297
13.1 概率 PCA 和因子分析 297
13.2 独立成分分析 . . . .298
13.3 慢特征分析 . 300
13.4 稀疏编码 . . . .301
13.5 PCA 的流形解释 304
第 14 章 自编码器 . . . 306
14.1 欠完备自编码器 . 306
14.2 正则自编码器 . . . .307
14.2.1 稀疏自编码器 307
14.2.2 去噪自编码器 309
14.2.3 惩罚导数作为正则 .309
14.3 表示能力、层的大小和深度 310
14.4 随机编码器和解码器 . .310
14.5 去噪自编码器详解 . . . . 311
14.5.1 得分估计 . . . . 312
14.5.2 历史展望 . . . . 314
14.6 使用自编码器学习流形 . . . . 314
14.7 收缩自编码器 . . . .317
14.8 预测稀疏分解 . . . .319
14.9 自编码器的应用 . 319
第 15 章 表示学习 . . . 321
15.1 贪心逐层无监督预训练 . . . . 322
15.1.1 何时以及为何无监督预训练有效有效 . . . . 323
15.2 迁移学习和领域自适应 . . . . 326
15.3 半监督解释因果关系 . .329
15.4 分布式表示 . 332
15.5 得益于深度的指数增益 . . . . 336
15.6 提供发现潜在原因的线索 . . 337
第 16 章 深度学习中的结构化概率模型 . 339
16.1 非结构化建模的挑战 . .339
16.2 使用图描述模型结构 . .342
16.2.1 有向模型 . . . . 342
16.2.2 无向模型 . . . . 344
16.2.3 配分函数 . . . . 345
16.2.4 基于能量的模型 . . .346
16.2.5 分离和 d-分离 347
16.2.6 在有向模型和无向模型中转换 350
16.2.7 因子图 . 352
16.3 从图模型中采样 . 353
16.4 结构化建模的优势 . . . . 353
16.5 学习依赖关系 . . . .354
16.6 推断和近似推断 . 354
16.7 结构化概率模型的深度学习方法 355
16.7.1 实例:受限玻尔兹曼机 . . 356
第 17 章 蒙特卡罗方法 . . . 359
17.1 采样和蒙特卡罗方法 . .359
17.1.1 为什么需要采样 . . .359
17.1.2 蒙特卡罗采样的基础 . . . .359
17.2 重要采样 . . . .360
17.3 马尔可夫链蒙特卡罗方法 . . 362
17.4 Gibbs 采样 . .365
17.5 不同的峰值之间的混合挑战 . . . . 365
17.5.1 不同峰值之间通过回火来混合 367
17.5.2 深度也许会有助于混合 . 368
第 18 章 直面配分函数 . . . 369
18.1 对数似然梯度 . . . .369
18.2 随机最 大似然和对比散度 . . 370
18.3 伪似然 . 375
18.4 得分匹配和比率匹配 . .376
18.5 去噪得分匹配 . . . .378
18.6 噪声对比估计 . . . .378
18.7 估计配分函数 . . . .380
18.7.1 退火重要采样 382
18.7.2 桥式采样 . . . . 384
第 19 章 近似推断 . . . 385
19.1 把推断视作优化问题 . .385
19.2 期望最 大化 . 386
19.3 最 大后验推断和稀疏编码 . . 387
19.4 变分推断和变分学习 . .389
19.4.1 离散型潜变量 390
19.4.2 变分法 . 394
19.4.3 连续型潜变量 396
19.4.4 学习和推断之间的相互作用 . . 397
19.5 学成近似推断 . . . .397
19.5.1 醒眠算法 . . . . 398
19.5.2 学成推断的其他形式 . . . .398
第 20 章 深度生成模型 . . . 399
20.1 玻尔兹曼机 . 399
20.2 受限玻尔兹曼机 . 400
20.2.1 条件分布 . . . . 401
20.2.2 训练受限玻尔兹曼机 . . . .402
20.3 深度信念网络 . . . .402
20.4 深度玻尔兹曼机 . 404
20.4.1 有趣的性质 . . 406
20.4.2 DBM 均匀场推断 . 406
20.4.3 DBM 的参数学习 . 408
20.4.4 逐层预训练 . . 408
20.4.5 联合训练深度玻尔兹曼机 . . . . 410
20.5 实值数据上的玻尔兹曼机 . . 413
20.5.1 Gaussian-Bernoulli RBM . . . . 413
20.5.2 条件协方差的无向模型 . 414
20.6 卷积玻尔兹曼机 . 417
20.7 用于结构化或序列输出的玻尔兹曼机 418
20.8 其他玻尔兹曼机 . 419
20.9 通过随机操作的反向传播 . . 419
20.9.1 通过离散随机操作的反向传播 420
20.10 有向生成网络 . . .422
20.10.1 sigmoid 信念网络 422
20.10.2 可微生成器网络 . .423
20.10.3 变分自编码器 . . . .425
20.10.4 生成式对抗网络 . .427
20.10.5 生成矩匹配网络 . .429
20.10.6 卷积生成网络 . . . .430
20.10.7 自回归网络 . 430
20.10.8 线性自回归网络 . .430
20.10.9 神经自回归网络 . .431
20.10.10 NADE . . . . 432
20.11 从自编码器采样 433
20.11.1 与任意去噪自编码器相关的马尔可夫链 . 434
20.11.2 夹合与条件采样 . .434
20.11.3 回退训练过程 . . . .435
20.12 生成随机网络 . . .435
20.12.1 判别性 GSN 436
20.13 其他生成方案 . . .436
20.14 评估生成模型 . . .437
20.15 结论 438
参考文献 . . .439
索引 . . 486
|
內容試閱:
|
序言
译者序青山遮不住,毕竟东流去
深度学习这个术语自2006年被正式提出后,在最近10年得到了巨大发展。它使人工智能(AI)产生了革命性的突破,让我们切实地领略到人工智能给人类生活带来改变的潜力。2016年12月,MIT出版社出版了IanGoodfellow、YoshuaBengio和AaronCourville三位学者撰写的《DeepLearning》一书。三位作者一直耕耘于机器学习领域的前沿,引领了深度学习的发展潮流,是深度学习众多方法的主要贡献者。该书正应其时,一经出版就风靡全球。
该书包括3个部分,第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识。第2部分系统深入地讲解现今已成熟的深度学习方法和技术。第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。因此,该书适用于不同层次的读者。我本人在阅读该书时受到启发良多,大有裨益,并采用该书作为教材在北京大学讲授深度学习课程。
这是一本涵盖深度学习技术细节的教科书,它告诉我们深度学习集技术、科学与艺术于一体,牵涉统计、优化、矩阵、算法、编程、分布式计算等多个领域。书中同时也蕴含了作者对深度学习的理解和思考,处处闪烁着深刻的思想,耐人回味。第1章关于深度学习的思想、历史发展等论述尤为透彻而精辟。
作者在书中写到:“人工智能的真正挑战在于解决那些对人来说很容易执行、但很难形式化描述的任务,比如识别人们所说的话或图像中的脸。对于这些问题,我们人类往往可以凭直觉轻易地解决”。为了应对这些挑战,他们提出让计算机从经验中学习,并根据层次化的概念体系来理解世界,而每个概念通过与某些相对简单的概念之间的关系来定义。由此,作者给出了深度学习的定义:“层次化的概念让计算机构建较简单的概念来学习复杂概念。如果绘制出表示这些概念如何建立在彼此之上的一幅图,我们将得到一张‘深’(层次很多)的图。由此,我们称这种方法为AI深度学习(deeplearning)”。
作者指出:“一般认为,到目前为止深度学习已经经历了三次发展浪潮:20世纪40年代到60年代深度学习的雏形出现在控制论(cybernetics)中,20世纪80年代到90年代深度学习以联结主义(connectionism)为代表,而从2006年开始,以深度学习之名复兴”。
谈到深度学习与脑科学或者神经科学的关系,作者强调:“如今神经科学在深度学习研究中的作用被削弱,主要原因是我们根本没有足够的关于大脑的信息作为指导去使用它。要获得对被大脑实际使用算法的深刻理解,我们需要有能力同时监测(至少是)数千相连神经元的活动。我们不能够做到这一点,所以我们甚至连大脑最简单、最深入研究的部分都还远远没有理解”。值得注意的是,我国有些专家热衷倡导人工智能与脑科学或认知学科的交叉研究,推动国家在所谓的“类脑智能”等领域投入大量资源。且不论我国是否真有同时精通人工智能和脑科学或认知心理学的学者,至少对交叉领域,我们都应该怀着务实、理性的求是态度。唯有如此,我们才有可能在这一波人工智能发展浪潮中有所作为,而不是又成为一群观潮人。
作者进一步指出:“媒体报道经常强调深度学习与大脑的相似性。的确,深度学习研究者比其他机器学习领域(如核方法或贝叶斯统计)的研究者更可能地引用大脑作为参考,但大家不应该认为深度学习在尝试模拟大脑。现代深度学习从许多领域获取灵感,特别是应用数学的基本内容如线性代数、概率论、信息论和数值优化。尽管一些深度学习的研究人员引用神经科学作为重要的灵感来源,然而其他学者完全不关心神经科学”。的确,对于广大青年学者和一线的工程师来说,我们是可以完全不用因为不懂神经(或脑)科学而对深度学习、人工智能踯躅不前。数学模型、计算方法和应用驱动才是我们研究人工智能的可行之道。深度学习和人工智能不是飘悬在我们头顶的框架,而是立足于我们脚下的技术。我们诚然可以从哲学层面或角度来欣赏科学与技术,但过度地从哲学层面来研究科学问题只会导致一些空洞的名词。
关于人工神经网络在20世纪90年代中期的衰落,作者分析到:“基于神经网络和其他AI技术的创业公司开始寻求投资,其做法野心勃勃但不切实际。当AI研究不能实现这些不合理的期望时,投资者感到失望。同时,机器学习的其他领域取得了进步。比如,核方法和图模型都在很多重要任务上实现了很好的效果。这两个因素导致了神经网络热潮的第二次衰退,并一直持续到2007年”。“其兴也悖焉,其亡也忽焉”。这个教训也同样值得当今基于深度学习的创业界、工业界和学术界等警醒。
我非常荣幸获得人民邮电出版社王峰松先生的邀请来负责该书的中文翻译。我是2016年7月收到王先生的邀请,但那时我正忙于找工作,无暇顾及。然而,当我和我的学生讨论翻译事宜时,他们一致认为这是一件非常有意义的事情,表达愿意来承担。译稿是由我的四位学生赵申剑、黎彧君、符天凡和李凯独立完成的。申剑和天凡是二年级的硕士生,而李凯和彧君则分别是二年级和三年级的直博生。虽然他们在机器学习领域都还是新人,其知识结构还不全面,但是他们热情高涨、勤于学习、工作专注、执行力极强。他们通过重现书中的算法代码和阅读相关文献来加强理解,在不到三个月的时间就拿出了译著的初稿,之后又经过自校对、交叉校对等环节力图使译著保持正确性和一致性。他们自我协调、主动揽责、相互谦让,他们的责任心和独立工作能力让我倍感欣慰,因而得以从容。
由于我们无论是中文还是英文能力都深感有限,译文恐怕还是有些生硬,我们特别担心未能完整地传达出原作者的真实思想和观点。因此,我们强烈地建议有条件的读者去阅读英文原著,也非常期待大家继续指正译著,以便今后进一步修订完善。我恳请大家多给予4位译者以鼓励。请把你们对译著的批评留给我,这是我作为他们的导师必须要承担的,也是我对王峰松先生的信任做出的承诺。
当初译稿基本完成时,我们决定把它公开在GitHub上,希望通过广大读者的参与来完善译稿。令人惊喜的是,有上百位热心读者给予了大量富有建设性的修改意见,其中有20多位热心读者直接帮助润色校对(详见中文版致谢名单)。可以说,这本译著是大家共同努力的结晶。这些读者来自一线的工程师和在校的学生,从中我领略到了他们对深度学习和机器学习领域的挚爱。更重要的是,我感受到了他们开放、合作和奉献的精神,而这也是推动人工智能发展不可或缺的。因此,我更加坚定地认为中国人工智能发展的希望在于年青学者,唯有他们才能让我国人工智能学科在世界有竞争力和影响力。
江山代有人才出,各领风骚数十年!
张志华代笔2017年5月12日于北大静园六院
|
|