登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』现代精算预测建模：从统计模型到机器学习算法

書城自編碼： 4188375
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：高光远
國際書號(ISBN)： 9787111795964
出版社：机械工业出版社
出版日期： 2025-12-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 352

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《任伯年册页精选》
售價：NT$ 1530

《国之大道G219自驾攻略图——314国道喀什至红其拉甫口岸、独库公路》
售價：NT$ 245

《中国近代史（名家导读版）》
售價：NT$ 418

《《四库全书总目》子部辨证与学术批评研究（全三册）》
售價：NT$ 1877

《古代城邦（修订版）（经典与解释·古今丛编）》
售價：NT$ 509

《诱捕：青春穿越小说穿书系统×双向救赎》
售價：NT$ 245

《战后日本对外文化战略研究（1945—1972）》
售價：NT$ 500

《斯坦福十条：AI时代，顶尖大学要这样的人》
售價：NT$ 356

編輯推薦：

本书适合保险精算师、数据科学家及风险管理领域的研究人员阅读，通过理论与实践结合，为读者提供了机器学习在保险精算中的前沿方法与实用工具。

內容簡介：

本书系统地探讨了机器学习算法在保险精算中的应用，重点围绕保险损失预测与定价模型的构建展开。第 1 章介绍了机器学习基础，涵盖参数模型、深度学习、非参数模型及模型评估方法，为后续章节奠定理论基础。第 2 章深入分析了保险损失预测建模，包括索赔频率、索赔强度、索赔频率-强度相依性建模以及 Tweedie 回归模型的应用，结合案例展示了不同模型的优劣。第 3 章提出了含有潜变量的加性树模型，并介绍了 IRGB 算法及其在混合专家模型、零膨胀泊松回归等场景中的应用。第 4 章探讨了基于赔案文本的索赔金额预测，介绍了损失 Dirichlet 多项式混合模型及其参数估计方法。第 5 章聚焦车险定价，结合车联网数据，分析了驾驶行为风险评分及其在索赔频率预测中的应用。本书适合保险精算师、数据科学家及风险管理领域的研究人员阅读，通过理论与实践结合，为读者提供了机器学习在保险精算中的前沿方法与实用工具。

關於作者：

高光远，博士，中国人民大学统计学院副院长，副教授、中国现场统计研究会理事。主要研究方向为寿险、非寿险精算学。成果发表在ASTIN、IME、SAJ、Machine Learning等期刊。曾获中国人民大学优秀科研成果奖（著作）。主持国家自科基金、北美精算师协会研究基金等

目录
前言
第 1 章机器学习基础 1
1.1 机器学习简介 2
1.1.1 机器学习和其他相关领域
的关系 3
1.2 参数模型 3
1.2.1 多元线性回归 4
1.2.2 广义线性模型 9
1.2.3 基扩展模型 11
1.2.4 混合效应模型 12
1.2.5 逻辑回归 12
1.2.6 线性判别分析 16
1.3 深度学习 18
1.3.1 建立深度学习模型的一
般步骤 19
1.3.2 全连接神经网络 21
1.3.3 图像和文本数据 22
1.3.4 数据预处理 24
1.4 非参数模型 26
1.4.1 k 近邻分类 26
1.4.2 基于核密度估计的分类
与回归 27
1.4.3 支持向量机 29
1.4.4 决策树 31
1.5 提升算法 33
1.5.1 函数型梯度下降算法 35
1.5.2 梯度提升树 35
1.6 无监督学习 36
1.6.1 奇异值分解 37
1.6.2 主成分分析 41
1.6.3 自编码 45
1.6.4 聚类 45
1.7 模型评估与比较 47
1.7.1 样本外偏差统计量 47
1.7.2 Diebold-Mariano
检验 47
1.7.3 预测结构分析与校准 47
1.7.4 Murphy 图 48
1.7.5 基尼系数 48
1.8 通用模型解释方法 49
1.8.1 变量重要性 49
1.8.2 部分依赖效应 49
1.8.3 全局代理模型 50
第 2 章保险损失预测建模 51
2.1 索赔频率预测建模 52
2.1.1 统计回归模型 52
2.1.2 提升算法 59
2.1.3 深度学习 65
2.1.4 零调整泊松模型 71
2.2 索赔强度预测建模 78
2.2.1 连续型分布 79
2.2.2 混合模型 82
2.2.3 案例分析 90
2.3 索赔频率-强度相依性建模 94
2.3.1 条件相依建模 94
2.3.2 Copula 模型 95
2.3.3 两类模型的比较 95
2.4 纯保费的 Tweedie 回归模型 95
2.4.1 Tweedie 复合泊松
模型 96
2.4.2 使用 EM 算法拟合
Tweedie 复合泊松
模型 98
2.4.3 模拟数据示例 101
2.4.4 实际数据示例 106
第 3 章含有潜变量的加性树保险损
失预测模型 111
3.1 含有潜变量的回归模型概述 112
3.2 含潜变量的加性树模型 113
3.2.1 含潜变量的参数回归
模型 113
3.2.2 含潜变量的加性
树模型 114
3.3 IRGB 算法 115
3.3.1 与 EM 算法的比较 117
3.3.2 IRGB 算法的实现 117
3.3.3 其他考虑因素 118
3.4 IRGB 算法证明 119
3.4.1 IR-MLE 算法 119
3.4.2 回顾 IR-MLE 算法的
证明 120
3.4.3 IRGB 算法的证明 121
3.5 应用 122
3.5.1 混合专家模型 122
3.5.2 零膨胀泊松回归 128
3.5.3 Tweedie 复合泊松
回归 132
第 4 章基于赔案文本的索赔金额
预测 137
4.1 背景介绍 138
4.2 损失 Dirichlet 多项式混合
模型 139
4.2.1 LDMM 模型中的相关
分布 140
4.3 参数估计方法 144
4.3.1 用于最大后验（MAP）
估计的 EM 算法 144
4.3.2 后验分布的 Gibbs 采
样器 146
4.4 后验预测分布与风险度量 148
4.5 模型选择 148
4.6 所用分布 150
第 5 章基于驾驶行为风险的车
险定价 152
5.1 背景介绍 153
5.2 车联网数据描述 155
5.2.1 汽车保险定价的传统
协变量 155
5.2.2 车联网数据中的变量 156
5.2.3 车联网数据清洗 158
5.3 给定驾驶员条件下驾驶行为数
据的分类 160
5.3.1 问题设定和数据
预处理 161
5.3.2 基于卷积神经网络的
分类 162
5.3.3 拟合与结果 163
5.3.4 数据隐私问题 164
5.4 车联网数据的热图压缩及其在
索赔频率预测中的应用 165
VIII
目录
5.4.1 可用的索赔数据及泊松
索赔次数回归建模 165
5.4.2 基准模型：基于经典精
算协变量的泊松广义线
性模型 166
5.4.3 车联网数据的压缩：速
度-加速度热图 167
5.4.4 用热图增强广义线性
模型 169
5.5 速度-加速度热图的稳健性 172
5.5.1 理论分析 172
5.5.2 数值结果 175
5.6 单个行程的驾驶行为风险评分及
其在索赔频率预测中的应用 176
5.6.1 典型驾驶员的选择 176
5.6.2 一维卷积神经网络 178
5.6.3 信度平均风险评分 181
5.6.4 基于信度平均风险评
分的索赔频率预测
建模 182
5.7 总结与展望 183
附录 185
附录 A 强化学习 186
附录 B 计算环境构建 188
附录 C 车联网数据预处理 203
参考文献 219
IX

內容試閱：

前言
　　人们每天都面临着不确定性，变化的世界既带来了机遇，也伴随着风险。在风险尚未转化为实际损失之前，未雨绸缪，通过购买保险产品可以将潜在的损失转移给保险公司。然而，保险公司在履行保险责任之前，需要先确定保费，即对潜在损失的期望进行评估。保险损失与被保险人的风险特征密切相关，例如，新手司机更容易发生事故，从事建筑施工的人更容易受伤，而有多年吸烟史的人预期寿命可能更短。基于历史保险损失数据与风险特征，建立以风险特征为自变量的保险损失回归模型，可以根据投保人的风险特征预测其保险损失。这是保险产品定价的一般步骤。机器学习算法作为一种预测模型，为传统的精算模型带来了机遇与挑战。一方面，大量实证研究表明，在样本量足够大的情况下，机器学习算法的预测能力往往优于传统回归模型，而且能够有效提升费率厘定模型的准确性。基于机器学习算法的定价模型有助于保险公司更精细地划分风险，实现精准定价，从而减少逆选择风险。另一方面，保险公司承担着风险转移和风险共担的社会职能。然而，过度的风险细分可能导致风险的个体化，削弱保险公司在风险转移和共担中的作用。例如，如果基于被保险人的高风险特征收取过高的保费，被保险人将失去风险转移的价值，同时也可能丧失购买保险的动力。因此，保险公司需要在风险细分与风险共担之间找到平衡，既避免逆选择，又能提供具有风险转移价值的保险产品。一般来说，保险定价模型受到保险监管机构的严格约束，这些模型在实际应用中必须满足特定的条件。这种监管要求对机器学习算法在保险定价中的应用带来了诸多限制。例如，欧盟的《通用数据保护条例》（General Data Protection Regulation， 2018）建立了决策机器学习算法的问责机制（algorithmic accountability），该机制赋予参与者了解机器学习算法背后逻辑的知情权。这意味着，定价模型必须在一定程度上能够向被保险人、保险监管机构等相关方解释其决策过程。从被保险人和保险监管的角度来看，他们更希望产品定价和风险管理基于一个相对透明的模型，而非一个“黑箱”模型。透明的模型有助于维护市场公平、保障被保险人的权益、识别重要的风险因子，并建立有效的风险防范措施。 1. 常见的精算问题本书把大部分精算问题都抽象成回归分析，其中，数据表示为 (yi， xi)i=1:n，模型表示为 Y jx F(; θ(x))。以下列出了常见的非寿险精算问题。 . Y 为索赔次数，x 为风险因子，F 为泊松分布或者零膨胀泊松分布，建立泊松回归模型、零膨胀泊松回归模型。 . Y 为索赔金额，x 为风险因子，F 为伽马分布或者混合伽马分布，建立伽马回归模型、混合回归模型。 . Y 为累积索赔金额，x 为风险因子，F 为 Tweedie 分布，建立 Tweedie 回归模型。 . Y 为已报案赔款，x 为事故年和进展年，F 为过离散泊松分布，建立过离散泊松回归模型。 . Y 为已报案个案赔款，x 为事故年、进展年及个体赔案特征，F 为伽马分布，建立混合效应回归模型。以下列出了常见的寿险精算问题。 . Y 为死亡率，x 为年龄、时间，F 为连续型分布，建立 Lee-Carter 模型。 . Y 为生存时间，x 为年龄、性别、身体状况、是否治疗等，F 为连续型分布，建立 Cox 比例风险模型。 . Y 为下一状态及上一状态持续时间，x 为上一状态及个体特征，F 为马尔可夫转移概率矩阵，建立多状态马尔可夫随机过程。对比常见的非寿险和寿险精算问题，有两点发现，一是在非寿险精算问题中，x 包含的信息更丰富，使用的模型多为回归模型，二是在寿险精算问题中，x 包含的信息较少，数据中的截断现象普遍，使用的模型多为随机过程模型、时间序列模型。还需要注意的是，机器学习算法在精算领域的应用面临很多挑战：首先，损失是低频事件，损失次数为不平衡数据；其次，损失金额呈现厚尾或者多峰，单一分布难以拟合；最后，机器学习算法的模型推断、不确定性量化鲜有研究。 2. 预测模型概述以索赔频率模型为例，简要介绍并比较常用的预测模型。记第 i 个保单的风险信息为 xi 2 X，索赔次数为 Yi，费率厘定的目标是找到（最优）回归函数 .λ(xi)，使之尽可能准确地预测索赔频率 E(Yi)：λ : X ! R+， x 7! λ(xi)。如何得到一个好的预测模型呢？可以从两个方面入手：首先，丰富风险信息空间，即通过特征工程（feature engineering）扩展信息维度。例如，在风险信息空间中引入 x， x2， ln x 等变量，或者加入车联网信息等外部数据。其次，扩展映射空间 λ 2 Λ。例如，广义线性模型（GLM）仅包含线性效应和相加效应，其映射空间较小；而神经网络能够捕捉非线性效应和交互作用，其映射空间更为广泛。通过这两个方面的优化，可以显著提升模型的预测能力。当选择映射空间较小的广义线性模型时，通常需要进行细致的特征工程，以确保风险信息空间能够适应广义线性模型的结构；而当选择映射空间较大的神经网络时，通常无须进行特别精细的特征工程，因为 IV 前言神经网络能够自动从数据中提取有用的特征，并完成特征工程的过程。值得注意的是，使用机器学习算法并不意味着可以忽略人工特征工程的重要性。事实上，在许多数据科学建模竞赛中，排名靠前的团队通常都依赖于独特且关键的特征工程。基于专业领域知识或专家经验构建新特征，或者利用数据集之外的公开数据生成新特征，并将这些特征融入机器学习算法（如提升算法或神经网络），能够显著提升模型的预测性能。相反，如果直接将所有原始特征不加处理地输入机器学习算法，然后仅依赖模型训练和调参，这种建模方式不仅会浪费大量时间（陷入“内卷”），而且最终结果往往难以脱颖而出（因为大多数参与者都采用类似的方法）。以下从回归的视角，对常见的预测模型（包括统计模型和机器学习算法）进行比较。 . 对于统计回归模型（如 GLM、GAM、MARS），通常采用极大似然估计方法在映射空间中寻找最优的回归函数。在极大似然估计过程中使用的数据集称为学习集（learning data set）。为了防止模型过拟合，需要进行协变量选择，剔除不显著的协变量。常用的方法包括逐步回归、最优子集选择以及 LASSO 回归等，而判断协变量显著性的标准则可以采用 AIC（赤池信息准则）等统计指标。 . 对于树模型，通常采用基于二叉分裂的递归分区算法（recursive partitioning by binary splits）对风险空间进行划分，旨在使各子空间内的因变量差异最小化。这种差异通常通过偏差损失（deviance loss）来度量。为了防止模型过拟合，通常会使用交叉验证和剪枝（pruning）对树的深度进行控制。 . 树模型的扩展方法包括自助聚合（bootstrap aggregation，bagging）和随机森林（random forest）。第一种算法通过对每个自助采样（bootstrap）样本构建独立的树模型，然后将所有树模型的预测结果进行平均；第二种算法与第一种类似，但在构建每棵树时，仅允许在随机选择的部分协变量上进行分支。这两种扩展方法均属于集成学习（ensemble learning）的范畴。 . 提升算法（Boosting）具有多种实现形式，其核心思想与逐步回归类似，但独特之处在于每一步回归过程中会根据前一步的预测结果动态调整样本权重。具体而言，在前一步预测中误差较大的样本会在后续步骤中被赋予更高的权重，从而使模型更加关注这些难以准确预测的数据点。通常，提升算法在每一步回归中使用相对简单的模型，如深度仅为 3 的树模型。需要注意的是，提升算法也是集成学习的一种，但与自助聚合和随机森林不同，其弱学习器（即每一步的回归模型）之间存在依赖关系，而非相互独立。 . 在集成学习算法中，弱学习器的参数是通过在训练集（training set）上训练模型来确定的。此外，还需要调整弱学习器的结构参数（如树的深度）并确定弱学习器的数量，这些参数统称为调优参数或超参数（tuning parameters 或 hyper-parameters）。为了避免模型过拟合，通常会在验证集（validation set）上评估不同参数组合的损 V 失，并据此调整参数。需要注意的是，训练集和验证集共同构成了学习集（learning set），用于模型的训练和超参数调优过程。 . 在前馈神经网络中，输入神经元接收风险信息，下一层神经元则通过对上一层神经元的线性组合进行非线性激活函数变换，最终输出神经元生成神经网络对因变量期望值的预测。通过最小化输出神经元的预测值与因变量观察值之间的差异，神经网络的参数得以训练。由于神经网络包含大量参数，所以寻找全局最优解非常困难，且全局最优解往往会导致过拟合。因此，通常采用梯度下降法对参数进行迭代优化，确保训练集损失在每次迭代中呈现下降趋势。通过比较验证集损失，可以确定迭代次数和神经网络的结构参数，从而有效防止过拟合。感谢教育部人文社会科学重点研究基地重大项目“数字时代风险管理与精算模型研究”（项目号 22JJD910003），国家自然科学基金“保险定价中三类潜变量回归模型的非参数方法研究；基于集成树模型”（项目号 12561087）为本专著出版提供的支持。
高光远

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2026 （香港）大書城有限公司　All Rights Reserved.