本书围绕机器学习算法中涉及的概率统计知识展开介绍,沿着概率思想、变量分布、参数估计、随机过程和统计推断的知识主线进行讲解,结合数学的本质内涵,用浅显易懂的语言讲透深刻的数学思想,帮助读者构建理论体系。同时,作者在讲解的过程中注重应用场景的延伸,并利用Python工具无缝对接工程应用,帮助读者学以致用。
全书共5章。第1章以条件概率和独立性作为切入点,帮助读者建立认知概率世界的正确视角。第2章介绍随机变量的基础概念和重要分布类型,并探讨多元随机变量间的重要关系。第3章介绍极限思维以及蒙特卡罗方法,并重点分析极大似然估计方法以及有偏无偏等重要性质,最后拓展到含有隐变量的参数估计问题,介绍EM算法的原理及其应用。第4章由静态的随机变量过渡到动态的随机过程,重点介绍马尔可夫过程和隐马尔可夫模型。第5章聚焦马尔可夫链-蒙特卡罗方法,并列举实例展示Metropolis-Hastings和Gibbs的具体采样过程。
......(更多)
张雨萌
资深人工智能技术专家,毕业于清华大学计算机系,长期从事人工智能领域相关研究工作,谙熟机器学习算法应用及其背后的数学基础理论。目前已出版多部机器学习数学基础类畅销书籍,广受读者好评。
......(更多)
序
前言
第1章 概率思想:构建理论基础 1
1.1 理论基石:条件概率、独立性与贝叶斯 1
1.1.1 从概率到条件概率 1
1.1.2 条件概率的具体描述 2
1.1.3 条件概率的表达式分析 3
1.1.4 两个事件的独立性 4
1.1.5 从条件概率到全概率公式 5
1.1.6 聚焦贝叶斯公式 6
1.1.7 本质内涵:由因到果,由果推因 7
1.2 事件的关系:深入理解独立性 8
1.2.1 重新梳理两个事件的独立性 8
1.2.2 不相容与独立性 8
1.2.3 条件独立 9
1.2.4 独立与条件独立 11
1.2.5 独立重复实验 11
第2章 变量分布:描述随机世界 13
2.1 离散型随机变量:分布与数字特征 13
2.1.1 从事件到随机变量 13
2.1.2 离散型随机变量及其要素 14
2.1.3 离散型随机变量的分布列 15
2.1.4 分布列和概率质量函数 16
2.1.5 二项分布及二项随机变量 17
2.1.6 几何分布及几何随机变量 21
2.1.7 泊松分布及泊松随机变量 24
2.2 连续型随机变量:分布与数字特征 27
2.2.1 概率密度函数 27
2.2.2 连续型随机变量区间概率的计算 29
2.2.3 连续型随机变量的期望与方差 29
2.2.4 正态分布及正态随机变量 30
2.2.5 指数分布及指数随机变量 33
2.2.6 均匀分布及其随机变量 35
2.3 多元随机变量(上):联合、边缘与条件 38
2.3.1 实验中引入多个随机变量 38
2.3.2 联合分布列 38
2.3.3 边缘分布列 39
2.3.4 条件分布列 40
2.3.5 集中梳理核心的概率理论 44
2.4 多元随机变量(下):独立与相关 46
2.4.1 随机变量与事件的独立性 46
2.4.2 随机变量之间的独立性 47
2.4.3 独立性示例 48
2.4.4 条件独立的概念 48
2.4.5 独立随机变量的期望和方差 50
2.4.6 随机变量的相关性分析及量化方法 52
2.4.7 协方差及协方差矩阵 52
2.4.8 相关系数的概念 54
2.5 多元随机变量实践:聚焦多元正态分布 55
2.5.1 再谈相关性:基于二元标准正态分布 55
2.5.2 二元一般正态分布 57
2.5.3 聚焦相关系数 60
2.5.4 独立和相关性的关系 64
2.6 多元高斯分布:参数特征和几何意义 66
2.6.1 从一元分布到多元分布 66
2.6.2 多元高斯分布的参数形式 67
2.6.3 二元高斯分布的具体示例 68
2.6.4 多元高斯分布的几何特征 71
2.6.5 二元高斯分布几何特征实例分析 74
第3章 参数估计:探寻最大可能 77
3.1 极限思维:大数定律与中心极限定理 77
3.1.1 一个背景话题 77
3.1.2 大数定律 78
3.1.3 大数定律的模拟 80
3.1.4 中心极限定理 83
3.1.5 中心极限定理的工程意义 84
3.1.6 中心极限定理的模拟 85
3.1.7 大数定律的应用:蒙特卡罗方法 86
3.2 推断未知:统计推断的基本框架 89
3.2.1 进入统计学 89
3.2.2 统计推断的例子 90
3.2.3 统计推断中的一些重要概念 91
3.2.4 估计量的偏差与无偏估计 92
3.2.5 总体均值的估计 93
3.2.6 总体方差的估计 95
3.3 极大似然估计 100
3.3.1 极大似然估计法的引例 100
3.3.2 似然函数的由来 102
3.3.3 极大似然估计的思想 103
3.3.4 极大似然估计值的计算 105
3.3.5 简单极大似然估计案例 106
3.3.6 高斯分布参数的极大似然估计 107
3.4 含有隐变量的参数估计问题 110
3.4.1 参数估计问题的回顾 110
3.4.2 新情况:场景中含有隐变量 111
3.4.3 迭代法:解决含有隐变量情形的抛硬币问题 112
3.4.4 代码实验 115
3.5 概率渐增:EM算法的合理性 118
3.5.1 EM算法的背景介绍 119
3.5.2 先抛出EM算法的迭代公式 119
3.5.3 EM算法为什么是有效的 120
3.6 探索EM公式的底层逻辑与由来 123
3.6.1 EM公式中的E步和M步 124
3.6.2 剖析EM算法的由来 124
3.7 探索高斯混合模型:EM 迭代实践 127
3.7.1 高斯混合模型的引入 128
3.7.2 从混合模型的角度看内部机理 129
3.7.3 高斯混合模型的参数估计 131
3.8 高斯混合模型的参数求解 132
3.8.1 利用 EM 迭代模型参数的思路 132
3.8.2 参数估计示例 136
3.8.3 高斯混合模型的应用场景 139
第4章 随机过程:聚焦动态特征 145
4.1 由静向动:随机过程导引 145
4.1.1 随机过程场景举例1:博彩 146
4.1.2 随机过程场景举例2:股价的变化 150
4.1.3 随机过程场景举例3:股价变化过程的展现 152
4.1.4 两类重要的随机过程概述 154
4.2 状态转移:初识马尔可夫链 155
4.2.1 马尔可夫链三要素 155
4.2.2 马尔可夫性:灵魂特征 156
4.2.3 转移概率和状态转移矩阵 157
4.2.4 马尔可夫链性质的总结 158
4.2.5 一步到达与多步转移的含义 159
4.2.6 多步转移与矩阵乘法 160
4.2.7 路径概率问题 163
4.3 变与不变:马尔可夫链的极限与稳态 164
4.3.1 极限与初始状态无关的情况 164
4.3.2 极限依赖于初始状态的情况 165
4.3.3 吸收态与收敛分析 167
4.3.4 可达与常返 168
4.3.5 周期性问题 171
4.3.6 马尔可夫链的稳态分析和判定 172
4.3.7 稳态的求法 174
4.4 隐马尔可夫模型:明暗两条线 176
4.4.1 从马尔可夫链到隐马尔可夫模型 176
4.4.2 典型实例1:盒子摸球实验 177
4.4.3 典型实例2:小宝宝的日常生活 180
4.4.4 隐马尔可夫模型的外在表征 181
4.4.5 推动模型运行的内核三要素 182
4.4.6 关键性质:齐次马尔可夫性和观测独立性 183
4.5 概率估计:隐马尔可夫模型观测序列描述 183
4.5.1 隐马尔可夫模型的研究内容 183
4.5.2 模型研究问题的描述 185
4.5.3 一个直观的思路 186
4.5.4 更优的方法:前向概率算法 187
4.5.5 概率估计实践 190
4.5.6 代码实践 192
4.6 状态解码:隐马尔可夫模型隐状态揭秘 194
4.6.1 隐状态解码问题的描述 194
4.6.2 最大路径概率与维特比算法 195
4.6.3 应用维特比算法进行解码 197
4.6.4 维特比算法的案例实践 199
4.6.5 代码实践 202
4.7 连续域上的无限维:高斯过程 204
4.7.1 高斯过程的一个实际例子 205
4.7.2 高斯过程的核心要素和严谨描述 206
4.7.3 径向基函数的代码演示 207
4.7.4 高斯过程回归原理详解 208
4.7.5 高斯过程回归代码演示 210
第5章 统计推断:贯穿近似策略 215
5.1 统计推断的基本思想和分类 215
5.1.1 统计推断的根源和场景 215
5.1.2 后验分布:推断过程的关注重点 216
5.1.3 精确推断和近似推断 216
5.1.4 确定性近似:变分推断概述 217
5.2 随机近似方法 219
5.2.1 蒙特卡罗方法的理论支撑 219
5.2.2 随机近似的核心:蒙特卡罗 220
5.2.3 接受-拒绝采样的问题背景 221
5.2.4 接受-拒绝采样的方法和步骤 221
5.2.5 接受-拒绝采样的实践 222
5.2.6 接受-拒绝采样方法背后的内涵挖掘 225
5.2.7 重要性采样 226
5.2.8 两种采样方法的问题及思考 227
5.3 采样绝佳途径:借助马尔可夫链的稳态性质 228
5.3.1 马尔可夫链回顾 228
5.3.2 核心:马尔可夫链的平稳分布 229
5.3.3 马尔可夫链进入稳态的转移过程 231
5.3.4 稳态及转移过程演示 231
5.3.5 马尔可夫链稳态的价值和意义 235
5.3.6 基于马尔可夫链进行采样的原理分析 236
5.3.7 采样过程实践与分析 238
5.3.8 一个显而易见的问题和难点 242
5.4 马尔可夫链-蒙特卡罗方法详解 242
5.4.1 稳态判定:细致平稳条件 243
5.4.2 Metropolis-Hastings采样方法的原理 244
5.4.3 如何理解随机游走叠加接受概率 245
5.4.4 如何实现随机游走叠加接受概率 247
5.4.5 建议转移概率矩阵Q的设计 247
5.4.6 Metropolis-Hastings方法的步骤和代码演示 251
5.5 Gibbs采样方法简介 253
5.5.1 Gibbs方法核心流程 253
5.5.2 Gibbs采样的合理性 255
5.5.3 Gibbs采样代码实验 256
......(更多)
......(更多)