内容提要 本书的目标是帮助读者全面、系统地学习机器学习所必须的数学知识。全书由8章组成,力求精准、最小地覆盖机器学习的数学知识。包括微积分,线性代数与矩阵论,最优化方法,概率论,信息论,随机过程,以及图论。本书从机器学习的角度讲授这些数学知识,对它们在该领域的应用举例说明,使读者对某些抽象的数学知识和理论的实际应用有直观、具体的认识。 本书内容紧凑,结构清晰,深入浅出,讲解详细。可用作计算机、人工智能、电子工程、自动化、数学等相关专业的教材与教学参考书。对人工智能领域的工程技术人员与产品研发人员,本书也有很强的参考价值。对于广大数学与应用的数学爱好者,本书亦为适合自学的读本。
......(更多)
雷明,资深机器学习、机器视觉专家。毕业于清华大学计算机系,研究方向为机器视觉、机器学习,曾发表论文数篇。《机器学习-原理、算法与应用》畅销书作者。曾任百度项目经理;zmodo/meShare公司CTO、平台研发中心负责人。SIGAI创始人,致力于研发零编程、可视化的机器视觉框架,用标准化的算法赋能各个行业。
......(更多)
第1 章一元函数微积分1
1.1 极限与连续. . . . . . . . . . . . . . 1
1.1.1 可数集与不可数集. . . . . . . . 1
1.1.2 数列的极限. . . . . . . . . . . . 3
1.1.3 函数的极限. . . . . . . . . . . . 7
1.1.4 函数的连续性与间断点. . . . . 9
1.1.5 上确界与下确界. . . . . . . . . 11
1.1.6 李普希茨连续性. . . . . . . . . 12
1.1.7 无穷小量. . . . . . . . . . . . . 13
1.2 导数与微分. . . . . . . . . . . . . . 14
1.2.1 一阶导数. . . . . . . . . . . . . 14
1.2.2 机器学习中的常用函数. . . . . 20
1.2.3 高阶导数. . . . . . . . . . . . . 22
1.2.4 微分. . . . . . . . . . . . . . . . 24
1.2.5 导数与函数的单调性. . . . . . 25
1.2.6 极值判别法则. . . . . . . . . . 26
1.2.7 导数与函数的凹凸性. . . . . . 28
1.3 微分中值定理. . . . . . . . . . . . . 29
1.3.1 罗尔中值定理. . . . . . . . . . 29
1.3.2 拉格朗日中值定理. . . . . . . . 29
1.3.3 柯西中值定理. . . . . . . . . . 31
1.4 泰勒公式. . . . . . . . . . . . . . . . 31
1.5 不定积分. . . . . . . . . . . . . . . . 33
1.5.1 不定积分的定义与性质. . . . . 33
1.5.2 换元积分法. . . . . . . . . . . . 35
1.5.3 分部积分法. . . . . . . . . . . . 36
1.6 定积分. . . . . . . . . . . . . . . . . 37
1.6.1 定积分的定义与性质. . . . . . 38
1.6.2 牛顿-莱布尼茨公式. . . . . . . 39
1.6.3 定积分的计算. . . . . . . . . . 40
1.6.4 变上限积分. . . . . . . . . . . . 41
1.6.5 定积分的应用. . . . . . . . . . 42
1.6.6 广义积分. . . . . . . . . . . . . 44
1.7 常微分方程. . . . . . . . . . . . . . 45
1.7.1 基本概念. . . . . . . . . . . . . 45
1.7.2 一阶线性微分方程. . . . . . . . 46
第2 章线性代数与矩阵论49
2.1 向量及其运算. . . . . . . . . . . . . 49
2.1.1 基本概念. . . . . . . . . . . . . 49
2.1.2 基本运算. . . . . . . . . . . . . 51
2.1.3 向量的范数. . . . . . . . . . . . 53
2.1.4 解析几何. . . . . . . . . . . . . 55
2.1.5 线性相关性. . . . . . . . . . . . 57
2.1.6 向量空间. . . . . . . . . . . . . 58
2.1.7 应用——线性回归. . . . . . . . 61
2.1.8 应用——线性分类器与支持
向量机. . . . . . . . . . . . . . 62
2.2 矩阵及其运算. . . . . . . . . . . . . 65
2.2.1 基本概念. . . . . . . . . . . . . 65
2.2.2 基本运算. . . . . . . . . . . . . 67
2.2.3 逆矩阵. . . . . . . . . . . . . . 72
2.2.4 矩阵的范数. . . . . . . . . . . . 78
2.2.5 应用——人工神经网络. . . . . 78
2.2.6 线性变换. . . . . . . . . . . . . 81
2.3 行列式. . . . . . . . . . . . . . . . . 82
2.3.1 行列式的定义与性质. . . . . . 83
2.3.2 计算方法. . . . . . . . . . . . . 91
2.4 线性方程组. . . . . . . . . . . . . . 92
2.4.1 高斯消元法. . . . . . . . . . . . 92
2.4.2 齐次方程组. . . . . . . . . . . . 93
2.4.3 非齐次方程组. . . . . . . . . . 95
2.5 特征值与特征向量. . . . . . . . . . 97
2.5.1 特征值与特征向量. . . . . . . . 97
2.5.2 相似变换. . . . . . . . . . . . . 105
2.5.3 正交变换. . . . . . . . . . . . . 106
2.5.4 QR 算法. . . . . . . . . . . . . . 110
2.5.5 广义特征值. . . . . . . . . . . . 112
2.5.6 瑞利商. . . . . . . . . . . . . . 112
2.5.7 谱范数与特征值的关系. . . . . 114
2.5.8 条件数. . . . . . . . . . . . . . 114
2.5.9 应用——谱归一化与谱正则化. . . . . . . . . . . . . . . . . 115
2.6 二次型. . . . . . . . . . . . . . . . . 116
2.6.1 基本概念. . . . . . . . . . . . . 116
2.6.2 正定二次型与正定矩阵. . . . . 116
2.6.3 标准型. . . . . . . . . . . . . . 119
2.7 矩阵分解. . . . . . . . . . . . . . . . 121
2.7.1 楚列斯基分解. . . . . . . . . . 121
2.7.2 QR 分解. . . . . . . . . . . . . . 123
2.7.3 特征值分解. . . . . . . . . . . . 127
2.7.4 奇异值分解. . . . . . . . . . . . 128
第3 章多元函数微积分133
3.1 偏导数. . . . . . . . . . . . . . . . . 133
3.1.1 一阶偏导数. . . . . . . . . . . . 133
3.1.2 高阶偏导数. . . . . . . . . . . . 134
3.1.3 全微分. . . . . . . . . . . . . . 136
3.1.4 链式法则. . . . . . . . . . . . . 136
3.2 梯度与方向导数. . . . . . . . . . . . 138
3.2.1 梯度. . . . . . . . . . . . . . . . 138
3.2.2 方向导数. . . . . . . . . . . . . 139
3.2.3 应用——边缘检测与HOG
特征. . . . . . . . . . . . . . . . 139
3.3 黑塞矩阵. . . . . . . . . . . . . . . . 140
3.3.1 黑塞矩阵的定义与性质. . . . . 141
3.3.2 凹凸性. . . . . . . . . . . . . . 141
3.3.3 极值判别法则. . . . . . . . . . 143
3.3.4 应用——最小二乘法. . . . . . . 145
3.4 雅可比矩阵. . . . . . . . . . . . . . 146
3.4.1 雅可比矩阵的定义和性质. . . . 146
3.4.2 链式法则的矩阵形式. . . . . . 148
3.5 向量与矩阵求导. . . . . . . . . . . . 150
3.5.1 常用求导公式. . . . . . . . . . 150
3.5.2 应用——反向传播算法. . . . . 154
3.6 微分算法. . . . . . . . . . . . . . . . 156
3.6.1 符号微分. . . . . . . . . . . . . 156
3.6.2 数值微分. . . . . . . . . . . . . 157
3.6.3 自动微分. . . . . . . . . . . . . 158
3.7 泰勒公式. . . . . . . . . . . . . . . . 159
3.8 多重积分. . . . . . . . . . . . . . . . 161
3.8.1 二重积分. . . . . . . . . . . . . 161
3.8.2 三重积分. . . . . . . . . . . . . 164
3.8.3 n 重积分. . . . . . . . . . . . . 167
3.9 无穷级数. . . . . . . . . . . . . . . . 170
3.9.1 常数项级数. . . . . . . . . . . . 170
3.9.2 函数项级数. . . . . . . . . . . . 173
第4 章最优化方法176
4.1 基本概念. . . . . . . . . . . . . . . . 176
4.1.1 问题定义. . . . . . . . . . . . . 177
4.1.2 迭代法的基本思想. . . . . . . . 179
4.2 一阶优化算法. . . . . . . . . . . . . 180
4.2.1 梯度下降法. . . . . . . . . . . . 180
4.2.2 最速下降法. . . . . . . . . . . . 183
4.2.3 梯度下降法的改进. . . . . . . . 184
4.2.4 随机梯度下降法. . . . . . . . . 186
4.2.5 应用——人工神经网络. . . . . 187
4.3 二阶优化算法. . . . . . . . . . . . . 188
4.3.1 牛顿法. . . . . . . . . . . . . . 188
4.3.2 拟牛顿法. . . . . . . . . . . . . 189
4.4 分治法. . . . . . . . . . . . . . . . . 193
4.4.1 坐标下降法. . . . . . . . . . . . 193
4.4.2 SMO 算法. . . . . . . . . . . . . 194
4.4.3 分阶段优化. . . . . . . . . . . . 195
4.4.4 应用——logistic 回归. . . . . . 196
4.5 凸优化问题. . . . . . . . . . . . . . 198
4.5.1 数值优化算法面临的问题. . . . 198
4.5.2 凸集. . . . . . . . . . . . . . . . 199
4.5.3 凸优化问题及其性质. . . . . . 200
4.5.4 机器学习中的凸优化问题. . . . 201
4.6 带约束的优化问题. . . . . . . . . . 202
4.6.1 拉格朗日乘数法. . . . . . . . . 202
4.6.2 应用——线性判别分析. . . . . 204
4.6.3 拉格朗日对偶. . . . . . . . . . 205
4.6.4 KKT 条件. . . . . . . . . . . . . 208
4.6.5 应用——支持向量机. . . . . . . 209
4.7 多目标优化问题. . . . . . . . . . . . 213
4.7.1 基本概念. . . . . . . . . . . . . 213
4.7.2 求解算法. . . . . . . . . . . . . 215
4.7.3 应用——多目标神经结构搜
索. . . . . . . . . . . . . . . . . 215
4.8 泛函极值与变分法. . . . . . . . . . 216
4.8.1 泛函与变分. . . . . . . . . . . . 217
4.8.2 欧拉—拉格朗日方程. . . . . . 218
4.8.3 应用——证明两点之间直线
最短. . . . . . . . . . . . . . . . 220
4.9 目标函数的构造. . . . . . . . . . . . 221
4.9.1 有监督学习. . . . . . . . . . . . 221
4.9.2 无监督学习. . . . . . . . . . . . 224
4.9.3 强化学习. . . . . . . . . . . . . 225
第5 章概率论228
5.1 随机事件与概率. . . . . . . . . . . . 229
5.1.1 随机事件概率. . . . . . . . . . 229
5.1.2 条件概率. . . . . . . . . . . . . 233
5.1.3 全概率公式. . . . . . . . . . . . 234
5.1.4 贝叶斯公式. . . . . . . . . . . . 235
5.1.5 条件独立. . . . . . . . . . . . . 236
5.2 随机变量. . . . . . . . . . . . . . . . 236
5.2.1 离散型随机变量. . . . . . . . . 236
5.2.2 连续型随机变量. . . . . . . . . 237
5.2.3 数学期望. . . . . . . . . . . . . 240
5.2.4 方差与标准差. . . . . . . . . . 242
5.2.5 Jensen 不等式. . . . . . . . . . . 243
5.3 常用概率分布. . . . . . . . . . . . . 244
5.3.1 均匀分布. . . . . . . . . . . . . 244
5.3.2 伯努利分布. . . . . . . . . . . . 246
5.3.3 二项分布. . . . . . . . . . . . . 247
5.3.4 多项分布. . . . . . . . . . . . . 248
5.3.5 几何分布. . . . . . . . . . . . . 249
5.3.6 正态分布. . . . . . . . . . . . . 250
5.3.7 t 分布. . . . . . . . . . . . . . . 252
5.3.8 应用——颜色直方图. . . . . . . 253
5.3.9 应用——贝叶斯分类器. . . . . 254
5.4 分布变换. . . . . . . . . . . . . . . . 254
5.4.1 随机变量函数. . . . . . . . . . 254
5.4.2 逆变换采样算法. . . . . . . . . 256
5.5 随机向量. . . . . . . . . . . . . . . . 258
5.5.1 离散型随机向量. . . . . . . . . 258
5.5.2 连续型随机向量. . . . . . . . . 260
5.5.3 数学期望. . . . . . . . . . . . . 261
5.5.4 协方差. . . . . . . . . . . . . . 262
5.5.5 常用概率分布. . . . . . . . . . 265
5.5.6 分布变换. . . . . . . . . . . . . 268
5.5.7 应用——高斯混合模型. . . . . 269
5.6 极限定理. . . . . . . . . . . . . . . . 271
5.6.1 切比雪夫不等式. . . . . . . . . 271
5.6.2 大数定律. . . . . . . . . . . . . 271
5.6.3 中心极限定理. . . . . . . . . . 273
5.7 参数估计. . . . . . . . . . . . . . . . 273
5.7.1 最大似然估计. . . . . . . . . . 274
5.7.2 最大后验概率估计. . . . . . . . 276
5.7.3 贝叶斯估计. . . . . . . . . . . . 278
5.7.4 核密度估计. . . . . . . . . . . . 278
5.7.5 应用——logistic 回归. . . . . . 280
5.7.6 应用——EM 算法. . . . . . . . 282
5.7.7 应用——Mean Shift 算法. . . . 286
5.8 随机算法. . . . . . . . . . . . . . . . 288
5.8.1 基本随机数生成算法. . . . . . 288
5.8.2 遗传算法. . . . . . . . . . . . . 290
5.8.3 蒙特卡洛算法. . . . . . . . . . 293
5.9 采样算法. . . . . . . . . . . . . . . . 295
5.9.1 拒绝采样. . . . . . . . . . . . . 296
5.9.2 重要性采样. . . . . . . . . . . . 297
第6 章信息论298
6.1 熵与联合熵. . . . . . . . . . . . . . 298
6.1.1 信息量与熵. . . . . . . . . . . . 298
6.1.2 熵的性质. . . . . . . . . . . . . 300
6.1.3 应用——决策树. . . . . . . . . 302
6.1.4 联合熵. . . . . . . . . . . . . . 303
6.2 交叉熵. . . . . . . . . . . . . . . . . 305
6.2.1 交叉熵的定义. . . . . . . . . . 306
6.2.2 交叉熵的性质. . . . . . . . . . 306
6.2.3 应用——softmax 回归. . . . . . 307
6.3 Kullback-Leibler 散度. . . . . . . . . 309
6.3.1 KL 散度的定义. . . . . . . . . . 309
6.3.2 KL 散度的性质. . . . . . . . . . 311
6.3.3 与交叉熵的关系. . . . . . . . . 312
6.3.4 应用——流形降维. . . . . . . . 312
6.3.5 应用——变分推断. . . . . . . . 313
6.4 Jensen-Shannon 散度. . . . . . . . . 316
6.4.1 JS 散度的定义. . . . . . . . . . 316
6.4.2 JS 散度的性质. . . . . . . . . . 316
6.4.3 应用——生成对抗网络. . . . . 317
6.5 互信息. . . . . . . . . . . . . . . . . 320
6.5.1 互信息的定义. . . . . . . . . . 320
6.5.2 互信息的性质. . . . . . . . . . 321
6.5.3 与熵的关系. . . . . . . . . . . . 322
6.5.4 应用——特征选择. . . . . . . . 323
6.6 条件熵. . . . . . . . . . . . . . . . . 324
6.6.1 条件熵定义. . . . . . . . . . . . 324
6.6.2 条件熵的性质. . . . . . . . . . 325
6.6.3 与熵以及互信息的关系. . . . . 325
6.7 总结. . . . . . . . . . . . . . . . . . 326
第7 章随机过程328
7.1 马尔可夫过程. . . . . . . . . . . . . 328
7.1.1 马尔可夫性. . . . . . . . . . . . 329
7.1.2 马尔可夫链的基本概念. . . . . 330
7.1.3 状态的性质与分类. . . . . . . . 333
7.1.4 平稳分布与极限分布. . . . . . 337
7.1.5 细致平衡条件. . . . . . . . . . 342
7.1.6 应用——隐马尔可夫模型. . . . 343
7.1.7 应用——强化学习. . . . . . . . 345
7.2 马尔可夫链采样算法. . . . . . . . . 348
7.2.1 基本马尔可夫链采样. . . . . . 349
7.2.2 MCMC 采样算法. . . . . . . . . 349
7.2.3 Metropolis-Hastings 算法. . . . . 351
7.2.4 Gibbs 算法. . . . . . . . . . . . 353
7.3 高斯过程. . . . . . . . . . . . . . . . 355
7.3.1 高斯过程性质. . . . . . . . . . 355
7.3.2 高斯过程回归. . . . . . . . . . 355
7.3.3 应用——贝叶斯优化. . . . . . . 358
第8 章图论363
8.1 图的基本概念. . . . . . . . . . . . . 363
8.1.1 基本概念. . . . . . . . . . . . . 363
8.1.2 应用——计算图与自动微分. . . 365
8.1.3 应用——概率图模型. . . . . . . 370
8.1.4 邻接矩阵与加权度矩阵. . . . . 371
8.1.5 应用——样本集的相似度图. . . 372
8.2 若干特殊的图. . . . . . . . . . . . . 373
8.2.1 联通图. . . . . . . . . . . . . . 373
8.2.2 二部图. . . . . . . . . . . . . . 374
8.2.3 应用——受限玻尔兹曼机. . . . 374
8.2.4 有向无环图. . . . . . . . . . . . 376
8.2.5 应用——神经结构搜索. . . . . 376
8.3 重要的算法. . . . . . . . . . . . . . 380
8.3.1 遍历算法. . . . . . . . . . . . . 380
8.3.2 最短路径算法. . . . . . . . . . 381
8.3.3 拓扑排序算法. . . . . . . . . . 382
8.4 谱图理论. . . . . . . . . . . . . . . . 384
8.4.1 拉普拉斯矩阵. . . . . . . . . . 385
8.4.2 归一化拉普拉斯矩阵. . . . . . 388
8.4.3 应用——流形降维. . . . . . . . 390
......(更多)
......(更多)