机器学习的目标是对计算机编程,以便使用样本数据或以往的经验来解决给定的问题。已经有许多机器学习的成功应用,包括分析以往销售数据来预测客户行为,优化机器人的行为以便使用较少的资源来完成任务,以及从生物信息数据中提取知识的各种系统。本书是关于机器学习的内容全面的教科书,其中有些内容在一般的在机器学习导论书中很少介绍。主要内容包括监督学习,贝叶斯决策理论,参数、半参数和非参数方法,多元分析,隐马尔可夫模型,增强学习,核机器,图模型,贝叶斯估计和统计检验。
机器学习正在迅速成为计算机科学专业的学生必须掌握的一门技能。本书第3版反映了这种变化,增加了对初学者的支持,包括给出了部分习题的参考答案和补充了实例数据集(提供在线代码)。其他显著的变化包括离群点检测的讨论、感知器和支持向量机的排名算法、矩阵分解和谱方法、距离估计、新的核算法、多层感知器的深度学习和非参数贝叶斯方法。书中对所有学习算法都进行了解释,以便读者可以很容易地将书中的公式转变为计算机程序。本书可以用作高年级本科生和硕士研究生的教材,也可供研究机器学习方法的技术人员参考。
......(更多)
埃塞姆·阿培丁(Ethem Alpaydin),土耳其伊斯坦布尔博阿齐奇大学计算机工程系的教授。于1990年在洛桑联邦理工学院获博士学位,先后在美国麻省理工学院和伯克利大学工作和进行博士后研究。Ethem博士主要从事机器学习方面的研究,是剑桥大学《The Computer Journal》杂志编委和Elsevier《Pattern Recognition》杂志的副主编。2001年和2002年,Ethem博士先后获得土耳其科学院青年科学家奖和土耳其科学与技术研究委员会科学奖。
......(更多)
出版者的话
译者序
前言
符号说明
第1章引言1
1.1什么是机器学习1
1.2机器学习的应用实例2
1.2.1学习关联性2
1.2.2分类3
1.2.3回归5
1.2.4非监督学习6
1.2.5增强学习7
1.3注释8
1.4相关资源10
1.5习题11
1.6参考文献12
第2章监督学习13
2.1由实例学习类13
2.2VC维16
2.3概率近似正确学习16
2.4噪声17
2.5学习多类18
2.6回归19
2.7模型选择与泛化21
2.8监督机器学习算法的维23
2.9注释24
2.10习题25
2.11参考文献26
第3章贝叶斯决策理论27
3.1引言27
3.2分类28
3.3损失与风险29
3.4判别式函数30
3.5关联规则31
3.6注释33
3.7习题33
3.8参考文献36
第4章参数方法37
4.1引言37
4.2最大似然估计37
4.2.1伯努利密度38
4.2.2多项式密度38
4.2.3高斯(正态)密度39
4.3评价估计:偏倚和方差39
4.4贝叶斯估计40
4.5参数分类42
4.6回归44
4.7调整模型的复杂度:偏倚/方差两难选择46
4.8模型选择过程49
4.9注释51
4.10习题51
4.11参考文献53
第5章多元方法54
5.1多元数据54
5.2参数估计54
5.3缺失值估计55
5.4多元正态分布56
5.5多元分类57
5.6调整复杂度61
5.7离散特征62
5.8多元回归63
5.9注释64
5.10习题64
5.11参考文献66
第6章维度归约67
6.1引言67
6.2子集选择67
6.3主成分分析70
6.4特征嵌入74
6.5因子分析75
6.6奇异值分解与矩阵分解78
6.7多维定标79
6.8线性判别分析82
6.9典范相关分析85
6.10等距特征映射86
6.11局部线性嵌入87
6.12拉普拉斯特征映射89
6.13注释90
6.14习题91
6.15参考文献92
第7章聚类94
7.1引言94
7.2混合密度94
7.3k均值聚类95
7.4期望最大化算法98
7.5潜在变量混合模型100
7.6聚类后的监督学习101
7.7谱聚类102
7.8层次聚类103
7.9选择簇个数104
7.10注释104
7.11习题105
7.12参考文献106
第8章非参数方法107
8.1引言107
8.2非参数密度估计108
8.2.1直方图估计108
8.2.2核估计109
8.2.3k最近邻估计110
8.3推广到多变元数据111
8.4非参数分类112
8.5精简的最近邻112
8.6基于距离的分类113
8.7离群点检测115
8.8非参数回归:光滑模型116
8.8.1移动均值光滑116
8.8.2核光滑117
8.8.3移动线光滑119
8.9如何选择光滑参数119
8.10注释120
8.11习题121
8.12参考文献122
第9章决策树124
9.1引言124
9.2单变量树125
9.2.1分类树125
9.2.2回归树128
9.3剪枝130
9.4由决策树提取规则131
9.5由数据学习规则132
9.6多变量树134
9.7注释135
9.8习题137
9.9参考文献138
第10章线性判别式139
10.1引言139
10.2推广线性模型140
10.3线性判别式的几何意义140
10.3.1两类问题140
10.3.2多类问题141
10.4逐对分离142
10.5参数判别式的进一步讨论143
10.6梯度下降144
10.7逻辑斯谛判别式145
10.7.1两类问题145
10.7.2多类问题147
10.8回归判别式150
10.9学习排名151
10.10注释152
10.11习题152
10.12参考文献154
第11章多层感知器155
11.1引言155
11.1.1理解人脑155
11.1.2神经网络作为并行处理的典范156
11.2感知器157
11.3训练感知器159
11.4学习布尔函数160
11.5多层感知器161
11.6作为普适近似的MLP162
11.7向后传播算法163
11.7.1非线性回归163
11.7.2两类判别式166
11.7.3多类判别式166
11.7.4多个隐藏层167
11.8训练过程167
11.8.1改善收敛性167
11.8.2过分训练168
11.8.3构造网络169
11.8.4线索169
11.9调整网络规模170
11.10学习的贝叶斯观点172
11.11维度归约173
11.12学习时间174
11.12.1时间延迟神经网络175
11.12.2递归网络175
11.13深度学习176
11.14注释177
11.15习题178
11.16参考文献180
第12章局部模型182
12.1引言182
12.2竞争学习182
12.2.1在线k均值182
12.2.2自适应共鸣理论184
12.2.3自组织映射185
12.3径向基函数186
12.4结合基于规则的知识189
12.5规范化基函数190
12.6竞争的基函数191
12.7学习向量量化193
12.8混合专家模型193
12.8.1协同专家模型194
12.8.2竞争专家模型195
12.9层次混合专家模型195
12.10注释196
12.11习题196
12.12参考文献198
第13章核机器200
13.1引言200
13.2最佳分离超平面201
13.3不可分情况:软边缘超平面203
13.4vSVM205
13.5核技巧205
13.6向量核206
13.7定义核207
13.8多核学习208
13.9多类核机器209
13.10用于回归的核机器210
13.11用于排名的核机器212
13.12一类核机器213
13.13大边缘最近邻分类215
13.14核维度归约216
13.15注释217
13.16习题217
13.17参考文献218
第14章图方法221
14.1引言221
14.2条件独立的典型情况222
14.3生成模型226
14.4d分离227
14.5信念传播228
14.5.1链228
14.5.2树229
14.5.3多树230
14.5.4结树232
14.6无向图:马尔科夫随机场232
14.7学习图模型的结构234
14.8影响图234
14.9注释234
14.10习题235
14.11参考文献237
第15章隐马尔科夫模型238
15.1引言238
15.2离散马尔科夫过程238
15.3隐马尔科夫模型240
15.4HMM的三个基本问题241
15.5估值问题241
15.6寻找状态序列244
15.7学习模型参数245
15.8连续观测247
15.9HMM作为图模型248
15.10HMM中的模型选择250
15.11注释251
15.12习题252
15.13参考文献254
第16章贝叶斯估计255
16.1引言255
16.2离散分布的参数的贝叶斯估计257
16.2.1K>2个状态:狄利克雷分布257
16.2.2K=2个状态:贝塔分布258
16.3高斯分布的参数的贝叶斯估计258
16.3.1一元情况:未知均值,已知方差258
16.3.2一元情况:未知均值,未知方差259
16.3.3多元情况:未知均值,未知协方差260
16.4函数的参数的贝叶斯估计261
16.4.1回归261
16.4.2具有噪声精度先验的回归264
16.4.3基或核函数的使用265
16.4.4贝叶斯分类266
16.5选择先验268
16.6贝叶斯模型比较268
16.7混合模型的贝叶斯估计270
16.8非参数贝叶斯建模272
16.9高斯过程272
16.10狄利克雷过程和中国餐馆275
16.11本征狄利克雷分配276
16.12贝塔过程和印度自助餐277
16.13注释278
16.14习题278
16.15参考文献279
第17章组合多学习器280
17.1基本原理280
17.2产生有差异的学习器280
17.3模型组合方案282
17.4投票法282
17.5纠错输出码285
17.6装袋286
17.7提升287
17.8重温混合专家模型288
17.9层叠泛化289
17.10调整系综290
17.10.1选择系综的子集290
17.10.2构建元学习器290
17.11级联291
17.12注释292
17.13习题293
17.14参考文献294
第18章增强学习297
18.1引言297
18.2单状态情况:K臂赌博机问题298
18.3增强学习的要素299
18.4基于模型的学习300
18.4.1价值迭代300
18.4.2策略迭代301
18.5时间差分学习301
18.5.1探索策略301
18.5.2确定性奖励和动作302
18.5.3非确定性奖励和动作303
18.5.4资格迹304
18.6推广305
18.7部分可观测状态306
18.7.1场景306
18.7.2例子:老虎问题307
18.8注释310
18.9习题311
18.10参考文献312
第19章机器学习实验的设计与分析314
19.1引言314
19.2因素、响应和实验策略315
19.3响应面设计317
19.4随机化、重复和阻止317
19.5机器学习实验指南318
19.6交叉验证和再抽样方法320
19.6.1K折交叉验证320
19.6.25×2交叉验证320
19.6.3自助法321
19.7度量分类器的性能321
19.8区间估计324
19.9假设检验326
19.10评估分类算法的性能327
19.10.1二项检验327
19.10.2近似正态检验328
19.10.3t检验328
19.11比较两个分类算法329
19.11.1McNemar检验329
19.11.2K折交叉验证配对t检验329
19.11.35×2交叉验证配对t检验330
19.11.45×2交叉验证配对F检验330
19.12比较多个算法:方差分析331
19.13在多个数据集上比较333
19.13.1比较两个算法334
19.13.2比较多个算法335
19.14多元检验336
19.14.1比较两个算法336
19.14.2比较多个算法337
19.15注释338
19.16习题339
19.17参考文献340
附录A概率论341
索引348
......(更多)
The maximum number of points that can be shattered by H is called the Vapnik-Chervonenkis (VC) dimension of H , is denoted as VC(H ), and measures the capacity of H
In real life, the world is smoothly changing, instances close by most of the time have the same labels, and we need not worry about all possible labelings.
......(更多)