好书推荐 好书速递 排行榜 读书文摘

模式识别与机器学习

模式识别与机器学习
作者:[英]克里斯托弗 · M. 毕晓普(Christopher M. Bishop)
译者:陈翔 / 张存旺 / 姜振东 / 刘志毅 / 许劭华
出版社:人民邮电出版社
出版年:2025-11
ISBN:9787115681409
行业:其它
浏览数:1

内容简介

本书深入而系统地介绍了模式识别和机器学习领域的基本概念、数学原理和核心算法,并附有丰富的习题。作为机器学习领域的“圣经”,本书融合了概率论、统计学、线性代数和优化理论,构建了从基础概念到前沿技术的完整知识体系,内容涵盖决策论、概率分布、线性回归模型、线性分类模型、神经网络、核方法、稀疏核机、图模型、混合模型与最大期望算法、近似推断、采样方法、连续潜变量、序列数据、模型组合等。

本书适合计算机专业高年级本科生和低年级硕士生阅读,也适合作为机器学习从业人员和爱好者的参考资料。

......(更多)

作者简介

克里斯托弗·M. 毕晓普(Christopher M. Bishop)

微软公司技术研究员、微软科学研究院科学智能中心(Microsoft Research AI4Science)主任。剑桥大学达尔文学院院士、英国皇家工程院院士、爱丁堡皇家学会院士和伦敦皇家学会院士。

......(更多)

目录

第 1 章 绪论 1

1.1 示例:多项式曲线拟合 3

1.2 概率论 9

1.2.1 概率密度 14

1.2.2 期望与协方差 15

1.2.3 贝叶斯概率 16

1.2.4 高斯分布 19

1.2.5 再论曲线拟合 22

1.2.6 贝叶斯曲线拟合 23

1.3 模型选择 24

1.4 维度灾难 26

1.5 决策论 28

1.5.1 最小化误分类率 29

1.5.2 最小化预期损失 31

1.5.3 拒绝选项 31

1.5.4 推断与决策 32

1.5.5 回归问题的损失函数 35

1.6 信息论 37

1.6.1 相对熵与互信息 42

习题 44

第 2 章 概率分布 51

2.1 二元变量 52

2.1.1 β 分布 54

2.2 多项式变量 57

2.2.1 狄利克雷分布 58

2.3 高斯分布 60

2.3.1 条件高斯分布 65

2.3.2 边缘高斯分布 68

2.3.3 高斯变量的贝叶斯定理 70

2.3.4 高斯分布的最大似然估计 72

2.3.5 序贯估计 73

2.3.6 高斯分布的贝叶斯推断 75

2.3.7 学生 t 分布 79

2.3.8 周期变量 81

2.3.9 高斯混合模型 85

2.4 指数族分布 87

2.4.1 最大似然估计与充分统计量 89

2.4.2 共轭先验 90

2.4.3 无信息先验 91

2.5 非参数方法 93

2.5.1 核密度估计 94

2.5.2 最近邻方法 96

习题 98

第 3 章 线性回归模型 107

3.1 线性基函数模型 108

3.1.1 最大似然估计与最小二乘法 110

3.1.2 最小二乘解的几何解释 112

3.1.3 序贯学习 112

3.1.4 正则化最小二乘法 113

3.1.5 多重输出 114

3.2 偏差 - 方差分解 115

3.3 贝叶斯线性回归模型 119

3.3.1 参数分布 119

3.3.2 预测分布 122

3.3.3 等效核 123

3.4 贝叶斯模型比较 125

3.5 证据近似 129

3.5.1 计算证据函数 130

3.5.2 最大化证据函数 131

3.5.3 有效参数量 132

3.6 固定基函数的局限性 134

习题 135

第 4 章 线性分类模型 139

4.1 判别函数 141

4.1.1 二分类 141

4.1.2 多分类 142

4.1.3 分类问题中的最小二乘法 143

4.1.4 费希尔线性判别 145

4.1.5 费希尔线性判别与最小二乘法的关系 147

4.1.6 多分类费希尔判别 148

4.1.7 感知机算法 150

4.2 概率生成式模型 153

4.2.1 连续型输入 154

4.2.2 最大似然解 156

4.2.3 离散特征 158

4.2.4 指数族分布 158

4.3 概率判别模型 159

4.3.1 固定基函数 159

4.3.2 逻辑斯谛回归 160

4.3.3 迭代重加权最小二乘法 161

4.3.4 多分类逻辑斯谛回归 163

4.3.5 probit 回归 164

4.3.6 规范连接函数 166

4.4 拉普拉斯近似 167

4.4.1 模型比较与贝叶斯信息准则 169

4.5 贝叶斯逻辑斯谛回归 170

4.5.1 拉普拉斯近似 170

4.5.2 预测分布 171

习题 172

第 5 章 神经网络 177

5.1 前馈网络函数 178

5.1.1 权重空间对称性 182

5.2 网络训练 183

5.2.1 参数优化 186

5.2.2 局部二次近似 187

5.2.3 利用梯度信息 188

5.2.4 梯度下降优化 189

5.3 误差反向传播 190

5.3.1 误差函数导数计算 190

5.3.2 简单例子 193

5.3.3 反向传播的效率 194

5.3.4 雅可比矩阵 195

5.4 黑塞矩阵 196

5.4.1 对角近似 197

5.4.2 外积近似 198

5.4.3 黑塞矩阵逆矩阵 198

5.4.4 有限差分 199

5.4.5 黑塞矩阵的精确计算 200

5.4.6 黑塞矩阵的快速乘法 200

5.5 神经网络中的正则化 202

5.5.1 相容高斯先验 203

5.5.2 提前停止 205

5.5.3 不变性 206

5.5.4 切向传播 207

5.5.5 训练变换数据 209

5.5.6 卷积神经网络 210

5.5.7 软权重共享 212

5.6 混合密度网络 214

5.7 贝叶斯神经网络 218

5.7.1 后验参数分布 219

5.7.2 超参数优化 220

5.7.3 贝叶斯神经网络分类 222

习题 224

第 6 章 核方法 229

6.1 对偶表示 230

6.2 构建核函数 232

6.3 径向基函数网络 236

6.3.1 Nadaraya-Watson 模型 238

6.4 高斯过程 239

6.4.1 线性回归的再探讨 240

6.4.2 用于回归问题的高斯过程 241

6.4.3 学习超参数 245

6.4.4 自动相关性确定 246

6.4.5 用于分类问题的高斯过程 247

6.4.6 拉普拉斯近似 248

6.4.7 连接到神经网络 251

习题 252

第 7 章 稀疏核机 255

7.1 最大边缘分类器 256

7.1.1 重叠类分布 260

7.1.2 SVM 与逻辑斯谛回归的关系 264

7.1.3 多类 SVM 265

7.1.4 用于回归问题的支持向量机 266

7.1.5 计算学习理论 270

7.2 相关向量机 271

7.2.1 用于回归问题的 RVM 271

7.2.2 稀疏性分析 274

7.2.3 用于分类问题的 RVM 278

习题 280

第 8 章 图模型 283

8.1 贝叶斯网络 284

8.1.1 示例:多项式回归 286

8.1.2 生成式模型 287

8.1.3 离散变量 289

8.1.4 线性高斯模型 291

8.2 条件独立 293

8.2.1 三个图模型的例子 294

8.2.2 d 分离 298

8.3 马尔可夫随机场 302

8.3.1 条件独立性 302

8.3.2 因子分解性质 303

8.3.3 示例:图像去噪 305

8.3.4 无向图与有向图的关系 307

8.4 概率图模型中的推断 310

8.4.1 链式推断 310

8.4.2 树 313

8.4.3 因子图 314

8.4.4 和积算法 317

8.4.5 最大和算法 323

8.4.6 一般图中的精确推断 327

8.4.7 循环置信传播 328

8.4.8 学习图结构 329

习题 329

第 9 章 混合模型和 EM 算法 333

9.1 K 均值算法 334

9.1.1 图像分割与压缩 337

9.2 高斯混合模型 339

9.2.1 最大似然 341

9.2.2 用于高斯混合模型的 EM 算法 342

9.3 另一视角下的 EM 算法 345

9.3.1 再探高斯混合模型 347

9.3.2 EM 算法与 K 均值算法的关系 349

9.3.3 伯努利分布混合模型 350

9.3.4 贝叶斯线性回归中的 EM 算法 353

9.4 一般形式的 EM 算法 354

习题 358

第 10 章 近似推断 363

10.1 变分推断 364

10.1.1 分解分布 366

10.1.2 分解近似的性质 367

10.1.3 示例:一元高斯分布 370

10.1.4 模型对比 373

10.2 变分高斯混合模型 373

10.2.1 变分分布 374

10.2.2 变分下界 379

10.2.3 预测密度 380

10.2.4 确定分量的数量 380

10.2.5 诱导因子分解 381

10.3 变分线性回归 382

10.3.1 变分分布 383

10.3.2 预测分布 384

10.3.3 下界 385

10.4 指数族分布 386

10.4.1 变分消息传递 387

10.5 局部变分法 388

10.6 变分逻辑斯谛回归 392

10.6.1 变分后验分布 392

10.6.2 优化变分参数 394

10.6.3 超参数的推断 396

10.7 期望传播 398

10.7.1 示例:杂波问题 402

10.7.2 图结构上的期望传播 405

习题 408

第 11 章 采样方法 413

11.1 基本采样方法 415

11.1.1 标准分布 415

11.1.2 拒绝采样 417

11.1.3 自适应拒绝采样 418

11.1.4 重要性采样 419

11.1.5 采样 - 重要性 - 重采样 421

11.1.6 采样与 EM 算法 422

11.2 马尔可夫链蒙特卡洛采样 423

11.2.1 马尔可夫链 425

11.2.2 Metropolis-Hastings 算法 426

11.3 吉布斯采样 427

11.4 切片采样 430

11.5 混合蒙特卡洛算法 431

11.5.1 动力系统 432

11.5.2 混合蒙特卡洛算法的应用 434

11.6 配分函数估计 436

第 12 章 连续潜变量 441

12.1 主成分分析 442

12.1.1 最大方差表述 443

12.1.2 最小误差表述 444

12.1.3 PCA 的应用 446

12.1.4 高维数据的 PCA 449

12.2 概率 PCA 449

12.2.1 最大似然 PCA 452

12.2.2 用于 PCA 的 EM 算法 455

12.2.3 贝叶斯 PCA 457

12.2.4 因子分析 460

12.3 核 PCA 461

12.4 非线性潜变量模型 464

12.4.1 独立成分分析 465

12.4.2 自关联神经网络 466

12.4.3 对非线性流形建模 467

习题 471

第 13 章 序列数据 475

13.1 马尔可夫模型 476

13.2 隐马尔可夫模型 479

13.2.1 用于 HMM 的最大似然法 483

13.2.2 前后向算法 485

13.2.3 用于 HMM 的和积算法 490

13.2.4 缩放因子 492

13.2.5 维特比算法 493

13.2.6 隐马尔可夫模型的扩展 495

13.3 线性动态系统 498

13.3.1 LDS 的推断问题 500

13.3.2 LDS 的学习问题 504

13.3.3 LDS 的拓展 505

13.3.4 粒子滤波器 506

习题 508

第 14 章 模型组合 513

14.1 贝叶斯模型平均法 514

14.2 “委员会” 515

14.3 提升法 516

14.3.1 最小化指数误差 518

14.3.2 提升法中的误差函数 519

14.4 树状模型 521

14.5 条件混合模型 523

14.5.1 线性回归混合模型 523

14.5.2 逻辑斯谛回归混合模型 526

14.5.3 混合专家模型 528

习题 529

附录 A 数据集 531

A.1 手写数字数据集 531

A.2 油流数据集 532

A.3 老忠实泉数据集 534

A.4 合成数据集 535

附录 B 概率分布 537

B.1 伯努利分布 537

B.2 β 分布 538

B.3 二项分布 538

B.4 狄利克雷分布 539

B.5 伽马分布 540

B.6 高斯分布 540

B.7 高斯 - 伽马分布 542

B.8 高斯 - 威沙特分布 542

B.9 多项分布 542

B.10 正态分布 543

B.11 学生 t 分布 543

B.12 均匀分布 544

B.13 冯·米塞斯分布 544

B.14 威沙特分布 544

附录 C 矩阵性质 547

C.1 矩阵的基本恒等式 547

C.2 迹与行列式 548

C.3 矩阵求导 549

C.4 特征方程 550

附录 D 变分法 553

附录 E 拉格朗日乘子法 557

参考资料 561

索引 583

......(更多)

读书文摘

......(更多)

猜你喜欢

点击查看