第1章 概述 1
1.1机器学习基本流程 1
1.2业界常用算法 2
1.3构建机器学习系统 3
第2章 统计学 5
2.1概率分布 5
2.1.1期望与方差 5
2.1.2概率密度函数 7
2.1.3累积分布函数 10
2.2极大似然估计与贝叶斯估计 11
2.2.1极大似然估计 11
2.2.2贝叶斯估计 13
2.2.3共轭先验与平滑的关系 15
2.3置信区间 15
2.3.1 t分布 16
2.3.2区间估计 17
2.3.3 Wilson置信区间 19
2.4相关性 20
2.4.1数值变量的相关性 20
2.4.2分类变量的相关性 22
2.4.3顺序变量的相关性 27
2.4.4分布之间的距离 28
第3章 矩阵 30
3.1矩阵的物理意义 30
3.1.1矩阵是什么 30
3.1.2矩阵的行列式 31
3.1.3矩阵的逆 32
3.1.4特征值和特征向量 32
3.2矩阵的数值稳定性 33
3.2.1矩阵数值稳定性的度量 33
3.2.2基于列主元的高斯-约当消元法 33
3.2.3岭回归 38
3.3矩阵分解 38
3.3.1特征值分解与奇异值分解 39
3.3.2高维稀疏矩阵的特征值分解 40
3.3.3基于矩阵分解的推荐算法 45
3.4矩阵编程实践 46
3.4.1 numpy数组运算 46
3.4.2稀疏矩阵的压缩方法 50
3.4.3用MapReduce实现矩阵乘法 52
第4章 优化方法 54
4.1无约束优化方法 54
4.1.1梯度下降法 54
4.1.2拟牛顿法 56
4.2带约束优化方法 58
4.3在线学习方法 61
4.3.1随机梯度下降法 61
4.3.2 FTRL算法 63
4.4深度学习中的优化方法 70
4.4.1动量法 70
4.4.2 AdaGrad 71
4.4.3 RMSprop 71
4.4.4 Adadelta 71
4.4.5 Adam 72
4.5期望最大化算法 72
4.5.1 Jensen不等式 73
4.5.2期望最大化算法分析 73
4.5.3高斯混合模型 77
第5章 线性模型 79
5.1广义线性模型 79
5.1.1指数族分布 79
5.1.2广义线性模型的特例 80
5.2逻辑回归模型 83
5.3分解机制模型 84
5.3.1特征组合 84
5.3.2分解机制 86
5.3.3分解机制模型构造新特征的思路 87
5.4基于域感知的分解机制模型 88
5.5算法实验对比 95
第6章 概率图模型 98
6.1隐马尔可夫模型 98
6.1.1模型介绍 98
6.1.2模型训练 101
6.1.3模型预测 102
6.2条件随机场模型 103
6.2.1条件随机场模型及特征函数 103
6.2.2向前变量和向后变量 107
6.2.3模型训练 110
6.2.4模型预测 111
6.2.5条件随机场模型与隐马尔可夫模型的对比 112
第7章 文本向量化 113
7.1词向量 113
7.1.1 word2vec 113
7.1.2 fastText 117
7.1.3 GloVe 118
7.1.4算法实验对比 120
7.2文档向量 121
7.2.1 Paragraph Vector 121
7.2.2 LDA 123
第8章 树模型 130
8.1决策树 130
8.1.1分类树 131
8.1.2 回归树 134
8.1.3剪枝 137
8.2随机森林 139
8.3 AdaBoost 140
8.4 XGBoost 141
8.5 LightGBM 146
8.5.1基于梯度的单边采样算法 147
8.5.2互斥特征捆绑 147
8.5.3 Leaf-Wise生长策略 148
8.5.4 DART 149
8.6算法实验对比 150
第9章 深度学习 154
9.1神经网络概述 154
9.1.1网络模型 154
9.1.2反向传播 157
9.1.3损失函数 158
9.1.4过拟合问题 159
9.1.5梯度消失 161
9.1.6参数初始化 161
9.2卷积神经网络 162
9.2.1卷积 162
9.2.2池化 165
9.2.3 CNN网络结构 165
9.2.4 textCNN 167
9.3循环神经网络 168
9.3.1 RNN通用架构 168
9.3.2 RNN的学习问题 170
9.3.3门控循环单元 172
9.3.4 LSTM 174
9.3.5 seq2seq 177
9.4注意力机制 179
第10章Keras编程 182
10.1快速上手 182
10.2 Keras层 184
10.2.1 Keras内置层 184
10.2.2自定义层 191
10.3调试技巧 194
10.3.1查看中间层的输出 194
10.3.2回调函数 195
10.4 CNN和RNN的实现 198
第11章 推荐系统实战 203
11.1问题建模 203
11.2数据预处理 206
11.2.1归一化 206
11.2.2特征哈希 208
11.3模型探索 210
11.3.1基于共现的模型 210
11.3.2图模型 211
11.3.3 DeepFM 214
11.3.4 DCN 219
11.4推荐服务 221
11.4.1远程过程调用简介 221
11.4.2 gRPC的使用 223
11.4.3服务发现与负载均衡 226
第12章 收集训练数据 229
12.1日志的设计 229
12.2日志的传输 231
12.3日志的合并 238
12.4样本的存储 248
第13章 分布式训练 250
13.1参数服务器 250
13.2基于PS的优化算法 256
13.3在线学习 259
第14章A/B测试 261
14.1实验分组 261
14.2指标监控 266
14.2.1指标的计算 266
14.2.2指标的上报与存储 267
14.2.3指标的展现与监控 269
14.3实验结果分析 272