第1章 绪论 1
1.1 数据挖掘的定义 1
1.2 为什么进行数据挖掘 2
1.2.1 数据挖掘的背景 2
1.2.2 数据挖掘的意义 2
1.3 数据挖掘的应用 3
1.4 数据挖掘的对象和常用方法 5
1.4.1 数据挖掘的对象 5
1.4.2 数据挖掘的常用方法 6
1.5 数据挖掘的主要问题 9
1.6 数据挖掘在睡眠分期中的应用 11
1.6.1 睡眠分期的背景 11
1.6.2 常用睡眠分期数据库 13
1.6.3 睡眠分期中的数据挖掘 15
参考文献 16
第2章 数据描述和预处理 18
2.1 数据描述 18
2.2 数据类型 19
2.2.1 数据的一般特性 19
2.2.2 记录数据 19
2.2.3 基于图形的数据 20
2.2.4 有序数据 20
2.3 数据质量 21
2.4 数据可视化 22
2.4.1 柱形图 22
2.4.2 直方图与核密度估计图 23
2.4.3 箱形图 24
2.5 数据预处理 25
2.5.1 标准化 25
2.5.2 非线性变换 27
2.5.3 归一化 29
2.5.4 离散化 29
2.6 睡眠分期中的数据描述和预处理 30
参考文献 31
第3章 基本统计分析方法 33
3.1 正态分布参数的假设检验和区间估计 33
3.1.1 对均值μ的估计 33
3.1.2 对方差σ2的假设检验和置信区间 34
3.2 两组数据的比较 35
3.2.1 数据成对 35
3.2.2 数据相互独立 37
3.3 二维数据检验 39
3.4 回归分析 40
3.4.1 主要定理 41
3.4.2 非线性转换 42
3.4.3 分类属性预测 42
3.5 方差分析 42
3.5.1 单因素方差分析 42
3.5.2 多因素ANOVA 43
3.6 睡眠脑电特征基本统计方法示例 44
参考文献 46
第4章 决策树算法与随机森林 47
4.1 决策树模型与学习 47
4.1.1 决策树模型 47
4.1.2 决策树与if-then规则 48
4.1.3 决策树与条件概率分布 48
4.1.4 决策树学习 49
4.2 特征选择 50
4.2.1 特征选择的问题 50
4.2.2 信息增益 50
4.2.3 信息增益比 52
4.3 决策树的生成 52
4.3.1 ID3算法 52
4.3.2 C4.5 的生成算法 53
4.4 决策树的剪枝 53
4.5 分类与回归树算法 55
4.5.1 CART的生成 55
4.5.2 CART剪枝算法 58
4.6 集成学习和随机森林 59
4.6.1 集成学习 59
4.6.2 Bagging与随机森林 61
4.7 随机森林算法在睡眠分期中的应用 62
参考文献 64
第5章 贝叶斯网络 66
5.1 朴素贝叶斯法的学习与分类 66
5.1.1 基本方法 66
5.1.2 后验概率最大化的含义 67
5.2 朴素贝叶斯的参数估计 68
5.2.1 极大似然估计 68
5.2.2 学习与分类算法 68
5.2.3 贝叶斯估计 69
5.3 贝叶斯网络 69
5.3.1 模型表示 69
5.3.2 建立模型 70
5.3.3 使用贝叶斯信念网络进行推理示例 71
5.3.4 BBN的特点 72
5.4 贝叶斯网络在睡眠分期中的应用 73
参考文献 74
第6章 支持向量机 76
6.1 线性可分的SVM方法 77
6.2 线性不可分的SVM方法 80
6.3 核函数 83
6.4 SVM在睡眠分期中的应用 84
参考文献 87
第7章 神经网络算法 88
7.1 概述 88
7.1.1 人工神经网络发展历史 88
7.1.2 神经网络分类 90
7.2 单层神经网络 91
7.2.1 生物神经网络 91
7.2.2 人工神经网络 92
7.3 多层感知器和反向传播算法 93
7.3.1 反向传播算法和反向传播网络简介 93
7.3.2 信息前向传播 94
7.3.3 误差反向传播 95
7.3.4 梯度消失问题及其解决办法 99
7.4 深度学习 100
7.4.1 深度学习与神经网络 100
7.4.2 CNN——AlexNet模型 100
7.5 神经网络在睡眠分期中的应用 106
参考文献 106
第8章 遗传算法 108
8.1 遗传算法的基本原理 108
8.1.1 遗传与进化的系统观 108
8.1.2 遗传算法的特点 108
8.1.3 遗传算法的基本术语 109
8.1.4 遗传算法的主要步骤 109
8.1.5 基本遗传算法的构成要素 109
8.2 遗传算法的基本实现技术 110
8.2.1 编码方法 110
8.2.2 适应度函数 113
8.2.3 选择算子 114
8.2.4 交叉算子 116
8.2.5 变异算子 117
8.2.6 遗传算法的运行参数 118
8.2.7 约束条件的处理方法 119
8.3 遗传算法的优化举例 119
8.3.1 优化实例1 119
8.3.2 优化实例2 121
参考文献 123
第9章 聚类算法 124
9.1 K-Means聚类 124
9.2 Mean-Shift聚类 125
9.3 基于密度的聚类方法 126
9.3.1 算法优缺点 126
9.3.2 基本概念 126
9.3.3 DBSCAN算法原理 127
9.4 基于高斯混合模型的期望最大化聚类 128
9.5 聚类算法在睡眠分期中的应用 129
9.5.1 K-Means方法 129
9.5.2 DBSCAN方法 132
参考文献 134
第10章 主成分分析 135
10.1 数据降维 135
10.2 主成分分析原理 136
10.2.1 PCA的理论推导 136
10.2.2 方差、协方差及协方差矩阵 137
10.3 PCA算法示例 140
10.4 PCA在睡眠分期中的应用 141
参考文献 142
第11章 其他数据挖掘算法 143
11.1 隐马尔可夫模型 143
11.1.1 什么样的问题需要HMM 143
11.1.2 HMM 143
11.1.3 一个HMM实例 145
11.1.4 HMM观测序列的生成 146
11.1.5 HMM的三个基本问题 146
11.1.6 代码示例 146
11.2 关联规则挖掘 150
11.2.1 关联规则介绍 150
11.2.2 Apriori算法 152
11.2.3 FP-growth算法 153
11.2.4 幸存者偏差 153
11.2.5 代码示例 153
参考文献 155