第1章 基础理论 1
如何开始学习 1
1.1 术语定义 3
1.2 研究目的 11
1.3 研究视角 14
1.4 发展简史 15
1.5 理论体系 19
1.6 基本原则 21
1.7 相关理论 31
1.8 人才类型 33
如何继续学习 42
习题 47
参考文献 47
第2章 理论基础 49
如何开始学习 49
2.1 数据科学的学科地位 50
2.2 统计学 52
2.3 机器学习 58
2.4 数据可视化 76
如何继续学习 79
习题 80
参考文献 80
第3章 流程与方法 82
如何开始学习 82
3.1 基本流程 83
3.2 数据加工 92
3.3 数据审计 102
3.4 数据分析 106
3.5 数据可视化 110
3.6 数据故事化 125
3.7 数据科学项目管理 129
3.8 数据科学中的常见错误 132
如何继续学习 136
习题 137
参考文献 137
第4章 技术与工具 139
如何开始学习 139
4.1 数据科学的技术体系 140
4.2 MapReduce 143
4.3 Hadoop 151
4.4 Spark 162
4.5 NoSQL与NeWSQL 172
4.6 R与Python 185
4.7 发展趋势 187
如何继续学习 195
习题 196
参考文献 196
第5章 数据产品及开发 198
如何开始学习 198
5.1 定义 200
5.2 主要特征 203
5.3 关键活动 207
5.4 数据柔术 208
5.5 数据能力 221
5.6 数据战略 230
5.7 数据治理 232
5.8 数据安全、隐私、道德与伦理 236
如何继续学习 243
习题 244
参考文献 244
第6章 典型案例及实践 245
如何开始学习 245
6.1 统计分析 247
6.2 机器学习 259
6.3 数据可视化 274
6.4 Spark编程 276
6.5 2012年美国总统大选 287
如何继续学习 310
习题 310
参考文献 311
附录A 本书例题的R语言版代码 312
附录B 数据科学的重要资源 358
附录C 术语索引 362
后记 368