书籍 文本数据挖掘的封面

文本数据挖掘PDF电子书下载

宗成庆

购买点数

20

出版社

出版时间

2019

ISBN

标注页数

0 页

PDF页数

308 页

图书目录

第1章 绪论 1

1.1 基本概念 1

1.2 文本挖掘任务 2

1.3 文本挖掘面临的困难 5

1.4 方法概述与本书的内容组织 7

1.5 进一步阅读 9

第2章 数据预处理和标注 11

2.1 数据获取 11

2.2 数据预处理 15

2.3 数据标注 17

2.4 基本工具 19

2.4.1 汉语自动分词与词性标注 19

2.4.2 句法分析 20

2.4.3 n元语法模型 21

2.5 进一步阅读 22

第3章 文本表示 23

3.1 向量空间模型 23

3.1.1 向量空间模型的基本概念 23

3.1.2 特征项的构造与权重 24

3.1.3 文本长度规范化 25

3.1.4 特征工程 26

3.1.5 其他文本表示方法 27

3.2 词的分布式表示 29

3.2.1 神经网络语言模型 29

3.2.2 C&W模型 32

3.2.3 CBOW与Skip-gram模型 34

3.2.4 噪声对比估计与负采样 35

3.2.5 字词混合的分布式表示方法 37

3.3 短语的分布式表示 38

3.3.1 基于词袋的分布式表示 39

3.3.2 基于自动编码器的分布式表示 39

3.4 句子的分布式表示 42

3.4.1 通用的句子表示 42

3.4.2 任务相关的句子表示 45

3.5 文档的分布式表示 48

3.5.1 通用的文档分布式表示 48

3.5.2 任务相关的文档分布式表示 49

3.6 进一步阅读 52

第4章 文本分类 53

4.1 概述 53

4.2 传统文本表示 54

4.3 特征选择 55

4.3.1 互信息法 55

4.3.2 信息增益法 58

4.3.3 卡方统计量法 59

4.3.4 其他方法 60

4.4 传统分类算法 61

4.4.1 朴素贝叶斯模型 61

4.4.2 Logistic回归、Softmax回归与最大熵模型 63

4.4.3 支持向量机 65

4.4.4 集成学习 67

4.5 深度神经网络方法 68

4.5.1 多层前馈神经网络 68

4.5.2 卷积神经网络 69

4.5.3 循环神经网络 71

4.6 文本分类性能评估 78

4.7 进一步阅读 81

第5章 文本聚类 83

5.1 概述 83

5.2 文本相似性度量 83

5.2.1 样本间的相似性 83

5.2.2 簇间的相似性 86

5.2.3 样本与簇之间的相似性 87

5.3 文本聚类算法 87

5.3.1 K-均值聚类 87

5.3.2 单遍聚类 91

5.3.3 层次聚类 92

5.3.4 密度聚类 95

5.4 性能评估 97

5.4.1 外部标准 97

5.4.2 内部标准 99

5.5 进一步阅读 99

第6章 主题模型 101

6.1 概述 101

6.2 潜在语义分析 102

6.2.1 奇异值分解 102

6.2.2 词项-文档矩阵的奇异值分解 103

6.2.3 词项和文档的概念表示及相似度计算 104

6.3 概率潜在语义分析 106

6.3.1 模型假设 106

6.3.2 参数学习 107

6.4 潜在狄利克雷分布 108

6.4.1 模型假设 108

6.4.2 词项和主题序列的联合概率 110

6.4.3 模型推断 112

6.4.4 新文档的推断 114

6.4.5 PLSA与LDA的联系与区别 115

6.5 进一步阅读 115

第7章 情感分析与观点挖掘 117

7.1 概述 117

7.2 情感分析任务类型 118

7.2.1 按目标形式划分 118

7.2.2 按分析粒度划分 119

7.3 文档或句子级情感分析方法 121

7.3.1 基于规则的无监督情感分类 122

7.3.2 基于传统机器学习的监督情感分类 123

7.3.3 深度神经网络方法 126

7.4 词语级情感分析与情感词典构建 131

7.4.1 基于语义知识库的方法 131

7.4.2 基于语料库的方法 131

7.4.3 情感词典性能评估 134

7.5 属性级情感分析 134

7.5.1 属性抽取 135

7.5.2 属性情感分类 138

7.5.3 主题与情感的生成式建模 141

7.6 情感分析中的特殊问题 143

7.6.1 情感极性转移问题 143

7.6.2 领域适应问题 145

7.7 进一步阅读 147

第8章 话题检测与跟踪 149

8.1 概述 149

8.2 术语与任务 151

8.2.1 术语 151

8.2.2 任务 152

8.3 报道或话题的表示与相似性计算 154

8.4 话题检测 156

8.4.1 话题在线检测 157

8.4.2 话题回溯检测 158

8.5 话题跟踪 159

8.6 评估方法 160

8.7 社交媒体话题检测与跟踪 161

8.7.1 社交媒体话题检测 162

8.7.2 社交媒体话题跟踪 163

8.8 突发话题检测 163

8.8.1 突发状态识别 164

8.8.2 以文档为中心的方法:先检测话题后评估突发性 167

8.8.3 以特征为中心的方法:先识别突发特征后生成突发话题 168

8.9 进一步阅读 169

第9章 信息抽取 171

9.1 概述 171

9.2 命名实体识别 173

9.2.1 基于规则的命名实体识别方法 174

9.2.2 有监督的命名实体识别方法 175

9.2.3 半监督的命名实体识别方法 181

9.2.4 命名实体识别方法评价 183

9.3 共指消解 184

9.3.1 基于规则的共指消解方法 185

9.3.2 数据驱动的共指消解方法 187

9.3.3 共指消解评价 190

9.4 实体消歧 193

9.4.1 基于聚类的实体消歧方法 193

9.4.2 基于链接的实体消歧 197

9.4.3 实体消歧任务的评价方法 203

9.5 关系抽取 204

9.5.1 基于离散特征的关系分类方法 206

9.5.2 基于分布式特征的关系分类方法 212

9.5.3 基于远程监督的关系分类方法 214

9.5.4 关系分类性能评价 215

9.6 事件抽取 215

9.6.1 事件描述模板 215

9.6.2 事件抽取方法 217

9.6.3 事件抽取评价 224

9.7 进一步阅读 224

第10章 文本自动摘要 227

10.1 概述 227

10.2 抽取式自动摘要 228

10.2.1 句子重要性评估 229

10.2.2 基于约束的摘要生成方法 237

10.3 压缩式自动摘要方法 238

10.3.1 句子压缩方法 238

10.3.2 基于句子压缩的自动摘要方法 242

10.4 生成式自动摘要 244

10.4.1 基于信息融合的生成式摘要方法 244

10.4.2 基于编码-解码的生成式摘要方法 249

10.5 基于查询的自动摘要 251

10.5.1 基于语言模型的相关性计算方法 251

10.5.2 基于关键词语重合度的相关性计算方法 252

10.5.3 基于图模型的相关性计算方法 252

10.6 跨语言和多语言自动摘要方法 253

10.6.1 跨语言自动摘要 253

10.6.2 多语言自动摘要 256

10.7 摘要质量评估方法和相关评测 258

10.7.1 摘要质量评估方法 258

10.7.2 相关评测活动 262

10.8 进一步阅读 263

参考文献 265

名词术语索引 285

查看更多关于的内容

出版社其它书籍
本类热门
在线购买PDF电子书
下载此书RAR压缩包