面向非结构化文本的知识发现基于英汉双语平行语料库的句法级知识挖掘和抽取研究

王东波编

出版社

北京：中国社会科学出版社

出版时间

2013

ISBN

9787516126035

标注页数

220 页

PDF页数

236 页

书籍介绍

本书基于英汉双语平行语料库、宾州英汉双语树库和清华汉语树库，首次揭示和验证了英汉双语词汇句法功能分布复杂度呈现洛特卡现象的规律。在揭示该规律的过程中，不仅得到了英汉两种语言中词汇的句法功能分布，而且获取了英汉两种词汇在句法上的歧义分布状态，并结合齐夫定律给出了英汉两种词汇在句法上的平均歧义值。以英汉双语树库中已标注英汉双语介宾短语结构为数据资源，构建了英汉双语介宾短语结构知识抽取的模型并完成了基于英汉双语平行语料库的介宾短语结构知识抽取。在构建模型的过程中，统计了英汉双语介宾短语结构的内部和外部特征，并对比了条件随机场的复杂特征模板和添加特征模板的性能，根据具体实验确定了所构建模型的的特征模板。在已有聚类算法的基础上，结合英汉双语人文社会科学专门平行语料，从中进行了类别知识挖掘的实验。通过对汉语、英语和英汉双语的词汇级知识的聚类，确定了英汉双语词汇特征的性能优于单语，同时通过对比词汇和词汇与词性组合的聚类性能，根据具体的实验数据和结合相应的分析，确定了词汇与词性的组合是本研究挖掘类别知识的基本组合模式，并进一步确定了其中的“名词+形容词+动词”为类别知识挖掘的特征组合。

面向非结构化文本的知识发现 基于英汉双语平行语料库的句法级知识挖掘和抽取研究

面向非结构化文本的知识发现基于英汉双语平行语料库的句法级知识挖掘和抽取研究