中文信息抽取原理与应用

程显毅朱倩王进编著

出版社

北京：科学出版社

出版时间

2010

ISBN

9787030266231

标注页数

304 页

PDF页数

317 页

书籍介绍

自然语言理解的研究就是要建立一个语言的计算理论，设计出一定的算法，构建相应的数据结构以及相应的加工处理基础，并最终开发出各种自然语言的处理系统。该系统能够进行自动翻译、情报检索、信息抽取、问题解答等需要高度智能的活动。所以，自然语言理解是人工智智能的核心工作。限于目前的技术水平，印欧语言在自然语言理解方面的研究已经取得了一定的成果，但是对于中文的理解则相对落后。其中主要的原因在于：相对于印欧语言，中文没有那么丰富的形态变化，中文的词类与句法功能不是一一对应的，中文的词、短语、句子之间的界限是模糊的。除此而外，甚至可能是更重要的原因在于：中文的结构更加依赖于语义的制约。全书分两篇（原理篇11章，应用篇8章）。原理篇主要讨论了IE（信息抽取）概念、评测方法、基于NLP、统计、认知、Web的信息抽取方法，命名实体识别、共指消解、模板填充等。应用篇介绍了两个开发工具，IE在接口、国民经济、问答系统、文摘等领域的应用。