




已阅读5页,还剩107页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着计算机的广泛应用和互联网技术的迅猛发展,众多的信息检索系统被开发出来,方便 用户获取其感兴趣的内容。数字化的信息资源一方面为人们的工作和生活带来了帮助,另一方面,大量的信息又使人们迷失在信息的海洋中。造成这种结果的原因在于目前的信息检索系统主要是基于关键词匹配。如何组织和提供信息就成为信息检索系统要解决的关键问题。本体因为所具有的良好概念层次结构和对逻辑推理的支持,在信息检索,特别是在基于知识的检索中得到了广泛地应用,成为研究热点。本文以本体为基础,结合传统信息检索技术构建了一个基于本体的知识检索框架OKRF。 首先,本文归纳了传统信息检索的不足,分析了基于语义的信息检索的特点以及本体在其中发挥的作用,总结了语义检索领域的国内外研究现状。 其次,本文研究了语义网、本体的建模原语及层次结构和信息检索领域的相关技术,提出了基于本体的知识检索框架OKRF,介绍了OKRF 框架的两大系统:知识库构建系统和查询系统。 然后,阐述了OKRF 框架的系统构成,研究了框架中主要模块所使用的相关技术。在知识库的构建部分,提出了本体构建的V-模型,介绍了基于本体词汇表的类型标注,并给出了关系三元组的抽取方法。在查询系统部分,提出了两种查询扩展的方法,并给出了查询结果排序的计算公式。 最后,本文将OKRF 框架应用在石油测井领域,基于OKRF 框架设计并实现了一个测井知识管理系统WLKMS。 关键词: 知识检索,语义检索,语义网,本体,框架 基于本体的知识检索框架的研究 II ABSTRACT With the extensive use of computer and Internet technology, a large number of information retrieval systems were developed to provide users with interesting contents. On one hand, digital information resources are convenient for people, on the other hand, so much information retrieved make people confused. The reason for confusion mentioned above is that the technique used by information retrieval system is still keywords matching. So how an information retrieval system organizes and provides information becomes a key issue. At present, because of ontologys good concept of hierarchy and good support upon the logical reasoning, it becomes more and more widely used in information retrieval field, especially in knowledge retrieval field. This dissertation proposes an Ontology-based Knowledge Retrieval Framework (OKRF) by combining the ontology theory with the traditional search technology. Firstly, this dissertation summarizes the shortcomings of traditional information retrieval, analyzes the characteristics of semantic retrieval and the role that ontology played in, summarizes the home and abroad research on semantic field. Secondly, this dissertation studies the Semantic Web, ontology modeling language and hierarchical structure, information retrieval. Then this dissertation proposes the structure of the OKRF, introduces two major systems of the framework: knowledgebase construction system and inquiry system. Thirdly, this dissertation explains the structure of OKRF and studies the related techniques used by the main module of the framework. In the part of knowledgebase construction system , this dissertation proposes the V-model for building ontology, introduces type marking based on ontology vocabulary and explains the extraction method of the tri-tuple relationship. In the part of inquiry system, this dissertation proposes two methods of query expansion and the formula for ranking the results. Finally, this dissertation represents the design and implementation of a well longing Knowledge Management Systems (WLKMS) which is based on OKRF. Key words: knowledge retrieval, semantic retrieval, semantic web, ontology, framework 南京航空航天大学硕士学位论文 V 图表清单图 1.1 论文组织结构 4 图2.1 语义网体系结构 5 图2.2 本体信息的层次模型 7 图2.3 OKRF 框架的系统结构图10 图3.1 知识库构建的基本流程13 图3.2 本体构建的V-模型概念图15 图3.3 本体构建的具体V-模型15 图3.4 本体构建的迭代过程18 图3.5 类型标注的基本流程20 图3.6 解析结果依存树23 图4.1 前缀树结构的字典组织形式27 图4.2 后缀树结构的字典组织形式28 图4.3 词语、概念和对象三者之间的关系30 图4.4 CBQE 算法流程31 图4.5 RCBQE 算法流程32 图4.6 词语、概念和文档之间的关系34 图4.7 一个概念下属于相同数目文档的两个词语举例35 图5.1 WLKMS 的系统结构图39 图5.2 知识库核心概念层次图41 图5.3 Protg 的界面截图42 图5.4 本体主要类关系图42 图5.5 Jena 推理机的总体结构43 图5.6 Lucene 系统结构和源代码组织结构图45 图5.7 扩展后的Lucene 系统图46 表 2.1 本体的四种基本关系 7 表2.2 常用的知识检索模型 9 表3.1 语法关系层次22 表3.1(续)23 基于本体的知识检索框架的研究 VI 表5.1 Jena 持久化操作程序段44 表5.2 数据类型取值检测程序段44 表5.3 数据类型取值检测输出45 南京航空航天大学硕士学位论文 VII 注释表语义网(Semantic Web)语义网是一个网,它包含了文档或文档的一部分,描述了事物间的明确关系,且包含语义信息,以利于机器自动处理。 本体(Ontology)共享概念模型的明确的形式化规范说明。W3C(World Wide Web Consortium)万维网联盟,是对网络标准制定的一个非赢利组织。 能力问题(Competency Questions)是由一系列基于本体的知识库系统应该能回答出的问题组成。 NLP(Natural Language Processing)自然语言处理技术,是计算机科学的一个研究领域, 研究计算机和人类自然语言之间的相互影响。NER(Named Entity Recognizer)命名实体识别,是指识别出文本中特定的实体,如人名、组织结构、地点等。EPTT(Explicit Property Type Tagging)显式属性类型标注算法。 DTTE(Dependency Tree Based Triple Extract)基于依存树的三元组提取算法。RDF(Resource Description Framework)资源描述框架,是一个用于表达关于万维网上的资源的信息的语言。OWL(Ontology Web Language)Web 本体语言,是W3C 提出的一种网络本体语言。 Wordnet是一个英文的语义辞典,依据同义词关系将词条分组,为每组提供简短、概要的定义,记录不同组之间的语义关系。 OKRF(Ontology-based Knowledge Retrieval Framework)基于本体的知识检索框架。 WLKMS(Well Longing Knowledge Management Systems)测井知识管理系统。 承诺书 本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。 本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本承诺书) 作者签名: 日 期: 南京航空航天大学硕士学位论文 1 第一章 绪论 1.1 课题研究背景及意义 1.1.1 传统的信息检索的局限性 随着计算机和互联网技术的迅猛发展,数据仓库和数据挖掘技术的方兴未艾使得网络信息与知识日益膨胀并且呈爆炸性增长。所以,信息检索成为信息社会中人们获取信息的主要手段1。然而当前的信息资源有如下几个特点:(1)信息内容的多样性;(2)信息表现形式的多样性;(3)信息之间的强耦合性;(4)信息组织的局部有序性和整体无序性。由于以上这些特点导致了日益严重的“信息过载”和“信息迷航”问题,使得目前的各种信息检索工具已经开始显得力不从心,检索出的数据量越来越大然而检索精度却不断下降。对于用户给定的检索条件, 往往返回大量的检索结果,在这大量的检索结果中,用户真正需要的只是其中的很少一部分。这种高的查全率带来的成千上万个命中结果对用户来说实在是一个沉重的负担,在信息爆炸性增长的今天,没有一个用户有时间和精力来浏览检索到的每一个结果。造成这种结果的主要原因在于目前的信息检索系统主要基于人工分类目录或关键词匹配。前者由于信息分类和信息搜集有人的参与,因此这种系统存在成本较高、对信息理解不够准确、对海量信息资源揭示效率不高等缺陷,造成用户无法及时、准确的获取信息,从而造成了信息丢失的现象。后者则主要存在以下三个方面的不足: (1)无法根据语义匹配。检索的结果没考虑词的语义,无法获得与关键词语义一致的其他词的检索结果。 (2)无法准确获取用户意图。机器无法准确获取用户基于自然语言的检索要求。 (3)无法获取隐含的知识。机器不能智能的发现系统隐含的知识。 以上三个方面的不足使得基于关键字匹配的检索在查全率和查准率两项指标上,无法再有质的飞跃。 1.1.2 基于语义的信息检索的特点 虽然研究者们提出了一些算法来解决传统信息检索中的不足,但是从文本内容入手仅能得到有限的语义信息,于是把信息检索从目前基于关键词的层面提高到基于语义的层面,设计一个基于语义层面的信息组织以及表示的信息检索系统成为信息检索的一个发展方向。基于语义的信息检索是把信息检索与人工智能技术、自然语言技术和语义网技术相结合的检索。尽管到目前为止语义检索在概念上还没有一个统一的定义,但是语义检索的主要研究都集中在通过对基于本体的知识检索框架的研究 2 信息资源进行语义处理来实现精度更高的检索。语义信息的提取和处理可以是基于语义网技术的,也可以是基于自然语言处理技术的。由于语义网的发展,当前基于语义网方法的语义检索的研究更为普遍。 基于语义网的语义检索技术是语义网技术的应用之一。本体作为语义网技术的核心部分, 是人工智能和知识工程领域发展起来的知识表示技术。本体的出现使得信息检索技术有了新的突破,大量研究表明本体作为表达语义的基础是合适的2,3,4,5,6。本体具有良好的概念层次结构和对逻辑推理的支持,利用本体给出领域内共同认可的词汇,并且给出这些词汇之间的相互关系的形式化定义可以消除由于自然语言引起的理解上的歧义,准确反映用户的查询意图。利用本体支持逻辑推理的特点,还可以获取系统隐含的知识,从而提高检索的查全率和查准率。 1.2 当前研究现状及选题依据 1.2.1 国内外研究现状 在语义检索的研究过程中,研究者们已经提出了许多新的方法和技术,也取得了很多成果。将语义信息引入到信息检索中主要分为下面的三种方法7:自然语言的处理技术、基于概念的方法和基于本体的方法。 自然语言处理技术(Natural Language Processing,NLP)是通过匹配查询语义信息与文档语义信息来提高查询的性能8,9,10。Croft 等人11提出使用一个粗分器12来探测句子,然后利用句子来进行索引,不同于使用词语索引,句子携带了更多的语义信息,但是这种方法的局限性在于如何准确获取句子的语义信息。Salton 等人13首先提出利用文档向量进行初始过滤,然后再利用章节、段落以及句子向量进行比较。 Hsinchun Chen 首先提出基于概念的文本自动分类与语义检索14,采用机器学习的方法实现了大量文本自动分类、标注与检索。基于概念的检索还被广泛应用到图书馆领域15,16,在不同领域的对应概念之间建立联系,实现跨专业、跨图书馆的语义互操作。 基于语义网的方法17是在页面标注18, 19, 20的基础上发展起来的。TAP1就是由Stanford、微软和W3C(World Wide Web Consortium,万维网联盟)共同开发的基于语义网技术的语义检索引擎。Stanford 大学的知识系统实验室,在本体建模工具领域以及本体的应用层面都有研究, 而且有很多显著的成果。Voorhees 早在1994 年就提出了基于本体的查询扩展21,使用了本体中的概念进行查询扩展,Navigli 则在2004 年提出了一种基于本体注释的查询扩展方法22。Philip Nour 在2000 年使用了基于本体的方法在项目开发经验库中建立关于经验的索引23。AT&T 建立了一个应用本体技术的信息检索系统FindUR 系统24,通过使用描述逻辑系统规定的描述逻 1 / 南京航空航天大学硕士学位论文 3 辑语法,表达了Wordnet25中定义的词汇间的同义、上义和下义关系,获得简单的背景知识, 并调用推理系统来完成推理任务。中科院计算机智能信息处理开发研究实验室建立的基于本体论和多主体的信息检索服务器26是一种利用多智能主体和本体理论设计的信息检索服务器。文27介绍了一种基于本体的信息检索主体MELISA,用于在医疗专业领域检索参考文献。上面两个项目都没有使用形式化的本体语言为本体建模,也没充分利用到本体的推理能力。宋峻峰28提出的基于本体的信息检索模型采用了描述逻辑作为构造本体的本体语言,使用本体中定义的词汇来标记文档,实现语义层次的检索,使检索性能得到大大改善。 1.2.2 选题依据 分析目前国内外的研究状况,发现存在如下一些问题:缺乏构建领域本体的成熟流程、方法和标准规范;仅仅关注用户查询中的本体概念,没有充分利用到本体中的属性及其它关系; 对文档和用户的查询进行语义处理的过程中,存在着遗漏和曲解;目前国内还没有基于本体的检索系统投入运行和使用。 基于上述不足,本文选择了“基于本体的知识检索框架”作为研究课题,旨在构建一个基于本体的知识检索框架,用本体来表达领域知识,构建知识库,利用本体中的概念属性关系对用户查询进行扩展,利用本体支持推理的特点来挖掘隐含的知识,使得该框架能在查全率和查准率两个方面比传统的信息检索系统有所提高。 1.3 论文主要研究工作 1.3.1 论文工作目标 本文的主要目标是应用本体技术构建一个知识检索框架,将对关键字的检索提升到语义层面,具体来说包括: (1)提出一个基于本体的知识检索框架,框架由知识库构建系统和查询系统两个子系统构成。 (2)详细介绍了框架的两个系统的构建过程和方法,包括知识本体的构建过程、信息数据的结构化、查询扩展的方法、查询结构的排序等。 (3)给出本文提出的基于本体的知识检索框架在具体应用领域的设计与实现。 基于本体的知识检索框架的研究 4 1.3.2 论文内容组织 图1.1 论文组织结构 如图1.1 所示,论文各个章节的内容概括如下: 第一章 绪论:阐述了课题的研究背景及意义,描述了国内外研究现状和课题选题依据,介绍了本文主要研究工作。 第二章 基于本体的知识检索框架OKRF:首先介绍了与本文相关的两个主要技术,即本体和信息检索。介绍了语义网的作用和体系结构,以及本体的定义、建模元语和层次模型。然后提出了一个基于知识的信息检索框架OKRF,并给出了OKRF 整体系统的简要介绍。 第三章 基于本体的知识库构建:给出了知识库的构建方法。首先分析了本体和知识库之间的关系,然后提出了知识本体的构建方法,最后给出了对文档进行语义标注的方法,包括类型的标准及关系三元组的抽取。 第四章 查询语义分析及查询结果处理研究:对查询系统中的查询语义分析和查询结果处理进行了详细的介绍。首先介绍了查询语义分析中的分词系统,然后介绍了分词后的查询语义扩展方法,最后给出了查询结果排序计算公式。 第五章 测井知识管理系统WLKMS 的设计与实现:将框架应用于石油测井领域,给出了测井知识管理系统WLKMS 的设计与实现。首先给出了石油测井领域知识库的设计,然后介绍了Jena 的语义推理在系统中的具体应用,最后利用Lucene 为本体概念建立索引。 第六章 总结与未来工作:对全文进行了总结,归纳了现有工作的不足之处,并对未来工作进行了阐述。 第一章 绪论第二章 基于本体的知识检索框架OKRF 第三章 基于本体的知识库构建 第四章 查询语义分析及查询结果处理研第五章 测井知识管理系统WLKMS 的设计与实现第六章 总结与未来工作南京航空航天大学硕士学位论文 5 第二章 基于本体的知识检索框架OKRF 2.1 语义网与本体 2.1.1 语义网简介 语义网(Semantic Web)是因特网研究者对下一代因特网的称谓29,通过扩展现有因特网, 在信息中加入表示其含义的内容,使计算机可以自动与人协同工作。即语义网中的各种资源不再只是各种相连的信息,还包括其信息的真正含义,从而提高计算机处理信息的自动化和智能化程度。而计算机并不具有真正的智能,语义网的建立需要研究者们对信息进行有效的表示, 制定统一的标准,使计算机可以对信息进行有效的自动处理。 实现语义网的目标有许多中间的和相关的工作要做,万维网的创始人Tim Berners-Lee 给出了语义网结构的设想。语义网的体系结构分为七层,自下而上分别是编码定位层(Unicode+URI)、XML 结构层(XML+NS+XML Schema)、资源描述层(RDF+RDF Schema)、本体层(Ontology Vocabulary)、逻辑层(Logic)、证明层(Proof)、和信任层(Trust)。各层功能逐渐增强,下层为上层提供支持,其结构如图2.130所示。 Proof Trust Selfdesc. doc. Data Data Rules Logic Digital Signature Ontology Vocabulary RDF+RDF Schema XML+NS+XML Schema Unicode URI 图2.1 语义网体系结构 其中第四层为本体词汇层,用来定义共享的知识,从而对各种资源之间的语义关系进行描述,揭示资源本身以及资源之间丰富而复杂的语义信息。由于本体技术是本文所使用的关键技术之一,因此将在下一节做详细介绍。 基于本体的知识检索框架的研究 6 2.1.2 本体的建模原语和层次模型 本体的定义 本体(Ontology)最早是一个哲学的分支31。随着人工智能的发展,被赋予了新的定义。1998 年Studer 对本体概念的定义反映了本体的普遍本质,得到广泛的承认:共享概念模型的明确的形式化规范说明。这个定义有四层含义232: (1)概念模型。通过抽象客观世界中的一些现象的相关概念而得到的模型,其独立于具体的环境; (2)明确的。意味着概念的类型、使用和约束条件被明确的定义; (3)形式化。意味着本体是计算机可以理解的; (4)共享。本体体现的是共同的认知,反映的是领域内公认的概念集,面向的是领域内的团体而不是个体。 通过定义可以看出,本体的目标是获取相关领域内的知识,提供对领域知识的共同理解, 确定该领域内共同认可的词汇,并给出这些词汇和词汇之间相互关系的形式化定义。本体语言是一种描述概念与概念之间关系的可实用的语言,它将逻辑定义和关系用一组限定的词汇进行表达。 本体的建模原语 本体是知识的一种组织形式。利用本体表达知识的目的是使人和计算机能够共享和重用知识,它是一种相对稳定的,独立于具体的应用。如何用本体来表达知识,Perez 等人采用了分类法组织知识,并归纳出5 个基本建模原语(Modeling Primitives)2:概念、关系、函数、公理和实例。本体正是通过这些建模元语,来组织现实世界的知识。 (1)概念(Concepts)。概念是一类对象集合的抽象描述,具有广泛的含义,可以指代任何事务,如任务、方法、行为、策略和推理过程等。从语义上讲,它是对现实世界中个体的抽象,表示的是个体的集合。从面向对象的角度,概念也称为类(Classes)。其定义一般包括概念的名称以及概念的自然语言描述。 (2)关系(Relations)。关系表示领域中概念之间的交互作用,形式上定义为n 维笛卡尔积的子集R:C1C2.Cn,例如:子类关系(subclass-of)。在语义上关系对应于对象元组的集合。一个关系包含定义域和值域两部分,限定了关系所适用的范围。在本体中,关系的定义域通常是一个概念,而值域既可以是概念,也可以是具体的取值域,如整数或字符串。 关系在本体中非常重要,从语义上讲,基本的关系有表2.1 所示的四种:part-of、kind-of、instance-of 和attribute-of。 南京航空航天大学硕士学位论文 7 表2.1 本体的四种基本关系 关系名 关系描述 part-of 表达概念之间部分与整体的关系 kind-of 表达概念之间的继承关系,类似于面向对象中的父子类之间的关系 instance-of 表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系 attribute-of 表达某个概念是另一个概念的属性。如概念“姓名”可作为概念“人”的一个属性 在实际建模过程中,表2.1 给出的四种基本关系往往不能满足应用需求,应该以它们为基础,结合具体的领域应用来进行关系扩展。 (3)函数(Functions)。函数是一类特殊的关系,该关系的前n-1 个元素可以唯一决定第n 个元素。形式化的定义为F:C1C2.Cn-1Cn。例如函数father-of(x,y),表示x 与y 具有father-of 关系,y 是x 的父亲。 (4)公理(Axioms)。公理是描述概念(关系)之间等价和包含关系等的永真断言。例如声明:Human=Person,HasBoyHasChildren。 (5)实例(Instances)。实例代表概念所包含的元素,是对概念的具体化。一个实例是现实世界中具体的唯一的个体,它对应着本体中的一个或多个概念,具有概念描述的属性,并具有具体的属性值。实例继承了对应概念的语义信息。 本体的层次模型 数据语义建模、解析推理描述描述描述逻辑层(各种逻辑) 原语层(本体建模原语) 概念层(概念、关系、公理和函数) 数据层(实例) 功能层次 图2.2 本体信息的层次模型 图2.2 展示了本体信息的层次模型,可以完成信息的记录、语义解释、建模和推理。它分为逻辑层、原语层、概念层和数据层四层。数据层对应的是本体中的实例。概念层则描述这些实例之上的语义概念以及相互之间的属性关系和约束。原语层提供相关的建模原语操作,可以通过这些操作来构建本体或访问本体。机器在原语层通过对实例、概念、关系等建模原语的操基于本体的知识检索框架的研究 8 作接口,得到数据以及相应的语义信息。逻辑层提供针对本体的推理,本体的描述语言常常是建立在各种逻辑之上的。通过逻辑层的推理,可以知道本体的那些表层标记下的更深层的语义信息。 上面介绍了本体的建模原语和层次模型,正是由于它在领域中达成了语义共识,智能主体可以通过描述逻辑推理机调用原语操作的接口,方便的访问领域信息及其对应的语义,甚至推理挖掘出语义下隐含的信息,并根据语义自行进行相应处理。 2.2 信息检索技术 信息检索(Information Retrieval,IR)33是指从大量收集的文档集合中,找到与给定的用户信息需求相关的恰当数目的文档子集。广义地讲,信息检索包含信息的存储和信息的查找两个过程。信息存储是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索工具的过程;信息查找是从大量的信息中查找出用户所需的特定信息的过程。实施检索的主要方法就是利用各种检索工具。 信息检索技术的发展经历了手工信息检索、机械信息检索到计算机信息检索的过程。根据David Lewis 和Karen Sparck Jones 的观点,信息检索可以分为以下三个领域34:全文检索、数据检索和知识检索。 2.2.1 全文检索 全文检索(Text Retrieval,TR)是一种基于文本的查询,通过比较用户的查询关键字和文档中的每个词来进行检索。这种检索一般都需要对大量的文档建立由词到文档的倒排索引,基于索引来进行查找。目前,全文检索已经具备了很成熟的技术,但是这种检索方式主要基于词频分析技术,没有考虑到查询请求与文档语义上的匹配,比较有代表性的是Google 和百度。这种方式因为只是针对文本的匹配,检出信息量大、毋需人工干预,缺点是返回信息过多包含很多冗余的信息,必须依靠用户自己来筛选查询结果。面对当今如此海量的信息资源,用户面对一大堆输出结果往往无所适从。 2.2.2 数据检索 数据检索(Data Retrieval,DR)主要是指对结构化信息系统进行的检索,这种检索要求查询请求以及数据存储遵循一定的格式。查询请求和数据存储的结构通常能够对应到系统中一系列的属性。数据检索允许对特定的字段检索,例如:时间=“2008/08/08”。一般的商业数据库都是这种检索方式。数据检索依赖于编码的质量,检索花费大,虽然检出的信息相对准确,但容易漏检相关的数据,并且数据检索的性能取决于所使用的字段标识方法和用户对这种方法的理解,具有很大的局限性。数据检索支持语义匹配的能力也较差。当然这里数据所指的范围比南京航空航天大学硕士学位论文 9 传统分类法中的要广,它既包括文字信息、数值信息,也包括事实检索的对象。 2.2.3 知识检索 知识检索(Knowledge Retrieval,KR)是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。知识检索具有两个显著特征,一是基于某种具有语义模型的知识组织体系,知识组织体系是实现知识检索的前提与基础,知识检索则是基于知识组织体系的结果;二是对资源对象进行基于元数据的语义标注,元数据是知识组织系统的语义基础,只有经过元数据描述与标注的资源才具有长期利用的价值。以知识组织体系为基础,并以此对资源进行语义标注,才能实现知识检索。 知识检索模型集成各类知识对象和信息对象,融合各种智能与非智能理论、方法与技术。知识检索常用的检索模型有分类检索模型、多维认知检索模型、分布式检索模型等,如表2.2 所示。 表2.2 常用的知识检索模型 检索模型 模型描述 分类检索模型 依据事物之间的本质关系来组织资源对象,揭示资源对象的等级关系、参照关系等,充分表达用户的多维组合需求信息。具有语义继承性。 多维认知检索模型 以人工神经网络作为理论基础,模拟人脑的结构,将信息资源组织为语义网络结构,利用学习机制和动态反馈技术,不断完善检索结果。 分布式检索模型 综合利用多种技术,评价信息资源与用户需求的相关性,在相关性高的知识库或数据库中执行检索,然后输出与用户需求相关、有效的检索结果。 知识检索系统中,除提供关键词实现主题检索外,还结合自然语言处理和知识表示语言表示各种结构化、半结构化和非结构化信息,提供多途径和多功能的检索。自然语言处理技术是提高检索效率的有效途径之一。自然语言理解是计算机科学在人工智能方面的一个极富挑战性的课题,其任务是建立一种能够模仿人脑去理解问题、分析问题并回答自然语言提问的计算机模型。从实用性的角度来说,除了需要基本的人机会话、语义理解和自动文摘等语言处理功能, 还需要使用汉语分词技术、短语分词技术、同义词处理技术等。 知识检索是基于“知识”的搜索,即利用机器学习、人工智能等模拟或扩展人的认识思维, 提高信息内容的相关性。知识检索具有明显的优势:检索机制和界面的设计均体现“面向用户” 的思想,即用户可以根据自己的需求灵活地选择理想的检索策略与技术;知识检索能主动学习用户的知识,主动向用户提供个性化的服务;综合应用各种分析、处理和智能技术,既能满足用户的现实信息需求,又能向用户提供潜在内容知识,全面提高检索效率。 基于本体的知识检索框架的研究 10 2.3 基于本体的知识检索框架OKRF 2.3.1 OKRF 的系统结构 对于框架(Framework),目前存在多种定义35。一种定义认为,框架是整个或部分系统的可重用设计,表现为一组抽象构件及构件实例间交互的方法。另一种定义认为,框架是可以被应用开发者定制的应用骨架。前者是从应用层次给出的定义,而后者是从目的层次给出的定义。框架是一个可重用的设计,规定了应用的体系结构,阐明了整体设计、协作构件间的依赖关系、责任分配和控制流程,表现为一组抽象类及其实例间协作的方法,为构件重用提供了上下文环境。 OKRF(Ontology-based Knowledge Retrieval Framework)是一个基于本体的知识检索框架, 该框架以知识库为中心分为两个大的系统,知识库的构建系统和基于知识库的查询系统,其系统结构如图2.3 所示。 查询界面分词系统查询扩展系统结果生成系统排序系统推理机知识库语义标注数据源文档网页资料库基于知识库的查询系统知识库知识库的构建系统查询语义分析查询结果处理 图2.3 OKRF 框架的系统结构图 (注:箭头方向指明了数据的流向) 2.3.2 OKRF 的知识库的构建系统 知识库构建系统对查询用户是透明的,是查询系统的支撑系统。知识库的构建过程是将传南京航空航天大学硕士学位论文 11 统的各种知识表示形式转化成用本体描述的知识形式,并存入知识库的一个过程。传统的知识主要以非结构化的文本形式存在,所以知识库的构建过程又具体分成以下两个步骤: (1)在领域专家的帮助下,建立相关领域的本体。确定本体的应用范围,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义,这些定义应该是明确的、无二义性的,是一组描述领域内实体及其属性和行为以及实体关系的词汇、定义、公理、定理的集合。建立的本体应该具备清晰性、一致性、完整性、可扩展性。清晰性,就是本体中的术语无歧义地定义;一致性,就是术语之间关系逻辑上应一致; 完整性,是指本体中的概念及其关系应是完整的,应包含该领域内所有概念,但往往很难达到, 需不断完善;而可扩展性,即本体应该能够扩展,在该领域不断发展时能加入新的概念。本体的质量是知识检索的灵魂。构建的本体越完善,越能保证检索效率。 (2)文本知识本体化。收集信息源中的数据,并参照已建立的本体将自然语言表述的知识文本形式转变为本体描述的知识存入知识库。领域知识本体的构建阶段,大部分的工作都集中在知识的抽象表示上,即找出领域中的概念、概念之间的关系和公理。对于实例,在构建本体阶段一般不考虑,而是通过语义标注获得并存入知识库。语义标注是利用第一步中建立的本体, 将文档中与本体中概念相对应的词标记出来作为概念的实例,然后找出这些实例间存在的与本体中属性相对应的关系。最后将语义标注后得到的概念的实例,实例之间的关系存入知识库中。 2.3.3 OKRF 的查询系统 查询系统是OKRF 框架中面向用户的部分。整个查询流程从分析用户的查询语义开始,然后转入对知识库的推理查询,最后经过查询结果分析系统处理,将查询结果返回给用户。查询的语义分析是用来分析用户的查询语义的功能模块。它由分词系统和查询语义扩展系统构成。 分词系统,是让计算机理解自然语言的第一步,是分析用户查询的首要步骤,是将用户的查询语句根据词汇进行切分的过程,是查询语义扩展的基础。先是分词,这个过程需要用到相关领域知识的语言词典(词汇表),这个语言词典包含了整个知识库系统所有要用到的词语;然后是无关词消解,主要是消除一些无关代词以及对查询无关紧要的词。 查询扩展系统,是语义扩展的关键步骤。查询语义扩展是建立在分词的基础上的,将分词后的结果作为语义扩展的输入。先是将词语映射到知识库中相关的概念和关系,名词一般映射为概念,动词一般映射为关系;然后利用领域本体中的概念之间的同义及上下义关系进行概念扩展得到对应的一组概念集,作为下一步推理的输入。 查询结果处理模块的目的是将检索结果以一种清晰、合理的方式返回给用户。其中最重要的工作是对检索结果进行排序,这直接关系到用户对检索结果的满意度。在前面的查询语义分析过程中,将用户的查询关键字扩展成为一组概念的集合,集合中的概念和关键字之间有着不基于本体的知识检索框架的研究 12 同的相关度,依据相关度的计算公式,计算出它们之间的相关度,排序后返回给用户。 2.4 本章小结 本章主要介绍了本文所使用的两个关键技术本体技术和信息检索技术,作为后面几章描述的基础,同时给出了本文所提出的一个基于本体的知识检索框架OKRF 的整体描述,为后续章节内容的介绍拉开了序幕。首先,介绍了语义网的产生背景、本质内容和体系结构,并对语义网的第四层,即本体层做了介绍,包括本体的定义、建模原语以及层级模型。然后介绍了信息检索作用的三个主要领域:全文检索、数据检索以及知识检索。最后给出了本文的核心OKRF 框架的整体描述,并简单介绍了OKRF 框架的两大系统知识库构建系统和查询系统的主要功能及工作原理。 南京航空航天大学硕士学位论文 13 第三章 基于本体的知识库构建 在上一章中,给出了OKRF 框架的整体描述。本章将对框架的知识库构建系统部分进行详细的研究。图3.1 描述了知识库构建的基本流程。 信息源文档数据库网页知识获取知识库本体词汇表知识表示规则语义标注知识库数据流控制流 图3.1 知识库构建的基本流程 由上面的构建流程可知,基于本体的知识库构建是以知识本体为核心,利用语义标注的方法,将信息源中知识提取出来,最终以知识本体的形式存放在知识库中。这一流程可以细分为两个过程:知识本体的建模和基于知识本体的语义标注。下面两小节将分别介绍这两个过程。 3.1 知识本体的建模 3.1.1 本体与知识库的关系 Gruber 认为本体是概念层次上对概念化的清楚描述2。注重概念层次上术语及术语间关系的表达。Gomez 认为知识库是知识系统的知识模块36,它包含特定领域抽象或特定的知识,这些知识以计算机可以理解的形式表达。知识库的知识可以是描述性或过程性的。在知识表示方面,本体和知识库有类似之处,都是对一个具体或是抽象领域中包含的知识的定义、表示和组织;在知识管理方面,本体仅仅只是对领域内知识内容进行描述,而知识库更重于对领域知识的表示,组织和存储。下面重点关注本体与知识库在知识表达方面的关系。 通常,本体提供一组术语和概念来描述某个领域,而知识库则使用这些术语来表达该领域的事实。例如,石油领域本体可能包含“解释公式”,“解释图版”等概念,但它一般不包含判断某个具体公式和图版是那个类型的公式和图版,而这正是知识库中要表达的内容。事实上, 如果本体和知识库使用同一形式来表达,两者之间并没有清晰的界限。 在本体的概念提出来之后,理想的领域知识库是应该建立在领域本体的基础之上的,根据基于本体的知识检索框架的研究 14 领域本体中的全部或部分概念生成系统所需要的知识库。而且本体为人们描述目标世界提供了一组通用词汇,而这种通用的词汇正是实现知识系统的基础。通用词汇和知识系统化有利用实现知识的标准化。因此,知识库应该建立在本体的基础之上,本体是知识库建立的基础。 使用本体建模的方法和相关知识表示的标准及交换协议建立知识库,便于研究者之间的交流、协作开发,对计算机系统来说可以实现不同领域,不同模型之间的跨平台的方法、数据、任务、工具的转换和共享。使用本体建模的优点有很多,主要有: (1)可重用。本体是某领域的基本概念、属性、处理方法的内在关系的形式化表达,这种表达可以被重用和共享。 (2)便于查找。便于基于本体的具有一定智能的以内容为目标的查找。 (3)可靠性。模型的形式化表达便于正确性检查。 (4)有助于任务解析。用本体进行规范任务的形式化表述,有助于任务的解析。 (5)可维护性。使用本体进行系统建模。使系统结构、文档和编码都更加清晰,使系统的维护更加容易。 利用本体的思想对领域知识库进行建模,可以使相互独立的层次有机地组成一个完整的系统,可以实现“领域知识”的共享和重用,而且“领域知识”概念模型的形式化描述便于正确性检查,可以使领域知识库的结构更加清晰,更有利于领域知识库的维护。 3.1.2 知识本体的构建 构建知识本体是一项浩大且艰巨的工程,涉及众多领域专家学者以及工程技术人员等。因此,构造一个完整有效的领域知识本体不可能一蹴而就,应该是一个循序渐进的过程。由于各个领域和具体工程应用的不同,构建知识本体的过程也各有不同。Gruber 在1995 年提出的5 条构建知识本体的规则6是比较有影响的: (1)明确性和客观性。知识本体应该用自然语言对术语给出明确、客观的语义定义。 (2)完整性。所给出的定义是完整的,能表达特定术语的含义。 (3)一致性。知识推理产生的结论与术语本身的含义不会产生矛盾。 (4)最大单向可扩展性。向知识本体中添加通用或专用的术语时,通常不需要修改已有的内容。 (5)最少约束。对待建模对象应该尽可能少列出限定约束条件。 遵循上面的5 条规则,参考其他机构给出的本体构建方法,结合软件工程的指导思想,本文总结出一套工程化的方法来构建本体,用来提高本体构建的效率和质量。借鉴软件工程中的V-模型,给出如图3.2 所示的本体构建的V-模型概念图。V-模型的左侧表示本体的构建过程, 右侧表示在构建本体的各个阶段对应的原则以及指导方针等。 南京航空航天大学硕士学位论文 15 本体的构建过程每个阶段对应的指导方针、原则、评估等,用来确保本体的质量 图3.2 本体构建的V-模型概念图 将本文总结出的构建领域本体的六个步骤应用到V-模型概念图中,得到图3.3 所示的本体构建的具体V-模型。 确定本体的专业领域和目标列举领域中的重要术语、概念等评估方法:能力问题构造方法:调整颗粒度用户模型建立本体框架设计本体,重用已有的本体评估方法:简洁,良好的扩展性,清晰的层次结构。构造方法:高内聚、低耦合。概念模型本体编码、形式化本体的评估评估方法:一致性, 完备性,规范性构造方法:表达力和推理能力的折中执行模型 图3.3 本体构建的具体V-模型 第一步,确定本体的专业领域和目标。首先要明确构建的本体将应用的专业领域,不同的应用领域有不同的应用需求,有不同的领域词汇等,因此将直接决定领域术语和概念的确定。确定建立本体的目的可以更好地挖掘领域的深层信息,能够对需求有一个明确的认识,便于识别出本体的作用范围,是定义领域术语、概念颗粒度的基础。这些在领域本体的建立过程中起着很大的作用,所以应当在开发本体之前确定。 这一步可以通过能力问题来进行评估。能力问题(Competency Questions,CQ)37是由一基于本体的知识检索框架的研究 16 系列基于该本体的知识库系统应该能回答出的问题组成。CQ 被用来检验该本体是否合适,本体是否包含了足够的信息来回答这些问题,问题的答案是否需要特定的细化程度或需要一个特定领域的表示。 第二步,列举领域中重要术语、概念等。在第一步确定了本体的应用领域和目标后,就可以开始列举领域中所用到的词汇了,包括领域中的术语、概念等。想要一次性列举所有的词汇是不太现实的,应该先找出重要的术语和概念,然后根据列举出的主要术语,迭代扩展出其他术语。在领域本体创建的初始阶段,可以从系统想要陈述的或要向用户解释的内容中找出领域概念。这上面的概念和术语是需要声明或解释的。在这一步中,不必在意所要表达的概念之间的意思是否重叠,也不要考虑这些概念到底用何种方式(类、属性还是实例)来表达。 列举领域中的术语和概念时,可以采取以下三种策略: (1)自顶向下(top-down)。从领域中综合的、概括性的概念出发,然后逐步细化概念的颗粒度,找出具体的,底层的概念。 (2)自底向上(bottom-up)。从领域中具体的、特殊的、最底层的、最细小的概念开始, 然后将这些概念泛化成综合性的概念。 (3)中间两边(middle-out)。从一组核心概念出发,分别向上进行泛化、向下进行细化, 得到颗粒度更大和颗粒度更小的概念。 上面的三种列举概念的方法,都是基于一定的层次结构的。因此,利用这三种方法构建出来的概念具备了初步的层次结构,应该优先选择使用。 这一步可以通过调整概念颗粒度的方法来扩展概念。当找到一个领域概念后,可以通过泛化和细化的方法,找出该概念的顶层或底层概念,添加到系统中。 第三步,建立本体框架。第二步中已经产生了领域中大量的概念,但却是一张毫无组织结构的词汇表,甚至还有一些重复和二义性的概念词汇。这时需要根据词汇之间的关联关系进行词汇的分组,形成不同集合划分。同一集合中的概念应该具有较高的内聚度,不同集合中的概念应该具有较低的耦合度。另外,对其中的每一个概念进行评估,对于那些具有重复意义的概念,用同一词汇代替或者建立概念之间的同义词关系。对于有二义性的概念,明确其含义。摒弃一些不必要或者超出领域范围的概念。通过上面的方法来处理列举出的领域词汇,使之尽可能准确而精简的表达出领域的知识。从而形成一个领域知识的框架体系,得到领域本体的框架结构,生成本体词汇表。 这一步借用了软件工程中的高内聚,低耦合的思想来处理词汇。词汇的评价准则有:简洁, 良好的扩展性以及清晰的层次结构。 第四步,设计本体,重用已有的本体。设计本体的过程包括定义概念、定义概念之间的关系等。它由以下几个子过程来完成: 南京航空航天大学硕士学位论文 17 (1)概念及概念之间关系的定义。为了描述各个概念,利用术语对概念进行标识,并对其含义进行定义,在这一步定义时先采用自然语言进行定义。为了定义一个概念,设计了元本体。一个概念可以采用元本体中定义的元概念进行定义,或采用在本体中己经被定义的概念进行定义,或重用已有的本体。元本体是指本体的本体,其术语用于定义本体中的概念,如实体、关系、角色等。它可以说是更高层次的本体,是领域内概念的抽象。在设计元本体时,应尽量做到领域无关性,并且包含的元概念数目尽可能少。除了概念,还要定义概念之间的关系。这些关系不仅仅涉及同工作领域的概念,不同工作领域的概念也可以相关,只是这些关系总是属于某一个工作领域。 (2)类及类的层次结构的定义。创建的概念中,很大一部分属于类,而对类的层次的定义需要从概念类的定义开始,从第二步建立的概念中,选择那些独立存在的对象所对应的概念, 运用术语来表示。这些术语将以类的形式组织到本体的类的层次分类系统中去。在确定领域本体的概念类及其层次结构时,应当注意子类与父类所描述的概念是“kind-of”或“is-a”关系; 由同一类派生出的各子类应具有相同的泛化程度,但根类(Thing)的子类描述的是对该领域的分类,不受限制。 (3)定义类的属性。一旦定义好了类,就要描述这个类的内部结构。从第二步中创建的概念中选择出类,大部分剩下的概念可能成为这个类的属性。除了定义类外,还必须描绘概念间的内在结构。例如,确定哪条术语是描述哪个类的属性。如果对象是结构化的,那么它的一部分,可以是具体的或抽象的元素。同时,也要描述类中的个体成员与其它类之间的关系。除了最初确定的一些属性之外,还需要添加一些其它的属性。任意类的所有子类都继承了该类的属性。一个属性应该被附加在拥有该属性的最大的类上。 (4)定义属性值。属性值可是一个数值,也可是一个类。本文将属性值视为一个类,称为属性类,属性类也有属性,通过属性来说明取值类型、值个数及有关值的其它特征。 (5)创建实例。创建概念类中的个体实例,选择概念类并创建概念类实例。 第五步,本体编码、形式化。这一步的主要任务是选用合适的本体描述语言对建立的领域本体进行编码、形式化。目前大多数已经建立的本体模型都是基于一阶逻辑,也有的是基于描述逻辑。本体模型的形式化可提供比自然语言更严格的格式,增强机器的可读性,进行自动翻译及交换,便于本体模型自动进行逻辑推理及检验。 这一步中,选择合适的本体描述语言很重要,不同的表述语言有不同的描述能力,一般描述能力强的语言其推理能力相对较弱,描述能力弱的语言有较强的推理能力。 第六步,本体的评估。对本体进行编码后,是否满足用户需求和本体的建立准则,本体中的术语是否被清晰的定义了,本体中的概念及其关系是否完整等问题都需要在本体建立后进行检验和评估。评估方法包括本体的一致性、完备性、规范性检测。 基于本体的知识检索框架的研究 18 确定本体的专业领域和目标列举领域中的重要术语、概念等建立本体框架设计本体,重用已有的本体本体编码、形式化本体的评估构建语言和表示法可用的开发工具 图3.4 本体构建的迭代过程 本体是现实世界的模型,所建立的本体必须能够客观反映世界。因此,本体工程的开发应该是一个反复迭代的过程。图3.4 给出了本体构建的迭代过程。从图中可以看出,建立本体框架,设计本体,本体编码是一个不断迭代的构建过程,它的前提是已经获取了该领域中的术语、概念,即用户模型层的工作完成后。事实上,用户模型层也是一个需要反复迭代的过程。但是只有用户模型层的工作完成后,才能进入本体的概念模型层进行本体的构建工作。在构建过程中还涉及到本体描述语言的选用,现有的本体描述语言都有相关的开发工具。总的来说,反复迭代的过程将贯穿于本体的整个生命周期,是构建本体最核心的思想。 3.2 基于知识本体的语义标注 在上小节本体的建模阶段,大部分的建模工作都集中在领域知识的抽象表示上,即发现领域内的概念、概念的继承层次、潜在的关系和公理等。在建模过程中一般不需要考虑领域中的实例,除非建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有本体和一个具体的应用结合时考虑实例才有意义。将现实应用中涉及的实例和抽象的本体概念相联系,这正是语义标注所要做的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。 概括地讲,语义标注(Semantic Annotation)38是一个以领域本体的指导依据,为文档添加规范知识表示的过程。这个过程可以分解为两个子过程38: 南京航空航天大学硕士学位论文 19 (1)类型标注。即将文档中与本体中的概念相对应的词标记出来,作为概念或者概念的实例。 (2)三元组抽取。即找出这些概念和实例间存在的与本体中属性相对应的关系,生成关系的三元组表示。 下面两小节将分别介绍类型标注和三元组抽取。 3.2.1 基于本体词汇表的类型标注 想要正确的理解自然语言的句子,首先要能正确的理解句子中各词汇之间的含义。本节将利用本体来为句子添加语义信息,帮助人们正确的理解句中的词汇。这个过程包括:(1)找出与本体概念对应的词,将其标注为概念类型或实例类型;(2)找出与本体属性相对应的词,将其标记为属性类型。利用文38提出的类型标注器(Explicit Property Type Tagging,EPTT)来完成对句子中词汇类型的识别。与传统NER(Named Entity Recognizer)只关注实体型词汇(例如日期、数字、金钱、本体中的概念所对应的实例等)不同,EPTT 除了标注通常的实体外, 还能对句子中表达语义关系的词(如动词)进行属性类型识别的。EPTT 采用将规则与本体词汇表相结合的方法实现标注。标注类型分为:通用标注类型和本体标注类型。通用标注类型主要包括数字、金钱、日期等;本体标注类型则包括概念类型、对象属性类型、数据属性类型和实例类型四种类型。对于通用标注类型,通过定义一组正则表达式规则,利用匹配正则表达式来实现识别;而对于本体标注类型则主要通过利用本体词汇表来完成标注。类型标注的基本流程如图3.5 所示。 算法3.1:显式属性类型标注算法(EPTT)38 输入:分词后句子S 输出:已标注类型的词汇的集合W 及重新分词的句子S Begin Step1:利用自定义的正则表达式的识别规则,对句子中的数字、金钱、日期等通用类型实体识别,并标注类型; Step2:利用本体词汇表,对句子中词汇进行精确匹配,并标注对应类型; Step3:利用N 元组(N-Gram)切分技术,将句中词与标注本体词汇表中的词进行近似匹配。对匹配成功的,标注对应类型,循环做步骤3 直到N; Step4:对于句子分词结果重新进行调整,保证已经标注过类型的词不被切分;若已由分词程序切分,则将分开的词重新合并为一个词;将句子中的数字、日期、金钱等词汇转化为与本体内数字、日期相符的规范形式,并建立原形与新形的对照表。 End 基于本体的知识检索框架的研究 20 输入分词后的句子S已标注类型的词汇的集合W,重新分词的句子S 对S进行通用类型标注对S进行本体类型标注N元组(Ngram)切分将句子重新切分后与词汇列表中的词做近似匹配标注调整句子的分词结果得到S 是否 图3.5 类型标注的基本流程 Step1 和Step2 的算法思想和传统的NER 方法的思想类似,比较简单和直观。在Step3 中应用了N 元组切分技术,这一技术可以提高句中词汇与标注本体词汇表的匹配次数,但同时也可能会引入一些错误的匹配。为此,需要在后续实验过程通过一个参数来控制是否进行这种近似匹配。Step4 是对标注的结果进行后续处理的步骤,包括调整分词的结果和对通用标注类型实体表达形式的规范化两个过程。其中分词结果调整过程是将以多个词的形式在句中出现的一个本体的概念和实例合并成一个新词,这样的处理有利于后续的句法分析,简化依存关系结构;而通用标注类型实体表示形式的规范化过程则是为了和知识本体表现形式一致。 下面用一个例子来说明EPTT 算法。例如:“送样清单req 由环境参数和实验组成,创建人JESSICA。”这个句子利用ICTCLAS 奥运版1在线分词的结果为:“送/样/清单/req/由/环境/参数/ 和/实验/组成/,/创建人/JESSICA/。” 经过EPTT 算法标注后,识别出“送样清单”和“环境参数”为本体的概念,“req”为“送样清单”这个本体概念的一个实例。因此对分词的结构重新调整,得到“送样清单/req/由/环境参数/和/实验/组成/,/创建人/JESSICA/。”这样的分词结果。实际上,已经有很多人在从事类型 1 /test.html 南京航空航天大学硕士学位论文 21 标注的研究,并且已经取得了较好的进展39,40,41,42,43,44,45,但应用到语义标注过程中都没能很好地对属性类型进行识别。EPTT 通过对属性类型词的显式识别,简化了后续关系提取的工作。 3.2.2 基于依存关系的三元组抽取 自然语言的句子是由词汇通过各种关系组织起来的。在上一小节词汇识别的基础上,找出词汇之间的各种组织关系,就能完成语句的初步理解过程。这种词汇之间的组织关系建立起了词汇与词汇之间的一种依存关系。本小节利用句子中找出的词汇间的依存关系,将已标注类型的各个词汇合理的组织起来,最终形成三元组的表达方式。下面将分别介绍依存语法、依存关系的提取以及基于依存树的三元组提取算法。 依存语法 依存语法(Dependence Grammar)是由法国的语言学家Lucien Tesnire (特思尼耶尔)于1959 年在结构句法基础一书中首先提出。它是一种充分利用句子中词汇信息的语法体系,它的核心思想是认为句子中不同的成分之间是不平等的,存在着支配与被支配,从属与被从属的关系。传统的句法分析把句子分为主语、谓语、宾语等语法结构,而依存语法首先关注的是句子的动词。然后再探寻句子中其他成分与动词的关系。这种关系是有方向的,通常是一个词支配或受支配于另一个词,所有的受支配成分都以某种依存关系从属于其支配者。这种支配与被支配的关系体现了词在句子中的关系。动词是句子的中心,支配其他成分,而它本身不受任何其他成分控制。对于一个句子,通过分析其依存关系,最后得到一棵从属树,其利用的规则是: (1)修饰语从属于被修饰语;(2)主语、宾语从属于谓语;(3)介词结构中的介词宾语从属于介词;(4)由连词构成的联合结构中分支成分从属于连词;(5)从句从属于从句的引导成分。 利用依存语法的核心思想,下面给出依存对、依存树以及依存森林的定义38。 定义3.1:依存对。如果句子中两个词间存在依存关系,该关系可表示为Relation(Gov,Dep) , 其中Gov 代表支配词,Dep 代表从属词,Relation 代表两个词间的语法关系,称Relation(Gov, Dep)为依存对。 定义3.2:依存树。句子中各依存对按照以Gov 为父结点,Dep 为子结点的形式进行连接, 可以形成一棵描述句子依存关系的依存树。不存在Gov 的结点为依存树的根。 定义3.3:依存森林。若一个句子可以分解为多个子句,则每个子句都可以构成一棵依存树, 这些依存树可以构成整个句子的依存森林。其中各子树排列顺序与子句出现顺序一致。 基于本体的知识检索框架的研究 22 依存关系的提取 本小节利用斯坦福大学的句法解析器Stanford parser1来提取词汇之间的依存关系。首先给出Stanford parser 输出的语法关系的介绍,然后给出一个例子来解释利用Stanford parser 得到的依存关系。 Stanford parser 的语法关系是依据层次结构来组织的,顶层是一个平凡关系dependent。dependent 关系下面包含aux,arg,mod 等关系。完整的语法关系层次在表3.1 中给出。 表3.1 语法关系层次 dep - dependent aux - auxiliary auxpass - passive auxiliary cop - copula arg - argument agent - agent comp - complement acomp-adjectival complement attr - attributive ccomp - clausal complement with internal subject xcomp - clausal complement with external subject compl - complementizer obj - object dobj - direct object iobj - indirect object pobj - object of preposition mark - marker (word introducing an advcl) rel - relative (word introducing a rcmod) subj - subject nsubj - nominal subject nsubjpass - passive nominal subject csubj - clausal subject csubjpass - passive clausal subject cc - coordination conj - conjunct expl - expletive (expletive “there”) mod - modifier abbrev - abbreviation modifier amod - adjectival modifier appos - appositional modifier advcl - adverbial clause modifier purpcl - purpose clause modifier det determiner predet - predeterminer preconj - preconjunct infmod - infinitival modifier partmod - participial modifier advmod - adverbial modifier neg - negation modifier rcmod - relative clause modifier quantmod - quantifier modifier tmod - temporal modifier measure - measure-phrase modifier 1 :8080/parser/ 南京航空航天大学硕士学位论文 23 表3.1(续) nn - noun compound modifier num - numeric modifier number - element of compound number prep - prepositional modifier poss - possession modifier possessive - possessive modifier (s) prt - phrasal verb particle parataxis parataxis punct - punctuation ref - referent sdep - semantic dependent xsubj - controlling subject 这个语法关系层次一共包含55 个语法关系,用户还可以根据具体的应用需要来扩展。由上表3.1 知:nsubj 表示动词和主语的关系,例如:奥巴马击败麦凯恩,nsubj(击败,奥巴马); dobj 表示动词和宾语的关系,例如:姚明赢了比赛,dobj(赢,比赛);advmod 表示副词和修饰词的关系,例如:非常多,advmod(多,非常);amod 表名词和形容词的关系,例如:她喜欢红色的玫瑰,amod(玫瑰,红色的),这里不一一列举解释。 下面给出一个例子来演示利用Stanford parser 抽取得到的依存关系。“送样清单 req 由 环境参数 和 实验 组成, 创建人 JESSICA。”利用Stanford parser 抽取得到的依存关系为: nmod(req-2,送样清单-1) nsubj(组成-7,req-2) prep(组成-7,由-3) conj(实验-6,环境参数-4) cc(实验-6,和-5) pobj(由-3,实验-6) ccomp(组成-7,创建人-9) dobj(创建人-9,JESSICA -10) 根据上面的依存关系,利用依存树的定义构造得到的依存树如图3.6 所示。 送样清单环境参数和创建人实验组成req 由JESSICA nmod nsubj prep conj cc pobj ccompdobj 图3.6 解析结果依存树 基于本体的知识检索框架的研究 24 句子的谓语为“由.组成”的介词结构,依存树以“组成”为根。谓语和宾语通过介宾关系联系起来。主句和从句通过谓语之间的ccomp 关系关联在一起,从句省略的主语可以通过主句找到。“实验”与“环境参数”之间通过“和”连接因此具有conj 关系。“req”与“送样清单” 之间是名词与修饰词的nmod 关系,这个关系是从上面55 个关系中扩展出来的,用于中文的同位语关系。“创建人”与“JESSICA”之间是典型的dobj 动宾关系。这些依存关系将作为启发式规则用于后面的三元组提取过程中。 三元组提取算法 参照资源描述框架(Resource Description Framework,RDF)的三元组表示(主体,谓词, 客体),即(subject,predicate,object)。给出自然语言句子中的语法关系的三元组定义。 定义3.4:语法关系三元组。语法关系三元组GRT (Grammatical RelationshipTriple): GRT(s, v / p,o) 其中,s 表示关系主体subject;o 表示关系客体object;p 是关系谓词predicate,v 是p 在句子中的词汇表示。 在定义3.4 的基础上,提出了基于依存树的三元组提取算法(Dependency Tree Based Triple Extract,DTTE)。 算法3.2:基于依存树的三元组提取算法(DTTE) 输入:语法关系依存树与类型标注结果 输出:语法三元组 Begin Step1:对输入的关系依存树进行解析,找出它的根节点t。 Step2:利用t 来构建语法关系三元组grt,t 对应GRT 的v。 Step3:利用主句与从句的依存关系,从t 中提取出从句的树根t1,直到提取出所有从句的树根,得到树根集合T。利用T 来构造三元组集合GRT。 Step4:对于关系三元组集合中的每个元素grt,找出依存树中所有与其grt.v 具有依存关系的关系集REL,依据前面的55 种语法关系类型及扩展类型的语义含义,来填充三元组grt 的s 和p 部分。 Step5:对GRT 集合中的grt,判断grt.v 是否属于领域本体的属性,如果是将grt.v 赋值给关系谓词p,否则,在grt.s 和grt.o 中查找属性类型词,并修正grt.s 和grt.o。 Step6:利用主语或宾语省略的语法关系词,对grt 中的s 和o 部分进行补全。利用并列语法关系词,对GRT 集合进行扩展。 Step7:利用本体中属性的定义域和值域判断三元组的合法性,最终将合法的三元组输出。 南京航空航天大学硕士学位论文 25 End Step1 和Step 2 中,利用依存树的根来构建三元组,依存树的根通常是句子中的谓语部分。Step3 中主句与从句的依存关系通常用ccomp 等词来表示。Step4 完成句子主干的提取,主要是依据语法关系词来提取。不同的语法关系词表明了句中不同成分之间的关系,但是考虑到自然语言的特点,这些关系并不能保证完全正确的提取句子的成分。所以,算法的这个部分有待改进。Step5 是依据本体中的属性词构建三元组的谓词,考虑到Step4 中会有一些不正确的主干提取,Step5 可以利用本体属性词做初步的修正工作。 以图3.6 的语法关系依存树为例,利用DTTE 算法可以提取出如下三元组: (req,组成/由.组成,实验); (req,创建人/被.创建,JESSICA); 经过conj 关系扩展后得到: (req,组成/由.组成,环境参数); 经过nmod 关系扩展后得到: (送样清单,组成/由.组成,实验); (送样清单,创建人/被.创建,JESSICA); (送样清单,组成/由.组成,环境参数); 3.3 本章小结 本章主要介绍了基于本体的知识库的构建,将构建过程分成两个部分:知识本体的建模和语义标注。在知识本体建模中,借鉴软件工程的相关思想,提出了构建知识本体的V-模型,并且给出了一套工程化的构建方法。在语义标准的过程中,利用文38给出的显式属性类型标注算法(EPTT)和本章提出的基于依存树的三元组提取算法(DTTE)完成整个标注的过程,并且给出了一个例子演示了整个标注的流程。 基于本体的知识检索框架的研究 26 第四章 查询语义分析及查询结果处理研究 上一章给出了OKRF 框架中基于本体的知识库系统的构建方法,本章将在前面的基础上继续讨论OKRF 中的查询系统。首先介绍查询系统中的查询语义分析模块,然后对查询结果处理模块中的查询结果排序做了详细介绍,最后对本章的主要研究进行了小结。 4.1 查询语义分析 由于用户的查询输入是自然语言的句子,要想准确的理解用户的查询语义,就需要对输入语句进行查询语义分析。因此,查询语义分析模块的主要功能就是完成对自然语言的语义分析。由于词语是句子的基本组成元素,将句子拆分成基本的词语是语义分析的首要步骤,分词系统就是用来完成这一步骤的。而查询语义扩展则是通过对查询关键字对应的概念进行扩展来更好的符合用户查询的语义。 4.1.1 分词系统 自然语言的句子是一些连续的词组成的集合。中文句子中词与词之间没有明显的分隔符, 因此中文词的分割比英文更为复杂,而且英文也有其时态和词性变化的特点,这导致中英文分词所关注的重点有所不同。本文将研究重点主要集中在中文分词上。根据中文的语法,词是由汉字组成的,句子是由连续的词构成,句子之间通过标点符号连接。中文分词就是将汉字序列切分成一个一个的词汇单元。 中文分词中的歧义问题 中文分词的困难主要在于词切分方式不同所带来的歧义。这种歧义问题可以分成以下三种类型: (1)自然语言的二义性引发的歧义。这种歧义是指对句子不同的切分无论是在语法还是语义上都是正确的,但不同的切分使得句子表达的意思有所不同。这种歧义是人和计算机分词都会出现的。例如,毛泽东的诗送瘟神里“华陀无奈小虫何”,可以做“华陀/无奈/小虫/何” 和“华陀/无/奈/小虫/何”两种切分。前一种切分的意思是,连华陀也把血吸虫没有办法;后一种切分的意思是,只因为没有华佗这样的神医,所以才无法消灭血吸虫。 (2)计算机分词引发的歧义。这种歧义特指计算机对句子进行切分时会导致语法、语义上的不正确。这种歧义在人工分词时不会出现,只有在计算机分词时才会发生。例如,“学历史学好”一句。人工切分结果为“学/历史学/好”且只有这一种切分结果;而计算机还会得到“学南京航空航天大学硕士学位论文 27 历/史学/好”这种切分结果,这种切分结果在语法和语义上都是不正确的。 (3)分词字典引发的歧义。这种歧义是由于分词字典的选用不同,以至对句子词汇不同颗粒度的切分所引发的。例如,句子“送样清单包含环境参数”。两种不同的切分为“送/样/清单/包含/环境/参数”和“送样清单/包含/环境参数”。在第一种切分中所使用的分词字典显然无法识别出“送样清单”和“环境参数”这两个领域特定词汇。 歧义切分现象是计算机中文分词中不可避免的问题。通过对发生的歧义情况进行统计,可以将歧义字段分为三类46:交集型歧义字段、组合型歧义字段和混合型歧义字段。 定义4.1:交集型歧义字段。在字串AJB中,若AJ D、JB D、A D且B D, 则AJB为交集型歧义字段。此时,AJB有AJ / B和A/ JB两种切分形式,其中J 为交集字段。 定义4.2:组合型歧义字段。在字串AB中,若AB D、A D且B D,则AB为组合型歧义字段。此时, AB有AB和A/ B两种切分形式。 定义4.3:混合型歧义字段。在字串AJB中,若AJB D、AJ D、JB D、A D且B D,则AJB为混合型歧义字段。此时, AJB有AJ / B、A/ JB和AJB三种切分形式。 中文分词的方法 由于查询是基于分词后的关键词集进行语义扩展,所以分词的效果直接决定了查询的效果, 分词的质量在很大程度上影响着检索的结果和效果。目前的分词手段主要依靠字典和统计学的方法。本文主要介绍基于字典的分词方法。 字典是用来收录那些意义明确、使用频率高且生活中约定俗成的词汇的。基于本体的领域知识库中的字典收录的词汇虽然相对较少,但也具有很大的数量级。因此选取何种数据结构来存储字典,能够快速的找出句子所包含的字典词汇成为首要解决的问题。 字典通常采用前缀树或者后缀树的数据结构存储,图4.1 给出了一个前缀树结构的字典组织形式。 A B C D E F G H I 图4.1 前缀树结构的字典组织形式 按照图4.1 的结构来组织字典,整个字典则是一个由前缀树构成的森林。双线圈节点代表一个词汇的结尾字,从树根到达该节点的路径中的所有节点组成了字典中的一个词汇。由上图基于本体的知识检索框架的研究 28 知:“AB”、“AC”、“AD”、“EF”、“EG”、“EFHI”都是词汇。所有的叶节点都是双线圈节点。从树根到双线圈节点的祖先结点的路径代表这个词汇的所有前缀部分。上图中:“E”、“EF”、“EFH”都是“EFHI”的前缀部分。这种结构与现实生活中字典的组织结构类似,均以一个字开头,其后为以该字开头的全部词汇。直观上,在字典中查一个词,首先查找出该词汇的首个汉字在字典中的对应页,继而在该页中查找相应的词汇。用计算机来处理这个过程则是首先在字典森林中找到以某个字开头的前缀树,然后在该前缀树中找一条该词汇的路径。 下面的图4.2 给出一个后缀树结构的字典组织形式。 B A C B A D C 图4.2 后缀树结构的字典组织形式 与前缀树的表达方式不同,树根表示一个词汇的结尾字,双线圈节点表示一个词汇的开头字。那么图4.2 中,有“AB”、“ABC”、“CD”三个词汇。所有的叶节点同样都是双线圈节点。 上面介绍了两种形式的字典组织方式,接下来介绍三种简单的分词方法: (1)最大正向匹配法(Maximum Matching Method,MM 法)。假设字典为D,D 中最长的词汇长度为n,需要分词的字串为str,str 的长度为N(一般n 3 k 1 k 2 k ,它们的具体取值可以根据查询反馈来修改调整。那么词语k q 对概念i c 的依赖程度权重还与i c 和c _ set 的关系有关。用k i aw , 表示考虑了扩展集中权值系数时,词语k q 对概念i c 的依赖程度权重。 . . . . . . . . . = = 3 ,2 , 1 ,0 , , k i i c k i i ck i i c k i i k i k w c Ek w c Fk w c C k w c c aw (3) 公式(3)就是最终的词语对概念的依赖程度权重计算公式。利用这个公式计算出词语和概念之间的依赖关系大小,用于查询结果的排序。 4.3 本章小结 本章主要介绍了查询系统中的查询语义分析和查询结果排序。对查询语义分析中的分词系统进行了初步探讨;在查询语义扩展部分,提出了基于概念的查询扩展算法(CBQE)和基于概念的逆向查询扩展算法(RCBQE),并讨论了它们的关系。最后研究了查询结果排序,给出了用于计算排序结果的词语对概念的依赖程度权重计算公式。 南京航空航天大学硕士学位论文 37 第五章 测井知识管理系统WLKMS 的设计与实现 本章基于第二章提出的OKRF 框架,利用第三章和第四章中介绍的相关技术,给出了OKRF 框架在石油测井领域的应用,设计并实现了一个测井知识管理系统WLKMS(Well Longing Knowledge Management Systems)。首先给出了WLKMS 的体系结构,然后给出了WLKMS 的详细设计,最后是本章小结。 5.1 WLKMS 的体系结构 5.1.1 WLKMS 的应用背景 测井是记录钻入地幔的一口井中岩石或流体混合物不同的物理、化学、电子或其他性质的过程。测井数据是油田勘探开发必不可少的宝贵资源,是建设数字油田的关键信息之一。测井公司拥有大量的测井数据,由于缺乏对数据的有效管理方法,查找应用十分不便,给工作带来了很大不便,造成了人力和物力的浪费,而且造成许多测井数据的损坏,不能充分发挥测井数据的作用。 随着测井技术的发展和油田勘探开发由粗放型向精细型的转变,如何使测井数据具有应用程序能够理解的含义,实现测井数据处理过程自动化、智能化;如何对测井数据中积累的大量信息数据进行有效管理,使用户可以找到与需求相关的信息数据;如何根据信息数据所具有的知识含义,将分散在各种异构系统中的相关信息方便、快速地融合后呈现给用户,成为该领域目前要解决的主要问题。 因此,需要建立一套基于本体的测井知识库系统来实现测井数据的自动化,智能化处理, 帮助测井人员有效管理测井相关知识,实现不同测井部门的异构数据交互。测井知识管理系统就是在这样的背景下应用实现的。 5.1.2 WLKMS 的功能及设计原则 基于OKRF 框架的测井知识管理系统WLKMS 主要功能概括如下: (1)对与测井油气层相关的试油分析、岩心实验、解释图版、计算公式、解释参数、典型图例等资料进行归纳总结和标准化集成,形成解释知识库,用以支持解释流程各个环节,有助于从根本上提高测井解释技术水平。 (2)支持基于解释知识库的智能检索,用来查询知识库中的岩心实验、解释图版、计算公式等,用以指导测井解释,从而提高工作效率,尽量减少人为因素对测井解释结果的影响。 基于本体的知识检索框架的研究 38 考虑到功能的需求、系统的维护和扩展及目前的可用技术情况,WLKMS 的设计基于如下原则: (1)健壮性(Robustness)。软件系统对于非正常状态和事件,具有一定的处理能力。主要应使系统结构尽可能地保持简单。 (2)可适应性(Extendibility)。软件系统对用户需求变化应具有一定的可适应性。主要考虑以下方面: 设计简单:简单结构比复杂结构更能适应用户需求的改变。 模块之间松散耦合,模块尽可能独立分离。 (3)可重用性(Reusability)。这是面向对象设计的主要特征之一,而且有利于软件系统的可适应性。主要考虑以下方面: 复用前一阶段软件体系结构的设计思路和成果。 对系统所处理的数据进行抽象。 合适的复用单元应该是一些抽象模块,通过接口,提供对某种特定功能的封装。 从一组相关数据结构中寻找共性特征的技术。 功能调用部分与功能实现部分独立分离。 (4)可移植性(Migration)。各个服务程序可以部署在不同节点上,可以适用于不同的操作系统平台上。 (5)效率(Efficiency)。在保证正确性前提下,必须与可适应性和可重用性平衡考虑。对以下几个方面需要加以注意: 模块间调用频度尽量减少。 好的设计算法是关键,如嵌套算法应进行优化。 尽量减少DB 访问次数,如读写操作应尽量优化为大量少次。 Client/Server 间通信量尽量减少。 (6)可管理性(Manageability) 服务器层各Server 应具有一定的可管理性。主要考虑通过服务器管理模块来实现对服务器层各Server 的管理,如Service 的启动、关闭、状态查询等功能。 5.1.3 WLKMS 的系统结构 基于以上的应用背景、功能需求及设计原则,依据第二章给出的OKRF 的系统结构图,得到图5.1 所示的测井领域中的WLKMS 的系统结构图。从图中可知,知识的检索请求者包括用户、应用程序和Agent;知识的提供者有系统管理员、领域专家和系统工程师。系统的主要功能模块都集中在服务器端,各模块的介绍如下: 南京航空航天大学硕士学位论文 39 解释数据库InterDB 岩心数据库CoreDB 数据库层数据控制器数据查询转换模块查询扩展模块语义标注模块访问控制管理模块规则管理模块岩心本体管理模块分词模块WLKMS平台管理器数据库配置管理索引管理器数据视图构造器备份/恢复工具日志管理器用户管理器Web Service RMI 用户应用程序Agent 领域专家系统工程师知识请求者管理员知识提供者客户端服务器端 图5.1 WLKMS 的系统结构图 (1)通信模块。通信模块负责客户端和服务器端的通信,主要利用RMI 实现JAVA 程序之间的远程通,Web Service 实现异构系统或异构语言之间的通讯。 (2)访问控制管理模块。访问控制模块管理所有对服务器端的访问,主要包括统一的用户管理和统一的授权机制,为应用系统的安全提供保障。 (3)分词模块。分词模块的主要功能是将自然语言的句子切分成词语的集合,作为查询扩展模块和语义标注模块的输入。 (4)岩心本体管理模块。岩心本体管理模块主要是负责测井领域本体中概念、属性、关系等的增加、修改、删除等工作。 (5)规则管理模块。规则管理模块主要向解释知识数据库中添加、修改、删除规则。 (6)查询扩展模块。查询扩展模块将分词模块得到的词语隐射到本体库中的对应概念,并对概念进行关系扩展,来扩展词语的语义。 (7)语义标准模块。语义标准模块是将自然语言文档进行标注的过程,抽取文档中的关系和内容,存入解释数据库中。 基于本体的知识检索框架的研究 40 (8)数据查询转换模块。数据查询转换模块的功能是从查询扩展模块中获得用户查询的语义描述,将它转化为本体的查询语言。 (9)数据控制器。数据控制器根据输入的查询语言,选择合适的数据库进行查询。 (10)数据库层。数据库层对岩心资料、解释知识、测井数据等进行分类优化存储。岩心数据库主要存储岩心的相关实验数据;解释数据库主要存储岩心相关的知识。 (11)WLKMS 平台管理器。WLKMS 平台管理器对上面所有的模块起支撑作用。通过备份/恢复工具、用户管理器、日志管理器和数据库配置管理保障数据的安全性和可靠性。数据管理员或接口设计人员通过数据视图构造器高效灵活的配置数据统一访问接口。 5.2 WLKMS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 语音识别试题及答案
- 阿里定级面试题及答案
- 房地产销售策略与实战
- 2025年 道真自治县“特岗计划”教师招聘考试笔试试卷附答案
- 员工安全培训手册
- 2025年中国喷气背包行业市场全景分析及前景机遇研判报告
- 2025年中国内衣裤洗衣机行业市场全景分析及前景机遇研判报告
- 急救培训圆满毕业
- 住院患者护理风险评估制度
- 肿瘤晚期患者教育
- 物业承接查验标准及表格
- 灯箱广告投标方案(完整技术标)
- dzl213型锅炉低硫烟煤烟气袋式除尘湿式脱硫系统设计
- SOP标准作业指导书excel模板
- 《公路桥涵养护规范》(5120-2021)【可编辑】
- 新人教版一年级数学下册期末考试卷(附答案)
- 人教版三年级语文上册期末试卷及答案【完整】
- ptfe膜雨棚施工方案
- 人工智能伦理规则
- 米亚罗-孟屯河谷风景名胜区旅游基础设施建设项目环评报告
- 妇产科护理学教材(课后思考题参考答案)
评论
0/150
提交评论