(计算机应用技术专业论文)基于owl的语义检索系统的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于owl的语义检索系统的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于owl的语义检索系统的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于owl的语义检索系统的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于owl的语义检索系统的研究与应用.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于owl的语义检索系统的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 随着信息社会的发展,互联网上的信息飞速的增长并开始呈现出复杂性和 多样性。这时传统的基于关键字的信息检索技术再也不能满足人们的信息查询 需求。其问题主要表现在,传统的信息检索系统无法理解信息资源内在的含义 以及它们之间的联系,即缺乏语义理解能力。人们希望获得的信息通常与领域 的知识结构有关,而通过关键字匹配的查询返回的结果通常只是其字面信息, 与人们真正希望得到的信息相去甚远。而语义检索技术是解决这一问题最有前 景的方法,目前已成为信息检索领域研究的热点之一。 本论文主要研究如何将本体技术应用到信息检索系统中,从而实现语义检 索。论文首先从传统信息检索技术的现状入手,分析其主要问题,阐述语义检 索如何解决这些问题。然后论文介绍了实现语义检索所涉及的关键技术,包括 本体的概念、本体构建语言r d f r d f s 、o w l 、j e n a 语义网应用构建框架、语 义推理等。然后论文结合这些理论技术深入探讨了语义检索系统的工作流程、 机制,完成了语义检索系统的设计。 最后本文实现了一个基于o w l 的会议论文语义检索系统。论文结合该系统 展示了语义检索的特性以及语义推理机制在语义检索中的作用。在这一实践和 尝试的基础上,本文总结了该系统的不足,并对语义检索技术的发展前景进行 了展望。 论文的主要创新点在于:设计了一种拥有较强表达能力的检索信息入口以 利用本体的语义特性来增强用户的检索需求的表达能力、详细研究了如何在语 义检索中通过语义推理来提高系统的智能性。 关键词:本体,语义网,语义检索,o w l ,j e n a 武汉理工大学硕士学位论文 a b s t r a c t w i t hf a s t d e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , t h ei n f o r m a t i o n o ni n t e r n c t i n c r e a s e sv e r yf a s t ,a n db e g i n st os h o wg r e a tc o m p l e x i t ya n dm u l t i f o r m i t y n o wt h a t t r a d i t i o n a li n f o r m a t i o nr e t r i e v a l ( i r ) t e c h n i cb a s e do nk e y w o r d sc a l ln ol o n g e rs a t i s f y p e o p l e sn e e d sf o ri n f o r m a t i o ns e a r c h i n g t h em a i np r o b l e mi st h a tt h et r a d i t i o n a li r s y s t e mc a n tu n d e r s t a n di n f o r m a t i o nr b 胬o u r c c s i n h e r e n tm e a n i n ga n dt h er e l a t i o n s b e t w e e nt h e m ,t h a ti st os a y , l a c k i n gt h ea b i l i t yt ou n d e r s t a n ds e m a n t i ci n f o r m a t i o n t h ei n f o r m a t i o np e o p l ew a n tt of i n do u ti su s u a l l yr e l a t e dt os t r u c t u r eo fd o m a i n k n o w l e d g e ,b u tt h er e s u l t st u r n e db a c kb yk e y w o r d sm a t c h i n go n l yc o n t a i n st h el i t e r a l i n f o r m a t i o n , w h i c hi sf a rf r o mt h ei n f o r m a t i o np e o p l er e a l l yw a n t s e m a n t i cr e t r i e v a l t e c h n i ci st h em o s tp r o m i s i n gm e t h o dt os o l v et h i sp r o b l e m ,w h i c hh a sb e c o m eo n eo f t h em o s ti m p o r t a n ti s s u e sf o rr e s e a c hi ni r t h i sp a p e rm a i n l yr e s e a r c h e sh o wt oa p p l yo n t o l o g yt oi rs y s t e m s ,t oi m p l e m e n t s e m a n t i cr e t r i e v a l t h ep a p e rs t a r t sf r o mt h es t a t u sq u oo ft r a d i t i o n a li rt e c h n i c , t o a n a l y s ei t sm a i np r o b l e m s ,t h e na d e q u a t e l ye x p a t i a t e sh o ws e m a n t i ci n f o r m a t i o n r e t r i e v a ls o l v e st h e s ep r o b l e m s t h ep a p e rt h e ni n t r o d u c e st h ek e yt e c h n i c so f s e m a n t i ci n f o r m a t i o nr e t r i e v a l , s u c ha st h ec o n c e p to fo n t o l o g yt e c h n i c ,o n t o l o g y l a n g u a g e so fr d f r d f sa n d0 厶j e n af r a m ef o rs e m a n t i c w e ba p p l i c a t i o n , s e m a n t i ci n f e r e n c ea n ds oo n b a s e do nt h e s et e c h n i c s 也ep a p e rm a k e sad e e p r e s e a r c ho nt h ew o r k i n gp r o c e s sa n dm e c h a n i s mo fs e m a n t i cr e t r i e v a l ,a n dm a k e st h e d e s i g no fs e m a n t i ci n f o r m a t i o nr e t r i e v a ls y s t e m s a tl a s tt h i sp a p e ri m p l e m e n t sam e e t i n g - p a p e rs e m a n t i ci n f o r m a t i o nr e t r i e v a ld e m o s y s t e m t h e nt h ep a p e rs h o w st h ef e a t u r eo fs e m a n t i ci n f o r m a t i o nr e t r i e v a la n dt h e e f f e c to fs e m a n t i ci n f e r e n c em e c h a n i s mw i t h i ns e m a n t i ci n f o r m a t i o nr e t r i e v a l b a s e o nt h i sp r a c t i c e ,t h ep a p e rs u m m a r i z e st h ed e m os y s t e m sd e f i c i e n c y , m a k e sa p r o s p e c tf o rt h ed e v e l o p m e n to fs e m a n t i ci n f o r m a t i o nr e t r i e v a l t h i sp a p e r sm a i nn e wi d e a sa t et h a ti td e s i g n sai re n t r yi n t e r f a c ew i t hs t r o n g e x p r e s s i n ga b i l i t y , w h i c hc o u l du s eo n t o l o g y ss e m a n t i cf e a t u r et oe n h a n c eu s e r s 武汉理工大学硕七学位论文 a b i l i t yt oe x p r e s st h e i rr e t r i e v a ln e e d sa n dd o e sad e e pr e s e a r c ho nh o wt oe n h a n c e s e m a n t i ci n f o r m a t i o nr e t r i e v a ls y s t e m s i n t e l l i g e n c eb ys e m a n t i ci n f e r e n c e k e yw o r d s :o n t o l o g y , s e m a n t i cw e b ,s e m a n t i cr e t r i e v a l ,o w l , j e n a 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:至螽烽e l 期:幽葺臼三日 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生签名:! 垄经 导师签名 ( 注:此页内容装订在论文 y - ,一 l 页) 武汉理工大学硕士学位论文 1 1 课题研究的背景 第1 章绪论 随着现代信息社会的高速发展,知识信息的数量呈几何级增长。 在现代信息社会,信息越来越多的分布于计算机网络中。于是如何从数据 库以及互联网上高效获取自己需要的信息就成为信息检索技术研究的重点。为 了方便用户检索,各类信息检索系统诞生了,有基于数据库应用的数据检索系 统,有在互联网上查找信息的搜索引擎。但随着信息在数量和种类上的爆炸式 增长,传统的信息检索技术已经无法满足人们越发复杂的信息检索需求。这主 要表现在,传统的信息检索技术效率非常低下,浪费了人们大量额外的时间还 往往无法查找到自己需要的信息。 大量的研究和实践发现,如果要使信息检索技术突破目前的瓶颈,就必须 使得信息检索能够具有一定理解人类词汇中的概念信息的能力,即具有语义理 解能力。因为人们检索的信息的方式均基于自然语言的概念与概念之间的联系, 而传统的信息检索技术要么基于数据表严整的结构,要么基于关键字的简单匹 配,均无法真正理解用户的检索请求中的语义信息。而随着一种叫本体的知识 形式化建模技术在计算机领域的提出和应用,这一问题的解决看到了希望。 1 2 课题研究的意义 在一个知识飞速发展和更新的时代,如何去寻找自己所需要的信息将成为 一个非常重要的基础能力。如果不能及时和高效的获取自己所需要的信息,无 疑将会赶不上时代发展的步伐。因此在时代飞速发展全球竞争日益激烈的情况 下,掌握获取信息的先进方法将对一个民族和国家的发展有着举足轻重的意义。 本体是近年来随着计算机信息、知识处理、人工智能、知识工程等学科的 发展而迅速兴起的一个十分具有活力的研究领域。本体最先被用于人工智能的 知识表示领域,它能够用形式化的方式去对语义信息建模,形成有良好概念层 次和联系紧密的知识体。这一能力自然可以弥补传统信息检索的最大不足。本 武汉理工大学硕士学位论文 体被应用于广大的领域,是有名的下一代互联网,称为“语义网”的核心技术。 而迫切需要语义理解和处理能力的信息检索领域自然成了本体技术应用的重要 领域。如何将本体技术用于信息检索领域从而实现语义检索具有深远的研究意 义和社会应用价值,成了现代信息检索领域研究的热门,受到了越来越多的学 者和专家的关注。 1 3 相关背景知识 1 3 1 信息检索概述 信息检索m 4 3 1 ( i n f o r m a t i o nr e t r i e v a l ) 主要包括信息存储和信息查找,是指 事先将信息按一定的方式进行组织和存储,形成信息库,在需要使用时根据用 户对信息的描述,从信息库中找到与查询相关的信息的过程。它包括对信息进 行表示、存储、组织、查询和对查询结果进行处理等各个方面。一般而言,信 息检索系统由信息数据库、检索入口、用户信息处理、查询引擎等几部分构成。 信息数据库是指按一定方式、以数字形式存储、可通过计算机存取、相互 关联的数据集合。数据库的特点是:重复数据少、可以共享数据资源,以最优 的方式提供一个或多个应用服务、数据具有独立性,其存放独立于应用程序之 外。 检索入口作为用户和计算机信息检索系统之间的交互桥梁,是信息检索系 统的重要部分,它往往能反映系统的功能特性,即系统可以为用户提供什么样 的查询服务。 用户信息处理模块负责将用户的信息需求转化为查询表达式,查询表达式 是反映用户信息需求的字串,该字符串可以是关键词序列,也可以是布尔表达 式,或其它形式。构造查询表达式的核心是既能反映用户信息需求,又要能够 被计算机所识别和处理口1 。 查全率和查准率是信息检索系统性能的主要指标h 1 。作为一个互相作用的有 机整体,信息源的存储和组织方式,以及信息检索入口提供的用户需求的表达 能力,都将对信息检索系统的性能起到重要的影响。 2 武汉理工大学硕士学位论文 1 3 2 信息检索的种类 目前,信息检索技术可分为3 类n 3 儿1 4 3 :全文检索( t e x tr e t r i e v a l ) 、数据检索 ( d a t ar e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) 。 数据检索:一般是通过关系数据库来实现,具有严整的结构,允许对预 先设定好的字段检索。它的优点是:有成熟的数据库技术的支持、效率较高、 检索的查准率高。缺点是:数据的结构性过于严格单一、表达能力局限在很小 的局部应用范围,不适合用于复杂的大范围的应用领域,因此一般用于各种小 型局部信息系统。数据检索的性能取决于所使用的字段标识方法和用户对这种 方法的理解,具有很大的局限性啪1 。其支持语义匹配的能力较差【2 0 】且不支持语 义推理。 主要基于词频分析技术啪1 ,将用户提交的关键词与信息源中文本形式的 文字进行逐一匹配,找出可匹配的网页返回给用户。它的优点是:不需要复杂 的信息组织过程,预处理比较简单。缺点是:参与匹配的关键词只是按字面意 思来比较,而不去理会它们的语义。而同一个概念可能对应着多个不同的关键 词。用户的检索需求常常与这些语义相关,这样一来,很可能检索到的信息并 不是用户想要的,从而导致低下的查准率。另一方面,这种查找方法无法把多 个关键词按照某种语义组织起来,形成概念级的意义,所以用户很难利用简单 的关键词来准确表达自己的真正需求。典型的代表是百度和g o o g l e 的搜索引擎。 知识检索是基于知识的、语义上的匹配n 副,在知识检索系统中,信息源被 进行语义标注,形成元数据,并按照领域的各概念以及概念间的语义联系组织 成一个有机整体h 3 1 ,可以很方便的从一个资源找到与之有某种联系的资源。并 且有强大的表达能力,用户可以根据语义表达出复杂的检索需求,因此在查准 率和查全率上有最好的性能。 相比其他种类的信息检索技术,知识检索有着最接近人类自然语言的表达和 理解方式。因此,自然语言理解是与知识检索联系最紧密的技术之一。无论是 从检索入口,还是结果的描述,都按概念的含义组织起来,最方便用户的需求 的表达和对检索结果的理解。因此知识检索是互联网信息检索的发展趋势。 1 3 3 传统信息检索的问题表现 随着信息化社会的日益发展,信息量成几何级急剧增长,人们在面临数量 巨大种类纷繁的信息时,越来越难从庞大的信息海洋中找到自己所需要的信息。 武汉理工大学硕七学位论文 根据信息源的不同,我们有针对局部应用的基于商业数据库技术的专用数据检 索系统,有针对开放的互联网环境的基于全文检索的搜索引擎。虽然这些检索 系统给我们查找自己所需要的信息带来了很大帮助,但是它们仍然不能满足我 们的需要,在很多方面表现出许多的不足和无力。 总体而言,目前信息检索,存在着以下几个方面的不足: ( 1 ) 缺乏有效的信息源组织方法 从数据源的角度来看,某些信息检索系统特别是搜索引擎,其主要信息源 是i n t e r n e t 上数量巨大、种类繁杂的页面,而i n t e m e t 上的数据的表达方式主要 是h t m l 语言,用于给用户直接阅读,没有根据信息的内在含义联系将其组织 起来,即缺乏结构良好的元数据。搜索引擎中的信息组织方式一般基于关键词, 没有把各概念以及概念间的语义联系表达出来。这使得搜索引擎无法对网页上 的数据进行概念和语义层次上的处理h 羽,而信息检索建立在信息组织的基础上, 信息缺乏有效的组织必定直接影响到信息检索系统的各方面的表现。 ( 2 ) 查询准确率不理想 这点主要是从用户角度来看的,查询准确率低表现在返回大量的结果是用 户不需要的。用户必须在大量的检索结果面前继续人工寻找出哪些是自己需要 的,这样就会浪费用户大量的时间。查询准确率低主要是由于基于关键词的搜 索引擎缺乏对关键词的内在含义的理解能力,进而缺乏对用户需求的理解能力 造成的。 c a ) 用户检索需求表达困难 在数据检索系统中,用户提交检索需求,是通过一些预先准备好的属性字 段,提交属性值,来实现检索的。或者是进行多个字段的简单逻辑组合来进行 提交。这种方式提交的检索需求一般是比较准确的,但是随之雨来的阀题是表 达能力的低下。用户的需求表达被限制在预先决定的少数字段中( 如图书查询 系统中图书的“书名 ) ,如果用户的需求超出这些字段,将无法得到表达。也 就是说,系统允许用户表达需求的范围太小。另一方面,用户可能需要进行一 些更复杂的查询,比如“所有由年龄在5 0 岁以上的清华大学的教授写的某领域 的书 。这种需求是无法再由简单字段构成的逻辑组合中得到表达的,而要求在 某一概念网络中才能得到表达。 在搜索引擎中,信息缺乏某种统一的语义描述,用户提交检索需求,是通 过提交一些关键字,或者关键字的逻辑组合,一般只提供两种逻辑运算符。由 4 武汉理工大学硕士学位论文 于同一概念对应的关键词可能有多个,并且搜索引擎不理会关键词的语义,无 法理解用户的需求。这导致用户可能在搜索效果不理想时反复变换自己的关键 词来试图“幸运”的表达自己的要求。 经过以上的分析和总结,可以得出这样一个结论:如何使信息具有计算机 系统可以理解和处理的语义信息,实现信息资源的语义检索,是信息检索走出 困境的关键,也是目前面临的主要挑战。 1 3 4 传统信息检索问题的系统级分析 经过对各种不同的信息检索系统的仔细比较和研究,本小节针对系统的工 作过程来分析问题的所在。总结出的问题主要有两个方面。 首先,从检索的交互界面看,第一,在检索请求信息的理解策略上,传统 的信息检索技术采用的是基于关键字的检索技术,难以理解用户提交的检索请 求信息的内在含义,也就是不能理解信息的语义。这就使得信息的查准率极为 不理想,返回的结果中充斥着大量无用的信息。第二,检索入口接受检索要求 的能力不足,用户只能提交比较简单的检索要求,比如基于某些单一的属性来 查找资源信息。用户无法或者很难根据信息之间的丰富的联系来获取自己所需 的信息资源,很难实现跨类别的资源检索。 再者,从数据组织的角度看,目前流行的信息检索系统的信息存储和表达 的方法都是基于关系数据库技术的。由于关系型数据库是基于关系模式的,属 于比较低的逻辑级别,因此存在着诸多的固有的缺陷。主要有如下几点: ( 1 ) 由于从概念模式转化到关系模式,必然损失很多语义信息,这就使得知 识层的语义完整性难以保证,特别是在信息的规模和种类都变得庞大和复杂的 时候。 ( 2 ) 由于从概念模式转化到关系模式的方法有多种,同样的概念体系转化成 关系表后可能有多种形式,这就使得不同系统间知识层的共享变得几乎不可能。 ( 3 ) 传统关系数据库的数据冗余问题。关系数据库的特性决定了数据库中经 常存在着大量的冗余信息,这给数据的维护带来极大的不便。 ( 4 ) 由于关系模式缺乏统一的形式,基于关系模式的知识层难以提供一致的 应用接口供应用层调用。这导致知识层和应用层过度混杂,应用层过分依赖关 系模式的具体细节,使得应用层的构建极为不灵活和不方便。具体表现在:应 用中通过s q l 语句访问关系数据库,必须深入了解关系模式的逻辑结构。即使 武汉理工大学硕士学位论文 在同类应用中,关系模式可能相差很大,这也使得的知识层的重用非常困难。 1 3 5 语义检索的提出 传统信息检索技术的根本问题在于无法理解信息资源中的语义信息。人们 开始寻找一些方法来解决这一根本问题,关键在于需要增强信息检索系统的概 念理解及分析能力,从词语意义层次上来理解和处理用户的检索请求,以及组 织信息源,从而实现语义检索。语义检索在对内容的分析理解、内容表达、知 识学习、推理机制、决策等基础上实现检索的概念化口1 。 1 3 6 本体技术在语义检索中的意义 语义检索与传统信息检索相比较,关键优势在于它能理解信息的内在含义, 以及它们之间的语义联系,从而可以理解用户的需求和资源的含义,从而大大 增加其智能性,提高查准率与查全率n 7 1 。 本体是一种能在语义层次上的概念模型建模的技术。事实上本体具有良好 的概念层次啪1 ,以及在概念间建立丰富复杂语义联系的能力。在语义检索系统 中,本体正是系统理解语义信息所必须的知识体。在特定领域,本体可以形式 化领域内的知识,形成局部的知识体。而通过把许多个局部本体有机的组织联 系起来,则可以形成涵盖面广大的系统的本体,这j 下好可以用于涉及面广的面 向互联网的语义信息检索。 总结起来,本体技术在语义检索中的作用有: ( 1 ) 为用户和机器提供一种对概念理解的共同标准 本体用形式化的方法来提供概念的规范说明,可以用来描述领域知识,形 成对该领域知识的共同理解。这一共同理解如同工程中一座大厦的基石,为交 流各方提供了一个统一的认识n 蝴乜。因此本体可以大大提高用户和检索系统的 交流能力。 ( 2 ) 为知识共享和重用提供了可能 基于本体技术的语义网的提出的一个重要初衷就是实现知识的重用与共 享。由于本体技术的表达能力处于知识级,不像关系数据库那样处于一个字段 组的低层。因此一个设计精良的本体可以很方便的运行在任何需要它的地方。 不同的系统间可以基于同一本体来达到一致的协同交互,从而实现知识共享。 6 武汉理工大学硕士学位论文 ( 3 ) 提供有效的组织信息资源的手段,并揭示其语义 本体提供了一种按照信息本身内在语义的方式来将它们组织起来的方法。 在这种组织方式中,可以很方便的从一个信息资源找到与之有某种语义关联的 另个信息资源,提高了检索能力。更重要的是,这种组织方法揭示了资源的 语义,将其纳入本体的概念系统中,从而可以被机器“理解 。 ( 4 ) 使信息检索可以进行语义扩展 可以利用本体对用户检索进行领域内的概念及属性关联扩展。这样返回的 结果中不但有精确的结果,而且与用户的检索要求语义相近的信息资源也可以 被检索到。这样查全率就可以大大提高。 ( 5 ) 大大增强了用户的检索需求的表达能力 无论是传统数据检索系统中用户通过信息的某些字段来提交检索需求,还 是搜索引擎中用户通过某些关键字的逻辑组合来提交检索需求,表达能力都非 常的不足。前者表达范围很小,后者表达的很模糊。而在语义检索系统中引入 本体后,用户可以依据本体中的概念知识来提交自己的检索需求,不仅更准确 无误,而且可以大大提高用户的表达能力。只要是在本体的知识范围内,任何 语义组合的检索需求均可以被提出。 ( 6 ) 使得检索具有语义推理的能力,更加智能化 通过语义推理,语义检索不但可以检索到符合检索需求的直接结果,还可 以检索通过推理可以满足用户需求的间接结果,从而大大提高查全率。 因此,本体技术在信息检索中的使用将大大提高检索系统的各方面性能, 具体表现在查全率与查准率、检索需求表达能力以及检索结果的可读性的大幅 提高。 1 4 国内外相关研究 了解国内外本体和语义检索的研究现状,有助于增加对于本体在语义检索 中作用的感性认识,学习国内外相关的先进技术和思想是进一步改进和发展语 义检索技术的基础。自本体技术在人工智能领域被提出后,其理论被逐渐深化, 应用领域越来越广,相关的各方面的研究也越来越多。在本体的建模,本体建 模语言,本体的合并,本体映射,基于本体的自然语言理解,利用本体进行语 义标记等领域均有大量的学者进行了研究。这些研究都很大的推动和加快了本 7 武汉理工大学硕士学位论文 体在语义检索方面的应用。 在基础研究方面,国外的针对本体应用领域的研究组织很多,研究的内容 和方向也很丰富,在很多方向如本体建模方法,本体语言等形成了很多成熟的 标准。万维网联盟( w 3 c ) 在本体和语义网方面进行了研究工作,作出了巨大 的贡献,特别是在本体表达语言上,其制定了) a l + r d f i f s + o w l 作为层次 的本体表达语言。其首先制定x m l 作为一种半结构化标记语言,并在此基础上 加入r d f ( r e s o u r c ed e s e r i p t i o nf r a m e w o r k ,资源描述框架) ,形成主谓宾陈述 结构的资源描述的语法规范。并在此基础上加入w e b 本体语言o w l ( o n t o l o g y w 曲l a n g u a g e ) 标准规范,形成强大的本体语言机制。在本体建模方面,斯坦 福大学的知识系统实验室致力于知识表示的研究,开发了本体的建模工具 p r o t 色g 色,支持本体的可视化开发以及本体一致性检查。惠普实验室的开放源 代码j e n as e m a n t i cw e bf r a m e w o r k ,为本体的应用提供了兼容性强的接口和统一 的模型,使我们看到了本体应用的前景和建立统一标准的可能性。 著名的本体基础项目主要有,项目( o n t o ) 2 a g e n t i x i s 的是为了帮助用户获得 w w w 的上已有的本体的信息,它是一个关于本体的本体。其核心是以w w w 上己有的本体为对象建立起来的本体,它保存了各类本体的元数据。 o n t o b r o k e r 瞳儿8 3 面向的是w w w 上的网页资源,目的是为用户按照所关心的内容 检索到所需要的网页。s k c 瞳儿刀是一个正在进行的项目,其目标是通过一个代数 系统来解决语义异构本体的互操作问题。 国外基于本体也开发出了许多成功的应用系统。比较典型的成功的基于本 体的检索应用如阿姆斯特丹自由大学和荷兰e l s e v i e r 出版社合作研制了一个医 学文献语义检索工具d o p e n 训( d r u go n t o l o g yp r o j e c tf o re l s e v i e r ) ,其中的本体是 以e m 树状叙词表为其术语结构,提供与疾病相关的药物本体信息。再如i tt a l k s 乜钔嗌1 是美国马里兰大学在d a r p a 资助下开发的一个基于本体的w e b 门户系 统,主要用于对n 领域内的各种会议信息进行智能集成和智能在线检索。其核 心部分由七个本体组成,包括:时间本体、主题本体、人本体、地点本体等。 这些本体由语义彼此关联形成一个大的本体,能够描述复杂的信息,从而拥有 提供知识级服务的能力。例如,可以查找出“在斯坦福大学1 5 英里以内、某段 时间、某类话题”的所有会议信息。还可以根据用户的活动时间表和感兴趣方 向,自动安排出合适的会议瞄钔。 国内对本体的应用研究起步比较晚,相比于国外先进的研究水平存在很大 武汉理工大学硕士学位论文 的距离,但还是有不少的技术工作者对这一领域进行了探索,也取得了不少有 意义和价值的研究成果。其中比较有影响的有中科院数学所陆汝铃研究员领导 的基于本体的常识知识的实用性研究n 1 1 。这个项目建立一个大规模的基于本体 和a g e n t 的常识知识库p a n g u ,并尝试利用常识知识来解决一些实际问题( 如, 机器翻译和自然语言理解等) 。中科院计算所智能信息处理开放研究室建立的基 于本体论和多主体的信息检索服务器利用了多智能主体和本体理论设计n 幻。浙 江大学人工智能研究所基于o n t o l o g y 的产品信息集成研究饽1 等。 总的来说,在国内,关于本体的研究以理论方法居多,相对于国外,成功 的应用很少,这一现状决定了在我国本体以及语义检索方面的研究成为当务之 急的一个重点。 1 5 论文的研究目标和内容 本论文的研究属于语义检索的基础研究,目标是探讨如何将本体技术融入 到信息检索中,从而形成具有语义理解和推理能力的语义检索系统,以解决传 统信息检索无法理解和处理信息资源的语义信息的问题。 本论文主要的研究内容有: 分析传统信息检索的不足,弄清本体技术到底可以为信息检索做什么, 带来何种优越性。 为语义检索设计一种具有比较强的表达能力的检索入口。 研究如何利用j e n a 语义网应用构建框架来实现语义检索系统。 对语义检索进行需求分析和系统设计,其内容覆盖语义检索的各方面, 如知识本体构建、信息组织、检索入口设计、检索中的语义推理、检索系统的 构架等等。 研究如何使得语义检索系统具有较强的语义推理能力。 实现一个基于本体的会议论文语义检索系统的原型系统作为一个通用的 模型,并在此实验系统的基础上分析其相对于传统信息检索的优点。 1 6 论文的创新点 论文的主要创新点有: 9 武汉理工大学硕士学位论文 ( 1 ) 通过对比自然语言的结构,分析了信息检索需求表达的内在结构,提 出一种可以在深度上组合的表单结构的检索入口。这种检索入口的优点在于其 在拥有比较强大的检索需求表达能力的同时还容易被系统所处理。 ( 2 ) 研究了如何在语义检索中实现语义推理来提高语义检索系统的检索性 能,提出并研究了通过加入自定义推理规则来扩展本体的语义表达和处理能力, 从而完善语义检索系统的智能性。 1 7 论文的组织结构 本论文一共分为七章,以下是各个章节的内容组织的结构: 第l 章是绪论,主要介绍相关知识背景以及国内外研究现状,分析了传统 信息检索的问题,探讨了语义检索的重要性和意义,确定了本论文的研究方向 和目的。 第2 章主要介绍本体、语义网、本体描述语言等相关知识,为后续章节作 准备。它们相互之间有密切的关系,是语义检索的基础。 第3 章在深入研究j e n a 的功能组成后探讨了如何利用j e n a 来实现本论文的 语义检索系统。 第4 章完成会议论文语义检索系统的设计,并探讨设计过程中的主要问题。 本章主要包括:系统需求分析、系统模块结构、系统流程分析、检索入口设计、 语义查询扩展算法等。 第5 章介绍了本论文的会议论文语义检索系统的实现过程,包括:从领域 本体设计到编码、检索入口的实现、检索语句组织算法实现等。 第6 章是系统的测试,通过在本论文的会议论文语义检索实验系统运行实 例来测试和检验该语义检索系统的有效性,以达到实践和理论相结合的目的, 在实践中来探索和体会语义检索的优势。 第7 章是总结和展望,在总结当前研究的优点和不足的基础上,以展望语 义检索今后可研究的重点和方向。 1 0 武汉理工大学硕士学位论文 第2 章本体和语义网 语义检索的核心技术是本体而本体和语义网密不可分,可以说本体应用 在互联网上就形成了语义网,在语义网的提出和发展中本体才得以发展。本章 介绍本体和语义网的相关知识,这些知识是后面本论文的会议论文语义检索系 统要用到的。 2 1 语义网的层次结构 语义网是本体应用的最重要的成果之一。语义网研究的主要目的就是扩展 当前的万维网,使得网络中的信息具有语义,能够被计算机理解,以便于人和 计算机之间的交互与合作。本体在万维网上的应用直接导致了语义网的诞生。 目前的网络是一个个相互连接的网页的集合体,用户依靠g o o g l e 和其它的搜索 引擎进行浏览。而语义网技术可以将万维网上数量巨大种类繁多的资源整合成 一个互相按其意义联系起来的整体,将万维网变成一个庞大的“知识数据库”。 蒂姆伯纳斯李在x m l 2 0 0 0 大会上提出了语义网体系结构。如图2 - 1 所 日。 囱2 - j 带x 阳刑件尔后从靖佝 语义网的层次结构中,每一层次都是建立在更低层次基础之上的。 武汉理工大学硕十学位论文 u n i e o d e 和u r i 层:该层为编码层,为语义网的基础,其中u n i c o d e 为语 义网提供一种统一的字符编码标准。u r i 则是语义网用于标识网络资源的统一方 法。 ) a u n s + x m ls c h e m a 层:该层为语法层,之上各层均由x m l 语法来 表达。x m l 允许使用者在他们的文档中插入任意的结构,但没有说明这些结构 的含意。因此x m l 不能提供语义,所以在语义网结构中x m l 只是作为语法层, 来为语义网的建立提供语法基础。 r d f r d fs c h e m a 层:数据层,定义了一种用以描述资源及其相互关系的 简单模型,是语义网实现的关键技术之一。 本体( o n t o l o g y ) 层:语义层。本体在r d fs c h e m a 基础之上大大扩充和 完善了其语义表达能力,揭示资源本身及资源之间更复杂和丰富的语义关系1 。 第五层以及其上各层在下面基层的基础上进行逻辑推理以提供认证机制 及信任机制。数字签名可以确保内容的来源和安全性,这样就杜绝了伪造信息 的可能性,从而保证信息源的合法性和安全性。数字签名对于语义网及其它使 用x m l 进行交换的系统非常重要啪儿2 刀。 由语义网的层次结构可发现,语义网的实现依赖于三大关键技术:x m l 1 、 r d f 和本体。x m l 、r d f 作为数据表示的规范,而本体对语义提供概念化描述。 这也是本论文的会议论文语义检索系统的知识信息层的层次结构。 2 2 本体与描述逻辑 2 2 1 本体定义 本体的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士 多德乜。本体在哲学中的定义为“对世界上客观存在物的系统地描述”,是客观 存在的一个系统的解释或说明,关心的是客观现实的抽象本质。哲学家们认为 本体是由现实的概念以及这些概念之间的复杂联系组成的。 在计算机中,本体早先被用于人工智能领域的知识表示,如今越来越多的 应用于信息工程、信息检索、机器翻译、知识科学、数据库集成和企业建模等 领域。通俗的说,本体定义领域中基本概念词汇及其联系,形成主题领域的概 念词汇表以及它们之间的属性联系,使它们形成结合在一起的规则体系n 引,一 1 2 武汉理工大学硕士学位论文 个具有明确语义的整体。本体的目标是捕获相关的领域知识,提供对该领域知 识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上 给出这些词汇和词汇之间相互关系的明确定义口引。 在人工智能界,越来越多的人研究本体,出现了许多不同的定义。各种定 义虽然表达不同,但是从内涵上来看,不同研究者对于本体的认识是相对统一的, 都把本体当作领域内不同信息体之间进行交流的手段,即由本体提供一种明确 定义的共识1 。s m d e r 在1 9 9 8 年总结了前人提出的各种关于本体的定义最终提 出:“共享概念模型的明确的形式化规范说明 汹1 b 刀嘲。 这个定义揭示了本体的四点特征: 概念化( c o n c e p t u a l i z a t i o n ) :通过抽象的机制来对客观世界进行建模,来 建立概念集以及概念之间的关系。“概念化 的含义是本体独立于具体的语言环 境。 明确( e x p l i c i t ) :本体中的概念集及使用这些概念的联系都被精确定义。 形式化( f o r m a l ) :具有计算机可理解和处理的精确的数学描述。 共享( s h a r e ) :本体中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,它所针对的是社会范畴而非个体之间的共识。 2 2 2 描述逻辑 描述逻辑h 2 1 ( d e s c r i p t i o nl o g i c ) 又称为术语逻辑,是一种基于对象的知识 表示的形式化工具,是以对象为中心的。描述逻辑是一个用于描述及推理概念 知识的逻辑公式的集合体,能够提供可判定的推理功能,是语义网络、框架等 知识表示方法统一的逻辑基础。描述逻辑同时也是语义网中本体层的逻辑基础。 本体描述语言o w l - d l 的逻辑基础和核心就是描述逻辑。 描述逻辑是一阶谓词逻辑的一个可判定子集。因此其表达能力比一阶谓词 逻辑要弱,所获得的优势在于具有可判定性。描述逻辑是命题逻辑和一阶谓词 逻辑的折中。命题逻辑的推理简便但表达能力太弱,一阶谓词逻辑表达能力强 大但是复杂度过高不可判定,二者均不适合于本体中的推理。而描述逻辑既可 判定又具有较强的表达能力,因此是本体推理的最佳逻辑基础。 s c h m i d t s c h a u b 和s m o l k a 首先建立了基于描述逻辑a l c 的t a b l e a u 算法, 其原理是是把可满足的概念集合通过一系列推理规则不断细化、扩展,直到发 现冲突。如果直到概念被完全扩展仍然没有不可避免的冲突,就可以得到满足 武汉理工大学硕士学位论文 概念集合的一个解,从而证明概念集合是可以满足的。该算法能在多项式时间 内判断描述逻辑a l c 概念的可满足性问题。目前,t a b l e a u 算法已用于各种描述 逻辑中。 图2 2 描述了基于描述逻辑的知识系统的体系结构。本论文的会议论文语义 检索系统的知识系统部分正是基于描述逻辑的公理一实例体系结构。 2 3 本体构建 l 图2 - 2 基于描述逻辑的知识系统的体系结构 本体作为知识体,往往是系统信息组织的依据,处理的参照,交互的基础,。 因此在本论文构建的基于o w l 的语义检索系统中,本体构建处于核心的地位, 其好坏对系统有着非常重要的影响。 2 3 1 本体构建的原则 出于各自问题域和具体工程的考虑,构造本体的过程也是各不相同的,因 此没有一个标准的本体构造方法。但是人们从实践出发,提出了不少正确构造 本体的标准和原则,用以指导本体的构建和设计6 聃1 : 明确性:本体必须清晰,准确的定义术语。概念应该是客观的,完整定 义的,应该用自然语言加以说明。 1 4 武汉理工大学硕士学位论文 一致性:本体应该是前后一致的,亦即,本体中不应该有前后矛盾的地 方。 单调可扩展性:可扩展的本体应该可以支持在已有的概念基础上定义新 的术语,以满足特殊的需求,而无须修改已有的概念定义。 最小编码偏好:本体应该处于知识的层次,独立于其表示语言。 最小约定:本体约定应该最小,就是说本体应该对建模领域进行最小程 度的约束,只要满足基本的知识共享需求即可。 2 3 2 本体构建步骤 目前本体的构建一般基于人工方式乜u 。一般而言,本体构建都具有以下几 个步骤,在本论文的系统实现章节中构建会议论文领域本体就是基于以下步骤: ( 1 ) 确定本体的领域和作用范围 首先要明确构建的本体所属的专业领域、应用本体的目的、作用以及它的 系统开发,维护和应用的对象。以此来确定本体中内容的范围。 ( 2 ) 列出领域中的重要术语集 在确定本体的领域和范围后,根据本体的需求尽可能列举出所有概念术语, 并对它们的语义进行明确的界定和说明解释。 ( 3 ) 选择概念和术语并建立本体类层次关系 首先将上一步得到的术语集进行筛选,去掉无用的或者不需要的术语,然 后对其进行分类,建立类层次关系。一个类需要有多少个直接予类,并没有硬 性规定。结构良好的本体的直接子类的数目一般在2 到1 2 个n 1 ( 4 ) 定义类的属性。 在定义类层次之后,还必须定义类的属性关系。属性关系通常有两种。一 种是所谓的“对象关系”,它的属性值的值域是某个类,这种关系建立的是类与 类之间的联系。一种是所谓的“数值关系 ,它的取值是某种字面常量n 1 。 ( 5 ) 创建个体集 个体是属于类的具体对象,无论是日常生活,还是系统实际应用中,总是 要涉及到个体。因此还要创建应用必须的个体集。 ( 6 ) 对本体进行形式化编码 对本体进行形式化编码需要选用一种合适的本体描述语言汹1 。现有本体描 述语言约2 8 种,大都基于一阶逻辑,也有基于描述逻辑n 引。本论文中的本体编码 武汉理工大学硕士学位论文 采用o w l 语言,是w 3 c 组织研发的一种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论