（计算机应用技术专业论文）基于owl的语义检索系统的研究与应用.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：68 大小：4.33MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

（计算机应用技术专业论文）基于owl的语义检索系统的研究与应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

武汉理工大学硕士学位论文摘要随着信息社会的发展，互联网上的信息飞速的增长并开始呈现出复杂性和多样性。这时传统的基于关键字的信息检索技术再也不能满足人们的信息查询需求。其问题主要表现在，传统的信息检索系统无法理解信息资源内在的含义以及它们之间的联系，即缺乏语义理解能力。人们希望获得的信息通常与领域的知识结构有关，而通过关键字匹配的查询返回的结果通常只是其字面信息，与人们真正希望得到的信息相去甚远。而语义检索技术是解决这一问题最有前景的方法，目前已成为信息检索领域研究的热点之一。本论文主要研究如何将本体技术应用到信息检索系统中，从而实现语义检索。论文首先从传统信息检索技术的现状入手，分析其主要问题，阐述语义检索如何解决这些问题。然后论文介绍了实现语义检索所涉及的关键技术，包括本体的概念、本体构建语言r d f r d f s 、o w l 、j e n a 语义网应用构建框架、语义推理等。然后论文结合这些理论技术深入探讨了语义检索系统的工作流程、机制，完成了语义检索系统的设计。最后本文实现了一个基于o w l 的会议论文语义检索系统。论文结合该系统展示了语义检索的特性以及语义推理机制在语义检索中的作用。在这一实践和尝试的基础上，本文总结了该系统的不足，并对语义检索技术的发展前景进行了展望。论文的主要创新点在于：设计了一种拥有较强表达能力的检索信息入口以利用本体的语义特性来增强用户的检索需求的表达能力、详细研究了如何在语义检索中通过语义推理来提高系统的智能性。关键词：本体，语义网，语义检索，o w l ，j e n a 武汉理工大学硕士学位论文 a b s t r a c t w i t hf a s t d e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , t h ei n f o r m a t i o n o ni n t e r n c t i n c r e a s e sv e r yf a s t ，a n db e g i n st os h o wg r e a tc o m p l e x i t ya n dm u l t i f o r m i t y n o wt h a t t r a d i t i o n a li n f o r m a t i o nr e t r i e v a l ( i r ) t e c h n i cb a s e do nk e y w o r d sc a l ln ol o n g e rs a t i s f y p e o p l e sn e e d sf o ri n f o r m a t i o ns e a r c h i n g t h em a i np r o b l e mi st h a tt h et r a d i t i o n a li r s y s t e mc a n tu n d e r s t a n di n f o r m a t i o nr b 胬o u r c c s i n h e r e n tm e a n i n ga n dt h er e l a t i o n s b e t w e e nt h e m ，t h a ti st os a y , l a c k i n gt h ea b i l i t yt ou n d e r s t a n ds e m a n t i ci n f o r m a t i o n t h ei n f o r m a t i o np e o p l ew a n tt of i n do u ti su s u a l l yr e l a t e dt os t r u c t u r eo fd o m a i n k n o w l e d g e ，b u tt h er e s u l t st u r n e db a c kb yk e y w o r d sm a t c h i n go n l yc o n t a i n st h el i t e r a l i n f o r m a t i o n , w h i c hi sf a rf r o mt h ei n f o r m a t i o np e o p l er e a l l yw a n t s e m a n t i cr e t r i e v a l t e c h n i ci st h em o s tp r o m i s i n gm e t h o dt os o l v et h i sp r o b l e m ，w h i c hh a sb e c o m eo n eo f t h em o s ti m p o r t a n ti s s u e sf o rr e s e a c hi ni r t h i sp a p e rm a i n l yr e s e a r c h e sh o wt oa p p l yo n t o l o g yt oi rs y s t e m s ，t oi m p l e m e n t s e m a n t i cr e t r i e v a l t h ep a p e rs t a r t sf r o mt h es t a t u sq u oo ft r a d i t i o n a li rt e c h n i c , t o a n a l y s ei t sm a i np r o b l e m s ，t h e na d e q u a t e l ye x p a t i a t e sh o ws e m a n t i ci n f o r m a t i o n r e t r i e v a ls o l v e st h e s ep r o b l e m s t h ep a p e rt h e ni n t r o d u c e st h ek e yt e c h n i c so f s e m a n t i ci n f o r m a t i o nr e t r i e v a l , s u c ha st h ec o n c e p to fo n t o l o g yt e c h n i c ，o n t o l o g y l a n g u a g e so fr d f r d f sa n d0 厶j e n af r a m ef o rs e m a n t i c w e ba p p l i c a t i o n , s e m a n t i ci n f e r e n c ea n ds oo n b a s e do nt h e s et e c h n i c s 也ep a p e rm a k e sad e e p r e s e a r c ho nt h ew o r k i n gp r o c e s sa n dm e c h a n i s mo fs e m a n t i cr e t r i e v a l ，a n dm a k e st h e d e s i g no fs e m a n t i ci n f o r m a t i o nr e t r i e v a ls y s t e m s a tl a s tt h i sp a p e ri m p l e m e n t sam e e t i n g - p a p e rs e m a n t i ci n f o r m a t i o nr e t r i e v a ld e m o s y s t e m t h e nt h ep a p e rs h o w st h ef e a t u r eo fs e m a n t i ci n f o r m a t i o nr e t r i e v a la n dt h e e f f e c to fs e m a n t i ci n f e r e n c em e c h a n i s mw i t h i ns e m a n t i ci n f o r m a t i o nr e t r i e v a l b a s e o nt h i sp r a c t i c e ，t h ep a p e rs u m m a r i z e st h ed e m os y s t e m sd e f i c i e n c y , m a k e sa p r o s p e c tf o rt h ed e v e l o p m e n to fs e m a n t i ci n f o r m a t i o nr e t r i e v a l t h i sp a p e r sm a i nn e wi d e a sa t et h a ti td e s i g n sai re n t r yi n t e r f a c ew i t hs t r o n g e x p r e s s i n ga b i l i t y , w h i c hc o u l du s eo n t o l o g y ss e m a n t i cf e a t u r et oe n h a n c eu s e r s 武汉理工大学硕七学位论文 a b i l i t yt oe x p r e s st h e i rr e t r i e v a ln e e d sa n dd o e sad e e pr e s e a r c ho nh o wt oe n h a n c e s e m a n t i ci n f o r m a t i o nr e t r i e v a ls y s t e m s i n t e l l i g e n c eb ys e m a n t i ci n f e r e n c e k e yw o r d s ：o n t o l o g y , s e m a n t i cw e b ，s e m a n t i cr e t r i e v a l ，o w l , j e n a 独创性声明本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名：至螽烽e l 期：幽葺臼三日学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文，并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生签名：! 垄经导师签名 ( 注：此页内容装订在论文 y - ，一 l 页) 武汉理工大学硕士学位论文 1 1 课题研究的背景第1 章绪论随着现代信息社会的高速发展，知识信息的数量呈几何级增长。在现代信息社会，信息越来越多的分布于计算机网络中。于是如何从数据库以及互联网上高效获取自己需要的信息就成为信息检索技术研究的重点。为了方便用户检索，各类信息检索系统诞生了，有基于数据库应用的数据检索系统，有在互联网上查找信息的搜索引擎。但随着信息在数量和种类上的爆炸式增长，传统的信息检索技术已经无法满足人们越发复杂的信息检索需求。这主要表现在，传统的信息检索技术效率非常低下，浪费了人们大量额外的时间还往往无法查找到自己需要的信息。大量的研究和实践发现，如果要使信息检索技术突破目前的瓶颈，就必须使得信息检索能够具有一定理解人类词汇中的概念信息的能力，即具有语义理解能力。因为人们检索的信息的方式均基于自然语言的概念与概念之间的联系，而传统的信息检索技术要么基于数据表严整的结构，要么基于关键字的简单匹配，均无法真正理解用户的检索请求中的语义信息。而随着一种叫本体的知识形式化建模技术在计算机领域的提出和应用，这一问题的解决看到了希望。 1 2 课题研究的意义在一个知识飞速发展和更新的时代，如何去寻找自己所需要的信息将成为一个非常重要的基础能力。如果不能及时和高效的获取自己所需要的信息，无疑将会赶不上时代发展的步伐。因此在时代飞速发展全球竞争日益激烈的情况下，掌握获取信息的先进方法将对一个民族和国家的发展有着举足轻重的意义。本体是近年来随着计算机信息、知识处理、人工智能、知识工程等学科的发展而迅速兴起的一个十分具有活力的研究领域。本体最先被用于人工智能的知识表示领域，它能够用形式化的方式去对语义信息建模，形成有良好概念层次和联系紧密的知识体。这一能力自然可以弥补传统信息检索的最大不足。本武汉理工大学硕士学位论文体被应用于广大的领域，是有名的下一代互联网，称为“语义网”的核心技术。而迫切需要语义理解和处理能力的信息检索领域自然成了本体技术应用的重要领域。如何将本体技术用于信息检索领域从而实现语义检索具有深远的研究意义和社会应用价值，成了现代信息检索领域研究的热门，受到了越来越多的学者和专家的关注。 1 3 相关背景知识 1 3 1 信息检索概述信息检索m 4 3 1 ( i n f o r m a t i o nr e t r i e v a l ) 主要包括信息存储和信息查找，是指事先将信息按一定的方式进行组织和存储，形成信息库，在需要使用时根据用户对信息的描述，从信息库中找到与查询相关的信息的过程。它包括对信息进行表示、存储、组织、查询和对查询结果进行处理等各个方面。一般而言，信息检索系统由信息数据库、检索入口、用户信息处理、查询引擎等几部分构成。信息数据库是指按一定方式、以数字形式存储、可通过计算机存取、相互关联的数据集合。数据库的特点是：重复数据少、可以共享数据资源，以最优的方式提供一个或多个应用服务、数据具有独立性，其存放独立于应用程序之外。检索入口作为用户和计算机信息检索系统之间的交互桥梁，是信息检索系统的重要部分，它往往能反映系统的功能特性，即系统可以为用户提供什么样的查询服务。用户信息处理模块负责将用户的信息需求转化为查询表达式，查询表达式是反映用户信息需求的字串，该字符串可以是关键词序列，也可以是布尔表达式，或其它形式。构造查询表达式的核心是既能反映用户信息需求，又要能够被计算机所识别和处理口1 。查全率和查准率是信息检索系统性能的主要指标h 1 。作为一个互相作用的有机整体，信息源的存储和组织方式，以及信息检索入口提供的用户需求的表达能力，都将对信息检索系统的性能起到重要的影响。 2 武汉理工大学硕士学位论文 1 3 2 信息检索的种类目前，信息检索技术可分为3 类n 3 儿1 4 3 ：全文检索( t e x tr e t r i e v a l ) 、数据检索 ( d a t ar e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) 。数据检索：一般是通过关系数据库来实现，具有严整的结构，允许对预先设定好的字段检索。它的优点是：有成熟的数据库技术的支持、效率较高、检索的查准率高。缺点是：数据的结构性过于严格单一、表达能力局限在很小的局部应用范围，不适合用于复杂的大范围的应用领域，因此一般用于各种小型局部信息系统。数据检索的性能取决于所使用的字段标识方法和用户对这种方法的理解，具有很大的局限性啪1 。其支持语义匹配的能力较差【2 0 】且不支持语义推理。主要基于词频分析技术啪1 ，将用户提交的关键词与信息源中文本形式的文字进行逐一匹配，找出可匹配的网页返回给用户。它的优点是：不需要复杂的信息组织过程，预处理比较简单。缺点是：参与匹配的关键词只是按字面意思来比较，而不去理会它们的语义。而同一个概念可能对应着多个不同的关键词。用户的检索需求常常与这些语义相关，这样一来，很可能检索到的信息并不是用户想要的，从而导致低下的查准率。另一方面，这种查找方法无法把多个关键词按照某种语义组织起来，形成概念级的意义，所以用户很难利用简单的关键词来准确表达自己的真正需求。典型的代表是百度和g o o g l e 的搜索引擎。知识检索是基于知识的、语义上的匹配n 副，在知识检索系统中，信息源被进行语义标注，形成元数据，并按照领域的各概念以及概念间的语义联系组织成一个有机整体h 3 1 ，可以很方便的从一个资源找到与之有某种联系的资源。并且有强大的表达能力，用户可以根据语义表达出复杂的检索需求，因此在查准率和查全率上有最好的性能。相比其他种类的信息检索技术，知识检索有着最接近人类自然语言的表达和理解方式。因此，自然语言理解是与知识检索联系最紧密的技术之一。无论是从检索入口，还是结果的描述，都按概念的含义组织起来，最方便用户的需求的表达和对检索结果的理解。因此知识检索是互联网信息检索的发展趋势。 1 3 3 传统信息检索的问题表现随着信息化社会的日益发展，信息量成几何级急剧增长，人们在面临数量巨大种类纷繁的信息时，越来越难从庞大的信息海洋中找到自己所需要的信息。武汉理工大学硕七学位论文根据信息源的不同，我们有针对局部应用的基于商业数据库技术的专用数据检索系统，有针对开放的互联网环境的基于全文检索的搜索引擎。虽然这些检索系统给我们查找自己所需要的信息带来了很大帮助，但是它们仍然不能满足我们的需要，在很多方面表现出许多的不足和无力。总体而言，目前信息检索，存在着以下几个方面的不足： ( 1 ) 缺乏有效的信息源组织方法从数据源的角度来看，某些信息检索系统特别是搜索引擎，其主要信息源是i n t e r n e t 上数量巨大、种类繁杂的页面，而i n t e m e t 上的数据的表达方式主要是h t m l 语言，用于给用户直接阅读，没有根据信息的内在含义联系将其组织起来，即缺乏结构良好的元数据。搜索引擎中的信息组织方式一般基于关键词，没有把各概念以及概念间的语义联系表达出来。这使得搜索引擎无法对网页上的数据进行概念和语义层次上的处理h 羽，而信息检索建立在信息组织的基础上，信息缺乏有效的组织必定直接影响到信息检索系统的各方面的表现。 ( 2 ) 查询准确率不理想这点主要是从用户角度来看的，查询准确率低表现在返回大量的结果是用户不需要的。用户必须在大量的检索结果面前继续人工寻找出哪些是自己需要的，这样就会浪费用户大量的时间。查询准确率低主要是由于基于关键词的搜索引擎缺乏对关键词的内在含义的理解能力，进而缺乏对用户需求的理解能力造成的。 c a ) 用户检索需求表达困难在数据检索系统中，用户提交检索需求，是通过一些预先准备好的属性字段，提交属性值，来实现检索的。或者是进行多个字段的简单逻辑组合来进行提交。这种方式提交的检索需求一般是比较准确的，但是随之雨来的阀题是表达能力的低下。用户的需求表达被限制在预先决定的少数字段中( 如图书查询系统中图书的“书名 ) ，如果用户的需求超出这些字段，将无法得到表达。也就是说，系统允许用户表达需求的范围太小。另一方面，用户可能需要进行一些更复杂的查询，比如“所有由年龄在5 0 岁以上的清华大学的教授写的某领域的书。这种需求是无法再由简单字段构成的逻辑组合中得到表达的，而要求在某一概念网络中才能得到表达。在搜索引擎中，信息缺乏某种统一的语义描述，用户提交检索需求，是通过提交一些关键字，或者关键字的逻辑组合，一般只提供两种逻辑运算符。由 4 武汉理工大学硕士学位论文于同一概念对应的关键词可能有多个，并且搜索引擎不理会关键词的语义，无法理解用户的需求。这导致用户可能在搜索效果不理想时反复变换自己的关键词来试图“幸运”的表达自己的要求。经过以上的分析和总结，可以得出这样一个结论：如何使信息具有计算机系统可以理解和处理的语义信息，实现信息资源的语义检索，是信息检索走出困境的关键，也是目前面临的主要挑战。 1 3 4 传统信息检索问题的系统级分析经过对各种不同的信息检索系统的仔细比较和研究，本小节针对系统的工作过程来分析问题的所在。总结出的问题主要有两个方面。首先，从检索的交互界面看，第一，在检索请求信息的理解策略上，传统的信息检索技术采用的是基于关键字的检索技术，难以理解用户提交的检索请求信息的内在含义，也就是不能理解信息的语义。这就使得信息的查准率极为不理想，返回的结果中充斥着大量无用的信息。第二，检索入口接受检索要求的能力不足，用户只能提交比较简单的检索要求，比如基于某些单一的属性来查找资源信息。用户无法或者很难根据信息之间的丰富的联系来获取自己所需的信息资源，很难实现跨类别的资源检索。再者，从数据组织的角度看，目前流行的信息检索系统的信息存储和表达的方法都是基于关系数据库技术的。由于关系型数据库是基于关系模式的，属于比较低的逻辑级别，因此存在着诸多的固有的缺陷。主要有如下几点： ( 1 ) 由于从概念模式转化到关系模式，必然损失很多语义信息，这就使得知识层的语义完整性难以保证，特别是在信息的规模和种类都变得庞大和复杂的时候。 ( 2 ) 由于从概念模式转化到关系模式的方法有多种，同样的概念体系转化成关系表后可能有多种形式，这就使得不同系统间知识层的共享变得几乎不可能。 ( 3 ) 传统关系数据库的数据冗余问题。关系数据库的特性决定了数据库中经常存在着大量的冗余信息，这给数据的维护带来极大的不便。 ( 4 ) 由于关系模式缺乏统一的形式，基于关系模式的知识层难以提供一致的应用接口供应用层调用。这导致知识层和应用层过度混杂，应用层过分依赖关系模式的具体细节，使得应用层的构建极为不灵活和不方便。具体表现在：应用中通过s q l 语句访问关系数据库，必须深入了解关系模式的逻辑结构。即使武汉理工大学硕士学位论文在同类应用中，关系模式可能相差很大，这也使得的知识层的重用非常困难。 1 3 5 语义检索的提出传统信息检索技术的根本问题在于无法理解信息资源中的语义信息。人们开始寻找一些方法来解决这一根本问题，关键在于需要增强信息检索系统的概念理解及分析能力，从词语意义层次上来理解和处理用户的检索请求，以及组织信息源，从而实现语义检索。语义检索在对内容的分析理解、内容表达、知识学习、推理机制、决策等基础上实现检索的概念化口1 。 1 3 6 本体技术在语义检索中的意义语义检索与传统信息检索相比较，关键优势在于它能理解信息的内在含义，以及它们之间的语义联系，从而可以理解用户的需求和资源的含义，从而大大增加其智能性，提高查准率与查全率n 7 1 。本体是一种能在语义层次上的概念模型建模的技术。事实上本体具有良好的概念层次啪1 ，以及在概念间建立丰富复杂语义联系的能力。在语义检索系统中，本体正是系统理解语义信息所必须的知识体。在特定领域，本体可以形式化领域内的知识，形成局部的知识体。而通过把许多个局部本体有机的组织联系起来，则可以形成涵盖面广大的系统的本体，这j 下好可以用于涉及面广的面向互联网的语义信息检索。总结起来，本体技术在语义检索中的作用有： ( 1 ) 为用户和机器提供一种对概念理解的共同标准本体用形式化的方法来提供概念的规范说明，可以用来描述领域知识，形成对该领域知识的共同理解。这一共同理解如同工程中一座大厦的基石，为交流各方提供了一个统一的认识n 蝴乜。因此本体可以大大提高用户和检索系统的交流能力。 ( 2 ) 为知识共享和重用提供了可能基于本体技术的语义网的提出的一个重要初衷就是实现知识的重用与共享。由于本体技术的表达能力处于知识级，不像关系数据库那样处于一个字段组的低层。因此一个设计精良的本体可以很方便的运行在任何需要它的地方。不同的系统间可以基于同一本体来达到一致的协同交互，从而实现知识共享。 6 武汉理工大学硕士学位论文 ( 3 ) 提供有效的组织信息资源的手段，并揭示其语义本体提供了一种按照信息本身内在语义的方式来将它们组织起来的方法。在这种组织方式中，可以很方便的从一个信息资源找到与之有某种语义关联的另个信息资源，提高了检索能力。更重要的是，这种组织方法揭示了资源的语义，将其纳入本体的概念系统中，从而可以被机器“理解。 ( 4 ) 使信息检索可以进行语义扩展可以利用本体对用户检索进行领域内的概念及属性关联扩展。这样返回的结果中不但有精确的结果，而且与用户的检索要求语义相近的信息资源也可以被检索到。这样查全率就可以大大提高。 ( 5 ) 大大增强了用户的检索需求的表达能力无论是传统数据检索系统中用户通过信息的某些字段来提交检索需求，还是搜索引擎中用户通过某些关键字的逻辑组合来提交检索需求，表达能力都非常的不足。前者表达范围很小，后者表达的很模糊。而在语义检索系统中引入本体后，用户可以依据本体中的概念知识来提交自己的检索需求，不仅更准确无误，而且可以大大提高用户的表达能力。只要是在本体的知识范围内，任何语义组合的检索需求均可以被提出。 ( 6 ) 使得检索具有语义推理的能力，更加智能化通过语义推理，语义检索不但可以检索到符合检索需求的直接结果，还可以检索通过推理可以满足用户需求的间接结果，从而大大提高查全率。因此，本体技术在信息检索中的使用将大大提高检索系统的各方面性能，具体表现在查全率与查准率、检索需求表达能力以及检索结果的可读性的大幅提高。 1 4 国内外相关研究了解国内外本体和语义检索的研究现状，有助于增加对于本体在语义检索中作用的感性认识，学习国内外相关的先进技术和思想是进一步改进和发展语义检索技术的基础。自本体技术在人工智能领域被提出后，其理论被逐渐深化，应用领域越来越广，相关的各方面的研究也越来越多。在本体的建模，本体建模语言，本体的合并，本体映射，基于本体的自然语言理解，利用本体进行语义标记等领域均有大量的学者进行了研究。这些研究都很大的推动和加快了本 7 武汉理工大学硕士学位论文体在语义检索方面的应用。在基础研究方面，国外的针对本体应用领域的研究组织很多，研究的内容和方向也很丰富，在很多方向如本体建模方法，本体语言等形成了很多成熟的标准。万维网联盟( w 3 c ) 在本体和语义网方面进行了研究工作，作出了巨大的贡献，特别是在本体表达语言上，其制定了) a l + r d f i f s + o w l 作为层次的本体表达语言。其首先制定x m l 作为一种半结构化标记语言，并在此基础上加入r d f ( r e s o u r c ed e s e r i p t i o nf r a m e w o r k ，资源描述框架) ，形成主谓宾陈述结构的资源描述的语法规范。并在此基础上加入w e b 本体语言o w l ( o n t o l o g y w 曲l a n g u a g e ) 标准规范，形成强大的本体语言机制。在本体建模方面，斯坦福大学的知识系统实验室致力于知识表示的研究，开发了本体的建模工具 p r o t 色g 色，支持本体的可视化开发以及本体一致性检查。惠普实验室的开放源代码j e n as e m a n t i cw e bf r a m e w o r k ，为本体的应用提供了兼容性强的接口和统一的模型，使我们看到了本体应用的前景和建立统一标准的可能性。著名的本体基础项目主要有，项目( o n t o ) 2 a g e n t i x i s 的是为了帮助用户获得 w w w 的上已有的本体的信息，它是一个关于本体的本体。其核心是以w w w 上己有的本体为对象建立起来的本体，它保存了各类本体的元数据。 o n t o b r o k e r 瞳儿8 3 面向的是w w w 上的网页资源，目的是为用户按照所关心的内容检索到所需要的网页。s k c 瞳儿刀是一个正在进行的项目，其目标是通过一个代数系统来解决语义异构本体的互操作问题。国外基于本体也开发出了许多成功的应用系统。比较典型的成功的基于本体的检索应用如阿姆斯特丹自由大学和荷兰e l s e v i e r 出版社合作研制了一个医学文献语义检索工具d o p e n 训( d r u go n t o l o g yp r o j e c tf o re l s e v i e r ) ，其中的本体是以e m 树状叙词表为其术语结构，提供与疾病相关的药物本体信息。再如i tt a l k s 乜钔嗌1 是美国马里兰大学在d a r p a 资助下开发的一个基于本体的w e b 门户系统，主要用于对n 领域内的各种会议信息进行智能集成和智能在线检索。其核心部分由七个本体组成，包括：时间本体、主题本体、人本体、地点本体等。这些本体由语义彼此关联形成一个大的本体，能够描述复杂的信息，从而拥有提供知识级服务的能力。例如，可以查找出“在斯坦福大学1 5 英里以内、某段时间、某类话题”的所有会议信息。还可以根据用户的活动时间表和感兴趣方向，自动安排出合适的会议瞄钔。国内对本体的应用研究起步比较晚，相比于国外先进的研究水平存在很大武汉理工大学硕士学位论文的距离，但还是有不少的技术工作者对这一领域进行了探索，也取得了不少有意义和价值的研究成果。其中比较有影响的有中科院数学所陆汝铃研究员领导的基于本体的常识知识的实用性研究n 1 1 。这个项目建立一个大规模的基于本体和a g e n t 的常识知识库p a n g u ，并尝试利用常识知识来解决一些实际问题( 如，机器翻译和自然语言理解等) 。中科院计算所智能信息处理开放研究室建立的基于本体论和多主体的信息检索服务器利用了多智能主体和本体理论设计n 幻。浙江大学人工智能研究所基于o n t o l o g y 的产品信息集成研究饽1 等。总的来说，在国内，关于本体的研究以理论方法居多，相对于国外，成功的应用很少，这一现状决定了在我国本体以及语义检索方面的研究成为当务之急的一个重点。 1 5 论文的研究目标和内容本论文的研究属于语义检索的基础研究，目标是探讨如何将本体技术融入到信息检索中，从而形成具有语义理解和推理能力的语义检索系统，以解决传统信息检索无法理解和处理信息资源的语义信息的问题。本论文主要的研究内容有：分析传统信息检索的不足，弄清本体技术到底可以为信息检索做什么，带来何种优越性。为语义检索设计一种具有比较强的表达能力的检索入口。研究如何利用j e n a 语义网应用构建框架来实现语义检索系统。对语义检索进行需求分析和系统设计，其内容覆盖语义检索的各方面，如知识本体构建、信息组织、检索入口设计、检索中的语义推理、检索系统的构架等等。研究如何使得语义检索系统具有较强的语义推理能力。实现一个基于本体的会议论文语义检索系统的原型系统作为一个通用的模型，并在此实验系统的基础上分析其相对于传统信息检索的优点。 1 6 论文的创新点论文的主要创新点有： 9 武汉理工大学硕士学位论文 ( 1 ) 通过对比自然语言的结构，分析了信息检索需求表达的内在结构，提出一种可以在深度上组合的表单结构的检索入口。这种检索入口的优点在于其在拥有比较强大的检索需求表达能力的同时还容易被系统所处理。 ( 2 ) 研究了如何在语义检索中实现语义推理来提高语义检索系统的检索性能，提出并研究了通过加入自定义推理规则来扩展本体的语义表达和处理能力，从而完善语义检索系统的智能性。 1 7 论文的组织结构本论文一共分为七章，以下是各个章节的内容组织的结构：第l 章是绪论，主要介绍相关知识背景以及国内外研究现状，分析了传统信息检索的问题，探讨了语义检索的重要性和意义，确定了本论文的研究方向和目的。第2 章主要介绍本体、语义网、本体描述语言等相关知识，为后续章节作准备。它们相互之间有密切的关系，是语义检索的基础。第3 章在深入研究j e n a 的功能组成后探讨了如何利用j e n a 来实现本论文的语义检索系统。第4 章完成会议论文语义检索系统的设计，并探讨设计过程中的主要问题。本章主要包括：系统需求分析、系统模块结构、系统流程分析、检索入口设计、语义查询扩展算法等。第5 章介绍了本论文的会议论文语义检索系统的实现过程，包括：从领域本体设计到编码、检索入口的实现、检索语句组织算法实现等。第6 章是系统的测试，通过在本论文的会议论文语义检索实验系统运行实例来测试和检验该语义检索系统的有效性，以达到实践和理论相结合的目的，在实践中来探索和体会语义检索的优势。第7 章是总结和展望，在总结当前研究的优点和不足的基础上，以展望语义检索今后可研究的重点和方向。 1 0 武汉理工大学硕士学位论文第2 章本体和语义网语义检索的核心技术是本体而本体和语义网密不可分，可以说本体应用在互联网上就形成了语义网，在语义网的提出和发展中本体才得以发展。本章介绍本体和语义网的相关知识，这些知识是后面本论文的会议论文语义检索系统要用到的。 2 1 语义网的层次结构语义网是本体应用的最重要的成果之一。语义网研究的主要目的就是扩展当前的万维网，使得网络中的信息具有语义，能够被计算机理解，以便于人和计算机之间的交互与合作。本体在万维网上的应用直接导致了语义网的诞生。目前的网络是一个个相互连接的网页的集合体，用户依靠g o o g l e 和其它的搜索引擎进行浏览。而语义网技术可以将万维网上数量巨大种类繁多的资源整合成一个互相按其意义联系起来的整体，将万维网变成一个庞大的“知识数据库”。蒂姆伯纳斯李在x m l 2 0 0 0 大会上提出了语义网体系结构。如图2 - 1 所日。囱2 - j 带x 阳刑件尔后从靖佝语义网的层次结构中，每一层次都是建立在更低层次基础之上的。武汉理工大学硕十学位论文 u n i e o d e 和u r i 层：该层为编码层，为语义网的基础，其中u n i c o d e 为语义网提供一种统一的字符编码标准。u r i 则是语义网用于标识网络资源的统一方法。 ) a u n s + x m ls c h e m a 层：该层为语法层，之上各层均由x m l 语法来表达。x m l 允许使用者在他们的文档中插入任意的结构，但没有说明这些结构的含意。因此x m l 不能提供语义，所以在语义网结构中x m l 只是作为语法层，来为语义网的建立提供语法基础。 r d f r d fs c h e m a 层：数据层，定义了一种用以描述资源及其相互关系的简单模型，是语义网实现的关键技术之一。本体( o n t o l o g y ) 层：语义层。本体在r d fs c h e m a 基础之上大大扩充和完善了其语义表达能力，揭示资源本身及资源之间更复杂和丰富的语义关系1 。第五层以及其上各层在下面基层的基础上进行逻辑推理以提供认证机制及信任机制。数字签名可以确保内容的来源和安全性，这样就杜绝了伪造信息的可能性，从而保证信息源的合法性和安全性。数字签名对于语义网及其它使用x m l 进行交换的系统非常重要啪儿2 刀。由语义网的层次结构可发现，语义网的实现依赖于三大关键技术：x m l 1 、 r d f 和本体。x m l 、r d f 作为数据表示的规范，而本体对语义提供概念化描述。这也是本论文的会议论文语义检索系统的知识信息层的层次结构。 2 2 本体与描述逻辑 2 2 1 本体定义本体的概念最初起源于哲学领域，可以追溯到公元前古希腊哲学家亚里士多德乜。本体在哲学中的定义为“对世界上客观存在物的系统地描述”，是客观存在的一个系统的解释或说明，关心的是客观现实的抽象本质。哲学家们认为本体是由现实的概念以及这些概念之间的复杂联系组成的。在计算机中，本体早先被用于人工智能领域的知识表示，如今越来越多的应用于信息工程、信息检索、机器翻译、知识科学、数据库集成和企业建模等领域。通俗的说，本体定义领域中基本概念词汇及其联系，形成主题领域的概念词汇表以及它们之间的属性联系，使它们形成结合在一起的规则体系n 引，一 1 2 武汉理工大学硕士学位论文个具有明确语义的整体。本体的目标是捕获相关的领域知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义口引。在人工智能界，越来越多的人研究本体，出现了许多不同的定义。各种定义虽然表达不同，但是从内涵上来看，不同研究者对于本体的认识是相对统一的，都把本体当作领域内不同信息体之间进行交流的手段，即由本体提供一种明确定义的共识1 。s m d e r 在1 9 9 8 年总结了前人提出的各种关于本体的定义最终提出：“共享概念模型的明确的形式化规范说明汹1 b 刀嘲。这个定义揭示了本体的四点特征：概念化( c o n c e p t u a l i z a t i o n ) ：通过抽象的机制来对客观世界进行建模，来建立概念集以及概念之间的关系。“概念化的含义是本体独立于具体的语言环境。明确( e x p l i c i t ) ：本体中的概念集及使用这些概念的联系都被精确定义。形式化( f o r m a l ) ：具有计算机可理解和处理的精确的数学描述。共享( s h a r e ) ：本体中体现的是共同认可的知识，反映的是相关领域中公认的概念集，它所针对的是社会范畴而非个体之间的共识。 2 2 2 描述逻辑描述逻辑h 2 1 ( d e s c r i p t i o nl o g i c ) 又称为术语逻辑，是一种基于对象的知识表示的形式化工具，是以对象为中心的。描述逻辑是一个用于描述及推理概念知识的逻辑公式的集合体，能够提供可判定的推理功能，是语义网络、框架等知识表示方法统一的逻辑基础。描述逻辑同时也是语义网中本体层的逻辑基础。本体描述语言o w l - d l 的逻辑基础和核心就是描述逻辑。描述逻辑是一阶谓词逻辑的一个可判定子集。因此其表达能力比一阶谓词逻辑要弱，所获得的优势在于具有可判定性。描述逻辑是命题逻辑和一阶谓词逻辑的折中。命题逻辑的推理简便但表达能力太弱，一阶谓词逻辑表达能力强大但是复杂度过高不可判定，二者均不适合于本体中的推理。而描述逻辑既可判定又具有较强的表达能力，因此是本体推理的最佳逻辑基础。 s c h m i d t s c h a u b 和s m o l k a 首先建立了基于描述逻辑a l c 的t a b l e a u 算法，其原理是是把可满足的概念集合通过一系列推理规则不断细化、扩展，直到发现冲突。如果直到概念被完全扩展仍然没有不可避免的冲突，就可以得到满足武汉理工大学硕士学位论文概念集合的一个解，从而证明概念集合是可以满足的。该算法能在多项式时间内判断描述逻辑a l c 概念的可满足性问题。目前，t a b l e a u 算法已用于各种描述逻辑中。图2 2 描述了基于描述逻辑的知识系统的体系结构。本论文的会议论文语义检索系统的知识系统部分正是基于描述逻辑的公理一实例体系结构。 2 3 本体构建 l 图2 - 2 基于描述逻辑的知识系统的体系结构本体作为知识体，往往是系统信息组织的依据，处理的参照，交互的基础，。因此在本论文构建的基于o w l 的语义检索系统中，本体构建处于核心的地位，其好坏对系统有着非常重要的影响。 2 3 1 本体构建的原则出于各自问题域和具体工程的考虑，构造本体的过程也是各不相同的，因此没有一个标准的本体构造方法。但是人们从实践出发，提出了不少正确构造本体的标准和原则，用以指导本体的构建和设计6 聃1 ：明确性：本体必须清晰，准确的定义术语。概念应该是客观的，完整定义的，应该用自然语言加以说明。 1 4 武汉理工大学硕士学位论文一致性：本体应该是前后一致的，亦即，本体中不应该有前后矛盾的地方。单调可扩展性：可扩展的本体应该可以支持在已有的概念基础上定义新的术语，以满足特殊的需求，而无须修改已有的概念定义。最小编码偏好：本体应该处于知识的层次，独立于其表示语言。最小约定：本体约定应该最小，就是说本体应该对建模领域进行最小程度的约束，只要满足基本的知识共享需求即可。 2 3 2 本体构建步骤目前本体的构建一般基于人工方式乜u 。一般而言，本体构建都具有以下几个步骤，在本论文的系统实现章节中构建会议论文领域本体就是基于以下步骤： ( 1 ) 确定本体的领域和作用范围首先要明确构建的本体所属的专业领域、应用本体的目的、作用以及它的系统开发，维护和应用的对象。以此来确定本体中内容的范围。 ( 2 ) 列出领域中的重要术语集在确定本体的领域和范围后，根据本体的需求尽可能列举出所有概念术语，并对它们的语义进行明确的界定和说明解释。 ( 3 ) 选择概念和术语并建立本体类层次关系首先将上一步得到的术语集进行筛选，去掉无用的或者不需要的术语，然后对其进行分类，建立类层次关系。一个类需要有多少个直接予类，并没有硬性规定。结构良好的本体的直接子类的数目一般在2 到1 2 个n 1 ( 4 ) 定义类的属性。在定义类层次之后，还必须定义类的属性关系。属性关系通常有两种。一种是所谓的“对象关系”，它的属性值的值域是某个类，这种关系建立的是类与类之间的联系。一种是所谓的“数值关系，它的取值是某种字面常量n 1 。 ( 5 ) 创建个体集个体是属于类的具体对象，无论是日常生活，还是系统实际应用中，总是要涉及到个体。因此还要创建应用必须的个体集。 ( 6 ) 对本体进行形式化编码对本体进行形式化编码需要选用一种合适的本体描述语言汹1 。现有本体描述语言约2 8 种，大都基于一阶逻辑，也有基于描述逻辑n 引。本论文中的本体编码武汉理工大学硕士学位论文采用o w l 语言，是w 3 c 组织研发的一种

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于owl的语义检索系统的研究与应用.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于owl的语义检索系统的研究与应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档