（计算机应用技术专业论文）基于ontology的信息检索系统的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：50 大小：1.57MB 积分：12 举报 版权申诉

（计算机应用技术专业论文）基于ontology的信息检索系统的研究.pdf_第2页

（计算机应用技术专业论文）基于ontology的信息检索系统的研究.pdf_第3页

（计算机应用技术专业论文）基于ontology的信息检索系统的研究.pdf_第4页

（计算机应用技术专业论文）基于ontology的信息检索系统的研究.pdf_第5页

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

河北工业大学硕士学位论文基于0 n t o l o g y 的信息检索系统的研究摘要近年来，随着i n t e m e t 的飞速发展，越来越多的研究机构、团体以及个人开始注意到网绳，并通过琳发布信息、查找信息。尽管i n t e r n e t 上有海量的信息，人们还是常常感到不能够找到自己想要找的信息。那么，如何使被管理信息资源具有应用程序可以理解的含义，方便用户进行信息检索，这成为一个很关键的问题。知识本体( o n t o l o g y ) 是共享概念的明确形式化规范说明，能够以一种明确的、形式化的方式来表示领域知识，提高异构系统之间的互操作性，促进知识共享。r d f r d f s 是一个完整的形式化系统，具备b n f 形式语法、基于模型理论的形式化语义，是一个完备、可靠的形式化系统。通过这些，保证了r d f 描述语义推理的形式正确性，保证了应用程序对r d f s 描述的知识本体的语义解释。本文首先简单介绍了信息检索系统的分类及其性能指标，语义万维网的体系结构，本体的概念。然后对知识本体与资源语义以及资源语义描述形式系统进行了深入分析和研究。并研究了本体构建的规则。利用r d f s 构建和开发了计算机领域本体，通过建立概念、概念之间的继承、实例以及多种约束关系表达了高度共享和重用的计算机领域知识。并提出了概念相似度、相关度计算，解决了传统知识表示中定性概念之间相似性和相关度量化计算的问题。在领域本体模型中，本文利用概念之间的语义距离进行概念相似度和相关度计算。这样来实现基于本体的智能信息检索，可以充分挖掘领域知识本体所提供的背景知识，通过r d f s 语义推理以及相似度和相关度计算，在已有的资源描述库中找到与用户需求语义相关的内容，实现相关信息的语义融合。提高信息检索的效率。关键词：信息检索，语义万维网，知识本体，资源语义茎王坐竺! ! 墅塑焦：垦丝量墨堑塑竺壅 r e s e a r c ho fi n f o r m m i o nr e t 嘲【e 、，a l s y s t e mb a s e do no n t o l o g y r e c e n t l nw i t ht h ef l y i n gd e v e l o p m e n to fi n t e m e t ，m o r ea n dm o r eo r g a n i z a t i o n ，g r o u po r p e r s o n ，b e g i nt op a ya t t e n t i o nt on e t w o r k ，a n di s s u eo rs e a r c hi n f o r m a t i o n o nn e t w o r k a l t h o u g h t h eq u a n t i t yo ft h ei n f o r m a t i o no fn e t w o r ki sv e r yh u g e ，s o m ep e o p l es t i l lf e e lt h a tt h e yc a nn o t f i n dw h a tm e yw a n t ，t h e nh o wt om a k et h er e s o u r c ec a nb eu n d e r s t u d i e db ya p p l i c a t i o ns o f t w a r e a n d e a s yt ob es e a r c h e d ，t h a ti sav e r yp i v o t a lp r o b l e m o n t o l o g yi sa ne x p l i c i ts p e c i f i c a t i o no fac o n c e p t u a l i z a t i o n i tc a ne x p r e s sd o m a n i a l k n o w l e d g ew i t hd e f i n i t e l y a n df o r m a l i z a t i o n ，i tc a ni m p r o v et h eo p e r a t i o n a l c a p a b i l i t yo f d i f f e r e n t s y s t e m a n da c c e l e r a t et h e s h a r i n go fi n f o r m a t i o n r d f r d f si s a n i n t e g r a t e f o r m a l i z a t i o ns y s t e m ；i ti n c l u d e st h es y n t a xo fb n fa n dt h es e m a n t i c sb a s e do nm o d e lt h e o r y , s o i ti sam a t u r ea n dr e l i a b l es y s t e m s o ，a l lt h e s ew i l li n s u r et h ec o r r e c t n e s so fr d fc o n s e q u e n c e a n dt h es e m a n t i ce x p l a i no nr d f so n t o l o g yo fa p p l i c a t i o ns o f t w a r e a tf i r s t ，t h i sd i s c o u r s ei n t r o d u c et h es o r ta n dc a p a b i l i t ys t a n d a r do fi n f o r m a t i o nr e t r i e v a l s y s t e ma n dc o n f i g u r a t i o no fs e m a n t i cw o r l d w i d e - w e b t h e nm a k eaf u r t h e ra n a l y s i sa n ds t u d y o no n t o l o g yk n o w l e d g e ，r e s o u r c es e m a n t e m ea n di t sd e s c r i p t i o n o n t o l o g ya n dt h er u l eo f d e s i g nh a v eb e e ns t u d i e d t h eo n t o l o g yo fc o m p u t e rd o m a i nb a s e do nt h ec o n c e p t i o n ，t h e i n h e r i to fc o n c e p t i o n ；e x a m p l ea n dt h el i m i t a t i o n sw i t hr d f sh a v eb e e nd e s i g n e di no r d e rt o s h o wi t sa l t i t u d i n a ls h a r ea n de s s e n t i a l i t y t h e nc o m p a r a b i l i t ya n dr e l a t i v i t yo f c o n c e p t i o n sh a v e b e e np u tf o r w o r d ，a n di ti su s e di nd o m a i no n t o l o g y t h i ss o l v et h ep r o b l e mo fc a l c u l a t et h e m w i mt r a d i t i o n a lk n o w l e d g e i nd o m a i no n t o l o g ym o d e l t h ec o m p a r a b i l i t ya n dr e l a t i v i t yw a s c a l c u l a t e db yt h ew e yo fs e m a n t i cd i s t a n c eb e t w e e nc o n c e p t i o n s ，t h e ni tw i l lr e a l i z et h e i n t e l l i g e n t i z eo fi n f o r m a t i o n r e t r i e v a ls y s t e mb a s e do no n t o l o g y , a n dc a nm i n es e m a n t i c i n f o r m a t i o no no n t o l o g y , a n dc a ns t u d yt h eb a c k g r o u n dk n o w l e d g ef r o md o m a i no n t o l o g y c a l c u l a t et h r o u g hr d f ss e m a n t i cr e a s o n i n ga n dt h ec o m p a r a b i l i t ya n dr e l a t i v i t y , i ne x i s t i n g r e s o u r c ed e s c r i b es t o r e h o u s ei tc a nf i n dt h ec o n t e n tt h a tc o r r e l a t e sw i t hu s e r sn e e d s ，r e a l i z et h a t t h es e m a n t i ca m a l g a m a t i o no fr e l e v a n ti n f o r m a t i o n ，i m p r o v et h ee f f i c i e n c yo ft h ei n f o r m a t i o n r e t r i e v a l k e yw o r d s ：i n f o r m a t i o nr e t r i e v a l ，s e m a n t i cw o r l d - 、v i d e - w e b ，o n t o l o g y , r e s o u r c es e m a n t e m e 第一章绪论 1 - 1 课题研究背景随着网络的发展，尤其是i n t e r n e t 的出现引发了新的信息革命。w w w 已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务网络，为用户提供了一个极具价值的信息源，并且它已成为 i n t e r n e t 上的主要信息来源。美国新泽西州n e c 研究所的劳伦斯和吉尔斯在2 0 0 2 年期的英国自然杂志上介绍说，根据他们的最新统计测算，目前因特网上可检索的网页在8 亿左右，这些网页分布于全世界约3 0 0 万个服务器中。面对如此巨大的信息源，要找到自己需要的信息，就如同是大海捞针。由于已经不能够单纯地靠手工查找或组织所有的信息，人们迫切需要能够快速、准确、经济地查找某个主题全部信息的信息检索系统。基于w w w 的检索工具的研制势在必行。在网络信息爆炸性增长的今e t ，网络信息检索已成为信息利用的重要组成部分，它们的成功应用也成为信息获取的保障。在网络上，检索信息己成为当今以至将来社会人们获取信息的重要手段。卜1 1 信息检索系统 1 信息检索系统的分类 w e b 信息检索系统以一定的策略在网络中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的作用。按照信息搜集方法和服务提供方式的不同，w e b 信息检索系统可以划分为三个层次“1 ：搜索引擎与目录检索、元搜索引擎、信息检索a g e n t 。如图1 1 所示。其中，每一层都建立在其卜各层的基础之上，并向其上各层提供信息检索服务。图1 1w e b 信息检索系统的层次分类 f i g 1 1l e v e lc l a s s i f i c a t i o no f t h ew e b i n f o r m a t i o nr e t r i e v a ls y s t e m ( 1 ) 搜索引擎和目录检索 1 ) 搜索引擎搜索引擎利用搜索器以某种搜索策略自动地在w e b 上搜集和发现信息，将搜集到的信息下载到本地文档库，由分析器对文档内容进行自动分析，然后由索引器建立索引。对于用户提出的查寻请求，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。搜索引擎的服务方式一般为面向网页的全文检索服务。它的优点是信息量大、更新及时、无须人工干预，缺点是返同信息过多，有很多无关的信息。搜索引擎一般由搜索器( r o b o t ，s p i d e r ，c r a w l e r 或w a n d e r ) 、分析器( a n a l y z e r ) 、索引器 ( i n d e x e r ) 、检索器( s e a r c h e r ) 和用户接口( u s ei n t e r f a c e ) 五部分组成。 2 ) 目录检索与搜索引擎不同的是，目录检索由人工方式或w e b 站点作者主动提交信息，由编辑人员查看信息之后，人工形成信息摘要，并将信息按照主题分类并以树状的形式加以组织，从树的根节点逐层向下列出了从一般到特殊的分类及各级子类，叶节点则包含指向w e b 信息的链接。信息大多面向网站。通常提供目录浏览服务和直接检索服务。需要注意的是，这里的检索服务是对主题分类和w e b 信息摘要的索引，与搜索引擎提供的w e b 文档内容的全文索引是不同的。目录检索由于加入了人的智能因素，所以信息准确、导航质量高，缺点是需要人工介入、维护工作量大、信息量少、信息更新不及时。由丁搜索引擎和目录检索两种系统彼此互补，在类型上这两者有逐渐融合的趋势。除非特别说明，通常将两者统称为搜索引擎。 ( 2 ) 元搜索引擎元搜索引擎一般主要由代理服务器、w e b 信息获取与处理接口、任务调度器、知识库、连接管理器和搜索引擎六部分组成。知识库用来描述异构节点特征。连接管理器在任务与其他w e b 搜索引擎之问起到中间层的作用，通过智能化的动态决策，为w e b 搜索引擎服务请求提供了高效的连接与安全管理。在元搜索引擎中，信息获取方式主要是以现有的w e b 搜索引擎为基础进行查询，而它本身是否提供传统搜索引擎服务是可选的。如果它本身提供传统搜索引擎服务，该传统搜索引擎在层次上与其他搜索引擎是对等的。元搜索引擎将w e b 上现有的众多搜索引擎看成一个整体，为用户提供一个透明的分布式异构搜索引擎环境。 ( 3 ) 信息检索a g e n t 信息检索a g e n t 是一些智能化的程序，它们能够学习用户的兴趣需求，并利用搜索引擎系统提供的现有服务来定制用户的所需信息。它们既可以运行在服务器端，也可以运行在客户端。信息检索 a g e n t 具有以下特征：可适应性、主动性、协作性、移植性。信息检索a g e n t 通常由代理服务器、文档管理器、建议a g e n t 、学习a g e n t 、管理a g e n t 和搜索引擎六部分组成。 2 信息检索系统的性能指标信息检索系统一般用查全率( r e c a l l ，召回率) 和查准率( p r e c i s i o n ，精度) 作为衡量系统性能 2 坦j ! 三些盔堂堡主兰丝迨苎的参数2 。查全率是检索出的相关文档数与文档集中所有的相关文档数的比率。对于w e b 信息检索系统来讲，因为对于一个查洵总能返回很多信息，查全率一般不成问题。没有一个w e b 信息检索系统能够搜集到所有的w e b 网页。】，查全率很难比较，因此衡量w e b 信息检索的性能时，查全率很少使用。查准率是检索出的相关文档数与检索出的文档总数的比率。一般来说，查准率很少能够达到1 0 0 。对于一个信息检索系统来讲，查全率和查准率不可能两全其美。查全率高时，查准率低。为了达到很高的查全率，需要使用限制较弱的检索条件，这样查准率不高，反之亦然。较好的做法是对查全率与查准率两种骂求采取中庸态度，即采用中间程度的检索条件，这样可以得到一种中间最优效果。 3 信息检索技术的分类 ( 1 )全文检索( t e x tr e t r i e v a l ) 全文检索就是把用户的查询请求和全文中的每一个词进行比较，不考虑查询请求和文件语义上的匹配。缺点是虽然可以保证查全率，但是查准率大大降低。 ( 2 ) 数据检索( d a t ar e t r i e v a l ) 数据检索是查询要求和信息系统中的数据都遵循一定的格式，具有一定的结构，允许对特定字段检索。需要有标识字段的方法。其缺点是性能取决于所使用的字段标识方法和用户对方法的理解，具有很大的局限性，支持语义匹配的能力较著。 ( 3 ) 知识检索( k n o w l e d g er e t r i e v a l ) 知识检索是基于知识的、语义上的匹配，在查准率和查全率上有更好的保证。是信息检索的重点，特别是面向w e b 信息的知识检索的重点。卜1 2o n t o l o g y 的定义 o n t o l o g y 是一个哲学上的概念，用于描述事物的本质，在近一、二十年，o n t o l o g y 已被计算机领域所采用，用于知识表达、知识共享及重用，许多学科和研究领域都在使用“本体”这个术语，但存在不同的定义。 1 哲学中o n t o l o g y 的含义 o n t o l o g y 是西方哲学特有的一种形态，人们把它当作从帕拉图到黑格尔的西方传统哲学的主干或 “第一哲学”，这就意味着它是各个哲学分支的理论基础，是理论中的理论，哲学中的哲学。从o n t o l o g y 的发展形态看，它是把系词“是”以及分有“是”的种种“所是”( 即存在) 作为范畴，通过逻辑的方法构造出来的先验原理体系。“是”是西方哲学中最抽象，最普遍的范畴，存在和本质是“是”是有区别的，o n t o l o g y 中的“是”的意义就是它的逻辑规定性，这是o m o l o g y 语言与日常语言的一个根本区别。日常语言中的词或概念归根结蒂是经验的：它或是指示一个经验中的对象或者是主观心态的描述，而o n t o l o g y 的语言则是通过其范畴的逻辑规定性而使“语言”变成了某种独立的特殊王国，这就是 o n t o l o g y 哲学的语言秘密，o n t o l o g y “通过词的形式具有自身的内容”，o n t o l o g y 语言的这一特性，同 o n t o l o g y 的特殊思想方式是一致的，它是一种纯粹的思想哲学。第一位为o n t o l o g y 下定义的是德国哲学家沃尔夫，他认为：“o n t o l o g y 论述各种抽象的，完全普遍的哲学范畴，在这个抽象的形而上学中产生偶性、实体、因果现象等范畴。”所以，o n t o l o g y 是靠从概 3 的参数 2 1o 查尘率是检索出的相关文挡数与文档集中所有的相关文档数的比率。对于w e b 信息检索系统来讲，因为对于一个查陶总能返回很多信息，查全率一般不成问题。没有一个w e b 信息检索系统能够搜集到所有的w e b 阿页”1 ，查全率根难比较，因此衡量w e b 信息检索的性能时，备，垒= 率很少使用。音准率是检索山的相关文档数与检索出的文档总数的比率。般来说，查准率很少能够达到l o g 。对于一个信息检索系统来讲，查全率和查准率不可能两全其美。查全率高时，查准率低。为了达到很高的查垒率，需要使用限制较弱的检索条f l ：，这样查准率不高，反之亦然。较好的做法是对查全率与齑准率两种要求采取中庸态度，即采用中间程度的检索条件，这样可以得到一种中间最优效粜。 3 信息检索技术的分类 ( 1 ) 全文检索( t e x tr e t r le v a l ) 全文检索就是把用户的查询请求和仝文中的每个词进行比较，不考虑查询请求和文件语义上的匹配。缺点是虽然可以保证杏全率，但是查准率大大降低。 ( 2 )数据检索( d a t ar e t r i e v a l ) 数据榆索是查询要求和信息系统中的数据都遵循一定的格式，具有一定的结构，允许对特定字段检索。需要有标识字段的方法。其缺点是性能取决于所使用的字段标识方法和用户对方法的理解，具自很大的局限性支持语义匹配的能力较差。 ( 3 ) 知识检索( k n o w l e d g er e t r i e v a l ) 知识检索是基于知识的、语义上的匹配，在查准率和查全率上有更好的保证。是信息检索的重点，特别是面向w e b 信息的知识检索的重点。卜1 2o n t 0 1 0 9 y 的定义 o n t o l o g y 是一个哲学上的概念，用下描述事物的本质，在近一、二十年，o n l o | o b y 己被计算机领域所采用，用于知识表达、知识共享及重用，许多学科和研究领域都在使用“本体”这个术语，但存存不同的定义。 1 哲学中o n t o l o g y 的含义 o 【l l o i o 妍是西方哲学特有的一种形态，人们把它当作从帕拉图到黑持尔的担方传统哲学的主干或 “第哲学”，这就意味着它是各个哲学分支的理论基础，是理论中的理论，哲学中的哲学。从o n t o l o g y 的发展形态看，它是把系词“是”以及分有“是”的种种“所是”( 即存在) 作为范畴，通过逻辑的方法构造出来的先验原理体系。“是”是西方哲学中最抽象，晶普遍的范畴，存在和本质是“是”是有区别的，o n t o l o g y 中的“是”的意义就是它的逻辑规定性，这是o n t o l o g y 语言与日常语言的一个根本区别。日常请肓中的词或概念归根结蒂是经验的：它或是指示一个经验中的对象或者是主观心态的描述，而o n t o i o g y 的语言则是通过其范畴的逻辑规定性而使“语言变成r 某种独立附特殊王国，这就是 o n t o l o g y 哲学的语言秘密，o n t o l o g y “通过词的形式具有自身的内容”，o n t o l o g y 语言的这一特睫，同 o n t o l o g y 的特殊思想方式是一致的，它是一种纯粹的思想哲学。第位为0 n t o l o g y 下定义的是德国哲学家辑尔夫，他认为：“o n t o l o g y 论述各种抽象的，完全普遍的哲学范畴，在这个抽象的形而上学中产生偶性、实体、因果现象等范畴。”所以ro n t o l o g y 是靠从概哲学范畴，在这个抽象的形而上学中产生偶性、实体、因果现象等范畴。”所以ro n t o l o g y 是靠从概念到概念的推演构筑起来的先天的原理系统。 2 计算机科学中o n t o l o g y 的含义在计算机领域中，o n t o l o g y 是对概念化对象( c o n c e p t u a l i z a t i o n ) 的明确表示和描述。n i c o l a g u a r i n o 把概念化定义为：c = 其中d 是一个领域，w 是该领域中相关的事务状态( s t a t eo f a f f a i r s ) 的集合。r 是领域空间上概念关系( c o n c e p t u a lr e l a t i o n ) 的集合，o n t o l o g y 是采用某种语言对概念化的描述。因此，o n t o l o g y 依赖于所采用的语言，按照表示和描述的形式化程度不同，可以分为完全非形式化的、半形式化的和严格形式化。o n t o l o g y 形式化程度越高，越有利于计算机进行自动处理。卜卜3 选题意义随着i n t e r n e t 的普及与推广，网络上的信息已是海量。作为网络的基本工具，搜索引擎为用户提供了一种可以方便快捷地检索到自己所需信息的途径。目前的搜索引擎主要是基于关键词的全文匹配或是基于主题分类( 例如y a h o o ) 进行检索的。结果往往会返回大量无关的链接，使得用户将大量的时间耗费在排除无关信息上。同时，用户和网络文档对同一概念的表述形式往往会有差异，导致无法接收到有用的信息。因此在检索过程中应该导入概念的内容表述一一语义，使检索过程由原来的关键词( 组) 匹配进化为内容匹配，以克服上述仅有表达形式上的匹配所带来的种种缺陷。在这种检索的智能化过程中，o n t o l o g y 扮演了一个十分重要的角色。当前万维网信息检索系统存在若干缺陷，同时也反映了当前搜索引擎的一些弊端；通过从技术上作进一步的研究和分析，可以看出一些问题。 1 检索表达式问题一一现有的搜索引擎提供的提问函数是相当有限的，大多数的搜索引擎只提供关键词见最基本的布尔连接；而且仅允许用一组关键词及逻辑运算符组成提问。由于关键词检索不能完全满足用户的要求，而且它是一种盲目的匹配；基本上不支持自然语言检索，不能实现对检索表达式的智能处理。 2 历史信息丢失问题任何历史信息都有一定的指导作用，但用户的每次检索都是从头开始的检索，不能从原有的查询结果中作进一步的提炼，这样的做法在很大的程度上降低了检索的效率。 3 结果显示问题一这是一个热点技术。搜索引擎找到的信息太多，且很多信息不一定与用户要求相关。面对这些结果，用户可能只选择- - d 部分信息，而放弃大部分信息。结果是有可能丢失很多有用的信息。因此这是一个极为重要的关键技术。 4 缺乏优秀的人机交互能力和系统的自适应能力。 5 数据库的有限信息性一一由于现在w e b 上的信息量变得越来越大，单个的搜索引擎不可能包括整个网络的轨迹，统计数据表明：当前所有搜索引擎中信息覆盖最大的也只占整个万维网信息量中的1 6 。而且这个百分比正在变小，在这种情况下，用户检索的查全率将难以得到保证。 6 数据库中数据更新远远跟不上万维网中信息的更新速度一一例如，像y a h o o ! 之类的搜索引擎，他们主要靠人工进行工作。 7 搜索引擎缺乏智能性一一当前采用的相关度匹配策略具有一定局限性，没能支持推理检索技术。 4 由于万维网信息检索是基于客, o i j 务器体系，针对上述的问题，可以分别在检索的客户端和服务器端引入相应的信息处理技术以提高检索系统的性能。利用o n t o l o g y 进行网络搜索引擎的设计正是解决了万维网信息检索的些弊端，能够有效的提高信息检索的查全率和查准率。卜2 语义万维网的介绍 w w w 是一种基于超文本文件的交互多媒体信息系统。w w w 提供了一种非常易与使用的接口，用浏览器软件可以访问f t p ，g o p h e r ，n e w s 等过去要用不同的客户程序才能访问的信息资源，它统一了整个因特网，使之成为一个超媒体的信息资源的集合。 w w w 创立之初的目的是建立种服务用于文件浏览和传输，而不是针对a g e n t 或者自动化应用处理信息。面向人类阅读与面向机器处理两种不同使用方式对数据的要求存在着一些其本的差异：面向人类的数据强调的是数据的表现形式而不需要对数据进行语义标记，简单的说就是要求接口友好，使用简单。而面向机器的数据强调的是机器可读性的问题应该具备跨平台的能力以及应该按照能够帮助机器理解其语义信息的方式来组织。为了实现面向机器理解的万维网，t i mb e r n e r s l e e 与2 0 0 1 年正式提出了语义万维网“( s e m a n t i cw e b ) 。语义万维网是当前万维网的扩展，扩展之后，万维网上的信息具备良好定义的含义，可以帮助人类和计算机更好的协同工作。语义万维网的基本体系结构如图 1 2 所示：。r r u s t p r o o f d a t a ： 4 l o g i 。 d i g i t a l i s i g n a t u r e 妇” 、 o n t m 啊v o c 洲町、j r 。r + r d 盎c n e m a x m l 十n s + x m l s c h e m a u n i c o d eu r j 图1 2 语义万维网层次结构 f 远1 2h i e r a r c h i c a ls t n l c t u r eo fs e m a n t i cw w w 语义万维网体系结构包括七层，各层的基本功能和相互关系如下： 1 u r i s 和u n i c o d e ：w e b 环境下的应用之间不可避免地需要相互通信，以机器可读的格式传递或发布信息。这些信息中很大一部分是对w e b 上资源的描述，因此，首先应该以明确的方式来标识这些资源 ( 对象) 。语义万维网采用统一资源标识符( u n i f o n i lr e s o u r c ei d e n t i f i e r s ，u r i ) 来标识资源及其属性，u r i 是一个i n t e r n e t 标准，记载于r f c 2 3 9 6 ”。它和万维网常用的统一资源定位符( u n i f o r m r e s o u r c el o c a t o r ，u r l ) 以及统一资源名称( u n i f o r e s o u r c en a r 【l e ，u r n ) 的区别在于u r i 泛指所有以字符串标识的网络资源，包含了u r l 和u r n 。另外由于语义万维网的最终目标是要构建一个全球 5 信息的网络，在这个网络上应该涵盖各种语言和文字的信息资源，所以它采用统一编码u n i c o d e 作为字符的编码方案。这一层是整个语义万维网的基石，它着眼于解决万维网上资源的定位和跨地区字符编码的标准格式的问题。 2 x m l 、n a m e s p a c e 、x m ls c h e m a ：在u r i 和u n i c o d e 之上，是x m l 及相关技术层。x m l 允许用户根据需要自定义一些“有意义的”标签，对所发布信息的内容进行标记，并使用文档类型定义( d o c u m e n t t y p ed e f i n i t i o n ，d t d ) x 5 1 ls c h e m a 来约束这些标签的结构。由于础l 标签可以由用户根据自己的需要来定制，这样不可避免地会造成标签同名的情况，为了避免这样的冲突，w 3 c 采用了n a m e s d a c e 机制。 3 r d f 、r d fs c h e m a ：x m l 层之上是数据互操作层一一资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ， r d f ) 和r d fs c h e m a s 。r d f 本身并没有规定语义，但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来说，r d f 是一个开放的元数据框架”：。这个元数据框架定义了一个数据模型，可以用来描述机器能理解的数据语义。r d fs c h e m a 规范用r d f 进一步定义了建模元语，提供了r d f 模型中使用的一个基本类型系统。这个类型系统有些类似于面向对象的编程语言。从描述逻辑( d e s c r i p t i o nl o g i c ，d l ) 的观点来看，r d f s 相当于t b o x ( t e r m i n o l o g yb o x ) ，而r d f 相当于a b o x ( a s s e r t i o nb o x ) 。 4 o n t o l o g y ：r d fs c h e m a 可以定义类、子类、超类、特性、子特性以及它们的约束，如：定义域( d o m a i n ) 和值域( r a n g e ) 等。因此，从某种意义上说，r d fs c h e m a 本身就是一种简单的知识本体( o n t o l o g y ) 语言。但是r d f r d f s 对特定应用领域词汇的描述能力比较弱，需要进行扩展，我们把这个r d f r d f s 之上的扩展层称为知识本体层。d f e n s e l 等人认为”1 ：知识本体逐渐引起人们重视的原因在于知识本体能够在人们和应用系统之间达成对术语含义的共享和共同理解。而对同一概念的语义共享和共同理解恰恰是构建语义万维网的关键。 5 l o g i c 、p r o o f t r u s t ：到目前为止，利用r d f r d f s 以及对r d f s 进行扩展的一些知识本体语言可以对万维网上的资源内容做出描述。仅有这些描述还远远不够，基于语义的万维网应用还需要根据特定的规则从这些描述性的知识中进行推理。逻辑层的目标就是提供一种方法来描述规则。描述逻辑标记语言就是这样的一种方法，它用d t d 封装了描述逻辑中的逻辑连接词，可将基于描述逻辑的形式化知识嵌入到描述的文档之中。针对语义万维网上的各种不同类型的应用，逻辑层可能会采用多种逻辑语言的实现形式。p r o o f 和t r u s t 这部分内容在概念上目前还没有一个公认权威的说法，但是语义万维网的研究者普遍认为p r o o f 和t r u s t 将是下一代w e b 的重要概念。因为r d f 模型具有强大的描述能力，所以有必要对这种描述进行身份认证并确保声明没有被篡改。因此在语义万维网的层次体系结构中，从r d f 层以上。所有对资源的描述都贯穿了数字签名技术“。目前，虽然具有一定应用需求的推动，语义万维网技术距离实际应用尚有一段距离。实现语义万维网所面临的主要问题体现在如下几个方面： 1 缺乏丰富的领域知识本体传统资源管理模式下，信息系统开发很少在设计阶段就考虑资源共享和集成问题，通常是在需要集成的时候，再添加一个点对点的数据转换层。在这种开发模式下，设计人员很难对领域内的一些共享概念达成共识，更不同说形成相关的数据标准。 6 河北t 业大学硕士学位论文 2 缺乏工程化的知识本体构造方法和工具知识本体在信息系统开发中近两年才开始逐步引起重视。知识本体驱动的应用系统开发需要领域专家和信息技术专家共同协作才能取得良好效果，而目前缺乏针对领域专家的比较方便实j l | 的知识本体开发工具来支持工程化开发。 3 缺少知识本体内概念关系分析的方法指导知识本体的目标是实现知识重用和共享，通过将资源向知识本体的映射，还可以对资源进行语义分析。在实际应用过程中，即使在同一个本体体系之内，概念之间也存在着各种关系。如何针对具体应用来量化分析这种关系，目前指导方法很少。异构本体之间的概念关系分析，更是一项具有挑战性的研究课题。 1 - 3 研究现状在2 0 世纪9 0 年代，o n t o l o g y 的研究在计算机科学技术内日趋流行，在知识工程、数据库设计和集成、信息检索和提取、软件需求分析、面向对象技术和基于a g e n t 的系统设计中扮演着越来越重要的角色。 1 在智能信息检索中的应用对于普遍的w w w 用户，“信息过载”已经成为一个日益严重的问题。目前广泛使用的信息检索或者是依赖编码过程( 即对于给定的内容使用特定的观点或分类方法进行描述) 或者是进行全文检索。由于编码过程的描述只能反映内容的一部分，单个词汇的出现更是难于反映文献的内容，所以以上方法都难于确保检索内容的精确匹配。在实际应用中，人们逐渐认识到使用语义进行检索是一种解决精确查询的有效途径。但是语义检索依赖显示标注的信息资源，或是完整、正确的自然语言理解系统。o n t o l o g y 在智能检索信息系统中提供了形成查询和资源描述所必需的元语，以o n t o l o g y 技术为核心建立领域语义模型，为信息源提供语义标注信息，使系统内的所有a g e n t 对领域内的概念、概念之间的联系及领域内的基本公理知识有一个统一的认识，从而能够显著地提高系统的联想能力和精确性，有望快速、高效、精确地检索出用户所需的有价值的信息，同时也提供给系统内所有用户对领域的一个全面的共同视图。o n t o l o g y 已逐渐成为一种智能信息检索系统的知识表示，是系统集成的核心部件。 2 在面向对象分析中的应用面向对象分析在当前需求分析中最具代表性，面向对象分析是把图和语义网络模型与面向对象程序设计语言中的概念结合在一起儿形成的分析方法。这个方法采用了实体、关系、属性等信息造型中的概念，同时采用了密封、对象、类的结构和继承性等面向对象程序设计语言的概念。面对对象分析本质上是白底而上的过程，通过对具体事务的认定和抽象，归纳概括出共性，区分出个性，用类和类层次结构加于表示。由此可见，面向对象分析方法是以对象和对象类为中心进行的，对想和对象类组成了一定的层次关系，这种垂直的组织方式表示了元素之间具有的父子关系，而其它方面的内容，如对象问的关系，对象间的消息传递，则相对处于次要地位。但在现实世界中，项目和软件可能极其庞大和复杂，要确切掌握不同对象和对象类之间的各种关系比理解单个对象模块更为困难，软件工程师往往需要付出更多的精力和时闻来分析对象类之间的关系，而不仅仅只分析对象本身。软件开发者的注意力不应该被个体对象的具体内容所吸引，而应集中考虑如何利用所获得的大量可重用软件去构造新的软件。因此软件构件之间的关系描述应受到足够重视。本体是领域概念的显示表示。根据o n t o l o g y 的思想，某个领域的本体就是关于该领域的一个公认的概念集，其中的概念含有公认的语义，这些语义通过概念之间的各种关联来体现。本体通过它的概念集及其所处的上下文来刻画概念的内涵。由此可见，本体强调相关领域的本质概念，同时也强调这些本质概念之间的关联。在面向对象分析中，使用本体的思想和本体描述现实世界的方法，可以将对象之间的各种关系用形式语言充分刻画出来。 7 3 在软件构件重用中的应用基于构件的软件开发技术，旨在通过重用技术，提高软件的开发效率，避免一些不必要的重复劳动。可重用的软件构件和相关信息通常被存储在各种各样的数据库中，由此可见，存储构件的数据库是分布式的，并且是异构的。如果软件开发者对领域中的重用构件一无所知，自然检索空间则是整个 i n t e r n e t 网络，为了快速有效地找到所需构件，必须设计基于i n t e r n e t 的搜索引擎，该搜索引擎能够根据用户输入的关键字，快速准确地返回相关的信息资源表。由于可重用的构件库是分布式和异构的，所以，为了便于检索，必须在用户和软件构件库之间建立中介层。在中介层，人们将领域本体的概念用在软件构件的组织与管理中，通过本体集成统一的构件数据库，从而提高了软件的开发效率。 4 在知识工程中的应用一般在开发基于知识的系统( k n o w l e d g eb a s e ds y s t e m ，k b s ) 知识工程师很难定义系统在应用领域中具体、完整的上作方式，因此一般的k b s 系统都采用进化的原型系统方法进行开发。知识工程师将o n t o l o g y 概念引入知识t 程，详细说明模裂中涵盖的概念、实例、关系和公理等实体，并以此建立领域本体。通过使用元属性对属性进行分析，并对属性提出了一种针对本体建模概念化分析的形式化方法，解决了知识共享中的一些问题，有效的促进了来自不同领域的研究人员和组织问的交流。由此可见，将o n t o l o g y 应用于计算机科学技术领域，将问题领域中的术语、术语问的联系及领域中的公理组织起来，建立本体，并提供形式化方法和工具，则能使所建立的本体被方便地共享和重用，从而解决了计算机领域中的许多难题。 1 - 4 本文主要工作随着i n t e r n e t 尤其是w w w 的飞速发展，互联网上的网页数量以及其他信息资源急剧增加，这使得网络在带个人们方便的同时，也给人们带来了大量的无用的“垃圾”信息。这就要求我们对现有信息检索系统进行研究，提高现有信息检索系统的智能化。把o n t o l o g y 应用于信息检索系统正是适应了这一要求。能够提高信息检索系统检索的效率。本文的工作主要是： 1 深入分析了领域知识本体及与领域信息资源语义的关系，并从形式语法、形式语义、形式推演以及形式系统的完备性和可靠性等多方面深入分析了资源语义描述框架形式系统。 2 研究了构建领域知识本体的方法，并在其指导下就t h eo p e nd i r e c t o r y 下的一部分数据构建了计算机领域的部分本体，并运用r d f s 对其进行了描述。 3 ，把语义网络中的概念相似度和相关度应用于领域本体，提高信息检索的效率。论文章节安排如下：第一章：绪论。简单介绍了信息检索系统的分类及其性能指标，语义万维网的体系结构，o n t o l o g y 及其研究现状。第二章：对知识本体与资源语义进行深入分析与研究。首先介绍了知识本体的概念及其网络描述语言，并对网络本体支持工具和现有知识本体进行分类；最后，介绍了知识本体与语义网络的关系。第三章：深入分析资源语义描述形式化系统。首先是对r d f 形式系统的概述，然后分别分析了r d f 形式系统的语法、语义及其推演；最后，对r d f 形式系统的可靠性和完各性进行了分析。第四章：引入本体的信息检索系统的研究。首先介绍了本体的构建准则和方法，然后就部分数据 8 河北t 业大学硕士学位论文构建计算机领域本体并对其进行r d f 描述。最后是将词汇的语义相似度和相关度运用于领域本体的研究，以及本体中的语义相似度和相芙度的计算。笫五章：结论。对本课题研究进行总结并指出了下一步研究方向。 9 第二章知识本体

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于ontology的信息检索系统的研究.pdf

文档简介

温馨提示

最新文档

评论