（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：64 大小：2.23MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf_第2页

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf_第3页

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf_第4页

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf_第5页

已阅读5页，还剩59页未读，继续免费阅读

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

上海大学硕士学位论文摘要语义网环境的诞生，为信息检索技术开辟了一条新的途径，它可以在知识理解和知识推理的基础上实现对信息资源的准确、全面的检索。用于在语义和知识层面上描述领域概念模型的本体，具有良好的概念层次结构和对逻辑推理的支持，可以为信息查询提供较好的语义支持，来实现信息的语义查询，而把本体的概念借用到信息检索中，具有非常重要的意义。它为领域知识的创建和共享提供了一种灵活、全面的描述。语义网为信息资源、本体的描述、存储以及知识推理和信息的安全性提供了一整套的保障机制。在信息检索系统中，我们需要为存储信息添加相应的语义信息来向计算机给出其含义。为了探究信息检索中的信息存储，则又需要涉及倒排索引这一重要的存储机制。针对以上背景，本文通过对现有信息检索技术的分析及语义网本体技术的研究，对于信息检索系统中的文本索引表机制做了大幅度的改善，从结构到存储内容都有进一步深入探讨。第一，本文以北大天网搜索引擎为基础，从原先的两层结构提高到了三层的规模机制，虽使得结构更为复杂，但提高了搜索的查准率，而新增的那层用于对本体表达项进行索引；第二，对本体的构建提出自己的看法，过程中需要进一步改进；第三，融合了并行机制，引入了消息传递接口；第四，借助w o r d n e t 的强大功能，利用其中的参数作为比较参数，设定相应阂值来规范所收集的词汇规模。本文从语义本体入手，总结了语义检索研究的两条思路，选取了语义网环境下基于本体的语义检索作为文本的研究重点；然后介绍了语义网的结构及其对语义检索的意义；接着对语义网涉及的本体和描述语言进行深入的探讨和研究，为语义检索系统的实现奠定基础。关键词：语义网，信息检索，倒排索引，本体，消息传递接1 5 1 v 上海大学硕士学位论文 a b s t r a c t t h eb o o m i n gs e m a n t i cw e be n v i r o n m e n te x p l o i t san e ww a yf o ri n f o r m a t i o n r e t r i e v a lt e c h n o l o g yd e v e l o p m e n t i tc a l li m p l e m e n tp r e c i s ea n dw h o l er e t r i e v a la tt h e b a s eo ft h ek n o w l e d g eu n d e r s t a n d i n ga n dr e a s o n i n g o n t o l o g yc a np r o v i d es e m a n t i c s u p p o r tf o ri n f o r m a t i o nq u e r yf o ra c h i e v i n gt h es e m a n t i ci n f o r m a t i o nq u e r y , a n di tc a r l b eu s e dt od e s c r i b et h em o d e lo fd o m a i n sc o n c e p t sw i t hg o o dh i e r a r c h i c a l s t r u c t u r e o fc o n e 印t sa n ds u p p o r t sf o rl o 百c a li n f e r e n c e i t sv e r yi m p o r t a n tt oi n 仃o d u c et h e o n t o l o g yc o n e 印tt oi n f o r m a t i o nr e t r i e v a l s e m a n t i cw e bi sas e c u r em e c h a n i s m i t p r o v i d e saw h o l ep a c k a g ef o ri n f o r m a t i o nr e s o u r c e ，o n t o l o g yd e s c r i p t i o n ，s t o r a g e ，a n d k n o w l e d g er e a s o n i n gw i t hi n f o r m a t i o ns e c u r i t y i ni n f o r m a t i o nr e t r i e v a ls y s t e m ，w e s h o u l da d dc o r r e s p o n d i n gs e m a n t i ci n f o r m a t i o nt os t o r e ，i no r d e rt os h o wt h em e a n i n g t oc o m p u t e r s f o rr e s e a r c h i n gt h ei n f o r m a t i o nr e t r i e v a ls t o r a g ep a r t ，w ew i l li n t r o d u c e ak e ym e c h a n i s mc a l l e di n v e r t e di n d e x u n d e rt h eb a c k g r o u n ds t a t e da b o v e ，b ya n a l y z i n gt h ee x i s t i n gt e c h n i q u e so f s e m a n t i cq u e r ya n dr e s e a r c h i n go nt h eo n t o l o g y , t h et e x ti n d e xm e c h a n i s mi s i m p r o v e di nt h ei n f o r m a t i o nr e t r i e v a ls y s t e m w h i c hi sf r o mt h ea r c h i t e c t u r et oc o n t e n t f i r s t l y , t h i sp a p e rp r o p o s e sa3 - l a y e ri n v e r t e di n d e xw i t hs e m a n t i ci ni n f o r m a t i o n r e t r i e v a ls y s t e mw h i c hb a s e do nb e i j i n gu n i v e r s i t yt i a n w a n gt i n ys e a r c he n g i n e t h o u g ht h es t r u c t u r ei sm o r ec o m p l i c a t e d t h ep r e c i s i o no fs e a r c hr e s u l t sb e c o m e h i 曲既s e c o n d l y , t h e r ea r es o m ed i s a d v a n t a g e si no n t o l o g yc o n s t r u c t i o n ，a n dis h o w m yo p i n i o ni nt h i sp a p e r t h i r d l y , t h es y s t e mi n t r o d u c e st h em e s s a g ep a s s i n gi n t e r f a c e f o rp r o c e s s i n gi np a r a l l e lm o d e f o u r t h l y , w o r d n e ti sag r e a tl e x i c a ld a t a b a s eo f e n g l i s h ，w h i c hh a ss o m ep a r a m e t e rt om a k eu s eo fi nt h es y s t e m t h ef u n c t i o no f p a r a m e t e ra st h r e s h o l di st ol i m i tt h es c a l eo fr e l a t e dw o r d s w h i c hs t o r e di ni n d i c e s b e g i n n i n gw i t h t h es e m a n t i co n t o l o g y , t h i sp a p e rs u m su pt h et w om e t h o d so f s e m a n t i cr e t r i e v a lr e s e a r c h ，a n dc h o o s e st h es e m a n t i cr e t r i e v a lr e s e a r c hu n d e rt h e s e m a n t i cw e bb a s e do nt h eo n t o l o g ya st h ep i v o to ft h i sp a p e r a f t e rt h a t ，w ei n t r o d u c e a r c h i t e c t u r ea n ds i g n i f i c a n c eo fs e m a n t i cw e b ，f o l l o w e db ys t u d yo nd e s c r i p t i o n l a n g u a g eo fo n t o l o g y , w h i c he s t a b l i s h e dt h es o l i df o u n d a t i o n k e y w o r d s ：s e m a n t i cw e b ，i n f o r m a t i o nr e t r i e v a l ，i n v e r t e di n d e x ， o n t o l o g y , m p i v i 上海大学硕士学位论文原创性声明本人声明：所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。签名：堑霆盘日期：望堑：兰：竺本论文使用授权说明本人完全了解上海大学有关保留、使用学位论文的规定，即：学校有权保留论文及送交论文复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 1 1 日期：坦：皇：竺上海大学硕士学位论文 1 1 课题来源第一章绪论本课题来源于上海市教委e 研究院一上海高校网格项目，网络环境下若干关键技术的研究，该课题会涉及信息检索和语义网两大领域。 1 2 课题研究的目的和意义随着i n t e m e t 技术的不断发展，以往的网络页面已经无法满足网络用户的需要，搜索引擎的成功也为信息检索领域的发展指明了前进的方向，如果适当的把两项正在蓬勃发展的技术融合创新，将为信息检索技术的发展开辟新的道路。在未来几年中，语义【27 】将普遍被人们所接受，使得能够让计算机处理本来需要人们自身来完成的任务，从而提高效率；搜索引擎的发展也为人们提供了在网络上寻找相关信息的便利和保障。研究该课题势在必行。 1 3 研究背景和现状 1 3 1 信息检索的研究现状随着互联网的发展以及大容量存储设备的出现，信息检索( i n f o r m a t i o n r e t r i e v a l ，i r ) 领域已经发生了巨大的变化，这使得传统的信息检索技术变得无用武之地，所以越来越多的新兴技术伴随着信息检索不断发展。信息检索【2 8 】是对信息项进行表示、存储、组织和存取的系统研究课题。对信息项的表示组织应该为用户提供其感兴趣信息的方便存取，而信息的合理存储能够提高信息检索系统的存取效率。然而，利用目前的w e b 搜索引擎界面，人们不可能直接对用户信息需求进行完整描述的方式检索信息。取而代之的是，用户必须首先将这些信息需求转换为信息检索【3 9 】系统( 例如：搜索引擎) 能够处理的查询表达形式。一组关键字( k e y w o r d ) 的查询表达式就是属于这种形式转换，这些关键字能够对用户信息需求的描述进行概括。上海大学硕士学位论文数据检索主要确定某个集合中的哪些文献包含用户查询的关键字，而这些关键字通常不能满足用户的信息需求。因为，信息检索系统的用户更关心检索有关某一主题的信息，而不是检索满足给定查询的数据。数据检索语言目的在于检索出所有明确满足给定条件的对象。然而对于信息检索系统而言，检索出的对象可以是不准确的，并且可能是察觉不出的错误。产生这种区别的主要原因在于信息检索通常是自然语言文本，而至今我们还是无法把自然语言文本进行实质上的结构化处理，而且在语义层面，自然语言还存在歧义，使我们无法把握自然语言的真实含义，从而导致结果存在不准确性。几乎所有的用户都已经习惯于这种表达用户信息的方法，却忽略了更多更丰富多彩的需求表示形式。而信息检索系统【3 l 】所要研究的则不仅停留在关键字查询的范围里，越来越多的学术界和信息产业界的专家也在不停地摸索最适合人类表达需求信息的方式。例如图形信息检索，通过像素或是矢量图的方法匹配所需图片或是图形；语音信息检索，通过录入的声音文件的振动频率和波形结构来判断库中是否有匹配的类似音频文件等等。在信息检索系统正在蓬勃发展的大环境下，我们仍然可以对于用户需求表达、信息检索模型【2 4 1 、预处理操作、信息存储结构、存储空间压缩、信息匹配模式等方面对于信息检索研究方向做出贡献。不过，如今研究领域涉及研究的信息检索系统主要还是围绕对于文本进行检索的系统，而其技术又可以分为三类：全文检索、数据检索和知识检索。 1 3 2 语义网的研究现状在语义网的研究中，知识表示、本体论、智能主体等都是其重要的研究内容，它们都是不可分割的【习。在知识表示的研究中，描述逻辑( d e s 耐p t i o nl o g i c ) t 6 】【3 0 1 是基于对象的知识表示的形式化工具，它是一阶谓词逻辑的可判定子集，能够提供可判定的推理服务，并且具有语义特征。在经过二十多年的研究与发展之后，描述逻辑已经基本趋于成熟并走向应用，它是知识表示的形式化工具。由d a r p a 组织提出的d a m l + o i l ( d a r p aa g e n tm a r k u pl a n g u a g e ，o n t o l o g yi n f e r e n c el a y e r ) 1 7 】 2 上海大学硕士学位论文这种本体语言即是在描述逻辑的基础上建立的。但是描述逻辑【2 州主要还只能处理静态的知识，在对动态世界的表示与推理上却无能为力，尤其是对智能主体的内部知识库的表示显得乏力，也不能对服务的动态性与交互性进行刻画。动态逻辑7 】【8 1 最开始是用来进行程序正确性验证的，后来人们也用它来对动态世界进行表示与推理，有的也用在逻辑程序设计上。它们能对动作、状态、动态关系进行较好的刻画，在静态知识上的表达力却很弱，且推理较为复杂。如何将动态与静态结合起来，这是需要研究的关键问题。综合看来，语义网的研究现在还主要侧重于本体领域与多a g e n t 领域。在本体领域的工作，目前从应用角度主要是本体语言的知识标转化，其典型代表就是w 3 c ( w o r l dw i d ew i e bc o n s o r t i u m ) 的o w l 了；理论方面主要还是描述逻辑的推理【2 1 1 和优化例问题，这一方面英国曼彻斯特大学的o p e n g a l e n 项目【2 0 】在这方面做得非常出色。至于多a g e n t 领域，理论上主要是b d i t 2 2 】或相关逻辑的研究；应用上的一类是斯坦福大学使用c o n g o l o g 2 5 实现的一个面向w 曲 s e r v i c e 自动集成的a g e n t 引擎。而对于用户来讲，语义网应该提供一种丰富完善的服务，一种在知识表示与推理之上的服务，这些服务由具有智能的主体来提供。而现在的w e bs e r v i c e 方面的研究则主要是从商业和应用的角度来进行的，可以说是对原有技术的一种综合与集成，并不能对服务的语义进行描述，因而要让计算机去理解这些服务是很困难的，甚至是不可能的。w e bs e r v i c e s 以服务为目标，语义网以计算机可理解性和可处理性为目标，如果能够综合这两方面研究的优点，以服务为导向，进行带有语义的服务描述和推理的研究，最后构建一种带语义的服务环境，则能够很好地为用户提供丰富完善的服务。 1 4 论文的主要研究内容本论文是以作者攻读硕士学位期间承担课题的工作为基础，在第一章中阐述了课题研究的来源、目的、意义以及国内外研究的现状。第二章从万维网的发展历史为出发点介绍了语义网基本概念、层次结构以及未来语义发展的优势和主要任务，分析了当前语义网学习和研究重点和难点上海大学硕：l = 学位论文以及技术基础。以抛砖引玉的方式，引出了本体的概念，并在下一章节中重点介绍。第三章承接上一章的技术基础，为使语义网在信息检索中的运用打下坚实的基础，由于系统主要以本体内容为关键，所以着重介绍了本体的定义、构建方法和映射方法，并对o w l 本体语言进行了初步介绍。第四章概要的描述了信息检索系统中的关键点：倒排索引表的机制，以及会涉及到的统计的相关量。为最后评价本文所提出的三层倒排索引表做好准备。第五章提出了在信息检索系统中建立三层结构的语义倒排索引表。以信息检索系统框架构成为出发点，介绍了各个模块的作用以及实现的方法，着重指出了三层结构倒排索引发挥的重要作用，并给出试验结果，论证了其提高信息检索的重要指标。第六章通过一个简单的实例来描述系统的运行情况，分别从存储部分和查询部分两方面介绍系统的运行过程。第七章对本文所做的工作做了总结，并对未来的研究方向和重点作了展望。 4 上海大学硕士学位论文第二章语义n ( s e m a n t i cw e b ) 2 1 万维网发展历史万维网的发展已经达到了一个新的阶段，语义网( s e m a n t i cw e b ) 的诞生标志着万维网【3 8 】的新起点，一个网络时代的二次革命。这次革命的主要任务是提高计算机对于资源的理解，目的为了提高计算机对于网络资源的智能分析，解决现在w e b 上的信息缺乏计算机能够理解的语义这个问题。 2 0 世纪下半叶，以计算机和通信技术为主导的信息技术革命极大地影响了人类的生活和生产方式。作为这场革命的里程碑，万维网从根本上改变了人类存储和交换信息的方式。万维网是互联网最重要和最广泛的应用之一，利用万维网用户可以浏览互联网上所有的信息资源。从1 9 8 9 年开始，人类对万维网的关注和频繁使用极大地促进了这项技术的发展和革新，也使得万维网上的信息资源爆炸性地增长。经过十几年的发展，万维网已成为人类最大的数字图书馆。但是，万维网存在两个明显的不足：( 1 ) 计算机不能理解网页内容的语义；( 2 ) 网上有用信息难找。目前最强大的搜索引擎谷歌( g o o g l e ) 能检索超过8 0 亿个网页的信息，而这也只占整个万维网不到3 0 的信息量。面对如此浩瀚的数据海洋，数据精确查询就像是海底捞针一样困难。即使借助功能强大的搜索引擎，查准率也比较低，它在帮助网民得到成批相关网页的同时，也夹杂了许多用户不需要的信息垃圾。存在这些问题的原因在于万维网现在采用的超文本标记语言( h y p e rt e x tm a r k u pl a n g u a g e ，简称h t m l ) ，网页上的内容设计成专供人类浏览的，而并非供计算机理解和处理的，因此无法为网民提供自动处理网上数据的功能。此外，万维网是按“网页的地址”，而并非“内容的语义”来定位信息资源的，网上所有信息都是由不同的网站发布的，相同主题的信息分散在全球众多不同的服务器上，又缺少有效工具能将不同来源的相关信息综合起来，因此形成了一个个信息孤岛，查找自己所需的信息就像大海捞针一样困难。简而言之，万维网已超过最初设计理念所能承载的规模。问题集中表现在：传统网络过于强调信息的表现形式，而忽略信息所表达的语义内容，导致网络内容上海大学硕士学位论文无法被机器理解，这极大地阻碍着网络信息的有效利用，限制了计算机处理信息的手段和能力。为了使人们能够按内容的语义表达需求，迅速准确地从成千上万的网页中过滤出自己感兴趣的内容，同时使计算机能够理解网页内容，帮助人们处理许多烦琐的日常事务，蒂姆f 白纳斯李( t i mb e m e r s l e e ) 于1 9 9 8 年，在发明万维网 1 0 年之后提出下一代万维网“语义网”的思想理念。语义网【3 5 1 汲取人工智能、信息论、哲学和逻辑等学科的研究成果，力图对万维网上信息的表示和获取方式进行重大改进，以解决目前使用万维网时存在的问题。语义网的核心思想是通过增加一些语义信息，使得计算机能参与到自动处理w e b 信息的过程，从而有效利用w e b 信息，并为实现智能化的w e b 应用提供必要的技术基础。从1 9 9 8 年提出至今，语义网已成为一个新兴的学术研究热点，国内外众多科研机构都在开展语义网的相关研究。 2 2 语义网的结构语义网的体系结构共分七层如图2 1 ，自下而上分别是编码定位层( u n i e o d e + u r i ) 、x m l 结构层( x m l + n s + x m l s c h e m a ) 、资源描述层( r d f + r d f s c h e m a ) 、本体层( o n t o l o g yv o c a b u l a r y ) 、逻辑层( l o g i c ) 、证明层( p r o o f ) 和信任层( t r u s t ) 。各层之间相互联系，通过自下而上的逐层拓展形成了一个功能逐渐增强的体系。它不仪展示了语义网的基本框架，而且以现有的w e b 为基础，通过逐层的功能扩展，为实现语义网构想提供了基本的思路与方法。下面详细介绍一下该体系结构各层的含义、功能以及它们之间的逻辑关系。 2 2 1 编码定位层就像人与人之间的交流需要共同的语言一样，语义网要实现机器之间的相互交流与合作也需要使用共同的“语言。语言需要对信息进行编码，即编码是语言的基础，只有编码相同才能保证语言相通。在当前的w w w 中存在着各种各样不同的语言及相应的字符集，要实现不同计算机之间的交流与合作，必须对这些不同的字符集进行统一的编码。 6 上海大学硕士学位论文氏规则信任层( t r u s t ) 氏数据证明层( p r o o f ) b 数数据逻辑层( l o g i c ) 宝 j 氏化自描述本体层( o n t o l o g yv o c a b u l a r y ) 签文档名资源描述层( r d f + r d f s c h e m a 、 x m l 结构层( x m l + n s + x m l s c h e m a ) 编码定位层( u n i c o d e )编码定位层( u r i ) 图2 1 语义网体系结构 u n i c o d e 是一个字符集，这个字符集中所有字符都用两个字节表示，可以表示6 5 5 3 6 个字符，基本上包括了世界上所有语言的字符。数据格式全都采用 u n i c o d e 的好处就是它支持世界上所有主要语言的混合，并且可以同时进行检索。可见，u n i c o d e 为语义网提供了统一的字符编码格式，这种统一的编码格式不仅方便语义网上字符的表示，而且也有利于不同国家、不同民族的不同字符集在语义网上的统一操作、存储和检索。在现实生活中，我们不能仅仅通过一个简单的名字来唯一确定某个人。对于同名的人来说，我们只有通过他所具有的不同的社会关系才能将其与他人区分开来。网络上所有的资源也都有一个“名字，同样我们也不能根据这个简单的名字来唯一地确定网络上的某一资源，因为具有相同“名字的网络资源实在是太多了。为了区别不同的网络资源，我们必须为它们确定不同的“社会关系”。对于网络资源来说，其“社会关系”就是u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ，即统一资源标识符) 。 u r i ，用于标识、定位网络上的资源。u r i 有多种形式并可扩展，其中最常见的莫过于我们所熟悉的u r l ，就以上海大学为例，h t t p ：w w w s h u e d u e l l 所指的就是上海大学，h t t p ：w w w s h u e d u c n f p e o p l e g u z h e n g 所指的就是本人，可以发现前着上海大学的标识是可以作为地址访问的u r l ，而后者是访问不到 7 上海大学硕士学位论文的，也不需要访问到，那是因为它只是作为一个标识来表明个人信息，并非一定要在万维网上以页面形式存在，只要能够清晰表明资源即可。u r l 只是u r i 的一个特例。此外u r i 还有其它多种形式，包括l r j i d 、t a g 和e l s 等。我们可以用u r i 唯一地标识任一事物，并且任一拥有u r i 的事物都可以说它是在 w e b 上的。比如你上周刚刚买到的书、你脑海中的一些不成熟的思想甚至你本人等等，都可以使用u r i 在网络上上进行标识。在语义网的体系结构中，编码定位层处于最底层，是整个语义网的基础，其中u n i c o d e 负责处理资源的编码，u r 3 负责资源的标识。只有在对资源进行编码与标识的基础上才能对资源进行进一步的处理。 2 2 2x m l 结构层 “上海大学整落于上海。组建或立于1 9 9 4 年5 月，以自强不息为校调中国科学院院士钱伟长教授为现任校长o ” 对于上述文本，我们可以很容易地理解，因为我们知道这段文本是关于上海大学的一个简单介绍，其中“上海大学是为学校名，“上海表示地点等等。也就是说，我们实际上知道上述文本所隐藏的一些信息。将这些隐藏的信息显式地表达出来就是：学校名：上海大学地点：上海或立b 期：1 9 9 4 年5 月狡i ：自强不息校长：中国科学院院士钱伟长教授这些被隐藏的信息称为元数据。元数据是指关于数据的数据。例如数据“学校名，就是关于数据“上海大学”的数据。只有显式地说明关于数据的元数据信息，才能进行完整、清晰、准确的交流。例如对于文本“自强不息，如果不显式地说明它表示“校i j i l ，那么对于一个不熟悉情况的人而言很有可能不知所谓了。因此元数据对于人与人之间的信息交换以及机器之间的相互交流都是至关重要的。上海大学硕七学位论文为了显式地表达数据的元数据，必须对数据进行一定的“标记”，并用标记名称( 也叫标签) 表达数据的元数据信息。例如对数据“上海大学所做的标记“学校名”。对数据进行标记的规则和方法的总和称为标记语言。对于经常在互联网上的网友来说，最常见的标记语言莫过于超文本标记语言h t m l 了。所不同的是，h t m l 所做的标记并不是关于数据内容的元数据，而是关于数据显示格式和显示样式的元数据。例如在h t m l 中，标签的含义是要求网页浏览器将一段文本加粗表示，而标签的含义是告诉浏览器将这段文本在一行的中间显示。所以，在浏览器中， h t m l 是如下显示的：图2 2 h t m l 页面显示此外，h t m l 提供的标签数量是固定的，这对于大量的网络应用来说显然是不够的。不同的行业、部门、学科分类甚至具体应用都需要面向自己应用的一套标签或标记语言。例如文本“g o o g l e ”，在具体应用a 中可能使用标签定义，而在应用b 中可能使用标签定义。为了更加灵活地定义面向各种不同应用的标签，人们开发了x m l ( e x t e n s i b l em a r k u pl a n g u a g e ，即可扩展标记语言) 。 x m l 最突出的特点就是功能强大又易于使用，是w e b 上数据表示的标准。正是由于x m l 机动灵活，它允许用户在文档中加入任意的结构而无需说明这些结构的含意，从而可以表达丰富的信息资源。用户可以在x m l 中创建自己的标签、对网页进行注释，脚本( 或程序) 可以利用这些标签来获得信息。因此x m l 非常适用于不同应用间的数据交换，而且这种交换是不以预先规定一组数据结构定义为前提，具备很强的开放性。 x m l 并非像h t m l 那样提供了套事先定义好的标签，而是提供了一个标准，利用这个标准，你可以根据实际需要定义自己的置标语言，并为这个置标语言规定它特有的一套标签。因此准确地说，x m l 是种元标记语言，即定义标记语言的语言。 n s ( n a m es p a c e ，即命名空间) ，由u r i 索引确定，目的是为了简化u r i 9 上海大学硕士学位论文的书写。例如u r i “h t t p ：w w w w 3 o r e , 1 9 9 9 0 2 2 2 一r d f - s y n t a x n s # ”就可以简写为 “r d f ”。通过在命名前加上u r i 索引前缀，即使具有相同命名的两个事物，只要它们的u 刚索引前缀不同。 x m ls c h e m a 实际上也是x m l 的一种应用，它本身采用x m l 语法，所以 x m l 文档是一种自描述文档。x m ls c h e m a 是d t d ( d o c u m e n tt y p ed e f i n i t i o n ，即文档类型定义) 的替代品，但比d t d 更加灵活。它不仅提供了一套完整的机制以约束x m l 文档中标签的使用，而且支持更多的数据类型，能更好地为有效的x m l 文档服务并提供数据校验机制。正是由于x m l 灵活的结构性、由u r i 索引的命名空间而带来的数据可确定性以及由x m ls c h e m a 所提供的多种数据类型及检验机制，才使得x m l 结构层( l + n s + x m l s c h e m a ) 成为语义网体系结构的重要组成部分。该层主要负责从语法上表示数据的内容和结构，通过使用标准的置标语言将网络信息的表现形式、数据结构和信息内容相分离。但x m l 数据模式是一种被固定的、树状的文本表示模式，在描述数据元上缺乏一定的灵活性；而且x m l 所表达的语义是隐含在文档的标记和结构中的，它只能被了解其标签含义的程序人员或网页制作者所使用。因此，x m l 只能表达数据的语法，而不能表达机器可理解的形式化的语义，为此语义网引入了r d f 2 6 1 。 2 2 3 资源描述层 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ，即资源描述框架) ，是w 3 c 推荐的用来描述w w w 上的信息资源及其之间关系的语言规范。r d f 在语法上符合 x m l 规范，从这个意义上可以把r d f 看成是利用x m l 规范而定义的一种置标语言。但在语义描述上，r d f 与x m l 却有天壤之别。 r d f 非常适合描述表达w e b 资源的元数据信息，如题名、作者、修改日期以及版权信息等，具有简单、开放、易扩展、易交换和易综合等特点。由于它们都被称为w e ：b 资源，所以r d f 实际上可以描述任何可以在网络上标识的信息。因此在资源描述上，r d f 更像是一个数据模型。该模型以“资源一属性一属性值”的形式描述网络信息资源。资源、属性和属性值在r d f 中分别用术 1 0 上海大学硕士学位论文语主语( s u b j e c t ) 、谓语( p r e d i c a t e ) 、宾语( o b j e c t ) 表示，由主语、谓语、宾语构成的三元组( t r i p l e ) 称为r d f 陈述或陈述( s t a t e m e n t ) 。如果把主语和宾语看作是节点，属性看成是一条边，则一个简单的r d f 陈述就可以表示成一个r d f 有向图( g r a p h ) 。图2 3r d f 三元组 r d f 数据模型实质上是一种二元关系的表达，由于任何复杂的关系都可以分解为多个简单的二元关系，因此r d f 的数据模型可以作为w e b 上任何复杂关系模型的基础模型。 r d f 定义了一套用来描述资源类型及其之间相互的词汇集，称为r d f s c h e m a ( r d f s ) 。在用r d f 描述资源时，首先使用r d fs c h e m a 提供的建模原语构建被描述资源的s c h e m a 信息，然后再利用此s c h e m a 描述目标信息资源。通过r d fs c h e m a 可以定义资源的类型、属性并显式地揭示它们之间丰富的语义关系。 r d f ( s ) 是语义网的重要组成部分，它使用u r i 来标识不同的对象( 包括资源节点、属性类或属性值) 并可将不同的u r i 连接起来，清楚表达对象间的关系。为揭示对象间关系而由u r i 连接而成的r d f 有向图摆脱了x m l 文档所隐含的树形资源结构的限制，可以更加灵活地表达网络上的知识或资源，揭示它们之间的相互关系，而这更加符合w w w 开放、分布式以及结构松散的特征。在此框架下，以前在x m l 文档中只能为程序人员或网页制作者所理解和使用的标签已经转换成了定义清晰的词汇，并可显式地表达机器可理解的形式化的语义。如果把x m l 看作是一种标准化的元数据语法规范的话，那么就可以把r d f 看作是一种标准化的元数据语义描述规范。与x m l 中使用的标签类似，r d f 对属性的定义没有任何限制。也就是说不同的词汇来可能表示的是同一个属性，如使用c r e a t o r 和a u t h o r 都可以表示一篇论文的作者。这就是我们通常所说的同义词或多词一义现象，即一个概念可以用多个不同的词汇来表达。当两个不同的系统或软件代理分别使用不同的上海大学硕f ：学位论文词汇来表达同一个概念并需要进行数据交换时，多词一义就会带来问题，因为它们不知道这两个词汇表示的是同一个概念。与多词一义相对应的另一个问题是一词多义，即表达概念的同一个词汇在不同的应用背景下其含义是不同的。 r d f 并不具备解决这两个问题的能力。此外，r d f s 所提供的构造元素( c o n s t r u c t o r ) ，虽然可以表达比x m l 更为丰富的语义信息，但距离语义网强大推理能力的要求，其表达能力仍然偏弱； r d f 允许把类作为实例和属性使用，并且也可以把陈述作为资源，这在理论化模型( m o d e l t h e o r e t i c ) 语义下相当于高阶逻辑，不可判定，从这个意义上讲， r d f 的表达能力又太强了。因此必须在语言的表达能力与推理能力之间进行一定的折衷，在保障足够的表达能力的同时，提供充分的推理能力。基于以上两点，语义网引入了本体。 2 2 4 本体层本体( o n t o l o g y ) 的概念最初起源于哲学领域，用于研究客观世界的本质。在语义网范畴内，本体是关于领域知识的概念化、形式化的明确规范。在语义网体系结构中，本体的作用主要表现在：概念描述：即通过概念描述揭示领域知识；语义揭示：本体具有比r d f 更强的表达能力，可以揭示更为丰富的语义关系；一致性：本体作为领域知识的明确规范，可以保证语义的一致性，从而彻底解决一词多义、多词一义和词义含糊现象；推理支持：本体在概念描述上的确定性及其强大的语义揭示能力在数据层面有力地保证了推理的有效性。与资源描述层相比，本体提供了对领域知识的共同理解和描述，具有更强的表达能力，支持可保证计算完整性和可判定性的逻辑推理。从整个语义网体系结构来看，本体层起着关键的作用。它不仅弥补了资源描述层的不足，而且其概念模型也是逻辑层( l o g i c ) 以上各层发挥作用的基础，因为只有在对领域知识形成一致性描述的基础上才能进行相应的规则描述、推理和验证。 1 2 上海大学硕士学位论文 2 2 5 逻辑层、证明层和信任层在r d f 和本体的帮助下，语义网将包含大量富含语义信息的网页。整个语义网就像是一个巨大的全球互连的数据库。这将彻底改变人们的交流方式和生活方式。有了语义信息的帮助，人们开发出的软件代理( a g e n t ) 程序的智能和自动化程序将大大提高。它们可以从不同的资源中收集网页内容，搜索和处理信息并和其它代理进行交互、协调，这将真正显示和发挥语义网的巨大威力。在t i mb e m e r s l e e 的语义网构想中，用户将使用代理( a g e n t ) 完成各种各样的任务。代理有三个基本任务：服务发现、协调和验证。代理在接到用户的服务请求以后，首先将用户的服务请求分解成若干个子任务，确定每个子任务的功能，然后按功能需求对网络服务进行定位，这个过程称为服务发现【l 】。如果定位成功，代理必须协调每个子任务之间的功能接口和工作流程，以完成用户的服务请求；如果定位失败，代理必须对子任务进行再分解或向其它代理发出帮助请求，以期寻求完成该子任务的适当途径。对于代理的每一步工作，语义网必须提供必要的验证机制，通过建立信任关系以确保其可靠性。代理在执行任务的过程中，不论是对任务的分解、定位、协调，还是对任务执行情况的验证，都涉及到推理问题。推理必须依靠数据和规则( r u l e ) 。本体的主要任务是以概念的形式提供对领域知识的共同理解与描述，即提供推理所必需的数据。虽然本体在构建时也包含了一定的规则，但这些规则不仅数量有限，而且只与特定的本体数据相关联，描述能力有限。要实现语义网构想所期望的强大的推理能力就必须要有一套高效的，与语义网开放、分布式的体系结构相适应的规则系统，而这正是逻辑层的主要任务。在语义网体系结构中，本体层以上的各层统称为规则层。规则层中各层的具体含义是不同的。逻辑层主要描述推理规则，因为它是代理对用户任务进行分解、定位、协调、验证乃至最后建立信任关系的基础，所以它位于规则的最底层。证明层是为保证代理工作的可靠性而提供的一种验证机制，它应用逻辑层的规则以及本体层的数据表达逻辑推理，子任务和代理之间通过交换“证明” 而为数据或结论提供可靠性保证。其基本思想是：我所提供的数据和推理是正上海大学硕士学位论文确的，因为有多个可信信息源都认为我是可以信赖的，它们包括在p r o o f 数据段中。信任层位于体系结构的最顶层，同时也处在规则层的最上层。通过“证明”交换和数字签名( d i g i t a ls i g n a t u r e ) 技术，可以建立信任关系，保证语义网的可靠性。数字签名是一段加密的数据，用来保证数据或推理的可靠性。需要指出的是，不仅逻辑层和证明层需要数字签名来保证规则的可靠性，而且语义网体系结构的数据层( 资源描述层和本体层) 也同样需要数字签名技术来保证数据的可靠性。 2 2 6 语义网的基础和核心通过对语义网体系结构各层含义以及它们之间逻辑关系的分析，可以看出该体系结构所体现的语义网的基础和核心。语义网的基础包括三个方面，即技术基础、知识基础和逻辑基础。技术基础语义网体系结构各层的内容共同构成了语义网的技术基础。该体系结构的每一层都包含了为实现语义网构想所必需的一系列技术，不同的技术层完成不同的功能。简单地说，u n i c o d e + u r i 技术层负责完成w e b 资源的编码和定位； x m l + n s + x m l s c h e m a 技术层负责提供结构化的语法；资源描述和本体层负责 w e b 上的数据、资源和知识的表示；逻辑、证明和信任层负责提供语义网所需要的规则、推理和验证。各层逐级扩展，相互融合、补充，为实现语义网构想提供了坚实的技术基础。知识基础从抽象的观点看，语义网就像是一个大的知识表现系统。语义网可以描述三个层次的知识类型：事实性知识、术语知识和推理知识。事实性知识是对客观实在的简单陈述，如由x m l 标签描述的信息、由r d f 三元组描述的一个简单陈述等，这类知识简单清晰、一目了然。 1 4 j ：海大学硕上学位论文术语知识是指由本体所描述的关于概念以及它们之间关系的语义信息。术语知识可以描述比事实性知识更加复杂的语义和对象信息。对于开放式的w e b 而言，它更加适合描述那些不同种类、分布式的结构化或半结构化信息。推理知识是指那些隐藏在事实性知识或术语知识之中的需要借助一定的推理规则才能获得的隐性知识。例如，对于事实性知识“篮球比足球大”和“足球比乒乓球大”，虽然我们可以很容易地推断出“篮球比乒乓球大”，但对于计算机而言，只有通过相应的规则定义才能得出这一推理知识。逻辑基础只有通过形式化的方法才能显示地揭示和描述语义网中的语义，因此必须借助强有力的形式化工具逻辑。实际上，语义网的描述语言包括r d f 和 o w l 都可以看作是谓词逻辑的特殊形式，因为它们与谓词逻辑之间以逻辑公理的形式存在着语义上的对应关系【2 1 。其核心是为了实现机器的“理解与处理”。在语义网的三个基础层面中，技术基础是该体系结构所直接体现的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）信息检索系统中基于本体倒排索引表的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档