（计算机应用技术专业论文）基于本体的web语义分析模型研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：55 大小：1.40MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（计算机应用技术专业论文）基于本体的web语义分析模型研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着网络的不断普及，搜索查询越来越被广泛地使用，但是由于目前计算机并不能理解网页内容的语义，所需信息的查准率比较低。本体是解决语义层次上w e b 信息共享和交换的基础，在查询时引入本体，将有助于改变这一现状。基于此，论文在本体的基础上对w e b 上的内容及其语义进行了分析研究，主要包括以下内容：在语义原生x m l 数据库系统( 简称s n a x 系统) 的整体框架下，提出了基于本体的w e b 语义分析模型，它主要包括网页收集、文档解析、语言分析、查询分析、存储索引和搜索查询等模块，并重点对网页收集和文档解析进行了研究分析。网页收集主要是指通过w e b 页面之间的链接关系，从w e b 上自动地获取页面信息，并且随着链接不断向整个w e b 扩展的过程。论文设计了个网络蜘蛛算法，通过给定一个初始的u r l ，在设定收集范围、线程数目等条件下，自动实现w e b 页面的收集。文档解析主要完成将收集到的w e b 页面解析成x m l 文档。论文提出了一个基于链式结构的x m l 文档解析方法，具体包括d o m 解析树生成算法、改进的先根遍历d o m 树的递归算法以及对应的二叉链表实现算法等三个算法以完成解析过程，最终得到x m l 文档。通过实验对比，在查询准确性方面，基于本体的语义分析方法比不利用本体直接分词然后查询的方法要高，而在查全率方面，两者的性能相差无几。关键词本体，语义，s n a x ，解析 a b s t r a c t w i t ht h ep o p u l a r i z a t i o no fi n t e r n e t ，t h ei n f o r m a t i o ns e a r c h i n ga n d q u e r y i n gh a sb e e nw i d e l yu s e d ，b u tb e c a u s et h ec o m p u t e rc o u l dn o t u n d e r s t a n dt h es e m a n t e m eo fw e bp a g e s ，t h ev e r a c i t yo fi n f o r m a t i o n s e a r c h i n gi sc o m p a r a t i v e l yl o w e r o n t o l o g yi st h eb a s i so fs h a r i n ga n d e x c h a n g i n go fw e bi n f o r m a t i o n ，a n di n t r o d u c i n go n t o l o g y t ow e b s e a r c h i n gw o u l db eh e l pt oi m p r o v et h ev e r a c i t y f r o mt h i sv i e w ，t h i s t h e s i sa n a l y s e sa n ds t u d i e sw e bi n f o r m a t i o na n dt h e i rs e m a n t e m eb a s e d o n t o l o g y t h i st h e s i sm a i n l yi n c l u d e st h o s ep a r t sa sf o l l o w s u n d e rt h ew h o l ef r a m eo fs e m a n t i cn a t i v ex m ld a t a b a s es y s t e m ( s n a x ) ，t h i st h e s i sp r e s e n t sas e m a n t i ca n a l y s i sm o d e lo fw e bb a s e d o n t o l o g y t h em o d e li n c l u d e st h ec o l l e c t i n ga n dp a r s i n go fw e bp a g e s m o d u l e ，t h el i n g u i s t i ca n a l y s i sm o d u l e ，t h ei n q u i r ya n a l y s i sm o d u l e ，t h e s t r o r a g ei n d e xm o d u l ea n dt h eq u e r y i n ga n ds e a r c h i n gm o d u l e t h e n t h i st h e s i se m p h a s i z e d l ys t u d i e sc o l l e c t i o no fw e bp a g e sa n dp a r s i n go f w e bp a g e s c o l l e c t i n go fw e bp a g e sm a i n l yo b t a i n st h ei n f o r m a t i o no fw e b p a g e sa u t o m a t i c a l l yb yt h el i n k sb e t w e e nw e bp a g e sa n dp e n e t r a t si n t o t h ew h o l ew e b t h i st h e s i sd e s i g n san e t w o r ks p i d e ra l g o r i t h m ，w h i c h a u t o m a t i c a l l y c o l l e c t st h ei n f o r m a t i o no fw e bp a g e si nl i m i t e d s e a r c h i n gs c o p ea n dt h r e a dn u m b e r sf r o ma no r i g i n a lu r l p a r s i n go fw 曲p a g e sm a i n l yp a r s e st h ew 曲p a g e sc o l l e c t e di n t o x m ld o c u m e n t s t h i st h e s i sp r e s e n t st oap a r s i n gm e t h o do fx m l d o c u m e n t sb a s e do n1 i n k s t r u c t u r e t h em e t h o di n c l u d e st h ea l g o r i t h mo f t h e c r e a t i n g o fd o mp a r s i n gt r e e ，t h ea l g o r i t h mo fm o d i f i e d p r e o r d i n a t i o nv i s i t e dd o mp a r s i n gt r e ea n dt h ea l g o r i t h mo fe x t r a c t i o n i n f o r m a t i o nf r o mt h ed o mp a r s i n gt r e ea n ds t o r e dl i n k - l i s t t h er e s u l t so fe x p e r i m e n t ss h o wt h es e m a n t i ca n a l y s i sm e t h o db a s e d o no n t o l o g yi ss u p e r i o ri ns e a r c h i n gv e r i c a t yt h a nt h em e t h o dw h i c hd o e s n o tu s eo n t o l o g yb u to n l yq u e r ya f t e rs i m p l es e g m e n t b u ti ns e a r c h i n g i n t e g r i t yt h et w o m e t h o d sh a v el i t t l ed i f f e r e n c e s k e yw o r d so n t o l o g y ，s e m a n t e m e ，s n a x ，p a r s i n g 原创性声明本人声明，所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了论文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。作者签名：菡：缸匿日期：尘堑年_ 三月二日关于学位论文使用授权说明本人了解中南大学有关保留、使用学位论文的规定，即：学校有权保留学位论文，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以采用复印、缩印或其它手段保存学位论文；学校可根据国家或湖南省有关部门规定送交学位论文。作者签名：醯导师签名4 盏k 日期：主堑年妇兰日硕士学位论文第一章绪论第一章绪论目前使用的万维网( w o r l dw i d ew e b ，w w w ) 存在两个最明显的不足：一是计算机不理解网页内容的语义：二是网上有用信息难找，即使借助搜索引擎，查准率也较低，在得到成批相关网页的同时，也夹杂了许多不需要的垃圾信息。原因就在于现在的万维网采用的是超文本标记语言( h t m l ) ，其上大多数信息是用自然语言、图片、声音等表示的，网页上的内容是专供人浏览的，而非供计算机理解和处理的。 1 1 研究背景和意义人们希望按内容的语义表达需求，迅速准确地从成千上万的网页中过滤出自己感兴趣的内容，同时也希望计算机能够理解网页内容，以便帮助其处理许多烦琐的日常事务。于是，“万维网之父”t i mb e r n e r s l e e 在2 0 0 0 年 x m l 2 0 0 0 会议上提出了语义w e b ( s e m a n t i cw e b ) 的层次模型【l j 。语义w e b 不是与当前w e b 隔离的另外一个w e b ，而是对当前的w e b 的变革和延伸，是下一代w e b ，其目标是使得w e b 上的信息具有计算机可以理解的语义，而不仅仅是构建一个作为文本图像展示平台的w e b 。语义w e b 能满足智能代理( a g e n t ) 对w e b 上异构和分布信息的有效访问和搜索，由此带来的是计算机也能理解网上信息的含意，从而有助于信息与智能的共享，更利于人机之间的对话和协同工作。本体( o n t o l o g y ) 是语义w e b 的个重要的组成部分，在语义w 曲中具有非常重要的地位。目前本体的研究和应用主要包括以下三方面【2 j ： 1 理论上的研究，主要研究概念及其分类，本体上的代数； 2 信息系统中的应用，主要包括处理信息组织、信息检索和异构信息系统互操作问题： 3 本体作为一种能在知识层提供知识共享和重用的工具在语义w e b 中的应用。同时，本体是解决语义层次上w e b 信息共享和交换的基础。当前的许多项目都致力于在语义w e b 中引入本体层的研究，在这样的网络中，信息都被赋予了明确的含义，机器能够自动地处理和集成网上可用的信息。基于此，本论文提出一个w e b 语义分析模型，在本体的基础上对w e b 上的内容及其语义进行分析研究，通过对w e b 语义的分析，使用户的查询匹配达到更好的效果，硕士学位论文第一章绪论提高查准率。 1 2 语义w e b 的体系结构 t i mb e m e r s l e e 提出的语义w e b 的层次结构如图1 1 所示。 t r u s t 7 、o r u l e s d a t a p r o o f 7 一皇 n d a t a l o g i c 暑塑竺 l 蒜 o n t o n l o g yv o c a b u l a r y量粤 r d f + r d f s c h e m a o x m l + n s + x m l s c h e m a u n i c o d eu r i 图1 1t i mb e m e r s - l e e 语义w e b 层次模型第一层是整个语义w e b 的基础，u n i c o d e 处理资源的编码，u r i 负责标识资源。u r i 就是w e b 标识符，语义w e b 中的每个数据对象和每个数据模式模型都必须拥有惟一的u r i 。统一资源定位符( u r l ) 是一种u r i ，除了标识资源外，通过描述资源的主要访问机制或网络位置，u r l 还提供了对资源的表示进行操作或获取的方式。例如，u r lh t t p ：w w w c s u e d u c n 是一个u r i ，标识了一个资源( c s u 的主页) ，还代表这个资源的表示形式是可以从名为w w w c s u e d u c n 的网络主机通过h t l p 得到。对于今天的大部分计算机应用来说，其产生的信息并没有统一的语法描述格式，x m l l 3 1 的出现使得不同类型的数据表示成同一格式成为了可能。x m l 是一种用于定义标记语言的工具，其内容包括x m l 声明、用以定义语言语法的 d t d ( d o c u m e n tt y p ed e c l a r a t i o n 文档类型定义) 、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。尽管x m l 的灵活性使得用户可以快速、容易的描述任意的内容，但由于x m l 并不能解释它标记的含义，大多数处理应用要求这些标记集合能够满足某种标准或者双方的约定，因此，需要更进一步的手段来对文档的结构从语义进行表达，r d f ( 资源描述框架， r e s o u r c ed e s c r i p t i o nf r a m e w o r k ，简称r d f ) 及其上层对此负责。 w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ) 推荐以r d f 标准来解决x m l 的语义局限。r d f 是一个用于表达关于万维网上的资源的信息的语言。它专门用于表硕士学位论文第一章绪论达关于w e b 资源的元数据，比如w e b 页面的标题、作者和修改时间等。然而，将“w 曲资源( w e br e s o u r c e ) ”这一概念一般化后，r d f 可用来表达关于任何可在w e b 上被标识的事物的信息。比如关于一个在线购物机构的某项产品的信息( 例如关于规格、价格和可用性信息等) ，或者是关于一个w e b 用户在信息传送方面的特别描述。 r d f 提供了一种用于表达应用程序处理所需要的信息、并使其能在应用程序间交换而且不丧失语义的通用框架。在此通用框架中，应用程序设计者可以利用现成的通用r d f 解析器( r d fp a r s e r ) 及通用的处理工具。在不同的应用程序间交换信息，也即意味着那些不是信息的最初创建者的应用程序也可利用这些信息。 r d f 提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成( 即有向图) 。节点用来表示w e b 上的资源，弧用来表示这些资源的属性| 4 】。在w e b 环境下，我们可以将其序列化为x m l 文档。与x m l 不同，r d f 中的资源可以分配全局标示符，也可以引用其它文档中的陈述。但是对于同义词以及一词多意等问题，r d f 的模型不具备解决的能力，而r d f s ( r d fs c h e m a ) 虽然可以为r d f 资源的的属性和类型提供词汇表，但是基于r d f 的数据语义描述仍然可能存在语义冲突1 5 j 。为了消解语义冲突，我们在描述数据语义的时候可以通过引用本体的相关技术，对语义描述结果作进一步的约束。r d f ( s c h e m a ) 除了提供简单的机器可理解语义模型的同时，也为领域化的本体描述语言( 如d m a l ( d a r p a a g e n t m a r k u pl a n g u a g e ) ，o w l ( o n t o l o g yw e bl a n g u a g e ) 等) 提供了建模基础，并使得基于r d f 的应用可以方便地与这些本体描述语言所生成的本体进行合并，如o w l 提供了a p i 接口，其输入数据可以r d f 形式表示【6 】。本体层用于描述各种资源之间的联系，本体通过明确地、形式化地描述某一领域的共享概念，能使用户和计算机更精确地在语义基础上进行交流，而不仅仅是交换具有语法表达的数据。本体的基本构造单元是概念，概念集以概念层次关系组织起来，概念具有属性，通过属性名将概念关联起来。上述本体描述语言中，o w l 被w 3 c 推荐为w e b 上描述本体的标准语言，由于r d f 的通用性，本体可以用r d f 方式存储。逻辑( l o g i c ) 层的逻辑性( 使用规则去推理、选择行为的步骤并回答问题的方法) 是语义w e b 面临的一个任务。由于该任务涵盖了数学和工程化决策等多方面知识，使其更加复杂，因为逻辑要描述复杂的对象属性，但如果太复杂，就会导致代理可能被一些悖论的问题问倒。为避免此类问题，传统的知识表现系硕士学位论文第一章绪论统通常各自都有针对其数据进行推理的一套有限的和特殊的规则，使数据可以由一个系统传到另一个系统。规则则不然，由于规则所处的环境完全不同，它往往不能运用到另一个系统中。语义w e b 的研究者认为要获得多样性，必然会有自相矛盾的情况或无法回答的问题出现，因此描述规则的语言要尽量具有表达力，让w e b 能尽可能广泛地进行推理。因此，语义w e b 要提供一种语言，能同时表达数据以及根据数据进行推理的规则，并且允许任何现存的知识表现系统中的规则都能输出到w e b 上，逻辑层的推理是基于本体层之上的推理应用。 p r o o f 这一层则在此基础上使代理可以交换推理的结果。为了检查这些结果，需要将各代理的内部推理机制转化为一种通用的证据表示语言。语义w e b 结构中的数字签名和确信( t r u s tl a y e r ) 贝j j 是为了保证信息交换的安全问题而设计的，信息交换的双方必须建立了一种信任关系才能在一定程度上保障信息的有效性。 1 3 本体相关研究现状本体这个词早在1 7 世纪就已诞生，其派生于希腊语的“o n t o ”( “存在”) 和 “l o g i a ”( “箴言录”) ，是一个哲学的分支“1 。本体在哲学领域常译为“存在论”，在计算机科学和人工智能领域则译为“本体”。1 9 9 3 年，g r u b e r 给出了本体的一个定义”，即“o n t o l o g y 是概念模型的明确的规范说明”。b o r s t 在此基础上给出了本体的另外一种定义。1 ：“o n t o l o g y 是共享概念模型的形式化规范说明”。s t u d e r 等对上述两个定义进行了深入的研究，认为o n t o l o g y 是共享概念模型的明确的形式化规范说明，它包含四层含义“：概念模型、明确、形式化和共享。 1 31 本体描述语言现状本体描述语言起源于历史上人工智能领域对知识表示的研究，因此本体的描述语言不仅仅需要具有良好定义的语法和语义，充分的表达能力，更需要有效的推理支持和表达的方便性。本体描述语言是用来描述本体的，它让用户可以为领域模型编写清晰、形式化的概念描述。在具体的应用中，本体的表示方式主要可分为4 大类：非形式化、半非形式化、半形式化、形式化语言；可以用自然语言来描述本体，也可以用框架、语义网络或逻辑语言等来描述本体。本体规范语言或称为本体描述语言的目标是要以近似人类语言的方式表达本体包含的规范概念或知识，同时，还要能被计算机理解和在w e b 上传输。在语义w e b 提出之前，已有不少本体描述语言被研究和开发出，如o c m l 1 1 】，硕士学位论文第一章绪论 f l o g i c ，k f ，o n t o l i n g u a ! ，o k b c ，l o o m 16 】等。t i mb e m e r s l e e 提出语义w e b 的构想后，研究者根据w e b l 拘应用特点和需求改造或设计了一些适用于 w e b f f ：j 本体描述语言，n s h o e 17 1 、x o l l l 8 1 、r d f 、d a m l 、o i l 19 1 、d a m l + o i l 2 0 i 、 o w l 2 1 1 等。 13 2 国外的本体相关研究和项目国外与本体相关的研究项目很早就有，c y c 、k a o n 、j e n a 等都是这样一些项目。c y c 2 2 1 是一个大型多语境的知识库和推理机，该项目始于1 9 8 4 年，由美国得克萨斯大学c y c 研发小组( c y c o r p ) 开发。该项目的创始人d o u gl e n a t 总结了以往人工智能中过于专注于推理而导致结果不佳的经验教训，提出从常识着手，通过积累建立个存有巨量事实的知识库，设想一旦这一知识库建成，则可将其用于需要大量知识背景的应用中。由于过于强调知识的数量对推理的作用， c y c 的知识对于推理的需求仍嫌不足。另外，c y c 的本体语言c y c l 表达能力欠佳也是c y c 的一个缺点，因此，c y c 仍在完善中。考虑到对搭建语义w e b 的综合集成工具的需求，德国k a r l s r u h e 大学k a o n f k a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bt o o ls u i t e ) 项目的目的是在r d f 之上提供这样的集本体开发、管理和展示的工具套件2 3 04 1 ，其目标是使得用户可以容易地在语义w e b 中进行各种应用、研究和开发工作。 k a o n 对本体的处理是通过一系列的形式化表示实现的，例如：本体在 k a o n 中的被定义为：本体是结构o ：= ( c ，辛，r ，j ，s r ) ，其中，c ，r 分别为概念和关系，c 上的偏序f ? 是概念层次或分类，函数盯：r 斗c + 为签名，r 上的偏序月为关系层次，其中，1 月r e 蕴含i 口( 1 ) = | 盯( ，2 ) i 和z 。p ( 1 ) ) c 乃( 盯( ，2 ) ) i 对于每一个1 i , r ( r 1 ) 。完全建立在r d f 之上和支持形式化的本体为k a o n 所具有的特点，在 k a o n 的最新版本k a o n 2 中【”1 ，研发人员对本体的形式化、可视化和逻辑查询等方面做了进一步的改进。 k a o n 2 是管理o w l d l 和s w r l t 2 6 1 本体的基础设施，它是k a o n ( 也称为 k a o n l ) 的继续，k a o n l 和k a o n 2 之间最主要的区别是本体语言，k a o n l 使用r d f s 的适当扩展作为其本体语言，而k a o n 2 是基于o w l d l ，因此，k a o n 2 是不向后兼容的。 j e n a 2 7 , 2 8 1 是由惠普实验室用j a v a 开发的对元数据进行操纵的工具包，有两个版本：j e n a l 和j e n a 2 。区别主要在于前者仅提供r d f 之上的利用查询语言m g q l 的有限推理，而后者除了r d q l 外，还提供对r d f 、r d f s 和o w l 的多推理支硕士学位论文第一章绪论持，对于一些复杂的查询任务，j e n a 2 也被认为是充分的。j e n a 提供丰富的内部接口来操纵r d f 图，j e n a 还提供砌) f x m l 分析器、查询语言和r d f 三元表示i o 模块以及支持r d f s 和o w l 的附加功能。但是，j e n a 不提供执行接口，用户必须在j e n a 之上构建自己执行接口，j e n a 对外开放其源代码。德国国家信息技术研究中心集成出版和信息系统研究所( g m d i p s l ) 的研究小组联合西班牙、法国、奥地利等国的研究机构开发了x m l k m 系统。该项目立项于2 0 0 0 年年初，是一个利用x m l 技术进行底层异构数据源的集成、采用数据仓库和数据挖掘技术支持知识抽取、含有事务处理和安全控制的知识管理系统。图1 2 就是经过了简化的x m l k m 系统结构。可以看出，信息的采集( 集成) 、识的发现和抽取、知识的发布，三个层次较为分明地体现在系统中。该结构基本概括了以x m l 为基础的知识管理系统的主要内容，因此在业界有着一定的影响，成为研发知识管理系统的重要参考。，。m 。格式展现 h t m l ，e m a i l ，w a p 00 b 竺型p 竺型展现引挈图1 - 2x m l k m 系统结构 w e b c o k a c e 是法国i n r i a 的a c a c i a 小组开发的知识管理产品f 2 9 j ，基于 x m l 技术。w e b c o k a c e 主要特点有：1 ) 在一个协同的平台上，可以跨i n t e m e t 和i n t r a n e t 集成多个异构数据源，以x m l 作为数据的基本存储形式，包括数据格式、知识模型和语义元数据的表达；2 ) 引入本体概念作为知识查询的载体。在服务器端设计了一个解释器，用来将c o m m o n k a d s 形式表达的本体转换成 r d f 模式，再到x m l 数据库中查询相关知识。它还设计了一个本体过滤引擎，以回答客户的简单查询；3 ) 作为一个应用例子，它在应用层开发了r e s e d a 系统，这是一个道路事故诊断系统，它可以利用服务器端开发的一个推理引擎，接受用户的查询请求，查询x m l 知识库，经过简单处理，给出事故诊断的初步建议。 6 硕士学位论文第一章绪论德国h a m b u r g 大学研发的描述逻辑本体推理系统r a c e 以t a c e r p m ( 最新的版本是r a c e r p r o1 9 ，2 0 0 6 年) 是为语义w e b 研发的基于w 3 c 标准r d f o w l 的第一个市场化推理机和推理服务器【3 0 1 。它为用户提供图形界面和n g q l 查询语言，支持w 3 c 为w e b 推荐的标准查询语言s p a r q l 。r a c e r 支持a l c n h r + 逻辑，著名的描述逻辑s h i q 是由a l c n h r + 加上量词限制和逆关系扩展而来。 1 3 3 国内的本体相关研究和项目中科院计算机语言信息中心语言知识研究室董振东的知l n ( h o w n e t ) 1 3 1 1 项目属于国内较早的本体相关研究。知网是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，它作为一个知识系统，力求反映的是概念的共性和个性以及概念之间和概念的属性之间的各种关系，知网是借助于计算机建立的，它明确地教给计算机知识体系，使知识对计算机而言是可操作的。根据作者的设想它可能成为计算机的智能构件。知网现有规模包含：2 7 1 个信息结构模式、1 1 ，0 0 0 词语，总字数为中文6 0 ，0 0 0 字。从上可见，与国外一些有名的知识库或本体相比，知网仍存在概念总量较少、支持的语种太少以及其知识词典描述语言( k d m l ) 能力太弱等不足。中科院数学所陆汝钤主持开发的p a n g u 知识库项目旨在建立一个大规模的常识知识库1 3 2 】，并探讨利用常识知识来解决一些实际问题( 如机器翻译和自然语言理解等) 。p a n g u 采用a g e n t 和p a n g g u 本体来表达知识，其中本体用来进行常识知识的横向联想。在p a n g u 中，一个本体描述分成3 部分：静态本体元的集合、动态本体元的集合和本体网，后者也是一个语义网络，由从属于该本体的所有a g e n t 构成。每个本体表述从属于某个a g e n t 的b e l i e f 部分，本体的全体形成了该知识库的本体结构p ”。中科院计算技术研究所曹存根于1 9 9 5 年在世界上首先提出了n k i ( n a t i o n a l k n o w l e d g ei n f r a s t r u c t u r e ，国家知识基础设施) 的概念并就此展开了研究u ，n k i 是一个庞大的、可共享的知识群体，旨在为科研、教学、科普和知识服务提供有效的基础。在n k i 中，设计了大量的包括地理、化工、生物、中西医等学科在内的专业本体。n k i 在对很多本体进行本体论分析时，定义了属性之间以及关系之间的公理。并且引入了强公理和弱公理的概念。在强公理不成立的情况下，以弱公理代替强公理进行推理，再在以后的推理中，由于新知识的加入或确定性高的公理的加入逐渐强化公理，以提高公理的确定性。由于各专业本体是手工获取的，因此，计算机化程度还有待提高。目前，n k i 项目仍在施行中。硕士学位论文第一章绪论中科院数学研究所金芝对基于本体的需求获取方法等方面进行了研究1 3 5 , 3 6 1 。金芝提出的基于本体的需求获取方法，是以企业本体和领域本体作为需求获取的元模型，以之指导和规范整个需求获取过程，并通过对领域模型的重用，完成目标系统的模型构造。其主要思想是：1 ) 通用企业本体作为企业描述层的元模型，规范企业描述并使之系统化，保证企业描述的完整性和一致性；2 ) 领域本体作为领域元模型，定义企业描述在特定领域的约束，同时提供领域可重用概念及其关联；3 ) 领域软件需求模型作为领域分析的结果，支持目标系统需求模型的构造。另外，他还对本体构造方法论等方面进行了探索。在国内，对本体相关领域展开研究的还有浙江大学计算机学院吴朝晖【37 l 、上海交通大学计算机系a p e x 实验室俞勇删以及浙江大学计算机学院李善平口9 】等为数不少的研究工作者。他们对本体构造方法、本体修正和集成、本体评价方法、本体模型验证以及本体在智能信息检索、企业间数据交换及知识管理、w 曲服务等方面的应用等方面开展了研究。本体的研究和应用，特别是在语义w e b 中的应用都还处于探索阶段。主要困难有：本体的形式化程度不够，这无法满足计算机系统间的互操作和知识重用等实际需求，也直接影响到本体查询的成功实现；本体的构建缺乏统一的标准，对构造本体的方法和方法的性能评估还没有一套成熟的标准；缺乏本体集成工具、完整的本体评价和维护方法；本体应用的局限性，还没有见到本体在实际完成的工程中的成功应用。一些项目把本体论方法作为一种领域知识表示的手段，但是并不能确信这种知识表示在应用中是否能够起到由于其他方法的作用，例如 c y c 项目，曾被认为是一项具有巨大应用和理论价值的研究，迄今为止，没有见到c y c 如它的研究目标所说的知识库在自然语言处理中的成功应用。国内的 p a n g u ，也只是在自然语言处理中得到一定实验应用，因为本体常识知识库太小，所以p a n g g u 并不能解决自然语言处理中的实际问题，其它还有本体获取的方法不成熟等一系列问题。 1 4 本文的主要工作内容本论文研究主要针对目前信息检索的查准率有待提高的问题，提出了利用本体的参与来提高搜索的准确性这样一个w e b 语义分析模型，并对其实现作了具体的分析和设计。本论文研究的内容主要是s n a x 系统( s e m a n t i cn a t i v e x m ld a t a b a s es y s t e m ) 中的数据收集和格式转换部分。根据这研究目标，论文所做的研究工作主要包括以下几个方面： 1 s n a x 系统框架硕士学位论文第一章绪论我们设计了一个满足b e m e r s l e e 对语义w e b 定义的s n a x 系统，它主要包括数据收集器、文档格式转换器、数据存取管理器、本体管理器和多功能查询器等组成。 2 网络蜘蛛的设计设计并实现了一个用来收集w e b 页面的网络蜘蛛，通过设定线程数和链接范围来收集实验所需的网页。 3 设计并实现了一个基于链式结构的x m l 文档解析器论文提出了一个基于链式结构的x m l 文档解析方法，具体包括d o m 解析树生成算法、先根遍历d o m 树的递归算法以及对应的二叉链表实现算法等三个算法，用来完成整个解析过程，最终得到x m l 文档。 4 提出基于本体的w e b 语义分析模型我们利用领域本体对分词后的结果进行分析，并利用分析结果对概念实例化，根据用户提出的查询和搜索问题，也利用领域本体对其进行理解，将其转化为对某个实例及其属性的查询，保证了用户问题与信息描述的致性，实现了它们的精确匹配，从而提高系统的查准率。 1 5 本文的组织结构论文共分五章，结构如下：第一章介绍了语义网的体系结构，分析了本体描述语言及本体相关研究的国内外现状，并简单阐述了本论文所做的主要研究工作。第二章简单介绍了s n a x 涉及到的关键技术和基于本体的w e b 语义分析模型，同时分析了w e b 语义分析模型和s n a x 的关系。第三章主要分析设计了数据收集和文档解析两个模块，其中重点介绍了论文提出的基于链式结构的x m l 文档解析方法，具体包括d o m 解析树生成算法、先根遍历d o m 树的递归算法以及对应的二叉链表实现算法等三个算法。第四章分析了中文分词，存储索引和搜索查询的具体过程以及实验结果和分析。第五章也是全文的最后一章，对全文所开展的工作进行了总结，并对未来的工作作了进一步展望。 9 硕士学位论文第二章s n a x 系统和w e b 语义分析模型第二章s n a x 系统和w e b 语义分析模型语义原生x m l 数据库系统s n a x 可看作一个试验型微型语义网，主要由 w 曲数据收集器、格式转换器、原生x m l 数据存取管理器、本体管理器以及多功能查询器等几部分组成。在s n a x 的整体框架下，提出了基于本体的w e b 语义分析模型。 2 1s n a x 系统由于语义网的实现是一个包含众多理论和技术问题的大工程，在为数众多的实现技术取得真正的突破之前，很难着手构建一个真实的语义网。s n a x 系统在一定程度上可弥补这一缺陷，可看作一个微型的语义网。 2 1 1 s n a x 体系结构 s n a x 的层次关系符合b e m e r s - l e e 对语义网的定义，而且所完成的许多理论方法和实现技术与构建语义网的方法和技术也是一致的。s n a x 的体系结构如图2 1 所示。图2 - 1s n a x 体系结构由于x m l 已经成为了网上数据交换的标准，因此，对各种结构的x m l 数据的管理、查询和共享变得非常必需。但是，x m l 及其模式表达的主要是数据的结构而非语义，语义上等价的文档常常以不同的文档结构形式表现出来。用户硕士学位论文第二章s n a x 系统和w e b 语义分析模型必须根据x m l 文档的结构来构造相应的查询，而不同的查询所得的内容具有相同的语义，这一事实表明对语义相同的不同结构的文档构造查询成了用户的一个多余的负担。此外，因为查询的重构必须要消除语义等价的查询结果在数据结构上的差别，这就妨碍了x m l 数据的互操作性。因此，利用本体来集成不同结构的语义等价文档是很自然的想法。通过s n a x ，我们可以了解下一代网标准、掌握一系列语义网构建的必要原理和技术，而同时s n a x 为我们提供了一个进一步完善语义网理论和研究探索新的本体应用的研究平台。事实上，s n a x 的实现也为小型x m l 数据管理、查询以及不同部门的用户共享数据等方面的应用提供一个现实工具。 s n a x 主要包括：数据收集器、格式转换器、存取管理器、本体管理器和多功能查询器。 2 1 2w e b 数据收集器和存取管理器 w e b 数据收集，主要是指通过w e b 页面之间的链接关系，从w e b 上自动地获取页面信息，并且随着链接不断向整个w e b 扩展的过程。粗略地说，它主要是指这样一个程序，从一个初始的u r l 集出发，将这些u r l 全部放入到一个有序的待收集队列里。而收集器从这个队列里按顺序取出u r l ，通过w e b 上的协议，获取u r l 所指向的页面，然后从这些己获取的页面中提取出新的u r l ，并将它们继续放入到待收集队列里然后重复上面的过程，直到收集器根据自己的策略停止收集。对于有些收集器，到此就算完结了，而对于另一些收集器，它还要将收集到的页面数据和相关数据存储、索引并在此基础上对内容进行分析。原生x m l 数据存储x d ) 平 i 存取管理器位于s n a x 的最底层，其地位相当于b e m e r s l e e 的语义网中的x m l 层。选择x m l 作为数据源主要是因为：首先，用x m l 编码的信息为人类易读；其次，由于x m l 能被嵌入网页，它能用于表示跨网页分布的知识，从而利用w e b 上的信息通信机制，易于在w e b 上进行x m l 格式的r d f 和本体等数据的交换；第三，已有大量的对x m l 文档进行解析和操纵的工具，充分利用它们便于s n a x 的研发。在s n a x 中，r d f 和本体都以x m l 格式表示存储，存取管理器实际上是本体管理器、多功能查询器等上层结构与x m l 数据的接口，所有对x m l 数据的存取都将通过存取管理器进行，存取管理器中集成解析x m l 数据和x m l 格式存储的r d f 和本体数据。 r d f 用于定制描述w e b 资源的元数据，r d f 的目标之一是以标准的、互操作的方式规定x m l 表示的数据的语义。r d f 提供了独立于应用和文档结构的机硕士学位论文第二章s n a x 系统和w e b 语义分析模型制来描述资源。 r d f s 是用于定义r d f 的描述性语言，r d f s 数据模型提供了定义属性和资源之间的关系的机制。r d f s 可被视为初级本体，提供了被描述对象某种程度的语义。原生x m l 数据库是专用于存储x m l 文件的数据库。在原生数据库的底层，物理存储模型并没有特殊要求。它既可以用自己专用的存储格式，如索引或压缩文件，也可建立在关系型、层次型或面向对象的数据库之上，只是其逻辑模型为整个x m l 文件，以文件形式存取。 2 1 3 本体管理器本体映射集成是本体管理器的主体。由于x m l 中的标签缺少语义以及进行推理的知识，因此，通过引进r d f 和本体来描述x m l 数据集语义和整个x m l 数据库的语义。本体作为不同应用问的共享体，能明确地表示概念的语义和消除数据的异构性，在人工智能中得到了一定程度的成功应用。在应用中是具体本体映射等方法由低层向高层进行本体集成或专门构建的本体来实现缓解甚至消除语义异构性的。一般说来，构建本体可分为四步：1 数据分析和概念化；2 集成而获得统一的描述；3 综合和分类，即从统一描述和概念间的关系来定义本体概念并将本体概念进行分类；4 实现，即用基于描述逻辑的语言表示本体并反复测试和细化本体概念。 s n a x 的本体集成包含三步：x m l 数据集到r d f 的映射集成、r d f 集到局域本体的映射集成和局域本体到全局本体的映射集成。在第一步中，将异构的同语义x m l 数据映射到统一的r d f ：第二步是将同语义的r d f 映射到统一的局域本体( 例如r d fs c h e m a ) ，最后一步是将局域本体集合并为全局本体。转换与合并过程涉及了各种映射方法和技术的研究与实现。全局本体的作用是为用户提供了一个完整的x m l 数据源的语义库，局域本体则是向用户提供了多个分领域的语义库。局域本体从不同的视角为用户提供各领域共享知识的统一框架。通过各个层次的映射得到了不同层次的概念以及概念间关系的细节，提供了异构x m l 数据源的多层次语义视图，以满足不同用户对数据的需求。用户可根据查询的语义精度要求分别依据全局本体、局域本体或r d f 对x m l 数据源进行不同语义要求的查询。映射集成时，依据公用本体w o r d n e t 的定义，从x m l ，r d f 局域本体中提取出同义词，利用语义来达到集成的目的。硕士学位论文第二章s n a x 系统和w e b 语义分析模型在本体管理器中还向专家用户提供本体编辑功能，以便领域专家直接构造本体或编辑、修改由本体映射器自动生成的本体。因为每个x m l 文档都有显式或隐式的对应模式来描述，在这一情形下，与语义相同的异构x m l 文档及其模式相联系的本体可由三个层次构成：1 x m l 到r d f 的语义映射。比较不同x m l 数据源相关联的x m l 模式，将语义相同的x m l 统一由r d f 描述，这样，可将异构x m l 文档分为r d f 类；2 r d f 到局域本体的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于本体的web语义分析模型研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于本体的web语义分析模型研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档