




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的web语义分析模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着网络的不断普及,搜索查询越来越被广泛地使用,但是由于 目前计算机并不能理解网页内容的语义,所需信息的查准率比较 低。本体是解决语义层次上w e b 信息共享和交换的基础,在查询时 引入本体,将有助于改变这一现状。基于此,论文在本体的基础上 对w e b 上的内容及其语义进行了分析研究,主要包括以下内容: 在语义原生x m l 数据库系统( 简称s n a x 系统) 的整体框架下, 提出了基于本体的w e b 语义分析模型,它主要包括网页收集、文档 解析、语言分析、查询分析、存储索引和搜索查询等模块,并重点 对网页收集和文档解析进行了研究分析。 网页收集主要是指通过w e b 页面之间的链接关系,从w e b 上自 动地获取页面信息,并且随着链接不断向整个w e b 扩展的过程。论 文设计了个网络蜘蛛算法,通过给定一个初始的u r l ,在设定收 集范围、线程数目等条件下,自动实现w e b 页面的收集。 文档解析主要完成将收集到的w e b 页面解析成x m l 文档。论 文提出了一个基于链式结构的x m l 文档解析方法,具体包括d o m 解析树生成算法、改进的先根遍历d o m 树的递归算法以及对应的二 叉链表实现算法等三个算法以完成解析过程,最终得到x m l 文档。 通过实验对比,在查询准确性方面,基于本体的语义分析方法 比不利用本体直接分词然后查询的方法要高,而在查全率方面,两者 的性能相差无几。 关键词本体,语义,s n a x ,解析 a b s t r a c t w i t ht h ep o p u l a r i z a t i o no fi n t e r n e t ,t h ei n f o r m a t i o ns e a r c h i n ga n d q u e r y i n gh a sb e e nw i d e l yu s e d ,b u tb e c a u s et h ec o m p u t e rc o u l dn o t u n d e r s t a n dt h es e m a n t e m eo fw e bp a g e s ,t h ev e r a c i t yo fi n f o r m a t i o n s e a r c h i n gi sc o m p a r a t i v e l yl o w e r o n t o l o g yi st h eb a s i so fs h a r i n ga n d e x c h a n g i n go fw e bi n f o r m a t i o n ,a n di n t r o d u c i n go n t o l o g y t ow e b s e a r c h i n gw o u l db eh e l pt oi m p r o v et h ev e r a c i t y f r o mt h i sv i e w ,t h i s t h e s i sa n a l y s e sa n ds t u d i e sw e bi n f o r m a t i o na n dt h e i rs e m a n t e m eb a s e d o n t o l o g y t h i st h e s i sm a i n l yi n c l u d e st h o s ep a r t sa sf o l l o w s u n d e rt h ew h o l ef r a m eo fs e m a n t i cn a t i v ex m ld a t a b a s es y s t e m ( s n a x ) ,t h i st h e s i sp r e s e n t sas e m a n t i ca n a l y s i sm o d e lo fw e bb a s e d o n t o l o g y t h em o d e li n c l u d e st h ec o l l e c t i n ga n dp a r s i n go fw e bp a g e s m o d u l e ,t h el i n g u i s t i ca n a l y s i sm o d u l e ,t h ei n q u i r ya n a l y s i sm o d u l e ,t h e s t r o r a g ei n d e xm o d u l ea n dt h eq u e r y i n ga n ds e a r c h i n gm o d u l e t h e n t h i st h e s i se m p h a s i z e d l ys t u d i e sc o l l e c t i o no fw e bp a g e sa n dp a r s i n go f w e bp a g e s c o l l e c t i n go fw e bp a g e sm a i n l yo b t a i n st h ei n f o r m a t i o no fw e b p a g e sa u t o m a t i c a l l yb yt h el i n k sb e t w e e nw e bp a g e sa n dp e n e t r a t si n t o t h ew h o l ew e b t h i st h e s i sd e s i g n san e t w o r ks p i d e ra l g o r i t h m ,w h i c h a u t o m a t i c a l l y c o l l e c t st h ei n f o r m a t i o no fw e bp a g e si nl i m i t e d s e a r c h i n gs c o p ea n dt h r e a dn u m b e r sf r o ma no r i g i n a lu r l p a r s i n go fw 曲p a g e sm a i n l yp a r s e st h ew 曲p a g e sc o l l e c t e di n t o x m ld o c u m e n t s t h i st h e s i sp r e s e n t st oap a r s i n gm e t h o do fx m l d o c u m e n t sb a s e do n1 i n k s t r u c t u r e t h em e t h o di n c l u d e st h ea l g o r i t h mo f t h e c r e a t i n g o fd o mp a r s i n gt r e e ,t h ea l g o r i t h mo fm o d i f i e d p r e o r d i n a t i o nv i s i t e dd o mp a r s i n gt r e ea n dt h ea l g o r i t h mo fe x t r a c t i o n i n f o r m a t i o nf r o mt h ed o mp a r s i n gt r e ea n ds t o r e dl i n k - l i s t t h er e s u l t so fe x p e r i m e n t ss h o wt h es e m a n t i ca n a l y s i sm e t h o db a s e d o no n t o l o g yi ss u p e r i o ri ns e a r c h i n gv e r i c a t yt h a nt h em e t h o dw h i c hd o e s n o tu s eo n t o l o g yb u to n l yq u e r ya f t e rs i m p l es e g m e n t b u ti ns e a r c h i n g i n t e g r i t yt h et w o m e t h o d sh a v el i t t l ed i f f e r e n c e s k e yw o r d so n t o l o g y ,s e m a n t e m e ,s n a x ,p a r s i n g 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:菡:缸匿 日期:尘堑年_ 三月二日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:醯导师签名4 盏k 日期:主堑年妇兰日 硕士学位论文 第一章绪论 第一章绪论 目前使用的万维网( w o r l dw i d ew e b ,w w w ) 存在两个最明显的不足: 一是计算机不理解网页内容的语义:二是网上有用信息难找,即使借助搜索 引擎,查准率也较低,在得到成批相关网页的同时,也夹杂了许多不需要的 垃圾信息。原因就在于现在的万维网采用的是超文本标记语言( h t m l ) ,其 上大多数信息是用自然语言、图片、声音等表示的,网页上的内容是专供人 浏览的,而非供计算机理解和处理的。 1 1 研究背景和意义 人们希望按内容的语义表达需求,迅速准确地从成千上万的网页中过滤 出自己感兴趣的内容,同时也希望计算机能够理解网页内容,以便帮助其处 理许多烦琐的日常事务。于是,“万维网之父”t i mb e r n e r s l e e 在2 0 0 0 年 x m l 2 0 0 0 会议上提出了语义w e b ( s e m a n t i cw e b ) 的层次模型【l j 。 语义w e b 不是与当前w e b 隔离的另外一个w e b ,而是对当前的w e b 的变 革和延伸,是下一代w e b ,其目标是使得w e b 上的信息具有计算机可以理解 的语义,而不仅仅是构建一个作为文本图像展示平台的w e b 。语义w e b 能满 足智能代理( a g e n t ) 对w e b 上异构和分布信息的有效访问和搜索,由此带来 的是计算机也能理解网上信息的含意,从而有助于信息与智能的共享,更利 于人机之间的对话和协同工作。 本体( o n t o l o g y ) 是语义w e b 的个重要的组成部分,在语义w 曲中具有非常 重要的地位。目前本体的研究和应用主要包括以下三方面【2 j : 1 理论上的研究,主要研究概念及其分类,本体上的代数; 2 信息系统中的应用,主要包括处理信息组织、信息检索和异构信息系 统互操作问题: 3 本体作为一种能在知识层提供知识共享和重用的工具在语义w e b 中的 应用。 同时,本体是解决语义层次上w e b 信息共享和交换的基础。当前的许多 项目都致力于在语义w e b 中引入本体层的研究,在这样的网络中,信息都被赋 予了明确的含义,机器能够自动地处理和集成网上可用的信息。基于此,本 论文提出一个w e b 语义分析模型,在本体的基础上对w e b 上的内容及其语义 进行分析研究,通过对w e b 语义的分析,使用户的查询匹配达到更好的效果, 硕士学位论文第一章绪论 提高查准率。 1 2 语义w e b 的体系结构 t i mb e m e r s l e e 提出的语义w e b 的层次结构如图1 1 所示。 t r u s t 7 、o r u l e s d a t a p r o o f 7 一 皇 n d a t a l o g i c 暑 塑 竺 l 蒜 o n t o n l o g yv o c a b u l a r y量 粤 r d f + r d f s c h e m a o x m l + n s + x m l s c h e m a u n i c o d eu r i 图1 1t i mb e m e r s - l e e 语义w e b 层次模型 第一层是整个语义w e b 的基础,u n i c o d e 处理资源的编码,u r i 负责标识资 源。u r i 就是w e b 标识符,语义w e b 中的每个数据对象和每个数据模式模型 都必须拥有惟一的u r i 。统一资源定位符( u r l ) 是一种u r i ,除了标识资源外, 通过描述资源的主要访问机制或网络位置,u r l 还提供了对资源的表示进行操 作或获取的方式。例如,u r lh t t p :w w w c s u e d u c n 是一个u r i ,标识了一个资 源( c s u 的主页) ,还代表这个资源的表示形式是可以从名为w w w c s u e d u c n 的 网络主机通过h t l p 得到。 对于今天的大部分计算机应用来说,其产生的信息并没有统一的语法描 述格式,x m l l 3 1 的出现使得不同类型的数据表示成同一格式成为了可能。x m l 是一种用于定义标记语言的工具,其内容包括x m l 声明、用以定义语言语法的 d t d ( d o c u m e n tt y p ed e c l a r a t i o n 文档类型定义) 、描述标记的详细说明以及文档 本身。而文档本身又包含有标记和内容。尽管x m l 的灵活性使得用户可以快 速、容易的描述任意的内容,但由于x m l 并不能解释它标记的含义,大多数 处理应用要求这些标记集合能够满足某种标准或者双方的约定,因此,需要 更进一步的手段来对文档的结构从语义进行表达,r d f ( 资源描述框架, r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,简称r d f ) 及其上层对此负责。 w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ) 推荐以r d f 标准来解决x m l 的语义 局限。r d f 是一个用于表达关于万维网上的资源的信息的语言。它专门用于表 硕士学位论文 第一章绪论 达关于w e b 资源的元数据,比如w e b 页面的标题、作者和修改时间等。然而, 将“w 曲资源( w e br e s o u r c e ) ”这一概念一般化后,r d f 可用来表达关于任何 可在w e b 上被标识的事物的信息。比如关于一个在线购物机构的某项产品的信 息( 例如关于规格、价格和可用性信息等) ,或者是关于一个w e b 用户在信息传 送方面的特别描述。 r d f 提供了一种用于表达应用程序处理所需要的信息、并使其能在应用程 序间交换而且不丧失语义的通用框架。在此通用框架中,应用程序设计者可以利 用现成的通用r d f 解析器( r d fp a r s e r ) 及通用的处理工具。在不同的应用程 序间交换信息,也即意味着那些不是信息的最初创建者的应用程序也可利用这些 信息。 r d f 提出了一个简单的模型用来表示任意类型的数据。这个数据类型由 节点和节点之间带有标记的连接弧所组成( 即有向图) 。节点用来表示w e b 上 的资源,弧用来表示这些资源的属性| 4 】。在w e b 环境下,我们可以将其序列化 为x m l 文档。与x m l 不同,r d f 中的资源可以分配全局标示符,也可以引 用其它文档中的陈述。但是对于同义词以及一词多意等问题,r d f 的模型不具 备解决的能力,而r d f s ( r d fs c h e m a ) 虽然可以为r d f 资源的的属性和类 型提供词汇表,但是基于r d f 的数据语义描述仍然可能存在语义冲突1 5 j 。 为了消解语义冲突,我们在描述数据语义的时候可以通过引用本体的相 关技术,对语义描述结果作进一步的约束。r d f ( s c h e m a ) 除了提供简单的机器 可理解语义模型的同时,也为领域化的本体描述语言( 如d m a l ( d a r p a a g e n t m a r k u pl a n g u a g e ) ,o w l ( o n t o l o g yw e bl a n g u a g e ) 等) 提供了建模基础, 并使得基于r d f 的应用可以方便地与这些本体描述语言所生成的本体进行合 并,如o w l 提供了a p i 接口,其输入数据可以r d f 形式表示【6 】。本体层用 于描述各种资源之间的联系,本体通过明确地、形式化地描述某一领域的共 享概念,能使用户和计算机更精确地在语义基础上进行交流,而不仅仅是交 换具有语法表达的数据。本体的基本构造单元是概念,概念集以概念层次关 系组织起来,概念具有属性,通过属性名将概念关联起来。上述本体描述语 言中,o w l 被w 3 c 推荐为w e b 上描述本体的标准语言,由于r d f 的通用性, 本体可以用r d f 方式存储。 逻辑( l o g i c ) 层的逻辑性( 使用规则去推理、选择行为的步骤并回答问题 的方法) 是语义w e b 面临的一个任务。由于该任务涵盖了数学和工程化决策等 多方面知识,使其更加复杂,因为逻辑要描述复杂的对象属性,但如果太复杂, 就会导致代理可能被一些悖论的问题问倒。为避免此类问题,传统的知识表现系 硕士学位论文 第一章绪论 统通常各自都有针对其数据进行推理的一套有限的和特殊的规则,使数据可以由 一个系统传到另一个系统。规则则不然,由于规则所处的环境完全不同,它往往 不能运用到另一个系统中。语义w e b 的研究者认为要获得多样性,必然会有自 相矛盾的情况或无法回答的问题出现,因此描述规则的语言要尽量具有表达力, 让w e b 能尽可能广泛地进行推理。因此,语义w e b 要提供一种语言,能同时表 达数据以及根据数据进行推理的规则,并且允许任何现存的知识表现系统中的规 则都能输出到w e b 上,逻辑层的推理是基于本体层之上的推理应用。 p r o o f 这一层则在此基础上使代理可以交换推理的结果。为了检查这些结 果,需要将各代理的内部推理机制转化为一种通用的证据表示语言。 语义w e b 结构中的数字签名和确信( t r u s tl a y e r ) 贝j j 是为了保证信息交换的安 全问题而设计的,信息交换的双方必须建立了一种信任关系才能在一定程度上保 障信息的有效性。 1 3 本体相关研究现状 本体这个词早在1 7 世纪就已诞生,其派生于希腊语的“o n t o ”( “存在”) 和 “l o g i a ”( “箴言录”) ,是一个哲学的分支“1 。本体在哲学领域常译为“存在论”, 在计算机科学和人工智能领域则译为“本体”。1 9 9 3 年,g r u b e r 给出了本体的一个 定义”,即“o n t o l o g y 是概念模型的明确的规范说明”。b o r s t 在此基础上给出了本 体的另外一种定义。1 :“o n t o l o g y 是共享概念模型的形式化规范说明”。s t u d e r 等 对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式 化规范说明,它包含四层含义“:概念模型、明确、形式化和共享。 1 31 本体描述语言现状 本体描述语言起源于历史上人工智能领域对知识表示的研究,因此本体的描 述语言不仅仅需要具有良好定义的语法和语义,充分的表达能力,更需要有效的 推理支持和表达的方便性。本体描述语言是用来描述本体的,它让用户可以为领 域模型编写清晰、形式化的概念描述。 在具体的应用中,本体的表示方式主要可分为4 大类:非形式化、半非形式 化、半形式化、形式化语言;可以用自然语言来描述本体,也可以用框架、语义 网络或逻辑语言等来描述本体。 本体规范语言或称为本体描述语言的目标是要以近似人类语言的方式表达 本体包含的规范概念或知识,同时,还要能被计算机理解和在w e b 上传输。在语 义w e b 提出之前,已有不少本体描述语言被研究和开发出,如o c m l 1 1 】, 硕士学位论文第一章绪论 f l o g i c ,k f ,o n t o l i n g u a ! ,o k b c ,l o o m 16 】等。t i mb e m e r s l e e 提出语 义w e b 的构想后,研究者根据w e b l 拘应用特点和需求改造或设计了一些适用于 w e b f f :j 本体描述语言,n s h o e 17 1 、x o l l l 8 1 、r d f 、d a m l 、o i l 19 1 、d a m l + o i l 2 0 i 、 o w l 2 1 1 等。 13 2 国外的本体相关研究和项目 国外与本体相关的研究项目很早就有,c y c 、k a o n 、j e n a 等都是这样一些 项目。c y c 2 2 1 是一个大型多语境的知识库和推理机,该项目始于1 9 8 4 年,由美 国得克萨斯大学c y c 研发小组( c y c o r p ) 开发。该项目的创始人d o u gl e n a t 总结 了以往人工智能中过于专注于推理而导致结果不佳的经验教训,提出从常识着 手,通过积累建立个存有巨量事实的知识库,设想一旦这一知识库建成,则可 将其用于需要大量知识背景的应用中。由于过于强调知识的数量对推理的作用, c y c 的知识对于推理的需求仍嫌不足。另外,c y c 的本体语言c y c l 表达能力 欠佳也是c y c 的一个缺点,因此,c y c 仍在完善中。 考虑到对搭建语义w e b 的综合集成工具的需求,德国k a r l s r u h e 大学k a o n f k a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bt o o ls u i t e ) 项目的目的是在r d f 之上提供 这样的集本体开发、管理和展示的工具套件2 3 04 1 ,其目标是使得用户可以容易地 在语义w e b 中进行各种应用、研究和开发工作。 k a o n 对本体的处理是通过一系列的形式化表示实现的,例如:本体在 k a o n 中的被定义为:本体是结构o := ( c ,辛,r ,j ,s r ) ,其中,c ,r 分别为概 念和关系,c 上的偏序f ? 是概念层次或分类,函数盯:r 斗c + 为签名,r 上的 偏序月为关系层次,其中,1 月r e 蕴含i 口( 1 ) = | 盯( ,2 ) i 和z 。p ( 1 ) ) c 乃( 盯( ,2 ) ) i 对于每一个1 i , r ( r 1 ) 。 完全建立在r d f 之上和支持形式化的本体为k a o n 所具有的特点,在 k a o n 的最新版本k a o n 2 中【”1 ,研发人员对本体的形式化、可视化和逻辑查 询等方面做了进一步的改进。 k a o n 2 是管理o w l d l 和s w r l t 2 6 1 本体的基础设施,它是k a o n ( 也称为 k a o n l ) 的继续,k a o n l 和k a o n 2 之间最主要的区别是本体语言,k a o n l 使 用r d f s 的适当扩展作为其本体语言,而k a o n 2 是基于o w l d l ,因此,k a o n 2 是不向后兼容的。 j e n a 2 7 , 2 8 1 是由惠普实验室用j a v a 开发的对元数据进行操纵的工具包,有两个 版本:j e n a l 和j e n a 2 。区别主要在于前者仅提供r d f 之上的利用查询语言m g q l 的有限推理,而后者除了r d q l 外,还提供对r d f 、r d f s 和o w l 的多推理支 硕士学位论文第一章绪论 持,对于一些复杂的查询任务,j e n a 2 也被认为是充分的。j e n a 提供丰富的内部 接口来操纵r d f 图,j e n a 还提供砌) f x m l 分析器、查询语言和r d f 三元表 示i o 模块以及支持r d f s 和o w l 的附加功能。但是,j e n a 不提供执行接口, 用户必须在j e n a 之上构建自己执行接口,j e n a 对外开放其源代码。 德国国家信息技术研究中心集成出版和信息系统研究所( g m d i p s l ) 的研究 小组联合西班牙、法国、奥地利等国的研究机构开发了x m l k m 系统。该项目 立项于2 0 0 0 年年初,是一个利用x m l 技术进行底层异构数据源的集成、采用 数据仓库和数据挖掘技术支持知识抽取、含有事务处理和安全控制的知识管理系 统。 图1 2 就是经过了简化的x m l k m 系统结构。可以看出,信息的采集( 集成) 、 识的发现和抽取、知识的发布,三个层次较为分明地体现在系统中。该结构基本 概括了以x m l 为基础的知识管理系统的主要内容,因此在业界有着一定的影响, 成为研发知识管理系统的重要参考。 ,。m 。格式展现 h t m l ,e m a i l ,w a p 00 b 竺型p 竺型 展现引挈 图1 - 2x m l k m 系统结构 w e b c o k a c e 是法国i n r i a 的a c a c i a 小组开发的知识管理产品f 2 9 j ,基于 x m l 技术。w e b c o k a c e 主要特点有:1 ) 在一个协同的平台上,可以跨i n t e m e t 和i n t r a n e t 集成多个异构数据源,以x m l 作为数据的基本存储形式,包括数据 格式、知识模型和语义元数据的表达;2 ) 引入本体概念作为知识查询的载体。 在服务器端设计了一个解释器,用来将c o m m o n k a d s 形式表达的本体转换成 r d f 模式,再到x m l 数据库中查询相关知识。它还设计了一个本体过滤引擎, 以回答客户的简单查询;3 ) 作为一个应用例子,它在应用层开发了r e s e d a 系 统,这是一个道路事故诊断系统,它可以利用服务器端开发的一个推理引擎,接 受用户的查询请求,查询x m l 知识库,经过简单处理,给出事故诊断的初步建 议。 6 硕士学位论文 第一章绪论 德国h a m b u r g 大学研发的描述逻辑本体推理系统r a c e 以t a c e r p m ( 最新的版 本是r a c e r p r o1 9 ,2 0 0 6 年) 是为语义w e b 研发的基于w 3 c 标准r d f o w l 的第 一个市场化推理机和推理服务器【3 0 1 。它为用户提供图形界面和n g q l 查询语言, 支持w 3 c 为w e b 推荐的标准查询语言s p a r q l 。r a c e r 支持a l c n h r + 逻辑, 著名的描述逻辑s h i q 是由a l c n h r + 加上量词限制和逆关系扩展而来。 1 3 3 国内的本体相关研究和项目 中科院计算机语言信息中心语言知识研究室董振东的知l n ( h o w n e t ) 1 3 1 1 项目 属于国内较早的本体相关研究。知网是一个以汉语和英语的词语所代表的概念为 描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容 的常识知识库,它作为一个知识系统,力求反映的是概念的共性和个性以及概念 之间和概念的属性之间的各种关系,知网是借助于计算机建立的,它明确地教给 计算机知识体系,使知识对计算机而言是可操作的。根据作者的设想它可能成为 计算机的智能构件。知网现有规模包含:2 7 1 个信息结构模式、1 1 ,0 0 0 词语,总 字数为中文6 0 ,0 0 0 字。从上可见,与国外一些有名的知识库或本体相比,知网 仍存在概念总量较少、支持的语种太少以及其知识词典描述语言( k d m l ) 能力太 弱等不足。 中科院数学所陆汝钤主持开发的p a n g u 知识库项目旨在建立一个大规模的 常识知识库1 3 2 】,并探讨利用常识知识来解决一些实际问题( 如机器翻译和自然 语言理解等) 。p a n g u 采用a g e n t 和p a n g g u 本体来表达知识,其中本体用来进行 常识知识的横向联想。在p a n g u 中,一个本体描述分成3 部分:静态本体元的集 合、动态本体元的集合和本体网,后者也是一个语义网络,由从属于该本体的所 有a g e n t 构成。每个本体表述从属于某个a g e n t 的b e l i e f 部分,本体的全体形成 了该知识库的本体结构p ”。 中科院计算技术研究所曹存根于1 9 9 5 年在世界上首先提出了n k i ( n a t i o n a l k n o w l e d g ei n f r a s t r u c t u r e ,国家知识基础设施) 的概念并就此展开了研究u ,n k i 是一个庞大的、可共享的知识群体,旨在为科研、教学、科普和知识服务提供有 效的基础。在n k i 中,设计了大量的包括地理、化工、生物、中西医等学科在 内的专业本体。n k i 在对很多本体进行本体论分析时,定义了属性之间以及关 系之间的公理。并且引入了强公理和弱公理的概念。在强公理不成立的情况下, 以弱公理代替强公理进行推理,再在以后的推理中,由于新知识的加入或确定性 高的公理的加入逐渐强化公理,以提高公理的确定性。由于各专业本体是手工获 取的,因此,计算机化程度还有待提高。目前,n k i 项目仍在施行中。 硕士学位论文第一章绪论 中科院数学研究所金芝对基于本体的需求获取方法等方面进行了研究1 3 5 , 3 6 1 。 金芝提出的基于本体的需求获取方法,是以企业本体和领域本体作为需求获取的 元模型,以之指导和规范整个需求获取过程,并通过对领域模型的重用,完成目 标系统的模型构造。其主要思想是:1 ) 通用企业本体作为企业描述层的元模型, 规范企业描述并使之系统化,保证企业描述的完整性和一致性;2 ) 领域本体作 为领域元模型,定义企业描述在特定领域的约束,同时提供领域可重用概念及其 关联;3 ) 领域软件需求模型作为领域分析的结果,支持目标系统需求模型的构 造。另外,他还对本体构造方法论等方面进行了探索。 在国内,对本体相关领域展开研究的还有浙江大学计算机学院吴朝晖【37 l 、 上海交通大学计算机系a p e x 实验室俞勇删以及浙江大学计算机学院李善平口9 】 等为数不少的研究工作者。他们对本体构造方法、本体修正和集成、本体评价方 法、本体模型验证以及本体在智能信息检索、企业间数据交换及知识管理、w 曲 服务等方面的应用等方面开展了研究。 本体的研究和应用,特别是在语义w e b 中的应用都还处于探索阶段。主要 困难有:本体的形式化程度不够,这无法满足计算机系统间的互操作和知识重用 等实际需求,也直接影响到本体查询的成功实现;本体的构建缺乏统一的标准, 对构造本体的方法和方法的性能评估还没有一套成熟的标准;缺乏本体集成工 具、完整的本体评价和维护方法;本体应用的局限性,还没有见到本体在实际完 成的工程中的成功应用。一些项目把本体论方法作为一种领域知识表示的手段, 但是并不能确信这种知识表示在应用中是否能够起到由于其他方法的作用,例如 c y c 项目,曾被认为是一项具有巨大应用和理论价值的研究,迄今为止,没有 见到c y c 如它的研究目标所说的知识库在自然语言处理中的成功应用。国内的 p a n g u ,也只是在自然语言处理中得到一定实验应用,因为本体常识知识库太小, 所以p a n g g u 并不能解决自然语言处理中的实际问题,其它还有本体获取的方法 不成熟等一系列问题。 1 4 本文的主要工作内容 本论文研究主要针对目前信息检索的查准率有待提高的问题,提出了利用本 体的参与来提高搜索的准确性这样一个w e b 语义分析模型,并对其实现作了 具体的分析和设计。本论文研究的内容主要是s n a x 系统( s e m a n t i cn a t i v e x m ld a t a b a s es y s t e m ) 中的数据收集和格式转换部分。 根据这研究目标,论文所做的研究工作主要包括以下几个方面: 1 s n a x 系统框架 硕士学位论文 第一章绪论 我们设计了一个满足b e m e r s l e e 对语义w e b 定义的s n a x 系统,它主要 包括数据收集器、文档格式转换器、数据存取管理器、本体管理器和多功能查询 器等组成。 2 网络蜘蛛的设计 设计并实现了一个用来收集w e b 页面的网络蜘蛛,通过设定线程数和链接 范围来收集实验所需的网页。 3 设计并实现了一个基于链式结构的x m l 文档解析器 论文提出了一个基于链式结构的x m l 文档解析方法,具体包括d o m 解析 树生成算法、先根遍历d o m 树的递归算法以及对应的二叉链表实现算法等三个 算法,用来完成整个解析过程,最终得到x m l 文档。 4 提出基于本体的w e b 语义分析模型 我们利用领域本体对分词后的结果进行分析,并利用分析结果对概念实例 化,根据用户提出的查询和搜索问题,也利用领域本体对其进行理解,将其转化 为对某个实例及其属性的查询,保证了用户问题与信息描述的致性,实现了它 们的精确匹配,从而提高系统的查准率。 1 5 本文的组织结构 论文共分五章,结构如下: 第一章介绍了语义网的体系结构,分析了本体描述语言及本体相关研究的国 内外现状,并简单阐述了本论文所做的主要研究工作。 第二章简单介绍了s n a x 涉及到的关键技术和基于本体的w e b 语义分析模 型,同时分析了w e b 语义分析模型和s n a x 的关系。 第三章主要分析设计了数据收集和文档解析两个模块,其中重点介绍了论 文提出的基于链式结构的x m l 文档解析方法,具体包括d o m 解析树生成算法、 先根遍历d o m 树的递归算法以及对应的二叉链表实现算法等三个算法。 第四章分析了中文分词,存储索引和搜索查询的具体过程以及实验结果和分 析。 第五章也是全文的最后一章,对全文所开展的工作进行了总结,并对未来的 工作作了进一步展望。 9 硕士学位论文 第二章s n a x 系统和w e b 语义分析模型 第二章s n a x 系统和w e b 语义分析模型 语义原生x m l 数据库系统s n a x 可看作一个试验型微型语义网,主要由 w 曲数据收集器、格式转换器、原生x m l 数据存取管理器、本体管理器以及多 功能查询器等几部分组成。在s n a x 的整体框架下,提出了基于本体的w e b 语 义分析模型。 2 1s n a x 系统 由于语义网的实现是一个包含众多理论和技术问题的大工程,在为数众多的 实现技术取得真正的突破之前,很难着手构建一个真实的语义网。s n a x 系统在 一定程度上可弥补这一缺陷,可看作一个微型的语义网。 2 1 1 s n a x 体系结构 s n a x 的层次关系符合b e m e r s - l e e 对语义网的定义,而且所完成的许多理 论方法和实现技术与构建语义网的方法和技术也是一致的。s n a x 的体系结构如 图2 1 所示。 图2 - 1s n a x 体系结构 由于x m l 已经成为了网上数据交换的标准,因此,对各种结构的x m l 数 据的管理、查询和共享变得非常必需。但是,x m l 及其模式表达的主要是数据 的结构而非语义,语义上等价的文档常常以不同的文档结构形式表现出来。用户 硕士学位论文 第二章s n a x 系统和w e b 语义分析模型 必须根据x m l 文档的结构来构造相应的查询,而不同的查询所得的内容具有相 同的语义,这一事实表明对语义相同的不同结构的文档构造查询成了用户的一个 多余的负担。此外,因为查询的重构必须要消除语义等价的查询结果在数据结构 上的差别,这就妨碍了x m l 数据的互操作性。因此,利用本体来集成不同结构 的语义等价文档是很自然的想法。 通过s n a x ,我们可以了解下一代网标准、掌握一系列语义网构建的必要原 理和技术,而同时s n a x 为我们提供了一个进一步完善语义网理论和研究探索 新的本体应用的研究平台。事实上,s n a x 的实现也为小型x m l 数据管理、查 询以及不同部门的用户共享数据等方面的应用提供一个现实工具。 s n a x 主要包括:数据收集器、格式转换器、存取管理器、本体管理器和多 功能查询器。 2 1 2w e b 数据收集器和存取管理器 w e b 数据收集,主要是指通过w e b 页面之间的链接关系,从w e b 上自动地 获取页面信息,并且随着链接不断向整个w e b 扩展的过程。粗略地说,它主要 是指这样一个程序,从一个初始的u r l 集出发,将这些u r l 全部放入到一个有 序的待收集队列里。而收集器从这个队列里按顺序取出u r l ,通过w e b 上的协 议,获取u r l 所指向的页面,然后从这些己获取的页面中提取出新的u r l ,并将 它们继续放入到待收集队列里然后重复上面的过程,直到收集器根据自己的策略 停止收集。对于有些收集器,到此就算完结了,而对于另一些收集器,它还要将 收集到的页面数据和相关数据存储、索引并在此基础上对内容进行分析。 原生x m l 数据存储x d ) 平 i 存取管理器位于s n a x 的最底层,其地位相当 于b e m e r s l e e 的语义网中的x m l 层。选择x m l 作为数据源主要是因为:首先, 用x m l 编码的信息为人类易读;其次,由于x m l 能被嵌入网页,它能用于表 示跨网页分布的知识,从而利用w e b 上的信息通信机制,易于在w e b 上进行x m l 格式的r d f 和本体等数据的交换;第三,已有大量的对x m l 文档进行解析和 操纵的工具,充分利用它们便于s n a x 的研发。 在s n a x 中,r d f 和本体都以x m l 格式表示存储,存取管理器实际上是 本体管理器、多功能查询器等上层结构与x m l 数据的接口,所有对x m l 数据 的存取都将通过存取管理器进行,存取管理器中集成解析x m l 数据和x m l 格 式存储的r d f 和本体数据。 r d f 用于定制描述w e b 资源的元数据,r d f 的目标之一是以标准的、互操 作的方式规定x m l 表示的数据的语义。r d f 提供了独立于应用和文档结构的机 硕士学位论文第二章s n a x 系统和w e b 语义分析模型 制来描述资源。 r d f s 是用于定义r d f 的描述性语言,r d f s 数据模型提供了定义属性和资 源之间的关系的机制。r d f s 可被视为初级本体,提供了被描述对象某种程度的 语义。 原生x m l 数据库是专用于存储x m l 文件的数据库。在原生数据库的底层, 物理存储模型并没有特殊要求。它既可以用自己专用的存储格式,如索引或压缩 文件,也可建立在关系型、层次型或面向对象的数据库之上,只是其逻辑模型为 整个x m l 文件,以文件形式存取。 2 1 3 本体管理器 本体映射集成是本体管理器的主体。由于x m l 中的标签缺少语义以及进行 推理的知识,因此,通过引进r d f 和本体来描述x m l 数据集语义和整个x m l 数据库的语义。本体作为不同应用问的共享体,能明确地表示概念的语义和消除 数据的异构性,在人工智能中得到了一定程度的成功应用。在应用中是具体本体 映射等方法由低层向高层进行本体集成或专门构建的本体来实现缓解甚至消除 语义异构性的。一般说来,构建本体可分为四步:1 数据分析和概念化;2 集 成而获得统一的描述;3 综合和分类,即从统一描述和概念间的关系来定义本 体概念并将本体概念进行分类;4 实现,即用基于描述逻辑的语言表示本体并 反复测试和细化本体概念。 s n a x 的本体集成包含三步:x m l 数据集到r d f 的映射集成、r d f 集到 局域本体的映射集成和局域本体到全局本体的映射集成。在第一步中,将异构的 同语义x m l 数据映射到统一的r d f :第二步是将同语义的r d f 映射到统一的 局域本体( 例如r d fs c h e m a ) ,最后一步是将局域本体集合并为全局本体。 转换与合并过程涉及了各种映射方法和技术的研究与实现。全局本体的作用 是为用户提供了一个完整的x m l 数据源的语义库,局域本体则是向用户提供了 多个分领域的语义库。局域本体从不同的视角为用户提供各领域共享知识的统一 框架。通过各个层次的映射得到了不同层次的概念以及概念间关系的细节,提供 了异构x m l 数据源的多层次语义视图,以满足不同用户对数据的需求。用户可 根据查询的语义精度要求分别依据全局本体、局域本体或r d f 对x m l 数据源 进行不同语义要求的查询。 映射集成时,依据公用本体w o r d n e t 的定义,从x m l ,r d f 局域本体中提取 出同义词,利用语义来达到集成的目的。 硕士学位论文第二章s n a x 系统和w e b 语义分析模型 在本体管理器中还向专家用户提供本体编辑功能,以便领域专家直接构造本 体或编辑、修改由本体映射器自动生成的本体。因为每个x m l 文档都有显式或 隐式的对应模式来描述,在这一情形下,与语义相同的异构x m l 文档及其模式 相联系的本体可由三个层次构成:1 x m l 到r d f 的语义映射。比较不同x m l 数据源相关联的x m l 模式,将语义相同的x m l 统一由r d f 描述,这样,可将 异构x m l 文档分为r d f 类;2 r d f 到局域本体的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省荣成市第二十一中学七年级地理上册 3.1多变的天气说课稿 新人教版
- 2.雄伟的塔教学设计-2025-2026学年小学美术二年级上册人美版(常锐伦、欧京海)
- 4.14.2 保护生物圈是全人类的共同义务2025-2026学年七年级下册生物同步说课稿(北师大版)
- 1.2 复杂多变的关系 说课稿-2024-2025学年统编版道德与法治九年级下册
- 2025年中考数学试题分类汇编:圆的有关性质(9大考点39题)(第1期)解析版
- 我的太阳教学设计-2025-2026学年初中音乐人音版七年级上册-人音版
- Lesson 12 Whose is this This is myyourhisher Whose is that That is myyourhisher 教学设计-2025-2026学年初中英语第一册 上半册新概念英语
- 2023三年级英语下册 Unit 4 Where is my car配套说课稿 人教PEP
- 2025年全国中式面点师理论考试题库(含答案)
- 第五课 做守法的公民教学设计-2025-2026学年初中道德与法治统编版五四学制八年级上册-统编版五四学制2018
- 合作共享协议书
- 中东及非洲天然甜菊行业现状及发展机遇分析2024-2030
- 投标财务状况承诺书范本
- 《山区公路桥梁典型病害手册(试行)》
- 2024年全国中学生数学奥林匹克竞赛甘肃赛区预赛试题
- 临床中医适宜技术书
- 矿山生态环境保护与恢复治理技术规范(试行)(HJ 651-2013)
- 2024年度炎症性肠病(IBD)课件
- 新译林版高一必修三单词表全套
- 现代智力七巧板课件
- 孕妇孕期保健的重要性与方法
评论
0/150
提交评论