已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)基于语义web的知识表示及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 摘要 语义w e b ( s e m a n t i cw e b ) 是万维网之父t i mb e r n e r s l e e 倡导的下一代万 维网,是对当前万维网的扩展。语义w e b 研究的主要目的就是增强w e b 资源的语 义表示,以一种明确的、形式化的方式来表示信息资源,使语义得以显式地表达, 来满足分布式主流计算环境下语义互操作性的需要。实现语义w e b 需要解决的关 键问题是语义的表达,语义w e b 上的知识表示是整个语义w e b 实现的基石。 本文对基于语义w e b 的知识表示进行了深入分析研究,整个工作主要集中在 语义w e b 数据层和本体层。此外还研究了如何使用本体进行知识抽取和知识建 模,通过本体将知识的本质特征和属性抽取出来,并对知识表示元素进行形式化 的描述。数据层的知识表示语言的代表是r d f ( s ) ,本文以实例的形式介绍了 r d f 的语法和语义的应用。另外随着越来越多的元数据采用r d f 形式进行表示, 本文提出了一种有效的管理r d f 数据的方法,即基于关系数据库的方法来管理 r d f 数据。 本体层的研究主要集中在本体的描述语言o w l 和本体建模、本体学习等方 面。通过对本体描述语言o w l 的研究,发现了o w l 描述语言的一系列不足之处, 如属性的约束能力不足、规则的表达能力很弱。在原有o w l 语法的基础上本文对 o w l 进行扩展( o l l + ) ,通过用户自定义操作符改变属性的约束能力;通过对谓 词的扩充使o w l + 能够表示规则。 本体建模的研究集中在对特定领域的建模。通过一个简单的实例( 电脑配件 的本体构造) 演示了采用p r o t 6 9 6 建模工具进行领域本体构建的过程。针对本 体建模费时费力的缺陷,引入了本体学习思想,其目的是开发能够实现本体自动 构建的机器学习技术来协助知识工程构建本体。本章最后构建了一个本体学习框 架,通过术语抽取、本体创建、本体修剪三大功能模块来自动创建领域本体。 关键词:语义w e b ,元数据,r d f s ,本体,o w l i 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 a b s t r a c t s e m a n t i cw e bi sa d v a n c e db yt i i nb e m e r s - l e ew h oi st h ef a t h e ro ft h en e x t g e n e r a t i o nw o r l dw i d ew e b i ti s e x t e n d e df r o mt h ec u r r e n tw e b t h eg o a lo f s e m a n t i cw e bs t u d yi ss t r e n g t h e n i n gt h es e m a n t i ce x p r e s s i o no ft h ew 曲r e s o u r c e s a n de x p r e s s i n gi n f o r m a t i o nr e s o u r c 铭i nac l e a r , f o r m a lw a y s ot h es e m a n t i cc a n e x p r e s se x p l i c i t l ya n dt h en e e do fs e m a n t i ci n t e r o p e r a b i l i t yu n d e rt h ed i s t r i b u t e d m a i n s t r e a mc o m p u t i n ge n v i r o n m e n tc a ns a t i s f y t h e k e yi s s u eo f 溅e 、,i i l gt h e s e m a n t i cw e bi ss e m a n t i ce x p r e s s i o n ,t h ek n o w l e d g ee x p r e s s i o no fs e m a n t i cw e bi s t h eb a s eo f r e a l i z i n gs e m a n t i cw e b c o m p l e t e l y t h i sp a p e rh a sa n a l y z e da n ds t u d i e dk n o w l e d g ee x p r e s s i o nb a s e do nt h e s e m a n t i cw e b t h ee n t i r ew o r km a i n l yc o n c e n t r a t e so nt h es e m a n t i cw e bo n t o l o g y l a y e ra n dd a t al a y e r i ta l s os t u d i e dh o wt ou s eo n t o l o g ye x t r a c t i n gk n o w l e d g ea n d m o d e l i n gk n o w l e d g e ,e x t r a c t e de s s e n t i a l f e a t u r e sa n da t t r i b u t e so fk n o w l e d g e u t i l i z i n go n t o l o g ya n dd e s c r i b e dk n o w l e d g er e p r e s e n t a t i o ne l e m e n t sf o r m a l l y t h e r e p r e s e n t a t i o no fk n o w l e d g er e p r e s e n t a t i o no nd a t al a y e r sl a n g u a g ei sr d f ( s ) t h i s p a p e re x p l a i n sr d fs y n t a xa n ds e m a n t i c so ft h ea p p l i c a t i o nb a s e do ne x a m p l e s a l o n g 砸m m o r ea n dm o r em e t a d a t ae x p r e s s i n gu s i n gr d ff o r m t h i sp a p e rg i v e sa n e f f i d e n tw a yo f m a n a g er d fd a t a ;w h i c hi sb a s e do nt h er e l a t i o n a ld a t a b a s e t h es t u d yo fo n t o l o g yl a y e rm a i n l yc o n c e n t r a t e do nt h eo n t o l o g yl a n g u a g e o w la n do n t o l o g ym o d e l i n g , o n t o l o g yi c a m i n 辱f r o mt h es t u d yo fo n t o l o g y l a n g u a g eo w l , t h ep a p e rf o u n d s e r i e so f s h o r t c o m i n g so nd e s c r i p t i o nl a n g u a g eo w l , s u c ha st h er e s t r i c t i v ec a p a c i t yo f a t t r i b u t e si si n a d e q u a t ea n dt h eo x p r e s s i o no f r u l e s i sw e a k n e s s i nt h i sp a p e r , a u t h o re x t e n d e do w lb a s eo w lo r i g i n a lg r a m m a r , u s e d u s e r - d e f i n e do p e r a t o rt oc h a n g et h eb i n d i n gp r o p e r t i e s ;l e to w l + c 锄e x p r e s sr u l e s b yt h ee x p a n s i o no f t h ep r e d i c a t e t h es t u d yo f o n t o l o g ym o d e l i n gf o c u s e do nm o d e l i n go n t o l o g yi ns p e c i f i ca r e a 8 t h ep a p e rg i v e sas i m p l ee x a m p l e s ( o n t o l o g yc o n f o r m a t i o no nc o m p u t e ra c c e s s o r i e s ) t od e m o n s t r a t et h ep r o c e s so fb u i l d i n gd o m a i no n t o l o g yb yt h eu s eo fp r o t d g d m o d e l i n gt 0 0 1 a i m e da tt h a tm o d e l i n go n t o l o g yi sl a b o r i o u sa n dt i m e - c o n s u m i n g ,t h e p a p e ri n t r o d u c e st h ei d e ao fo n t o l o g yl e a r n i n g t h ea i mi st od e v e l o pam a c h i n e l e a r n i n gt e c h n o l o g yw h i c hc a na u t o m a t i c a l l ym o d e l i n go n t o l o g yt oh e l pk n o w l e d g e w o r k sb u i l d i n go n t o l o g y i nt h ef i n a lc h a p t e r , a u t h o rc o n s t r u c t sa no n t o l o g yl e 锄- n i n g 塑型查兰翌主兰竺丝苎 苎三里苎竺! 竺塑望墨重墨壁旦堕壅 f i - a m e w o r kw h i c hc a l la u t o m a t i c a l l yc r e a t e d o m a i n o n t o l o g yb ye x t r a c t i n g t e r m i n o l o g i e s ,c r e a t i n go n t o l o g ya n dp r u n i n go n t o l o g y k e y w o r d s :s e m a n t i cw e b ,m e t ad a t a , r d f s ,o n t o l o g y , o w l i 郑州大学硕士学位论文基于语义w e b 的知识表示及应用研究 第一章前言 1 1 研究背景 1 9 9 0 年,t i mb e r n e r s l e e 发明了万维网( w e b ) ,其目的是让全球的用户 通过因特网( i n t e r n e t ) 达到各种信息的获取和共享。然而,w w w 上的绝大部分 文件是以超文本标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 的形式存储和传 输的。过去的十年,万维网得到了飞速的发展,数据的表达方式也发生了巨大变 化,h t m l 过于简单的弱点越来越突出。h t m l 所表达的页面信息和组织方式主要 面向用户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,不利 于机器的直接阅读和处理。因此h t m l 只是一种表达技术,它并不能揭示h t m l 标 记中所表示的含义。 随着i n t e r n e t 的发展,目前的万维网越来越难以满足用户的需要。现在的 w w w 存在以下几方面的局限:1 ) 信息是海量的,但缺乏对信息的描述,即缺乏 元数据信息;2 ) 万维网的基石十n 。所描述的信息缺乏语义;3 ) 基于关键 词检索的万维网搜索引擎的检索质量和效果远未领用户满意。如何有效地,快速 地从海量数据里面提取有用的信息,如何更方便地传递、交流、获取信息,成为 现在的万维网面临的挑战。必将有新一代的网络出现解决以上问题,即语义 w e b 【l 】。 1 9 9 8 年,w e b 的创始人t i mb e r n e r s - l e e 首次提出了语义w e b 的概念及其技 术路线,阐述了语义w e b 的基本思想。而后在2 0 0 0 年1 2 月1 8 日) ( m l2 0 0 0 会 议上对语义w e b 做出了明确的解释,语义w e b 所指的“语义”是机器可处理的 “语义”,而不是自然语言语义和人的推理等。语义w e b 的提出立即引起了全球 的关注,在2 0 0 1 年召开了两次关于语义w e b 的专题学术研讨会。语义w e b 研究 的主要目的就是扩展当前的w w w ,使得网络中的信息具有语义,使计算机能够理 解和处理,便于人和计算机之间的交互与合作。目前w e b 存在的问题是:信息格 式的异构性、信息语义的多重性及信息关系的非统一性。因而其研究的重点就是 如何把信息表示成计算机能够理解和处理的形式,即带有语义。 语义w e b 是一个数据和知识多对多交换的大平台,其核心是建立一个语义明 确的信息空间,毫无疑问,其中需要解决的关键问题就是语义的表达。这种语义 郑州大学硕士学位论文基于语义w e b 的知识表示及应用研究 信息要求定义完整,无歧义并能支持逻辑推理。为使语义w e b 工作,计算机必须 能访问结构化的信息集合以及一套推理规则并据此进行自动推理,因此必须首先 为w e b 上的信息提供合适的表示方法。要实现语义w e b ,使得机器能够处理信息, 依赖于将内容同形式化的意义表示对应起来,知识表示领域为设计语义w e b 上的 知识表示提供了一个很好的起点。w e b 的特性对传统的知识表示工作提出了新的 挑战,需要提供一种新的知识表示方式使得计算机能够理解w e b 上的资源。目前 已经有适合w e b 特性的一些知识表示方式,例如x m l ( e x t e n s i b l em a r k u p l a n g u a g e ) ,r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,r d f s ( r d fs c h e m a ) 以及0 盹 ( w e bo n t o l o g yl a n g u a g e ) 。这也是本论文研究的主要内容,下面章节将给予 详细介绍。 1 2 研究的内容 本文研究语义w e b 的知识表示及其应用研究,主要的研究内容如下: ( 1 ) 首先从知识的定义入手,详细介绍了知识表示的相关理论,包括常用 的知识表示方法和语义w e b 上的知识表示,并分析了语义w e b 上的知识表示与传 统知识表示的不同。 ( 2 ) 其次主要介绍了语义w e b 知识表示语言x m l 、r d f ( s ) 和o w l 。x m l 是 一种可扩展的标记语言,实现了数据内容和数据表现方式的分离,即提供了w e b 数据编码的语法标准;r d f ( s ) 为w e b 上的应用程序之间交互提供了机器可理解 ( 处理) 的信息,即信息具有了语义;针对x m l 和r d f ( s ) 在语义方面的不足, 引入了本体表示语言o w l ,进一步丰富了语义,并详细介绍了o w l 语义表达能力、 o w l 与r d f ( s ) 和描述逻辑之间的关系。 ( 3 ) 对语义w e b 知识表示语言:语法层、数据层和本体层。着重对基于语 义w e b 的知识表示进行了深入研究,分析如何使用本体来进行知识抽取,知识建 模,通过本体将知识的本质特征和属性抽象出来,并对知识表示元素进行形式化 的描述。重点介绍了r d f 数据层:包括r d f 的语法和语义,以及随着越来越多的 元数据采用r d f 形式进行表示,本文提出了一种基于关系数据库的方法来管理 r d f 数据。 ( 4 ) 通过对本体描述语言o w l 的研究,发现了o w l 描述语言的一系列不足 之处,如属性的约束能力不足、规则表达能力弱等。本文在原有的o w l 的基础上 2 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 提出了对其的扩展o w l + 。通过用户自定义操作符改变属性的约束能力;通过对 谓词的扩充使o w l + 能够表示逻辑规则。 ( 5 ) 最后通过一个简单的领域本体构建的实例( 电脑配件的本体构造) 演 示了采用p r o t 6 9 6 建模工具进行领域本体的构建过程。针对本体建模费时费力 的缺陷,引入了本体学习。其目的是开发能够实现本体自动构建的机器学习技术 来协助知识工程构建本体,本章最后构建了一个本体学习框架,通过术语抽取、 本体创建、本体修剪三大功能模块来自动创建领域本体。 1 3 文章的组织结构 文章的结构如下: 第2 章,知识表示与语义w e b 。本章从不同角度介绍了知识的定义和分类, 着重介绍了常用的知识表示方法。此外介绍了语义w e b 的由来与发展,依据语义 w e b 层次体系结构,从下至上逐层介绍。重点介绍x m l 、r d f ( s ) 和本体中的描 述语言的发展里程,其中在本体描述语言中以o w l 语言为主。 第3 章,r d f r d f s 及其数据管理。本章重点介绍元数据的标准语言r d f ( s ) , 语法结构,表示方法等。随着越来越多的数据被表示成r d f 数据格式,本文提出 了一种有效的管理r d f 数据的方法,即基于关系数据库的管理方式。 第4 章,本体及本体的描述语言o w l 。本章包含本体的概念,本体建模的方 法,及o w l 语言中常用的类、属性及公理的应用方法。 第5 章,本章主要是针对o w l 的不足提出了对o w l 的扩展,使其表达能力更 强。通过扩展得到的o w l + 语言可以表示属性约束和推理规则。 第6 章,通过一个简单的领域本体构建的实例( 电脑配件的本体构造) 来演 示了采用p r o t 6 9 6 建模工具来进行领域本体的构建过程。领域本体的构建可以实 现一个特定领域内的语义查询及语义推理。最后针对构建领域本体的缺点提出了 本体学习及设计出了一个本体学习框架。 第7 章,是对全文的工作总结和对将来的工作进行了展望。 3 郑州大学硕士学位论文基于语义w e b 的知识表示及应用研究 第二章知识表示与语义w e b 2 1 知识概述 f e i g e n b a u m 认为知识是经过消减、塑造、解释和转换的信息。简单地说, 知识是经过加工的信息。b e r n s t e i n 认为知识是特定领域的描述、关系和过程的 组成。h a y e s r o t h 认为知识是事实、信念和启发式规则。综上所述,我认为信 息经过加工和改造形成知识。知识是人类在实践的基础上产生,并经过实践检验 的对客观实际的可靠反映嘲。 知识可从( 范围,目的,有效性) 加以三维描述。其中知识的范围是由具体 到一般,知识的目的是由说明到指定,知识的有效性是由确定到不确定。例如“为 了证明a b ,只需证明a a g 是不可满足的_ 这种知识是一般性、指示性、确 定性的。而像“桌子有四条腿”这种知识是具体的、说明性、不确定性。 知识一般可分为陈述性知识、过程性知识和控制性知识。陈述性知识提供概 念和事实,描述系统状态、环境和条件,使人们知道是什么。它是知识中的最底 层,例如太阳、月亮、太阳能发光等等。过程性知识提供有关状态的变化、问题 求解过程的操作、演算和动作的知识。例如:月有阴晴圆缺、春天气候变暖故万 物苏醒。其中常见的智能信息检索系统就是利用过程性知识处理陈述性知识。用 控制策略表示问题的知识常称为控制性知识。控制性知识,即元知识,包含有关 的各种处理过程、策略和结构的知识,常用来协调整个问题的求解过程。以上三 种知识建立了从概念,到事实,再到规则的层次构造关系。 2 2 知识表示 知识表示是研究用机器表示知识的可行性、有效性的一般方法,是一种数据 结构与控制结构的统一体,既要考虑知识的存储又要考虑知识的使用。知识表示 可看成是一组描述事物的约定,把人类知识表示成机器能处理的数据结构。为了 便于知识管理和推理分析,知识表示的方法一般要求简单、明了、易于理解,并 能对知识进行方便、灵活的扩充。 知识表示方法( k n o w l e d g er e p r e s e n t a t i o n s ) 一般分为逻辑表示法、产生 式表示法、框架表示法和语义网络表示法嘲。 4 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 2 2 1 逻辑表示法 对知识通过引入谓词、函数来加以形式描述,获得有关的逻辑公式,进而以 机器内部代码形式表示。 设在一个房间里,有一个机器人r o b o t ,一个壁室a l c 0 v e ,一个积木块b o x , 两个桌子a 和b 。机器人可把积木块b o x 从一种状态变换成另一种状态。 引入谓词嘲: t a b l e ( a ) 表示a 是桌子 e m p t y h a n d e d ( r o b o t ) 表示机器人双手是空的 a t ( r o b o t ,a ) 表示机器人在a 旁 h o l d s ( r o b o t ,b o x ) 表示机器人拿着积木块 o n ( b o x ,a ) 表积木块b o x 在a 上 应用谓词逻辑表示知识的主要优点是: ( 1 ) 精确。逻辑是一种精确的、标准的表示方法,没有歧义。 ( 2 ) 模块化。与产生式规则相似,语句可以任意增添、删除和修改,不会对其 他语句有影响。 它的主要缺点是随着知识库知识的增加,推理所需的事实组合的工作量按指 数增加。 2 2 2 产生式表示法 产生式是一种知识表达方法,具有和t u r i n g 机一样的表达能力。产生式表示 法一般包括事实表示与规则表示嘲。 事实可看成是断言一个语言变量的值或是多个语言变量间的关系的陈述句, 语言变量的值或语言变量间的关系可以是一个词,不一定是数字。如雪是白色的, 其中雪是语言变量,其值是白色的。j o h n 喜欢m a r y ,其中j o h n 、m a r y 是两个语 言变量,两者的关系值是喜欢。 一般使用三元组( 对象,属性,值) 或( 关系,对象1 ,对象2 ) 来表示事 实,其中对象就是语言变量,若考虑不确定性就成了四元组表示( 增加可信度) 。 这种表示的机器内部实现就是一个表。 如事实“作者今年2 6 岁”,便写成( a u t h o r ,a g e ,2 6 ) 事实“老李、老吴是朋友”,可写成( f r i e n d ,l e e ,w u ) 规则,又称产生式规则,是一种借助条件语句i f - t h e n 表示知识的方法。一 5 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 般表示形式为: c o n d i t i o n - a c t i o n c o n d i t i o n 作为前件或模式,而a c t i o n 称作动作或后件或结论。前件部分 常是一些事实a i 的合取,而结论常是某一事实b ,如考虑不确定性,需另附可 信度度量值。目前,过程性知识通常用这种表示方法。 用产生式规则表示知识具有以下优点: ( 1 )产生式表示格式固定,形式单一,规则( 知识单位) 间相互较为独立, 没有直接关系使知识库的建立较为容易,处理较为简单的问题是可取的。 ( 2 )推理方式单纯,也没有复杂计算。特别是知识库与推理机是分离的,这 种结构给知识的修改带来方便,无须修改程序,对系统的推理路径也容易作出解 释。所以,产生式表示知识常作为构造专家系统的第一选择的知识表示方法。 其缺点是缺乏灵活性,效率低下,对复杂、大型以及动态概念不能很好的表 示。 2 2 3 框架表示方法 1 9 7 5 年美国著名人工智能专家m i n s k y 提出了一种知识表示的新理论,称框 架理论。框架通常由描述事物的各个方面的槽组成,每个槽可以拥有若干个侧面, 而每个侧面又可以拥有若干个值。框架表示法是一种适应性强、概括性高、结构 化良好、推理方式灵活又能把陈述性知识与过程性知识相结合的知识表示方法。 框架的一般格式啪: f r a m e w o r k : :v a l u e :v a l u e :v a l u e :v m u o 例: f r a m e w o r k : 6 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 类属: 学历:( 学士,硕士,博士) 专业: 职称:( 助教,讲师,副教授,教授) 外语: 范围:( 英,法,德) 默认:英 技能水平:( 优、良,中、差) 默认:良 相互关联的框架连接起来组成框架系统,或称框架网络。不同的框架网络又 可通过信息检索网络组成更大的系统,代表一块完整的知识模块。框架表示主要 优点是:结构性、深层性、继承性、自然性;主要缺点是:缺乏框架的形式理论、 清晰性难以保证。 2 2 4 语义网络表示法 语义网络是一种表达能力很强而且可以灵活运用的知识表示方法。它和图论 的表示方法相似,也是“一个带标识的有向图”一个语义网络是由一些以有向图 表示的三元组( 结点i ,弧,结点2 ) 连接而成。1 。 结点表示概念、事物、事件、情况等。 弧是有方向的有标注的。方向体现主次,结点1 为主,结点2 为辅。弧上的 标注表示结点1 的属性或结点1 和结点2 之间的关系。 如事实“雪是白色的”,可表示成: 如规则“如果a 那么b ”,可表示成: 这样事实与规则的表示是相同的,区别仅是弧上的标注有别。 从逻辑表示法来看,一个语义网络相当于一组二元谓词。因为三元组( 结点 7 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 1 ,弧,结点2 ) 可写成p ( 个体1 ,个体2 ) ,其中个体1 、个体2 对应于结点1 、 结点2 ,而弧及其上标注的结点1 与结点2 的关系由谓词p 来体现。 语义网络视作一种知识的单位,人脑的记忆是由存储了大量的语义网络来体 现的。而产生式表示法是以一条产生式规则作为知识的单位,而各条产生式规则 没有直接的联系。 结点间的关系有i s a ,a - p a r t o f ,i s 型 ( 1 ) i s a 链用来表示具体一抽象关系,或说表示一种隶属关系,体现某种层次分类 特点是具体层结点可继承抽象层结点的属性。 ( 2 ) a - p a r t o f 链用来表示部分一全体关系,或说表示包含关系。特点是p a r t o f 关系下各层结点的属性可能是很不相同的。 ( 3 ) i s 链用于表示一个结点是另一个结点的属性 例:苹果的语义网络 图2 - 1 语义网络知识表示 语义网络具有下列优点: ( 1 ) 结构性:能把实体的结构、属性与实体间的因果关系显式地和简明地表达 出来,与实体相关的事实、特征和关系可以通过相应的节点弧线推导出来。 8 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 ( 2 )自然性:由于与概念相关的属性和联系被组织在一个相应得节点中,因而 使概念易于访问和学习。 ( 3 ) 易沟通性:表现问题更加直观,更易于理解,适合知识工程师与领域专家 沟通。 其缺点是: 非严格性,语义网络结构的语义解释依赖于结构的推理过程而没有结构的约 定,因而得到的推理不能保证像谓词逻辑法那样有效; 复杂性,节点间的联系可能是线状、树状或网状的,甚至是递归状的结构, 使相应的知识存储和检索需要比较复杂的过程。 2 3 语义w e b 及其知识表示语言 2 3 1 语义舱b 的概述 , 1 9 9 0 年,t i m b e r n e r s l e e 发明了万维网( w e b ) 其目的是让人们通过i n t e r n e t 来获得所感兴趣的各种信息,并能通过i n t e r n e t 实行交流和知识的共享。十几 年过去了,w e b 得到了飞速的发展。与此同时,万维网的不足之处越来越制约着 w e b 的进一步发展,如网页单调枯燥、搜索引擎智能化程度低等都是当今w e b 存 在的不足。究其原因就在于w e b 页的内容存在非结构化、无语义的问题,导致计 算机难以准确识别“1 。 针对目前因特网在信息表达、检索方面存在的缺陷,1 9 8 8 年w w w 的发明者t i m b e r n e r s l e e 提出了下一代智能网络语义w e b 。语义w e b 并不是完全独立于 当前的w e b ,而是对现在w e b 的一个延伸,其上的信息都具有定义精确的含义, 可以很好地支持计算机和人之间的协同工作,更有利于人机之间的合作和人与机 器之间的交互。语义w e b 的思想就是利用元数据( m e t a d a t a ) 语言对w e b 信息资 源的内容进行语义上的描述,从而使计算机能够利用这些语义信息对信息资源的 内容进行理解和处理,并在此基础上实现高级的、基于知识的智能应用。2 0 0 0 年的x m l 大会中,t i mb e r n e r s l e e 正式提出了语义w e b 的概念,并专门阐述了 “语义”和“w e b ”两个词的含义,“语义”是机器可处理,而不是自然语言的 语义的推理。对于数据,语义表达了机器能对这些数据做些什么,能够对输入到 机器的数据进行“语义测试”;在“w e b ”背后是可导航的空间,用u r l ( 统一 资源标识) 映射到资源上。语义w e b 的目标是使w e b 上的信息具有计算机可理解 9 郑州大学硕士学位论文基于语义w e b 的知识表示及应用研究 的语义,满足智能a g e n t 对w e b 上异构和分布信息的有效访问和检索。 2 0 0 1 年5 月,t i mb e r n e r s l e e 对语义w e b 做了全面的阐述,并为未来的 w e b 发展提出了基于语义的体系结构语义w e b 体系结构,如图2 2 所示。该 结构从底层到高层依次为u n i c o d e ( 统一字符编码) 和u r i ( 统一资源定位符) 、 x m l 、r d f 和r d fs c h e m a 、本体( o n t o l o g y ) 、逻辑( l o g i c ) 、证明( p r o o f ) 和信任( t r u s t ) 。在语义w e b 七层结构中的x m l 、r d f 和o n t o l o g y 三层主要用 于表示w e b 信息的语义,因而是系统的核心和关键错在。此外,数字签名用来检 测文档是否被篡改过,已证实其真实可靠性。以下详细介绍各层”1 : 图2 - 2语义w e b 体系结构 1 ) u n i c o d e 和u r i 层 u n i c o d e 和u r i 是整个语义w e b 的基础,其中u n i c o d e :通用字符集,它包括 世界上所有的语言、字母和文字,实现网上信息的统一编码。 u r i :u n i f o r m r e s o u r c ei d e n t i f i e r ,统一资源标识。u r i 有两个子集统一资源定位( u r l ) 和 通用资源名称( u r n ) 。u r i 可以标示抽象资源,物理资源或者同时标示二者。 从而提高检索的准确性。 2 ) x m l + n a m es p a c e + x m ls c h e m a 层 x m l 层具有命名空间( n a m es p a c e ) 和x m ls c h e m a 定义,通过x m l 标记语 言将网上资源信息的结构、内容与数据的表象形式进行分离,确保于语义w e b 的 定义,并支持与其他基于x m l 的标准进行无缝集成。 3 ) r d f + r d fs c h e m a 层 1 0 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 该层用于描述万维网上的资源及其类型,为网上资源描述提供了一种通用框 架和实现数据集成的元数据解决方案。r d f 是以x m l 语法来描述w e b 资源的描述 框架,通过对w e b 元数据的定义,r d f 描述了机器可理解的语义。r d fs c h e m a 提 供了r d f 所使用的词汇。 4 ) 本体层( o n t o l o g y ) 该层用于描述各种资源之间的联系,通过概念之间的关系来描述概念的语 义。本体揭示了资源本身及资源之间更为复杂和丰富的语义关系,从而将信息的 结构和内容相分离,以便对信息作完全形式化的描述,使网上的信息具有计算机 可理解的语义。在目前存在的各种能够应用于语义w e b 的o n t o l o g y 语言中,源 自d f i i l i l + o i l 的o w l ( w e bo n t o l o g yl a n g u a g e ) 已经成为w 3 c 的正式候选的推荐 标准。 5 ) 逻辑层( l o g i c ) 逻辑层主要提供公理和推理规则,为智能推理提供基础。该层用来产生规则。 6 ) 证明层( p r o o f ) 证明层注重于提供认证机制,证明层执行逻辑层产生的规则,并结合信任层 的应用机制来评判是否能够信赖给定的证明。 7 ) 信任层( t r u s t ) 顶层的信任注重于提供信任机制,以保证用户代理a g e n t 在网上进行个性化 服务和彼此间交互合作时,更安全与可靠。 8 ) 数字签名( d i g i t a l ) 数字签名位于层次模型的右侧,并且贯穿于中间的四层。数字签名是一种 基于互联网的安全认证机制。当信息内容从一个层次传递到另一个层次时,允许 使用数字签名说明内容的来源和安全性,这样接受方就可以通过数字签名来鉴别 其来源和安全性以决定是否接受。数字签名对于语义w e b 及其它使用x m l 进行交 换的系统非常重要。 在语义w e b 体系结构中,上层将下层的语言机制作为本层的支撑语言,通过 分析器,从合法有效的下层描述中抽取出本层所能理解的模型,实现更多的语义 处理功能。因此,语义w e b 是向下兼容的,当用r d f x m l 表达o w l 时,如果只有 r d f 分析器,可以部分解释该本体内的类结构,只要忽略其中带o w l 前缀的元 素即可,但能完全解释本体内的所有实例,因为它们是语法相关的。由于w e b 上 1 1 郑州大学硕士学位论文基于语义w e b 的知识表示及应用研究 的海量信息不可能在短期内建立语义标记,而且语义的标记方法也将不断发展, 这种向下的部分可解释性为语义w e b 的发展提供了良好的基础。 2 3 2 语义w e b 知识表示语言 语义w e b 研究的主要目的,就是扩展当前的w w w ,使得网络中尽可能多的信 息都具有计算机能够准确理解和处理的语义,从而更好地改善人和计算机之间的 交互与合作。要实现语义网,首先要解决信息描述问题,即如何在w e b 页面上添 加机器可理解的语义信息。这种语义信息必须定义完整、无歧义并能支持逻辑推 理。因此主要解决的问题就是为w e b 上的信息提供一种合适的表示方法。在w e b 上进行知识表示时,采用单一的知识表示方法往往不够。目前常用的知识表示方 法是基于框架、描述逻辑以及谓词逻辑的方法。然而w e b 特有的特性对以上几种 传统的知识表示提出了挑战,需要我们提供一种新的知识表示方式使得计算机可 以理解w e b 上的资源。这种新的知识表示方式必须满足w e b 的一下特性: 1 ) 通用的表达能力:由于w e b 信息量巨大、信息的表达方式千差万别、内部 信息之间的关系错综复杂,所以w e b 的数据格式必须能够表达任何形式的 数据。 2 ) 语法的互操作能力及其共享性:分析器必须能够识别各种各样的数据表 示,并且能为不同的类型的应用所共享。 3 ) 语义的互操作能力:要求实现对数据内容的分析,并提供识别元素间关系 的能力。 要解决这三点就必须提供一种语言,这种语言能够描述w e b 页面的数据信息 还要能够表示根据数据进行推理的规则,并且允许任何现存知识系统中的规则能 输出到w e b 上,由此在w e b 上增强逻辑性能够使用规则进行推理。 目前已存在适应于w e b 特征的一些知识表示方式,如x m l ( e x t e n s i b l em a r k u p l a n g u a g e ) 提供了灵活、通用、丰富的结构化信息表示方式,是整个语义w e b 的 基石;r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 定义了一个简单的数据模型, 通过属性( p r o p e r t y ) 和值( v a l u e ) 来描述资源以及资源与资源之问的关系; r d f s ( r d fs c h e m a ) 是对r d f 的一种补充。r d f s 定义了类和性质,这些类和性 质可以用来描述其他的类和性质,从而增强r d f 对资源的描述能力;本体 ( o n t o l o g y ) 提供一种能在语义和知识层次上描述信息系统的概念模型建模工 具,通过定义属性建立一个分类层次结构,将不同的概念区别和组织起来,同时 1 2 郑州大学硕士学位论文基于语义w e b 的知识表示及应用研究 也通过属性将概念相互联系起来,从而建立起概念的语义空间,是解决语义层次 上w e b 信息共享和交换的基础,在语义w e b 中具有非常重要的地位。 自语义w e b 提出已经激发了许多对标记语言的研究,从w 3 c 到美国和欧洲的 科研基金,不同的研究团体提出了针对语义w e b 表达的很多建议和语言。这些语 言构成了当今语义w e b 的基础。图2 3 给出了整个语义w e b 设计语言的演迸里 程。 o w l d a m l ,s d a i v l l - r p a m l + o i l i i d a m l - o n to i l ,l 卜 医 r d f ( s ) x o l t o p i cm a p s s m i lr d f i h t m lx m l + n a m es p a c e + x m ls c h e m a lu 。d 。d eu l u 图2 - 3 语义w e b 知识描述语言 w e b 上的资源描述需要一种通用的语法。只有统一了语法,乳b 上的应用才 能互操作。这个语法的基础就是字符的编码方式,因此以底层的统一编码u n c i o d e 做为字符编码的标准方案。另外,对w e b 上资源进行描述时首先需要标识这些资 源,语义w e b 采用统一资源标识符( u r i ) 来标识资源。u r i 和u n i c o d e 是统一 语法的基础,而其上层的) 【m l 及相关技术则统一了数据的格式。x m l 是一种用于 创建标记语言的元语言,它允许用户根据需要自定义标签,并使用文档类型定义 ( d t d ) 或x m l s c h e m a 来约束这些标签的结构。为了避免自定义的标签名字相互 冲突,在解析) ( m l 文档时,每个标签都会附上一个命名空间u r i ,x m l 提供了对 数据表达的语法统一描述。在) ( m l 的基础了形成了一系列描述元数据语义的语 言,其中r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 最具有代表 性,r d f 是一种通用的元数据结构,是描述和交换元数据的框架,是处理元数据 1 3 郑州大学硕士学位论文 基于语义w e b 的知识表示及应用研究 的基础。r d f 要解决的是如何采用x m l 标准语法无二义性的描述资源对象的问题, 使得所描述的资源的元数据信息成为计算机可以理解的信息。x 札和r d f 在处理 语义上存在一些问题,如:同一概念有多种词汇表示和统一词汇有多种含义时两 种语言都无法解决,这时引入了本体( o n t o l o g y ) 通过对概念的严格定义和概念 之间的关系来确定概念的精确含义,表示共同认可的、可共享的知识,从而解决 上面的问题。为了便于w e b 上应用程序使用方便,需要有一个通用的标准语言来 表示o n t o l o g y ,就像x m l 作为标准的数据交换语言一样。目前正在开发中的语 言有:s h o e 、o m l 、x o l 、r i b o w e b 、r d f s 、o i l 和o w l 。其中最具代表性的是o w l 。 由于x 札不具有语义只提供了语法标准,因此x m l 不是研究的重点下面将简要介 绍x m l 。r d f ( s ) 和本体是实现语义w e b 的关键,将在以后的章节中详细介绍, 在此不再重复。 x m l 代表e x t e n s i b l em a r k u pl a n g u a g e ( e x t e n s i b l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年县乡教师选调考试《教育学》练习试题及参考答案详解(基础题)
- 2026年高职(康复治疗技术)康复评定技术阶段测试题及答案
- 2026广东深圳证券交易所暑期实习生招聘备考题库及答案详解(基础+提升)
- 2026广东深圳市光明区市场化选聘区属国企副经理1人备考题库附答案详解(完整版)
- 2026湖北教师招聘统考鹤峰县城镇义务教育学校教师招聘5人备考题库含答案详解(培优b卷)
- 2026年县乡教师选调考试《教育学》题库必背100题及参考答案详解(考试直接用)
- 2026重庆市招募“三支一扶”计划757人备考题库及答案详解(真题汇编)
- 2026年福建省福鼎市桐南小学海湾校区招聘招聘语文教师若干备考题库有答案详解
- 2026第十四届贵州人才博览会遵义市事业单位人才引进34人备考题库及答案详解(名校卷)
- 2026山东济南新旧动能转换起步区招聘40人备考题库附答案详解(满分必刷)
- 2026年机动车驾驶人科目一新版通关试题库附参考答案详解【夺分金卷】
- 2024-2025学年广东省广州市白云区八年级(下)期中数学试卷及答案
- 特殊教育融合教学实践指南
- 2026年城管监察员题库检测试题含完整答案详解(易错题)
- 2026四川成都市成华区人民政府万年场街道办事处招聘社区工作者6人备考题库附答案详解(a卷)
- JJF(石化)096-2023帘线干热收缩仪校准规范
- 雨课堂学堂在线学堂云《人工智能与创新(南开)》单元测试考核答案
- 2026 年浙江大学招聘考试题库解析
- 江苏2026事业单位真题及答案解析
- 相关方安全管理制度宾馆(3篇)
- 海螺水泥财务制度
评论
0/150
提交评论