(计算机科学与技术专业论文)基于本体的语义web服务qos感知能力研究.pdf_第1页
(计算机科学与技术专业论文)基于本体的语义web服务qos感知能力研究.pdf_第2页
(计算机科学与技术专业论文)基于本体的语义web服务qos感知能力研究.pdf_第3页
(计算机科学与技术专业论文)基于本体的语义web服务qos感知能力研究.pdf_第4页
(计算机科学与技术专业论文)基于本体的语义web服务qos感知能力研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机科学与技术专业论文)基于本体的语义web服务qos感知能力研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的语义w e b 服务q o s 感知能力研究 摘要 语义w e b 服务的主要研究内容包括服务发现,服务选择、服务 组合以及服务监控等,其中一个重要的研究目标在于如何通过语义网 技术提高w e b 服务的用户查询体验,满足用户的个性化需求。本文 将w e b 服务的非功能性属性,即q o s 做为服务查询过程中影响服务 匹配结果的关键因素加以研究探讨,使得q o s 参数的变化能够及时 为系统所感知,并针对这种变化实时调整匹配结果,从而帮助用户获 得更加令其满意的w e b 服务。 在论文第一部分,首先描述了语义w 曲,w r e b 服务以及q o s 感 知等技术概念,借此来阐明本文的研究背景及研究意义所在。同时, 在对国内外相关研究领域的研究项目进行综合分析比对的基础之上, 明确本文的主要研究内容及期望解决的问题,并提出本文用以实现 q o s 感知能力的设计模型。 接着,本文展开对设计模型核心组件的阐述,其中包括q o s 本 体库以及基于q o s 本体的推理系统。本文所提出的基于o w l d l 的 q o s 本体包含上下两个逻辑层次,上层p r o f i l e 本体用于描述w e b 服 务的q o s 信息;而下层p r o p e r t y 本体则主要定义了构成q o s 描述信 息的本体类和类之间的关系;q o s 推理系统包含基于o w l d l 的描 述逻辑推理和基于s w r l 的规则推理两部分,分别完成w e b 服务q o s 知识库的实例检测及一致性检测和q o s 度量的单位转换及复合度量 生成。 最后,本文在一个特定语义w e b 实验系统中依据前文思想设计 实现了支持q o s 感知的模型系统,该系统能够帮助实验系统中的服 务匹配以及服务监控模块增强对w e b 服务q o s 的感知能力。实验数 据表明,本文所提出的模型系统能够实时对外部q o s 的变化做出相 应的动作,在满足服务请求方个性化需求的同时,更能够兼容异构的 q o s 信息描述,为服务请求方和发布方提供更加灵活丰富的q o s 描 述手段,具有理论上的参考价值及实践上的指导意义。 关键词:语义w e b 服务q o s 感知本体规则推理 t h es t u d yo fo n t o l o g y - b a s e dq o s a w a r e n e ss o fs e m a n t i cw e bs e r v i c e a b s t r a c t t h em a i nr e s e a r c hc o n t e n to fs e m a n t mw e bs e r v i c el n c l u d e ss e r v i c e d i s c o v e r y , s e r v i c es e l e c t i o n ,s e r v i c ec o m p o s i t i o na n ds e r v i c em o n i t o r i n g , e t e a n do n eo ft h em o s ti m p o r t a n tr e s e a r c ht a r g e t si st oe n h a n c e q u e r y i n ge x p e r i e n c ea n ds a t i s f yu s e rp r e f e r e n c et h r o u g hs e m a n t i cw e b t e c h n o l o g y t h i sp a p e rw o u l ds t u d yo nq o so fw e bs e r v i c ew h i c hp l a y s a ni m p o r t a n tr o l ed u r i n gs e r v i c em a t c h m a k i n g t h ed e s i r e dr e s u l ti st o h e l ps e m a n t i cs e a r c h i n ge n g i n et ob ea w a r eo fq o sa n dr e a c tt oi t s c h a n g ei nr e a lt i m e t h e r e f o r e ,t h eu s e rw o u l dg e tm o r er e a s o n a b l ea n d p r e c i s a b l es e a r c h i n gr e s u l t s f i r s t l y , t h i sp a p e ri n t r o d u c e s t h eb a s i ct e c h n o l o g yb a c k g r o u n d i n c l u d i n gs e m a n t i cw e b ,w e bs e r v i c ea n dq o s - a w a r e n e s s m e a n w h i l e ,t h e d e t a i l e dr e s e a r c hc o n t e n ta n da n t i c i p a t e dr e s e a r c hr e s u l t sa r ee x t r a c t e d a n de x p l a i n e db a s e do nt h ec o m p a r i s o na n da n a l y z a t i o no nm a n yo t h e r s i m i l a rr e s e a r c hp r o g r a m m e s a f t e rd e s c r i b i n ga b o v ea s p e c t s ,t h ep a p e r p r o p o s e sag e n e r a ld e s i g nm o d e lw h i c ha i m st or e a l i z eq o s a w a r e n e s s f o rs e m a n t i cw - e bs e r v i c e s e c o n d l y t h ep a p e rd e s c r i b e st h ed e s i g nm o d e lw h i c hi sc o m p o s e d o ft w om a i nc o m p o n e n t s o n ei st h ec o n s t r u c t i o no fq o so n t o l o g ya n d t h eo t h e ri st h eq o sr e a s o n gs y s t e m o 凡- d lb a s e dq o so n t o l o g yi s l o g i c a l l yc o m p o s e do ft w ol e v e l s u p p e rp r o f i l el e v e li su s e dt od e s c r i b e q o ss e m a n t i ci n f o r m a n t i o na n dt h el o w e rp r o p e r t yo n t o l o t yf o c u so n d e f i n i t i o n so fb a s i cq o so n t o l o g yc l a s s e sa n dr e l a t i o n s h i p s q o s r e a s o n i n gs y s t e m i n l u d e so w l - d lb a s e dd e s c r i p t i o nl o g i c ( d l ) r e a s o n i n ga n ds 、帆i 。b a s e dr u l er e a s o n i n g a n dt h em a i nt a s k so fd l r e a s o n i n ga r ei n s t a n c ec h e c ka n dc o n s i s t e n c yc h e c kf o rq o sk n o w l e d g e b a s e w h i l et h es w r lb a s e dr u l er e a s o n i n gi st of u l l f i l lq o sm e t r i cu n i t c o n v e r s i o na n d c o m p o s i tq o sm e t r i cg e n e r a t i o n f i n a l l y , a c c o r d i n gt op r e v i o u sd i s c u s s i o n ,ap r o t o t y p em o d e ls y s t e m i sr e a l i z e di nas p e c i f i cs e m a n t i cw e bs e r v i c ee n v i r o n m e n tt os u p p o r t q o s - a w a r e n e s s t h er e s u l to fe x p e r i m e n t sp r o v e st h a tt h es y s t e mc o u l d r e a c to nc h a n g e so fq o si nr e a lt i m ea n dp e r m i n th e t e r o g e o u sq o s d e s c r i p t i o ns oa st oe n h a n c eu s e re x p e r i e n c ea n ds a t i s f ym o r es p e c i f i c r e q u i r e m e n tf r o mb o t hs e r v i c er e q u e s t e r sa n dp r o v i d e r sp o i n t s k e yw o r d s :s e m a n t i cw e b s e r v i c e ,q o sa w a r e n e s s ,o n t o l o g y , r u l e , r e , a s o n m g 声明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 銮& 本轻 日期: 垒里珥:至:! 4i 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 喜会蓁耋! 二一 导师签名:签狐 日期:等土l 日期:趁丝主:翌 1 1 研究背景 第一章绪论 软件的开发模式在经历了由面向过程向面向对象的变革之后,正面临着从面 向对象方式逐步向面向服务方式转变,长期为产业界和学术界所广泛讨论的 s o a ( s v r v i c e - o r i e n t c da r c h i t e c t u r e ,面向服务架构) 概念,就是这一转变过程中的 最为典型的例证。通过将原有的应用程序接口和数据封装成可以为外部访问的 w e b 服务,开发者可以轻松的实现程序结构的松散耦合。不仅如此,不受底层传 输协议类型限制的设计特点,更使得w e b 服务天生具备了平台无关性,这种跨 平台的能力为异构环境下网络资源的互操作和调用提供了极大的方便。随着w e b 服务相关技术标准的成熟化和规范化,越来越多的w e b 服务出现在互联网上, 人们有理由相信w e b 服务在商业应用中将扮演更加重要的角色。 然而,随着面向服务理念被越来越多的人所接受,网络上w e b 服务的数量也 迅速增加,这不可避免地引发了同质w e b 服务的冗余现象。所谓同质w e b 服务, 即是指不同的w e b 服务提供商所开发并提供的功能相同或相似的w e b 服务。这 便提出了一个新的研究问题,即如何在海量的同质化服务中选择最符合用户需求 的服务。由于目前的搜索引擎都是基于关键字匹配的方法,而同质服务的关键字 具有极高的相似性,这便使得服务请求者在查询过程中难以仅仅依靠关键字来区 别同质w e b 服务,这其中最根本的原因在于使用者无法以人类可理解的方式去 描述一个w e b 服务,也就是让计算机理解知识,这种知识称之为语义。 “互联网之父 蒂姆伯纳斯一李( t i mb e r n e r s l e e ) 在1 9 9 8 年提出了语义网【l 】 的概念,其核心是通过给万维网上的文档( 如:h t m l ) 添加能够被计算机所理 解的语义( m e t ad a t a ) ,使整个互联网成为一个通用的信息交换媒介。这种方式 不但使得数据信息可以被人类所理解( 人类处理w e b 数据的典型形式如:阅读、 浏览网页,填写表单) ,更可以被自动化的程序所共享和处理,进而使得互联网 的功能得以更加充分的发挥,提供更多真正意义上的智能信息化服务、个性化 w e b 站点以及语义增强的搜索引擎等服务【2 】等,因而语义w e b 又形象地描述为 “对现有w e b 的扩展”。目前国内外对语义w e b 的研究已逐渐扩展到基于语义 的知识表示与推理、本体技术等领域,语义w e b 的应用也扩展到内容管理、概 念检索、智能代理和普适计算等领域。 语义w e b 的研究不仅为现有w e b 资源提出了新的描述方式,也给之前上文 所讲述的w e b 服务带来了新的活力。利用语义w e b 的知识表示手段来描述w e b l 服务的语义( 如:语义化的w e b 服务的输入输出描述) ,将使得w e b 服务成为 机器可理解的实体与可复用的计算资源,使得更加智能的实现服务的描述、发现、 选择和运行监控成为可能。如何在动态、异构和多样化的网络服务环境中,全面 准确地语义化描述一个w e b 服务,以便在海量同质化的服务群中能够有效地执 行服务查询,一直是学术界研究的热点所在。目前,针对这一问题,研究人员倾 向于在综合考虑w e b 服务的功能属性和非功能属性这一解决方案。所谓功能属 性,即是指特定w c b 服务的l o p e ( 服务输入、输出、前置条件和后置条件) ; 而非功能属性则更强调使用服务的q o s ( q u a l i t yo f s e r v i c e ,服务质量) 作为w e b 服务评价和筛选的指标。因而,通过对w e b 服务q o s 进行合理充分的语义化描 述,使q o s 信息更好的反映服务的非功能性特征,来进一步区分同质服务,增 强服务发现、选择和运行监控功能模块的q o s 感知能力,成为解决上述问题的 有效途径之一。本课题即是在这种背景下提出的,通过对q o s 本体模型的构建 以及q o s 推理系统的设计,为语义w e b 服务环境创建支持q o s 感知的模型系统, 增强语义w e b 服务搜索中心查询和选择性能,最后通过分析比对实验数据来对 模型系统加以验证。 1 2 研究生期间主要工作 本文作者在攻读硕士研究生期间,在b b l 实验室( b u p t & b e a 联合培养实 验室) 参与了“基于i m s 的全业务桌面终端”二期开发和“w e b 2 0 多业务m a s h u p 终端 初期开发工作,工作内容包括: 1 ) 深入学习i m s 网络中多媒体数据流的传输机制和相关协议,如:r f c l 8 8 9 , r f c 3 5 5 0 等。在“基于i m s 的全业务桌面终端 二期开发过程中对媒体流的 采集,编码,传输及接收等功能模块进行设计与实现。 2 ) 深入学习i m s 网络中s i p 信令和相关协议标准,如:r f c 3 2 6 1 r f c 3 2 6 5 等, 在企业定制的s i p 电话软终端中设计并实现s i p 信令控制和媒体传输模块, 成功解决媒体流的n a t 穿越问题。 3 ) 调研w e b2 0 的相关技术,特别是以w e b 服务为核心的m a s h u p 应用的框架, 在“w e b2 0 多业务m a s h u p 终端 中设计并实现s i p 电话功能和客户自助服 务功能模块。 本文作者还参与了国家8 6 3 计划项目“智能化的面向网络服务计算的关键技 术研究”( 项目编号:2 0 0 6 a a 0 1 2 1 6 4 ) ,主要负责基于本体的语义w e b 服务q o s 感知能力的研究。主要研究工作包括: 2 1 ) 研究并学习语义网的基础核心技术,包括x m l r d f , r d f s o w l ,o w l - s , 本体和规则推理等。 2 ) 调研语义w e b 服务的发展状况和最新的研究成果,广泛阅读相关论文资料, 特别是q o s 的语义建模和推理相关论文。在综合分析比较的基础上,提出并 构建了适合本文研究目标的q o s 本体及q o s 推理系统。 3 ) 研究并设计了支持q o s 感知的本体库和规则库,依照本体工程思想设计验证 实验,在“基于p 2 p 的智能w e b 服务中间件系统一原型环境中实现了语义 w e b 服务对q o s 的感知能力。 1 3 论文内容结构 本文主要研究如何在动态,异构和多样化的网络环境中,为语义w e b 服务提 供一种q o s 感知能力,使w e b 服务的自动发现和服务选择结果更加贴近服务请 求者的预想,同时也为第三方w 曲服务的监控提供必要的环境。文章组织结构 如下: 第一章着重阐述了论文工作的研究背景,并对作者在攻读研究生期间的理论 研究工作和工程实践加以总结。 第二章重点介绍了本研究课题中涉及的相关技术,包括w e b 服务,语义w e b 以及语义w e b 服务。针对w e b 服务,在描述其服务架构与q o s 的同时,对其不 足加以点明;语义w e b 则侧重对本体、推理以及本体工程等概念介绍;最后对 语义w e b 服务的研究内容、描述语言o w l - s 、q o s 感知能力加以介绍。 第三章首先介绍了本研究课题的研究意义,而后再通过对国内外相关研究课 题的研究现状的阐述,点明本文的独创之处。同时,概述后文将要提到的本体及 推理系统,并提出基于本体工程的实现语义w 曲服务q o s 感知的设计模型。 第四章详细描述了为实现语义w e b 服务q o s 感知而提出的q o s 本体模型。 在介绍了本体建模的一般原则及q o s 本体的特点之后,对模型层次结构的划分 及详细设计加以解释说明,最后给出一个使用q o s 本体来描述w e b 服务q o s 信 息的示例。 第五章首先描述了语义技术中描述逻辑推理技术原理,而后在明确q o s 推理 所包含的内容的基础上,对基于o w l d l 的本体推理和基于s w r l 的规则推理 两方面进行详细阐述。接着对执行q o s 推理所必须的推理引擎加以研究,并选 择合适的推理机完成整个q o s 推理模型的驱动任务。 第六章介绍了基于p 2 p 技术的语义w e b 服务实验环境,并基于其之上实现 了基于q o s 本体和推理模型的w e b 服务q o s 感知模型系统,通过整个系统的设 计框图和执行流程来进一步展示系统的整体能力,最后对实验数据进行分析比 较,验证了本课题研究成果的可行性和准确性。 第七章概括总结论文整体内容及论文研究的下一步工作。 4 第二章语义w e b 服务技术综述 为了能够全面细致地了解语义w e b 服务的特点,本章对与其相关的各项技术 做一概括性介绍,主要内容包括w e b 服务,语义w e b 和语义w e b 服务。 2 1w r e b 服务 通常在构建一个企业级应用时,程序员们一般采用“独立解决方案来实施。 也就是说,对于每个应用,他们都会为每个需要的企业资源或外部资源编写代码, 以使得程序得以运行。这些资源包括:传统系统和数据库、w e b 应用及w e b 资 源等。 由于每个应用都有其自己特有的基础架构,这些应用在部署、更改和维护上 的代价都异常高昂。企业不得不为每套应用配置特有的专业技术人员,并保持与 不同技术供应商或解决方案供应商的密切联系。同时这些应用即不能被方便地 继承,也不能随着企业商务的规模扩展而方便地实现应用的规模扩展。 解决上述问题的最佳手段就是基于x m l 技术的w e b 服务。根据w 3 c 的定 义,w e b 服务是一种软件系统,可以用来支持网络间不同机器的相互操作【3 1 。通 过统一地封装信息、行为、数据表现以及业务流程,w e b 服务可以无需考虑应用 所在的环境是何种系统和设备,对各种w e b 服务进行组合和集成以创建新型动 态的企业应用,彻底改变了目前的开发模式并降低应用部署的费用规模。 2 1 1w e b 服务的架构 w e b 服务之所以能够很好的解决上述问题,原因之一便在于w e b 服务并未 引入特别复杂的新技术,通过使用标准的、正式的x m l 来描述服务交互的所有 必须细节,包括消息格式( 详细描述操作) 、传输协议和位置,隐藏了服务内部 实现的具体细节,保证了w e b 服务独立于编写它的语言和实现它的软硬件平台。 这样基于w e b 服务技术实现的应用具有松耦合性;另一方面,w e b 服务体系结 构的“三角”模型,为程序开发人员提供一种一致化的编程模型,从而可以利用 通用的基础设施并以一种通用的方法进行应用程序集成。利用现有的语言和平台 以及旧应用程序,可以以一种增量的方式来集成和应用w e b 服务,从而可以快 速、高效地实现复杂商业事务。 w e b 服务架构是由3 个参与者和3 个基本操作构成的经典三角模型。3 个参 与者分别包括服务提供者、服务请求者和服务注册中心,而3 个基本操作分别为 发布( p u b l i s h ) 、查找( f i n d ) 和绑定( b i n d ) 。如图2 1 所示,服务提供者将其 服务描述发布到服务注册中心的一个目录上;当服务请求者需要调用该服务时。 他首先利用服务注册中心提供的目录去搜索该服务,得到如何调用该服务的信 息:然后根据这些信息去调用服务提供者发布的服务。当服务请求者从服务注册 中心得到调用所需服务的信息之后,通信是在服务请求者和提供者之间直接进 行,而无须经过服务注册中心。w e b 服务体系使用一系列标准和协议实现相关的 功能,例如:使用w s d l ( w e bs e r v i c ed e s c r i p t i o nl a n g u a g e ,w 曲服务描述语 言) 来描述服务,使用u d d i ( u n i v e r s a ld e s c r i p t i o n , d i s c o v e r y , i n t e g r a t i o n , 统一 描述、发现和集成) 来发布、查找服务,而s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c 0 1 ) 被用来执行服务调用。 图2 - 1w e b 服务架构 在w e b 服务的架构中,服务与服务描述是两个主要的服务构件。服务是一 个部署在可以访问的网络平台上提供特定服务功能的软件模块,其接口描述在对 应单独的服务描述文件中,由服务提供者提供。服务描述中包含服务接口和实现 的细节,其中包括数据类型、操作、绑定信息、网络位置,也能够包括帮助服务 发现和使用的分类信息以及其他的元数据。服务描述可以被发布给服务请求者或 服务注册中心。 2 1 2w e b 服务的q o s w e b 服务的不断扩大发展,使得由不同服务提供商提供的具有类似功能属性 的w 曲服务大量涌现。而服务q o s ( q u a l i t yo f s e r v i c e ,服务质量) 便成为这些 服务的重要卖点和区分点。这里的q o s 指的是w e b 服务的非功能性属性,如性 能、可靠性、可用性和安全性。q o s 决定服务的可用性和效用,而这两方面都 会影响到服务的普及及用户体验。 6 w 3 c 工作组对支持w 曲服务的q o s 定义了以下需求【4 】: 1 ) 性能( p e r f o r m a n c e ) :可以根据吞吐量( t h r o u g h p u t ) 和延迟( l a t e n c y ) 对 其进行测量。吞吐量的值较大且延迟的值较小表示w c b 服务性能良好。吞 吐量表示在给定时间段内被服务的w e b 服务请求数。延迟是发送请求和接 收响应之间的往返时间。 2 ) 可靠性( r e l i a b i l i t y ) :表示能够维护服务和服务质量的程度。每月或每年的 失效次数是衡量w e b 服务可靠性的尺度。在另一种意义上,可靠性是指服 务请求者和服务提供者发送和接收的消息的有保证和有序的传送。 3 ) 可用性( a v a i l a b i l i t y ) :指w e b 服务是否存在或是否已就绪可供立即使用。 可用性表示服务可用的可能性。较大的值表示服务绝大部分时间处于可用状 态,而较小的值表示无法预知在某个特定时刻服务是否可用。与可用性有关 的还有修复时间( t i m e - t o r e p a i r ,t t r ) 。t r r 表示修复已经失效的服务要 花费的时间。理想情况下,较小的t t r 值是合乎需要的。 4 ) 健壮性( r o b u s t n e s s ) :提供足够高的健壮性是w c b 服务持续高效提供服务 的前提,它体现了服务在无效、不完整、或冲突性的输入情况下仍能正常运 行的能力,w e b 服务应该有能力在携带有不完整参数的服务请求调用下正常 返回结果的能力,这种结果一般指用户友好的错误提示。 5 ) 可访问性( a c c e s s i b i l i t y ) :表示能够为w e b 服务请求提供服务的程度。它 可以表示为一种可能性尺度,用来表示在某个时间点上成功地实例化服务的 成功率或机会。w 曲服务可用但却无法访问这种情形是可能存在的。可以通 过构建一个可高度伸缩的系统使w e b 服务得到很高的可访问性。可伸缩性是 指不管请求量如何变化,都能够始终如一地为请求服务的能力。 6 ) 完整性( i n t e g r i t y ) :指w e b 服务如何维护交互相对于最初情况的正确性。 适当地执行w e b 服务事务会实现正确的交互。一个事务是指一系列将被当 作单个工作单元的活动。要使事务成功,必须完成所有的活动。如果一个事 务未完成,那么所做的全部更改都被回滚。 7 ) 安全性( s e c u r i t y ) :通过验证涉及到的各方、对消息加密以及提供访问控制 来提供机密性和不可抵赖性。由于w e b 服务调用是发生在公共的因特网 上,安全性的重要性已经有所增加。根据服务请求者的不同,服务提供者可 以用不同的方法来提供安全性,所提供的安全性也可以有不同的级别。 另外,除了上述w 3 c 建议的q o s 需求外之,开销( c o s t ) 和信誉度( r e p u t a t i o n ) 【5 】这两个属性在本文所指w e b 服务q o s 范围之内。所谓开销,是指服务请求者 7 使用特定服务提供者提供的w e b 服务而产生的使用费用;而信誉度则是一个相 对复杂的复合属性,目的是用来评判一个w e b 服务所宣称q o s 信息的真实性, 为基于服务质量的服务选择和组合提供参考依据,因而在实际的w e b 服务网络 结构中通常有一个第三方的服务监控机构专门负责监控w e b 的运行情况并实时 动态的计算对应w e b 服务的信誉度。 2 2 语义w e b 当前,万维网是人们获取知识的主要手段之一,大量的h t m l 页面以超链接 的方式构成巨大的网络资源库供人类阅读与理解。但是,仍然有很多的不足和困 难需要克服,其中最为典型的便是基于关键字匹配的网络资源搜索方式,这种方 式无法让计算机真正理解用户的需求,比如用户希望查找下午3 点至5 点之间由北 京开往上海的飞机,并希望价格低的票务站点能够排在搜索结果的前面,然而目 前基于关键字的搜索引擎如g o o g l e ,y a h o o ,b a i d u 是无法提供令人满意的搜索结 果的,其本质原因在于传统h t m l 语言本身的固有缺陷,数据的表现形式和数据 糅合在一起,缺乏针对数据内容的标签,也便使得万维网上的信息很难被机器所 理解,从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发。 这也就是搜索引擎很难在查全率和查准率这两方面有所突破,所搜到的页面也只 是和搜索关键字相匹配的页面,造成一方面大量内容无关的页面,另一方面找到 太多不相关的页面州。 解决上述问题的基本方法是变无序数据为有序知识,通过使用一种标准的 能够描述数据内容的标签,来为万维网上的资源信息增加语义信息,这里的语义 即指显式定义的概念集合,以及概念与概念之间的关系,来最终使得计算机可以 理解这些w 曲信息,这即是语义w 曲。 2 2 1 语义w 曲关键技术 通常,信息资源根据其所处层次的不同,可以被划分成不同的阶或者势,其 中现实世界中未经加工处理的信息处于零阶,在整个信息层次结构中处于最底 层;网页资源信息处在第一阶;在对h t m l 页面经过加工之后,所获取的网页 标引或索引信息处于在第二阶;有关信息资源对象的元数据或模式信息则是属于 第三阶的信息;而逻辑推理、真值证明等信息理应拥有更高的阶值,在信息层次 中,阶值越低的信息越具体详实,较适合于人为处理;阶值越高的信息其抽象程 度越高,则更适合于机器的自动化处理。当前w e b 上的信息是杂乱的、无序的 ( 或者说是非矢量的) ,将数据内容和表现形式混在一起,其中不同“阶 的信 息没有被区别对待,这就导致了人们在信息使用上的困难。因此,语义w e b 首 要解决的问题就是建立起合理的信息层次结构,使其上面的信息是结构良好且有 序的。t i mb e r n e r s l e e 在x m l 2 0 0 0 大会上描述了语义w e b 的基本体系结构,如 图2 2 所示。语义w e b 的研究内容,也便集中与各个层次相关技术的研究,下 面将对其展开具体介绍。 t r u s t p r o o f 童 l o g i c 暑 o n t o l o g y 甍 r d f + r d fs c h e m a 舀 x m 儿+ n s + x m ls c h e m a u n i c o d eu i u 图2 - 2 语义w e b 层次结构 1 ) u r i s 和u n i c o d e w e b 环境下的各应用之间不可避免地需要相互通信,直接或间接地以机器可 读的格式传递信息。这些信息中很大一部分是对w e b 上资源的描述,因此,首 先应该以明确的方式来标识这些资源对象。语义w e b 采用u r i ( u i l i f 0 咖r e s o u r c e i d e n t i f i e r ,统一资源标识符) 来标识资源及其属性,u r i 是一个互联网标准,记 载于r f c 2 3 9 6 中。它和w e b 常用的u r l ( u n i f o r mr e s o u r c el o c a t o r ,统一资源 定位符) 以及u r n ( u i l i f o r mr e s o u r c en a m e ,统一资源名称) 的区别在于u r j 能表示所有可以字符串作为标识符的资源信息,它既能表示网络可达的资源,又 能描述网络不可达的资源,u r l 和u r n 都是u r i 的子集。另外,由于语义w e b 的最终目的是要构建一个全球信息的网络,在这个网络上应能涵盖各种语言和文 字的信息资源,所以它采用u n i c o d e 作为字符的编码解决方案。这一层位于语义 w e b 中的最底层,是整个语义w e b 的基石,它成功地解决了w e b 上资源的标识 和跨地区字符编码格式的问题。 2 ) x m l 、n a m e s p a c e 、x m ls c h e m a 随着w e b 的不断发展,h t m l 的缺点越来越突出,甚至已成为制约w e b 继 续发展的障碍。归纳起来,h t m l 语言主要存在以下几个方面的问题: 9 首先,数据内容和数据表示不分,这是h t m l 最大的问题所在。同样的数据 值可能存在多种不同的显示风格,这就导致了形式各异的h t m l 描述,使得以 数据内容为目标的搜索引擎难以有效的开展工作。 其次,h t m l 内部的结构性和条理性较差。由于h t m l 在制定之初,并没 有对其语法结构做出严格的规定,加之各种浏览器的纵容,导致现在即便是那些 所见即所得工具自动生成的h t m l 文件,可能在语法上也会错误百出,这就使 搜索引擎很难根据规范的h t m l 语法来分析和提取网页信息。 最后,h t m l 的标签固定僵化,用户不能自行扩展,导致很多的特殊信息无 法表示,这就使得h t m l 很难满足信息共享最大化的要求。 源于对h t m l 语言现存问题的分析,人们在语义w e b 发展之初,就决定将 x m l 作为其语法层。和h t m l 一样,x m l 也是一种标记语言,都属于s g m l 的子语言集。但x m l 最大的特点在于它是一种可扩展的标记语言,它并不像 h t m l 那样,提供一组实现定义好的标签,而只是提供了一个标准,根据这个标 准,用户可以根据实际需要定义自己的标记语言,并为你的这个标记语言规定它 特有的一套标签。准确地说,x m l 是一种元标记语言,它允许你根据它所提供 的规则,制定各种各样的标记语言,并可以通过d t d ( d a t a t y p ed e f i n i t i o n ,文 档类型定义) 或x m ls c h e m a 来约束这些标签的内部组织结构。但另一方面,由 于x m l 标签可以由用户自行定制,这样就可能会造成标签命名的冲突的情况, 为了解决这个问题,w 3 c 的x m l 小组制定了有关命名空间的标准 7 1 。因此,这 一层通过x m l 的特性,实现了文档对自身结构的描述,实现了跨应用的语法互 操作层,这是传统的h t m l 语言所无法完成的。然而x m l 是底层的数据交换格 式,它只是解决了文档内容的次序、结构等语法上的问题,并没有解决文档内容 的语义、联系等问题。对标签具体含义的定义和互操作需要交给语义w e b 的上 层去解决。 3 ) r d f 、r d fs c h e m a x m l 提供了w e b 数据编码的语法依据,而r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ,资源描述框架) 则规定了相关资源的语义描述框架。正如其名,r d f 并不是一种新的语言,而是一个开放的元数据描述框架,它属于语义w e b 中的 元数据层。在r d f 中主要涉及到以下三个概念【8 】: 资源( r e s o u r c e ) :资源泛指可通过u r i 标识的任何事物,包括网络可达 资源,如具体的物理对象( 人、公司、图书馆中的书籍等) 和抽象的概 念实体( 作者) 等: 特性( p r o p e r t i e s ) :特性是描述某个资源的性质、特征、属性或关系; l o 陈述( s t a t e m e n t s ) :陈述是有关具体资源对象特性的具体描述,通常可 用形如 的三元组来描述,其中s ( s u b j e c t ,主体) 表示一个 待描述的资源对象、p ( p r e d i c a t e ,谓词) 表示该资源的特定方面或刻面, o ( o b j e c t ,对象) 则表示该资源s 在特性p 上的取值,o 可以是其它的 资源对象也可以是平凡文字,如字符串等。 任何复杂的系统都可以通过合理的分解操作,简化成一组三元组( 或陈述) 集合。r d f 是基于这一思想的:被描述的事物具有一些属性,而这些属性各有 其值,资源可以通过枚举该资源的相关属性及属性取值来描述。r d f 通过特定 的术语来区分陈述中的各个组成部分,确切地说,在资源陈述中用于识别资源对 象的部分则称之为陈述的主体,而用于区分所陈述中资源对象不同特性( 譬如: 作者、创建日期、语种等) 的那部分称为谓词,用于表示各个属性取值的那部分 叫做陈述的对象。基于r d f 的资源描述是由若干条资源陈述组成,并把这些陈 述用特定的语法( 如l ) 表示出来。 但是,r d f 所提供的都是一些非常基本的建模原语,没有对属性自身进行 刻画,也没有提供描述属性间关系和资源间关系的机制。r d fs c h e m a 为r d f 模 型提供了一个基本的类型系统,用精确的形式化词汇表达命题的简单断言逻辑语 言,其中每个三元组表达一个简单的命题,其目的就是定义资源的属性,定义被 描述的资源的类,并对类和关系的可能组合进行约束,同时提供约束违例的检测 机制。r d fs c h e m a 规范用r d f 进一步定义了建模原语【8 】。主要的类、特性和约 束如下: 核心类包括r d f s :r e s o u r c e 、r d f :p r o p e r t y 以及r d f s :c l a s s 。所有用r d f 表 达式所描述的事物都被看成是r d f s :r e s o u r c e 的实例。r d f :p r o p e r t y 是用来刻 画r d f s :r e s o u r e e 实例的所有特性的类。最后,r d f s :c l a s s 用来定义r d f s 中 的概念( c o n c e p t s ) 。 核心特性包括r d f :t y p e 、r d f s :s u b c l a s s o f 和r d f s :s u b p r o p e r t y o f r d f t y p e 关系建立了资源和类之间的i n s t a n c e o f 关系的模型。r d f s :s u b c l a s s o f 关系 建立了类之间的包容层次模型。r d f s :s u b p r o p e r t y o f 关系建立了特性之间的 包含层次关系模型。 核心约束包括r d f s :c o n s t r a i n t r e s o u r c e 、r d f s :c o n s t r a i n t p r o p e t y 、r d f s :r a n g e 和r d f s :d o m a i n 。r d f s :c o n s t r a i n t r e s o u r c e 定义了所有约束的类。 r d f s :c o n s t r a i n t p r o p e r t y 是r d f s :c o n s t r a i n t r e s o u r c e 和r d f :p r o p e r t y 的子集, 它包括了所有用来定义约束的特性。 r d fs c h e m a 机制提供了r d f 模型中使用的一个基本类型系统。从描述逻辑 ( d e s c r i p t i o nl o g i c ,d l ) 的观点来看,r d f s 相当于t b o x ( t e r m i n o l o g yb o x ) ,而 l l r d f 相当与a b o x ( a s s c r t i o nb o x ) 。r d f 和r d f s 共同来描述前面事实所用到的 结构。 r d f 和x m l 之间的关系一直是一个容易混淆的问题,它们之间有着明确的 功能分工:r d f 解决如何无二义性地描述资源对象的问题,使得描述的资源的 元数据信息成为机器可以理解的信息。r d f 通过基于x m l 语法的明确定义的模 型来帮助建立语义协定( r d f s ) 和语法编码( 煳l ) 之间的桥梁,并以此来实现元数 据的互操作能力叫,。这部分解决了语义模型、和部分通用语义的问题,但是 r d f r d f s 描述语义的功能非常有限,需要进一步的扩展。 4 ) o n t o l o g y r d fs c h e m a 可以定义类、子类、超类,并且可以定义特性和子特性,以及 它们的约束如:领域( d o m a i n ) 和范围( r a n g e ) 等,因此,在某种意义上说,r d f s c h e m a 本身就是一种简单的本体( o n t o l o g y ) 语言。但r d f r d f s 对特定应用领 域的词汇的描述能力比较弱,需要进行扩展,我们把这个r d f r d f s 之上的扩 展层称为o n t o l o g y 层。各种文献中对o n t o l o g y 的解释和用法有许多差异, t r g m b e r 等人对o n t o l o g y 给出的定义比较适用于语义万维网的研究:“o n t o l o g y 是一种明确的共享概念

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论