(计算机应用技术专业论文)本体匹配算法研究及结合web服务的实现.pdf_第1页
(计算机应用技术专业论文)本体匹配算法研究及结合web服务的实现.pdf_第2页
(计算机应用技术专业论文)本体匹配算法研究及结合web服务的实现.pdf_第3页
(计算机应用技术专业论文)本体匹配算法研究及结合web服务的实现.pdf_第4页
(计算机应用技术专业论文)本体匹配算法研究及结合web服务的实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)本体匹配算法研究及结合web服务的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本体匹配算法研究及结合w e b 服务的实现 摘要 语义w e b 是w e b 发展的一个新兴方向,致力于w e b 上信息的语义化。而 w e b 服务则将w e b 应用程序的功能以服务的形式提供给用户,隐藏了功能实现 的具体细节。 该论文结合这两种技术对w e b 上本体的匹配问题展开研究,并将结果应用 于w e b 服务发现过程中功能本体的智能匹配。主要讨论的关键技术和提出的创 新研究包括:w e b 上本体的匹配算法改进,包括不同版本间本体的比较以及不 同来源本体的合并;w e b 服务描述的智能性加强;基于u d d i 的服务功能匹配 的语义框架系统等方面的研究。 文章首先介绍了语义w e b 的产生背景和体系结构; 其次,对语义w e b 的众多关键技术做了概要介绍,包括x m l ( s ) 、r d f ( s ) 、本体、0 w l 等等。其中对本体和语义w e b 的关系做了重点分析; 接下来,我们讨论了不同版本间本体的比较算法,以及不同来源本体的合 并算法,并尝试着做了一定的改进; 然后,由于w s d l 语言的缺乏语义,我们给出了一种注释的方法,从而将 w s d l 与具有语义的本体结合起来; 针对u d d i 仅能基于关键字来搜索的弱点,本文最后还讨论了如何将前面所 分析的本体匹配算法和w e b 服务描述的语义化方法应用于u d d i 的工作流程,并给 出了一个d u m f 框架,在一定程度上提高了u d d i 的语义层次。 关键词:本体,匹配,w e b 服务,w s d l ,u d d i r e s e a r c ho n o n t o l o g ym a t c h i n ga l g o r i t h m sa n d t h er e l a t e d w e bs e r v i c e s i m p l e m e n t a t i o n a b s t r a c t s e m a n t i cw e bi se m e r g i n ga so n eo f t h eh o t t e s tb r a n c h e so fw e br e s e a r c ha r e a , a n di ti sh a m m e r i n g h e a v i l y a tt h ew e bw o r l d o nt h eo t h e rh a n d ,w e b a p p l i c a t i o n s p r o m i s et op r o v i d eu s e r sw i t hv a r i e t i e so fc a p a b i l i t i e si nt h ef o r mo fw e bs e r v i c e s , w h i l eb i d et h ed e t a i l so f i m p l e m e n t a t i o nf r o mt h e m t h i st h e s i sc o m b i n e st h e s et w os u b j e c t st o g e t h e ra n df o c u s e so nt h er e s e a r c h o f o n t o l o g ym a t c h i n ga l g o r i t h m s ,i nt h eh o p et h a tw e c a nm a k eu s eo ft h es e m a n t i c m a t c h i n gr e s u l t so ff u n c t i o n a lo n t o l o g yt o s o l v et h e d i s c o v e r yp r o b l e mo fw e b s e r v i c e s t h ei n i t i a t i v er e s e a r c h e sa n dt h e m a j o rt e c h n i q u e s i n t r o d u c e da r ea s f o l l o w s : 1 t h e i m p r o v e m e n t o fw e b o n t o l o g ym a t c h i n ga l g o r i t h m s ,i n v o l v i n g t h e c o m p a r i s o nb e t w e e n d i f f e r e n tv e r s i o n so f o n t o l o g ya n dt h em e r g i n go fo n t o l o g y f r o md i f i e r e n ts o u r c e s 2 t h es e m a n t i ce n h a n c e m e n to nt h ed e s c r i p t i o no fw e bs e r v i c e s ; 3 t h ei n t r o d u c t i o no fs e m a n t i cf r a m e w o r ks y s t e mb a s e do nt h e f u n c t i o n a l m a t c h i n go f s e r v i c e sb ym e a n so fu d d i t h i st h e s i s f i r s t l y i n t r o d u c e st h e b a c k g r o u n d o fs e m a n t i cw e ba n di t s a r c h i t e c t u r e i tt h e nb r i e f l yi n t r o d u c e st h ek e y t e c h n i q u e s ,s u c h a sx m l ( s ) ,r d f ( s ) , o n t o l o g y ,o w le t c w es p e c i a l l ya n a l y z et h er o l eo fo n t o l o g yi ns e m a n t i cw e b ,a n d d i s c u s st h ec o m p a r i s o na l g o r i t h m sb e t w e e nd i f f e r e n tv e r s i o no f o n t o l o g y ,a n da l s o , t h em e r g i n ga l g o r i t h m so fo n t o l o g yf r o md i f f e r e n ts o u r c e s w eh a v em a d es o m e e s s e n t i a li m p r o v e m e n tt ot h ea l g o r i t h m s ,a n da l s op u tf o r w a r dan o t a t i o nm e t h o dt o t h ei n t e g r a t i o no fw s d la n do n t o l o g y w eh a v ea p p l i e do u rr e s e a r c ht ot h eu d d l w o r k f l o wa n ds a t i s f a c t o r i l ys o l v e dt h em a n y p r o b l e m so f t r a d i t i o n a lk e y w o r d b a s e d s e a r c h i n gm e t h o do fu d d i i na d d i t i o n ,w eh a v ep r e s e n t e dad u m ff r a m e w o r k , w h i c hh a sp r o v e dq u i t ev a l u a b l ef r o mt h ev i e w p o i n to fi n c r e a s i n gt h es e m a n t i c 1 e v e lo fu d d it oac e r t a i nd e g r e e k e y w o r d s :o n t o l o g y ,m a t c h i n g ,w e bs e r v i c e ,w s d l ,u d d i 独创性声明 本人声明所呈交的学位论文是本人在导师指导f 进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得盒目b 工些太堂或其他教育机构的学位或证书而使用过的材 料。与我一同1 i 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签字: 签字日期:p * 年s - 月;o 日 王长导 学位论文版权使用授权书 本学位论文作者完全了解金目些厶堂有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金 卫: 二些太堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名: 兰张寺 签字日期:砌牛年二月d 日 导师躲i 写斌 签字日期:d 中年i 月p 日 学位论文作者毕业后去向: 工作单位:上鞠书钕审部绨三研唬听 通讯地址:上海枢舶砖7 弓弓 电话 邮编 致谢 首先要感谢我的导师穆斌老师为我创造了良好的学习环境。三年来他 总是支持我在学术上的一些想法,并给我以足够的自由空间去实现那些想 法。在此,谨向穆老师表示最诚挚的感谢和最崇高的敬意。 感谢王浩老师、胡学刚老师、王新生老师、徐静老师、费敏老师和合肥工 业大学研究生院的各位老师,对他们所给予的学习和生活上的帮助表示深 深的谢意。 在论文的写作过程中,得到了费爱蓉、沈国海、夏俊、刘项洋、刘吴 钰等同学的帮助和指导,在此表示最诚挚的感谢。 这里还要感谢合肥工业大学人工智能与数据挖掘研究室的各位同学, 感谢他( 她) 们在学习、生活上的对我的支持和鼓励。祝各位师兄弟、师姐妹 们学业有成! ! 对我的家人,我似乎不能再用“感谢”两字来表达我对他们的支持和 关心的感激,我只想说,没有他们往日的支持就不会有今天的我。 还有很多人在学习和生活上给了我帮助,不再一一列出,这里一并感 谢。 作者:王长宁 2 0 0 4 年5 月 1 1 当前w e b 技术的不足 第一章序论 w o r l dw i d ew e b ( w w w ,万维网) 最早起源于欧洲粒子物理研究所( c e r n ) 的一 个信息研究工程项目,其最初目的只是为科学家们提供一个共享文档的方式 。而英国物理学家t i mb e r n e r s l e e 创造性地发明了超链接( h y p e rl i n k ) ,使得 用户可以通过这一方式在大量的文档间自由跳转。随着i n t e r n e t 的兴起,用户 可以访问全球的网络资源,包括大量的文字和图片信息,在时间上更快捷,在 交流上更方便,大大地改进了人类信息沟通的方式。 m t m l ( h y p e rt e x tm a r k u pl a n g u a g e ,超文本标记语言) 和x m l ( e x t e n s i b l e m a r k u pl a n g u a g e ,可扩展标记语言) 等数据显示和存储标准的出现使w e b 成为 全球最大的信息资源系统。但是,h t m l “3 只是一种页面表达技术,不具有结构化 特性,也没有严格的语法,并且这些信息的内容主要是以自然语言的方式来表 示。它并不能使得计算机理解h t m l 标记说明所表示的含义,而且不能将显示和 数据分离。随着i n t e r n e t 的发展,h t m l 编写的w e b 页面缺乏语义信息等过于简 单的弱点也越来越突出。相对于h t m l ,x m l “1 更注重于描述数据的内容和结构, 可以将数据和显示分离。但x m l 只是在语法上统一了数据交换的格式,并没有提 供充分的基于语义的表达方式,因此在存取和处理信息的时候它们仅仅能提供 有限的支持,给基于w e b 的知识级信息集成和信息交换带来了困难。 如何从海量的网络数据中快速有效地获取有用信息成为w e b 发展的关键。 我们需要尽可能地实现机器自动处理信息,使程序也能够理解w e b 上的信息所 表达的语义,使得程序的自动化集成和不同应用间的数据重用成为现实。而这同 当前信息主要以人类可理解的表示形式之间存在巨大的鸿沟。 1 2语义w e b 的基本思想和体系结构 w e b 的特点包括:数量巨大且呈爆炸性增长,地理位置上分散,内容上动态 更新,大多数是无结构数据。针对这些特点,t i mb e r n e r s l e e 在2 0 0 1 年j 下式提 出了语义w e b 的概念。做为w e b 上信息利用方式的一个梦想,语义w e b 己吸引越 来越多的研究者注意:第一届国际语义w e b 工作研讨会( p r o c e e d i n g so f s w w s 0 i ) 于2 0 0 1 年七月在美国c a l i f o r n i a 举行,紧接着2 0 0 2 年六月在意大利 的s a r d i n i a 举行了第一届语义w e b 国际会议( i s w c 2 0 0 2 ) l 7 j 。| 在国内,课题相对较新,目前北京大学医学部正在做心血管疾病知识库方 面的应用,农科院信息文献情报中心在农业叙词表方面希望引入o n t o l o g y 相关 技术,国土资源部考虑在土地重新分类时利用相关技术改造数据库;同时上海 交通大学、浙江大学、北京理工大学也正在从事这方面的研究。 1 2 1 语义w e b 的基本概念和思想 让我们先通过t i mb e r n e r s l e e 给出的一个搜索的例子来说明语义网的作 用”3 :今天的w e b 搜索通常会找到数不清的毫不相关的结果,之后需要大量的 人工过滤工作。例如,如果你用关键字“c o o k ”搜索,计算机根本无法知道你 是在找一位厨师,还是找有关烧菜的信息,或是其他什么带有“c o o k ”的人、 企业。问题的根源在于“c o o k ”这个词对计算机来说根本没有含义。如果语义 信息在w e b 上广泛采用,那么精细、准确和自动化的搜索就能够实现。这样的 一个程序就能够基于一些模糊的知识分类找到一个人:她的姓是“c o o k ”,她 是你的客户之一,她的儿子是你的大学校友等等。这些信息的组合并不可能在 单个网页中出现,但是语义信息能够让程序更容易分辨不同网页中的元素,理 解“m i k ec o o k 是w e n d yc o o k 的孩子”这样的关系,而且能够把它们结合在一 起。进一步从而可以自动处理复杂的过程和事务。 上述例子只是有助于我们理解语义w e b 的思想,t i mb e r n e r s l e e 等研究先 驱们则给出了较为正式的定义: ( i ) w 3 c ( w o r l dw i d ew e bc o n s o r t i u l l l ,万维网协会) 是这样解释的:“语 义w e b 是万维网上数据的表现。它是由w 3 c 领导的有大量研究者和工业界人士参 与的进行协作式开发的努力。它基于资源描述框架( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ,r d f ) ,后者使用x m l 来表示语法,并使用u r i 来命名。从而整合 了种种应用程序。” ( 2 ) t i mg e r n e r s l e e 和j a m e sh e n d l e r 、o r al a s s i l a 在其t h es e m a n t i c w e b ) ) 一书中则给出了这样的解释”3 :“语义w e b 是现在的w e b 的一种扩展,在 其上信息被给予明确定义的含义,使得计算机和人类更好地协同工作。” 简而言之,语义w e b 基于这样种思想:w e b 上定义和链接的数据不应该仅 仅是为了格式上的显示,使人更容易理解,而且可以在各种应用程序中让机器 也能够理解,并自动进行相应处理。语义w e b 的目标就是通过向数据中添加机器 可理解的语义,以及使用使用启发性的元数据来将w e b 上的海量信息以一种机 器可理解的方式组织起来,以满足w e b 应用对数据互操作性的要求。 语义w e b 并不追求传统意义上的人工智能,而是寻求w e b 主体间相互通信 的一种“共同语言”和相关词汇:语义w e b 的重点放在“约定”,就是网上的 主体在通信时相互理解所说的“资源”是同一个东西,以及这个东西和别的东 西的关系。即使推理能力是弱的,也可以满足目前的应用。并且此处的“理 解”不是要求机器去解几何题或者进行辩论,而是象网络协议一样对“资源” ( 在t c p i p 里就是地址、握手协议、缓冲等) 达成共识,然后软件代理就可 以理解网页上的资源到底在描述什么概念,实现机器自动处理信息。 数据的清楚语义加上领域知识( 即本体) 将使得使w e b 上信息处理和集成的 机器自动化更加容易,实现网络服务功能的更加丰富化。 1 2 2语义w o b 的体系结构 类似于网络协议中的o s i 参考模型,w w w 的创始人t i mb e r n e r s l e e 描述 了他对语义w e b 结构的设想:认为语义w e b 应当是一个分层次的塔型结构“1 , 各层功能逐渐增强,下层向上层提供支持,上层是建筑于下层之上的应用。其结 构如图1 1 所示: 图1 1 语义w e b 的体系结构图 这个系统结构主要基于x m l 和r d f r d f s ,并在此之上构建本体和逻辑推理 规则,以完成基于语义的知识表示和推理,从而能够为计算机所理解和处理。 在语义网的研究中,知识表示、本体论、智能主体等都是其重要的研究内容, 它们都是不可分割的”1 。 u n i c o d e 是一种字符编码系统,它采用十六位二进制编码,支持世界上主 要语言文字的存储和读取。 u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ,统一资源定位符) 是“一些简短的字 符串,用来标识w e b 上的资源,例如文档图片下载的文件、服务、电子邮箱以 及其他资源”1 。除了网页以外,它还可以标识页面上的元素、书籍、电视等资 源,甚至可以标识某一个人。在r d f 中,资源无所不在,资源的属性是资源, 属性的值可以是资源,甚至与一个陈述也可以是资源,也就是说,所有这些都 可以用u r i 标识,可以再用r d f 来描述。 x m l 从s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用标记语言) 演变而来的,是一种简单并且十分灵活的文本格式。它是“用于表达数据中结构 的共同语法”。结构化的数据指的是其内容,意义或应用被标记的数据。通过将 结构、内容和表现分离,同一个x m l 源文档只需写一次,便可以用不同的方法表 现出来。x m ls c h e m a ( x m l 大纲) 则提供了文档的定义规则,并指出应该使用什么 标记符,标记符的属性之间的联系等等,还可以定义数据类型。 n s 是x m l 文档的名称空间( n a m es p a c e ) ,由u r i 来唯一确定。在x m l 文档中用 于解决不同网络资源中可能存在相同的元素类型和属性名的冲突问题。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 。3 可以看作语义w e b 体系结构中具有语义性的第一层。r d f 是“一种处理元数据的基础,它提供了w e b 上各种应用之间交换机器可理解的信息的互操作能力。”而r d fs c h e m a “”则类似 于x m ls c h e m a ,在r d f 之内定义了一个简单的本体建模元语,来描述r d f 属性 的词汇表。 o n t o l o g yv o c a b u l a r y ( 本体词汇表) 层将在后面有详细的描述。 在本体层之上是逻辑层,逻辑层是利用语义w e b 各层的断言导出新知识的 地方,并形式化地描述规则”1 。 其余的两层是证明层和信任层,他们的出发点是认为在语义w e b 上验证语 句的有效性将是一项非常重要的工作。证明层执行逻辑层描述的规则,信任层则 为应用系统提供了判断是否信任所给定证明的机制。 数字签名跨越各层,虽然公钥密码术已经存在了很长时间但还没有真正广 泛应用。如果我们应用它,加上语义w e b 各层的支持,就可以实现信任层。 从整体看,上层将下层的语言机制作为本层的支撑语言,通过分析器,从 合法有效的下层描述中抽取出本层所能理解的模型,实现更多的语义处理功能。 因此,语义w e b 是向下兼容的。由于语义w e b 理论的发展和完善有一个过程,w e b 上的海量信息不可能在短时间内全部建立语义标记,且语义的标记方法也将不 断发展,这种向下的部分可解释性为语义w e b 的发展提供了良好的基础。 目前的研究大致围绕本体的创建和维护,应用间的互操作和整合、w e b 服务 等几方面来展开工作。对x m l 、r d f 、o n t o l o g y 等较低几层的研究较为成熟,已进 入应用阶段,例如斯坦福大学的p r o t 6 9 6 ,以及别的组织提供的o n t o e d i t , c h i m a e r a 等工具。而对于证明、信任等高层则较少触及。 4 1 3 论文的工作介绍 本课题来源于穆斌导师访问加拿大n e wb r u n s w i c k 大学时所进行的科研项 目一语义w e b ( s e m a n t i cw e b ) 。它是w e b 发展的一个新兴方向,致力于w e b 上 信息的语义化。 而w e b 服务则将w e b 应用程序的功能以服务的形式提供给用户,隐减了功 能实现的具体细节,是对w e b 应用方式的巨大革新。 该论文结合这两种技术对w e b 上本体的匹配问题展开研究,并将结果应用 于w e b 服务发现过程中功能本体的智能匹配。主要讨论的关键技术和提出的创 新研究包括:w e b 上本体的匹配算法改进,包括不同版本间本体的比较以及不 同来源本体的合并:w e b 服务描述的智能性加强;基于u d d i 的服务功能匹配的 语义框架系统等方面的研究。 研究的若干问题简述如下: 1 本体的描述,本体版本间的管理和不同来源本体的合并: 只有完整准确地描述本体,程序才能更好地理解信息背后的语义,具有智 能地去处理信息。但内涵上一致的本体间在描述的版本上应如何衡量近似匹配 度,另外相关本体的合并也是一个难题。多个w e b 服务要想自动地整合起来协 同完成某一功能,则首先必须解决这些难题。 2 w e b 服务描述的语义性和w e b 服务的发现: w e b 服务利用w e b 服务描述语言( w s d l ) 来对外发布接口,告知外界程序其 实现的功能、通过什么方法来调用及返回的结果。但这仅仅是语法层面上的,程 序需要理解其中的x m l 标记元素的意义,才可以更好地理解w e b 服务要做什么, 而不仅仅是怎样做。 u d d i 对服务请求者所需要的服务仅仅进行传统的基于关键字的简单匹配 查询,但服务提供者和请求者对同一功能的描述可能并不一致。进行语义化的匹 配有利于w e b 服务的更准确定位。 我们预计通过改进后的算法可以更好地进行本体匹配度量,并且对w e b 服 务的查找结果也与人们的主观感觉更加吻合。 1 4 论文的章节组织 第一章首先介绍了语义w e b 的产生背景和体系结构; 其次,第二章对语义w e b 的众多关键技术做了概要介绍,包括x m l ( s ) 、 r d f ( s ) 、本体、o w l 等等。其中对本体和语义w e b 的关系做了重点分析; 按下来的第三章中,我们讨论了不同版本间本体的比较算法,以及不同来 源本体的合并算法,并尝试着做了一定的改进; 然后,由于w s d l 语言的缺乏语义,我们在第四章给出了一种注释的方法, 从而将w s d l 与具有语义的本体结合起来; 针对u d d i 仅能基于关键字来搜索的弱点,本文紧接着在第五章还讨论了如 何将前面所分析的本体匹配算法和w e b 服务描述的语义化方法应用于u d d i 的工 作流程,并给出了一个d u m f 框架,在一定程度上提高了u d d i 的语义层次。 在最后的第六章,我们则对前面的工作做了总结,并分析了下一步的工作 方向。 第二章语义w e b 的相关技术 语义w e b 自从提出以来,在近几年获得了很大的发展。整个技术体系涵盖的 内容也越来越多,这里只介绍最基本的以及与本论文相关的一些内容。 2 1 x m l 与x m ls c h e m a 技术 开发语义w e b 的两个重要技术是x m l 和r d f 。二者缺一不可,奠定了语义 w e b 的重要基础。而二者相对应的s c h e m a 技术则对文档的结构和类型进行了约 束。 2 1 1 x m l 技术 早在w e b 出现之前,s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标 准通用标记语言) 就已经存在。正如其名称所言,s g m l 是一种用标记来描述文 档资料的通用语言。它包含了一系列的文档类型定义( d o c u m e n tt y p e d e f i n i t i o n ,简称d t d ) ,d t d 中定义了标记的含义,因而s g m l 的语法是可以 扩展的。但s g m l 十分庞大,既不容易学,又不容易使用,在计算机上实现也十 分困难。因此作为s g m l 一个子集的h t m l 便顺理成章地成为流行的标记语言。 但进入上世纪九十年代后期,随着网络应用越来越广泛,仅仅靠h t m l 这一 种文件类型来处理千变万化的文档和数据已经力不丛心:h t m l 过于简单的语 法严重地阻碍了用它来表现复杂的形式,而且语法十分不严密,严重影响网络 信息传送和共享。尽管h t m l 推出了一个又一个新版本,已经有了脚本。表格框 架等功能,但始终满足不了不断增长的需求,开发一种新的w e b 标记语言显得 十分必要的。由于s g m l 过于庞大,不适于作为w e b 语言,w 3 c 建议使用一种精 简的s g m l 版本,x m l 就这样诞生了。 下面是一个购买订单的x m l 文档的示例( o r d e r x m l ) : l a w n m o w e r l 1 4 8 9 5 从中可以看出x m l 与目前w e b 上广泛使用的h t m l 最大的区别是:h t m l 的 标记是预定义的,开发者不能根据实际需要自由扩充,它不是结构化的,又没 有严谨的语法;而x m l 不再是固定地来标记,而是允许定义数量不限的标记来 描述文档中的资源,允许嵌套的信息结构。 h t m l 只是w e b 显示数据的通用方法,着重描述w e b 页面的显示格式。而 x m l 提供了一个直接处理w e b 数据的通用方法,着重描述的是w e b 页面的内 容。h t m l 将数据和显示混在一起,而x m l 则将数据和显示分开来。开发人员可以 根据开发需要自主的创建应用程序所需要的标记,有良好的扩展功能,结构化特 性,且有严谨的语法规范。 总而言之,x m l 是指“用结构化方式来交换和发布信息的一组标准”,使 得在网络上使用s g m l 语言更加”简单和直接”:简化了定义文件类型的过程, 简化了编程和处理s g m l 文件的过程,简化了在w e b 上的传送和共享。既将s g m l 的丰富功能与h t m l 的易用性结合到w e b 的应用中,又保留了s g m l 的可扩展 功能。 x m l 是完全基于文档结构的,本身并没有定义文档中各标记元素的语义。 其语义由匹配的应用程序来提供。例如:x s l 描述如何对文档进行格式化,x 1 i n k 和r d f 可以用来描述文档之间的关系。简而言之,x m l 允许用户在文档中加入任 意的结构,但无需说明这些结构的含意。 而x m ls c h e m a 的主要目的就是用来定义一类x m l 文档( 一个x m l a p p l i c a t i o n ) 的。每一个完整的s c h e m a 代表着一个x m la p p l i c a t i o n ,即一个 x m l 应用。因此s c h e m a 的“实例文档”常常用来表示一个与特定x m ls c h e m a 相一致的x m l 文档。因此,模式的“实例文档”形式常常被用于描述一个与特 定x m ls c h e m a 相一致的x m l 文档。事实上,文档实例和s c h e m a 文档都不是必 须要以文档的形式存在,它们可以以在应用之间传递的字节流的形式存在,或 者作为一个数据库记录及x m l 的“信息项”的集合存在。然而为了简化入门, 我们总是把实例和模式看作文档或者文件,认为它们总以文档实例或是模式文 档的形式存在。 下面是前面购买订单x m l 文档i t e m 部分的模式文档( o r d e r x s d ) : 8 模式文档可以被看做一个类型定义和元素声明的集合( 词汇表) ,它们的 名字被归属于一个指定的命名空间,后者称为目标命名空间。目标命名空间使 我们能够从不同的词汇表中区分定义以及声明。 此外,相对于s g m l 和h t m l 中的d t d ,x m ls c h e m a 提供数据类型的支持,约 束( r e s t r i c t i o n ) 定义能力较好,可以对x m l 实例文档作出更细致的语义限制, 具有很强的描述能力、扩展能力和处理维护能力。 2 2r d f 与r d fs c h w a 2 2 1 r d f 在语义层面上的扩展 为什么在已有x m l s c h e m a 的基础上仍然需要r d f ? 这是因为x m l s c h e m a 主 要是用来确定x m l 文档的结构,而不能用来确定元素的具体含义以及元素之间 的语义联系。虽然x m l s c h e m a 能用一种层次的方式组织元素,不过这种层次并 不包含语义信息,而仅仅是提供了一种语法来复用一些简单的结构以构造更复 杂的结构。因此通过x m l s c h e m a 描述的数据缺乏语义信息。而r d f 的作用正是将 x m l 数据的语义信息无歧义地映射到一个模型中,这意味着在一个r d f 应用中 可以确定哪些部分具有什么样的语义信息。因此可以将r d f 看作元数据层,即 用来描述关于数据的数据层。 所谓元数据,就是“描述数据的数据”或者“描述信息的信息”。3 。例如一 本书的内容是书的数据,而作者的名字、出版社的地址或版权信息就是书的元 数据。数据和元数据的划分不是绝对的,有些数据既可以作为数据处理,也可 以作为元数据处理,例如可以将作者的名字作为数据而不是元数据处理。 r d f 的初衷就是希望能重新定义互联网上数据的组织方式,用一种计算机 可理解的方式来组织元数据,从而让计算机能自动处理存在着的海量的数据。 让我们设想这样一种情况:某一个经营网上书本销售的门户网站,它需要定时 9 向网上的书本供货商索取书目和书的报价。那么这些书目和书的报价便可以构 成元数据,如果关于书目的元数据以r d f 的形式描述,则该门户网站只要定时 得到供应商的元数据就可以了,不必费劲地从各个不同供货商的网站中千辛力- 苦地搜索有用的信息。 r d f 的数据模型提供了一个抽象的概念框架来描述元数据,该框架通过命 名的属性和属性值来表示资源之间的关系和资源内部的关系。它包括如下的三 个要素: ( 1 ) r e s o u r c e s ( 资源) :所有通过r d f 描述的对象( o b j e c t ) 都看作是一个资 源。个资源可能是整个网页,也可能是网页中的一部分,比如特定的文档中 m t m l 或x m l 元素:资源也可以是一些网页的集合,比如整个网站中所有的网页: 资源也可能是不能直接通过w e b 访问的对象,比如打印的书籍。资源的命名是通 过u r i 加上一个可选的定位i d 来表示的。u r i 的扩展性允许表示任何可以想象 的实体。 ( 2 ) p r o p e r t i e s ( 属性) :属性是用来描述资源的具体方面、特性或相互的 关系等。每个属性有特定的含义,规定其允许值,定义能够描述的资源类型以 及与其它属性的关系。在r d fs c h e m a 标准有对如何表述属性特征的详细规定。 ( 3 ) s t a t e m e n t s ( 声明) :一个资源加上一个特性以及该特性的值( v a l u e ) 就构成了一个声明。声明对象可以是另外一个资源,也可以直接字面表示其内 容,即可以是用u r i 规定的资源或是简单的一个字串或者是其它由x m l 定义的 原数据类型。 图2 1 对象一属性一值三元组 基本上,r i ) f 的基本结构可以看作对象一属性一值的三元组语法形式,如 图2 1 。一个三元组构成一个声明。其中对象代表一个资源,属性代表该资源的 特性,值量化描述了该资源的特性,同时也可以作为另一个声明的对象。从而 元数据由一系列的声明构成。 和x m l 一样,r d f 也提供了一种树型结构:每个文档有唯一的根( r o o t ) 元 素,元素之间的嵌套结构构成元素之问的父子,兄弟关系。这种固定的文档结构 使得类似x m l 的词法分忻器可以以操作树的方法操作任何格式良好的r d f 文档, 因此r d f 在“语法的可互操作性”上也可以满足。 “在语义的可互操作性”上,r d f 比x m l 有着显著的优势,因为任何一种 数据模型能很自然地用属性值的网络关系来表示;在继承性方面r d f 也能保 证派生类型能拥有父类型的属性,从而保证继承关系。但是r d f 本身没有提供声 1 0 明这些属性的机制,同时也没有定义属性与资源之问联系的机制这些由r d f s c h e m a 完成。 通过上面的分析我们可以看到,r d f 具有较好的“语法的可互操作性”、 “语义的可互操作性”的特点,因此可以较好的满足语义化本体建模需求。 r d f 提供了简单的元数据模型,它能够表示和交换计算机可以处理( 语法 方面的处理) 的信息。但它只是为表示语义提供了基础,本身并不能表示语义。 为此对r d f 进行了扩展,加入了v o c a b u l a r y 、s t r u t t u r e 和c o n s t r a i n t ,这样 就形成了r d fs c h e m a 。r d fs c h e m a 的作用和x m ls c h e m a 的作用并不一样:x m l s c h e m a 定义了x m l 的语法,而r d fs c h e m a 则是为了表示语义而对r d f 的一个 扩展。不同s c h e m a 的x i i l l 好比不同国家的语言,即使说的是同一件事情,也不 能必然互相理解。而不同r d fs c h e m a 的r d f 则是同一语言的不同言语,因而即 使是针对不同领域的言语,也可以互相理解一这就可以构成一个真正的语义 网络。 在r d f s 中,最上层的抽象根类结点是r d f :r e s o u r c e ,它又派生出两个子 类r d f s :c l a s s 和r d f :p r o p e r t y ,任何领域的知识都可以认为是这两个子类 的实例。r d f s :c l a s s 语义上代表了领域中的本体,r d f :p r o p e r t y 则代表了 领域中本体的属性。在r d f s 规范中,特别定义了r d f s :s u b c l a s s o f 作为r d f : p r o p e r t y 的实例来表示r d f s :c l a s s 的实例属性。这样,就可以定义不同本体 之间类的从属关系,从而建立知识表达中最基本的本体语义层次结构。类似的 r d f s :s u b p r o p e r t y - o f 作为r d f :p r o p e r t y 的实例表示r d f :p r o p e r t y 的实例 属性,可以定义不同p r o p e r t y 之f l l :l 的从属关系。在r d f s 规范中,还定义了r d f s : d o m a i l 3 和r d f s :r a n g e 表示r d f :p r o p e r t y 的实例所应用的范畴“。 我们可以认为r d fs c h e m a 是一组简单的本体建模元语附加在r i ) f 上,但 r d fs c h e m a 的表达方式有很大的局限性,对于表达丰富的语义是远远不够的, 如没有标准的方法描述基本限制,这些将有待其上层的本体层将r d fs c h e m a 扩展成齐全的本体建模语言。 2 3 本体知识库相关理论 2 3 1 本体概念的由来和发展 o n t o l o g y ( 本体论) ,原来是哲学的一个分支理论,是对于存在的一种系 统化解释。古希腊哲学家亚历士多德通过本体来描述客观事物的存在,并试图 以此来进行事物的分类。 在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系 构成的规定这些词汇外延的规则的定义”。 后来在信息系统、知识系统等领域,越来越多的人研究o n t o l o g y ,并给出 了许多不同的定义。其中最著名并被引用得最为广泛的定义是由g r u b e r 提出 的,“本体是概念化的明确的规范说明”1 :概念是指关于现实世界某种现象 的抽象模型。明确是指所用到的概念以及旌加于概念上的约束必须被明确定 义。形式化是指计算机能够无二义的解释这些概念。本体既包括一个领域内的 知识也包括各种领域之间的知识,使用这种方式,他们使得知识可以重用。 尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于本体的 认识是统一的,都把本体当作是领域( 可以是特定领域的,也可以是更广的范 围) 内部不同主体之间进行交流的一种语义基础,即由本体提供一种明确定义 的共识。进步,本体提供的这种共识更主要的是为机器服务,机器并不能像 人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串 进行处理。因此,在计算机领域讨论本体,就要讨论本体究竟是如何表达共识 的? 也就是概念的形式化问题。这就涉及到本体的描述语言、本体的建设方法 等具体研究内容。 在本体研究发展的进程中出现过不少项目,占有重要地位、影响面很广的 有如下一些m 1 : ( 1 ) s t a n f o r d 失n 识系统实验室承担的k s e ( k n o w l e d g es h a r i n ge f f o r t ) 项目, 提出了以本体作为不同知识库系统共享知识的方法,其目标是建立一个为多系 统开发者所接受的、可重用的本体库。其研究成果包括:中性的高级知识表达语 言k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 支持共享和重用的本体描述语言 o n t o l i n g u a 和知识系统间通讯语言k q m l ( k n o w l e d g e q u c r ym a n i p u l a t i o n l a n g u a g e ) ( 2 ) k a c t u s 是欧洲e s p r i t 项目,其目标是研究技术系统全生命周期的知识重用 方法学,通过c m l ( c o n c e p t u a lm o d e l i n gl a n g u a g e ,概念建模语言) 构造产品知 识重用的本体,支持计算机集成制造方法和知识工程方法的集成。k a c t u s 还进行 了本体与s t e p 标准集成的尝试,提供了对e x p r e s s 和o n t o l i n g u a 的支持。 ( 3 ) w o r d n e t 是由美国普林斯顿大学认知科学实验室的m i l l e t 、b e c k w i t h 等人, 自1 9 8 5 年起开发的一部基于英语的词汇语义网络系统,其最具特色之处是按照 词义而不是词形来组织词汇信息,在国际计算语言学界己有相当的影响。该本体 在智能检索、自然语言理解、机器翻译文本语义分类与过滤等智能领域有着非 常广泛的应用。 2 3 2 本体的分类 根据g v a nh e i j s t 的研究,本体可分为4 种类型:领域本体( d o m a i n o n t o l o g y ) 、通用本体( g e n e r i eo n t o l o g y ) 应用本体( a p p l i c a t i o no n t o l o g y ) 和表示本体( r e p r e s e n t a t i o n a lo n t o l o g y ) 。其中,领域本体包含着特定类型领 域( 如电子机械、医药等) 的相关知识;通用本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论