(计算机软件与理论专业论文)一种面向net平台的owl解析器的设计与实现.pdf_第1页
(计算机软件与理论专业论文)一种面向net平台的owl解析器的设计与实现.pdf_第2页
(计算机软件与理论专业论文)一种面向net平台的owl解析器的设计与实现.pdf_第3页
(计算机软件与理论专业论文)一种面向net平台的owl解析器的设计与实现.pdf_第4页
(计算机软件与理论专业论文)一种面向net平台的owl解析器的设计与实现.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、 一种面向n e t 平台的o w l 解析器的设计与实现 学位论文完成日期: 指导教师签字: 答辩委员会成员签字: 三 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 洼! 翅塑查墓丝显要挂别应明的:奎拦亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:否l 净 签字日期:纠啤月7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,并同意以下 事项: 1 、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。 2 、学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中 国学术期刊( 光盘版) 电子杂志社用于出版和编入c n k i 中国知识资源总库, 授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 孔静 导师签字: f 象建茛 签字日期:沙胁易月7 日签字日期:加扣年易月7 日 江j 一种面向n e t 平台的0 w i _ 解析器的设计与实现 摘要 语义w e b 作为下一代万维网的发展方向,自提出以来就得到了人们的极大关 注。它不是另外一个w e b ,而是现有w e b 的延伸,其中的信息被赋予了良定义 的含义,从而使计算机可以更好的与人协同工作。在语义w e b 的层次模型中, 本体层处于核心位置。本体层描述了资源之间的联系,揭示了资源的语义信息。 这正是对现有w e b 信息的良定义所在,从而在语义层次上解决w e b 信息的共享 与交换。 由于本体层的意义重大,人们对本体的研究不断深入;同时为了便于开发本 体,各种本体编辑工具也应运而生。这些开发工具大都支持以树形结构的图形方 式来显示本体,以方便人们理解比较抽象的本体;而在存储本体时,是将用本体 语言写成的文档存储在数据库中的,例如r d f 文档、o w l 文档( o w l ,即w e b o n t o l o g yl a n g u a g e ,网络本体语言) 等。另外,在本体推理方面,也出现了许多 的推理工具。o w l 解析器在本体编辑工具和推理工具中都有着广泛的应用,目 前j a v a 平台上的o w l 解析工具已经有比较成熟的j e n a 等,但还没有较为成熟 的面向n e t 平台的o w l 解析器出现。 面向n e t 平台的o w l 解析器的一个直接应用就是基于s i l v e r l i g h t 技术开发 的本体编辑器。该本体编辑器是一个支持图形化开发本体的编辑工具,它以树形 层次图来显示本体,以o w l 文档来保存本体。系统的实现离不开面向n e t 平 台的o w l 解析器的支持,o w l 解析器在系统中用于实现o w l 语言描述的本体 与面向对象元素描述的本体之间的转换,并梳理o w l 语言描述的本体中各个概 念、实体等元素间的各种关系。 本文主要介绍了一种面向n e t 平台的o w l 解析器的设计与实现,即如何用 面向对象的方法对o w l 描述体系进行建模( 即建立面向对象的o w lm o d e l ) ; 然后基于o w lm o d e l 对o w l 文档解析,实现从o w l 语言描述的本体到面向 对象元素描述的本体的映射。本文的主要工作如下: 概括介绍语义w e b 的基础知识、本体与语义w e b 的关系及本体研究的 现状。 介绍各种语义w e b 语言,并重点研究o w l 的相关理论知识及o w l 的 发展现状。 介绍目前主流的本体编辑工具,并重点介绍o w l 解析技术、发展现状、 存在不足等。 通过对现有的o w l 解析器的理论基础及技术现状的分析研究,提出一 种面向n e t 平台的o w l 解析器的设计方法及系统的实现。 关键词:本体,n e t 平台,o w l ,o w l 解析器 i i t h ed e s i g na n di m p l e m e n t a t i o no fao w lp a r s e rf o r n e t a b s t r a c t a st h ed e v e l o p m e n to fn e x tg e n e r a t i o no fw b r l dw i d ew 曲,s e m a n t i cw 曲g e t p e o p l e sg r e a tc o n c e r ns i n c e i th a sb e e np r o p o s e d i t sn o ta n o t h e rw 曲,b u tt h e e x t e n s i o no ft h ew b d dw i d ew e b 硼1 ei n f o r m a t i o ns e m a n t i cw e bi s g i v e n w e l l d e f i n e dm e a n i n g ,s os e m a n t i cw r e bc o u l da s s i s tc o m p u t e r st ow o r kb e t t e r 谢m p e o p l e o n t o l o g yl a y e ri st h ec o r eo ft h el e v e lm o d e lo fs e m a n t i cw e b ;i td e s c r i p t s t h el i n kb e t w e e nr e s o u r c e si nw e ba n dr e v e a l st h es e m a n t i ci n f o r m a t i o nb e t w e e n t h e s er e s o u r c e s 1 1 1 a ti st h ew e l l d e f i n e dm e a n i n go fw e bi n f o r m a t i o n ,a n dt h e ni t c o u l dw e l ls o l v et h ew e bi n f o r m a t i o n ss h a r i n ga n de x c h a n g i n gi ns e m a n t i cl e v e l 功er e s e a r c ho no n t o l o g yf i e l di sb e c o m i n gm o r ea n dm o r el u c u b r a t e db e c a u s e o ft h ei m p o r t a n ts i g n i f i c a n c eo fo n t o l o g y 。a tt h es a m et i m e ,t of a c i l i t a t ed e v e l o p m e n t o fo n t o l o g y , a l lk i n d so fo n t o l o g ye d i t i n gt o o l se m e r g e d m o s to ft h e s et o o l ss u p p o r t t od i s p l a yo n t o l o g yi nt h ew a yo fg r a p h i c a lt r e es t r u c t u r e ,s op e o p l ec o u l du n d e r s t a n d t h ea b s t r a c to n t o l o g ym u c he a s i l y ;w h i l ew es t o r et e x t u r eo n t o l o g yf i l e sw h i c hw e r e w r i t t e nb yo n t o l o g yl a n g u a g e s ,s u c ha sr d fd o c u m e n t s 、o w ld o c u m e n t s ( o w li s t h ea b b r e v i a t i o no fw r e bo n t o l o g yl a n g u a g e ) a n ds oo n ,i nd a t a b a s e i na d d i t i o n , t h e r ea r em a n yt o o l sf o rt h er e s e a r c ho fo n t o l o g yr e a s o n i n g n l ep a r s e ro fo w li s w i d e l yu s e di no n t o l o g ye d i t i n go rr e a s o n i n gt o o l s c u r r e n t l y , t h em o s tm a t u r e s t p a r s e ro fo w lb a s e do nj a v ap l a t f o r mi sj e n a , b u tt h e r ei s n ta n ym a t u r ep a r s e rt o o l s o fo w lw h i c hi so r i e n tt o n e tp l a t f o r m ad i r e c ta p p l i c a t i o no ft h e n e tp l a t f o r mo r i e n t e dp a r s e ro fo w li st h e o n t o l o g ye d i t o rt h a td e v e l o p e di nt h eb a s eo fs i l v e r l i g h tt e c h n o l o g y 1 1 1 i so n t o l o g y e d i t o ri sa l s oo n eo ft h et o o l sw h i c hc o u l ds u p p o r tg r a p h i c a ld i s p l a y i n go fo n t o l o g y i ts h o w st h eo n t o l o g i e si nt h ew a yo ft r e ed i a g r a ma n ds t o r e so n t o l o g i e si nt e x t u r e o w ld o c u m e n t s t h e n , i no r d e rt oa c h i e v et h ec o n v e r s i o nb e t w e e nt e x t u r e o w l o n t o l o g yd o c u m e n t sa n do n t o l o g y st r e ed i a g r a m ,w en e e da no w l p a r s e rt o s o r to u tt h el e v e l sa n do t h e rr e l a t i o n sb e t w e e nv a r i o u sc o n c e p t s 、i n s t a n c e sa n ds oo ni n i i i ow ld o c u m e n t s s p a p e r d e s c r i b e st h ed e s i g na n di m p l e m e n t a t i o no fa no w lp a r s e rf o r n e t p l a t f o r m t h a ti sh o w t od e s i g nm o d e lf o ro w l d e s c r i p t i o ns y s t e mi no b j e c t - o r i e n t e d w a y s ( w e c a l li to w lm o d e l ) ,t h e np a r s eo w ld o c u m e n t sa n da c h i e v et h em a p p i n g b e t w e e nv a r i o u se l e m e n t si nt e x t u r eo w lo n t o l o g ya n do b j e c t - o r i e n t e de l e m e n t s b a s e do no w lm o d e l m a i nw o r k so ft h i sp a p e ra r ea sf o l l o w s : o v e r v i e wo ft h eb a s i c so ft h es e m a n t i cw 曲,t h er e l a t i o n s h i pb e t w e e n o n t o l o g ya n ds e m a n t i c w e ba n dt h ec u r r e n ts i t u a t i o no fo n t o l o g y r e s e a r c h e s i n t r o d u c eav a r i e t yo fs e m a n t i cw e bl a n g u a g e sw i n la ne m p h a s i so n t h e o r e t i c a lk n o w l e d g ea n dt h ed e v e l o p m e n ts t a t u so fo w l i n t r o d u c et h em a i no n t o l o g ye d i t i n gt o o l s ,a n dh i g h l i g h tt h et e c h n o l o g i e s , c u r r e n ts i t u a t i o n ,p r o b l e m sa n dd e f i c i e n c i e so fo w lp a r s e r s t h r o u g ht h et h e o r e t i c a lb a s i so ft h ee x i s t i n go w l p a r s e r sa n di t st e c h n i c a l a n a l y s i s ,w ep r o p o s ea m e t h o do fo w l m o d e l i n ga n d t h ei m p l e m e n t a t i o no f o w lp a r s e r k e y w o r d s :o n t o l o g y ; n e tp l a t f o r m ;o w l ;o w lp a r s e r i v 目录 1 ;者论1 1 1 研究背景1 1 2 国内外研究现状2 1 3 本文研究意义3 1 4 论文的组织结构4 2 语义w e b 及本体论概述6 2 1 语义w e b 概述6 2 1 1语义w e b 的发展简史及其定义6 2 1 2语义w e b 的发展目标。6 2 2 本体论基本理论7 2 2 1本体的定义7 2 2 2本体语言简介8 2 2 3本体的构建1 1 2 2 4本体编辑器1 1 2 2 5本体存储,1 2 2 2 6现有本体语言解析技术12 2 3 n e t 平台下的o w l 解析现状1 3 3o w l 语言与c 捍面向对象语言1 5 3 1o w l 语言介绍15 3 2 面向对象语言2 9 3 3o w l 、o w l 解析器、c 撑代码2 9 4 面向n e t 平台的o w l 解析器的设计3 1 4 1o w l 解析器的功能分析与模块设计3 1 4 2 开发平台与核心技术。3l 4 3o w lm o d e l 的具体设计方案。3 2 4 3 1o w lm o d e l 0 1 版本的设计方案与不足3 2 4 3 2o w lm o d e l0 2 版本的设计方案与不足3 7 4 3 3o w lm o d e l0 3 版本的设计方案4 2 v 4 4o w lp a r s e r 的简介4 9 5o w lp a r s e r 的具体实现与应用分析5 0 5 1o w lp a r s e r 的设计与实现5 0 5 1 1o w l m o d e l p a r s e r 的作用及设计实现51 5 1 2o w l n a m e s p a c e p a r s e r 的实现。5 2 5 1 3o w l o n t o l o g y p a r s e r 的实现5 3 5 3 5 4 5 4 5 6 5 6 5 8 5 9 6 1 6 2 6 2 6 2 一种面向n e t 平台的o w l 解析器的设计与实现 1 绪论 1 1 研究背景 自2 0 世纪9 0 年代t i mb e m e r s l e e 提出了h t m l 、h t t p 和w e b 以来,w e b 技术不断发展成熟,人们的生活也越来越离不开w e b 提供的信息与服务。如今 网络中充满着丰富的资源,人们面对的问题不再是找不到资源,而是如何从数量 庞大的资源中准确挑选出自己想要的资源。w e b 主要由人阅读、为人类服务,大 多数支持w e b 的交互仍然需要人类的解释,机器直接处理的结果还不尽如人意, 这其实还没有达到t i mb e m e r s l e e 的最初想法。根据他最初的设计,w e b 应该 不仅仅是人与人交互的信息空间,而且是语义丰富的数据网络,既能被人浏览, 又能利用计算机程序执行操作,这一远景即语义w e b 1 1 。 语义w e b 不是另一个w e b ,而是充分利用现有的w e b ,对其中的信息赋予 良定义的含义,从而加强机器之间的互操作性。有人说,如果现有的w e b 是人 类的w e b ,而语义w e b 则是机器的w e b l 2 。根据语义w e b 的设计原则,t i m b e m e r s l e e 在2 0 0 6 年提出了几经修改的语义w e b 的七层结构模型。在这个层次 模型中,本体层是核心层次之一。本体是对客观存在的各种概念及其之间关系的 描述,是对某特定领域的概念化说明,多采用o w l 语言表示( o w l 是w 3 c 提 出的一种网络本体语言,是目前主流的语义w e b 语言) 。本体将信息的结构和内 容剥离开,对信息作形式化的描述,从而使计算机可以理解网络信息的语义。 在本体开发方面,由于本体的开发需要领域专家的参与,而本体描述语言又 是专业性比较强的语言,因此人们都愿意选择支持图形化开发方式的本体开发工 具来进行辅助。这些本体开发工具以树形结构图形式直观的显示各种概念的层次 结构及其它关系,以本体描述语言文档来存储本体,如常见的r d f 文档、o w l 文档等。如今,相关专家学者已经开发出了数量巨大的本体,这些本体分布于世 界各地,涉及到人类生活的各个领域。在本体的应用方面,许多本体已经被广泛 的应用于知识工程、自然语言处理、信息检索、数据集成等领域。 无论是在本体开发还是本体应用方面,相关的本体处理工具中都有一个重要 的支持部件一本体语言解析器,主要用于对以某种语言( 如:r d f r d f s 、o w l 等) 描述的本体进行处理。目前,比较著名的一个解析器是j e n a ,它是由h p 实 l 一种面向n e t 平台的o w l 解析器的设计与实现 验室基于j a v a 平台开发的,可以处理半结构化数据( 主要基于r d f 的管理和查 询) 的开源框架【3 1 。 j a v a 由s u n 公司开发,伴随着2 0 世纪9 0 年代后期w e b 开发的迅速普及,j a v a 平台发展非产迅速,在业界得到普遍认可,甚至许多w i n d o w s 客户开始放弃使 用基于w i n d o w s 的编程模式并转而使用j a v a 。这一时期也正值语义w e b 、本体 技术酝酿发展的初期,因此这可能也是现在n e t 上的本体处理技术发展较为薄 弱的原因之一。面对技术的落后、市场的流失,微软抓紧时间加大技术研发,于 2 0 0 2 年发布了n e t f r a m e w o r k1 1 版,2 0 0 5 年发布了2 0 版本,2 0 0 6 年1 1 月发 布的3 0 版本,现在已经发布了3 5 版本。微软的n e t 从诞生到现在,已经走过 了8 个年头,其在w e b 开发、应用程序编制等方面的认可度越来越高,应用也 不断扩大,走出低谷的n e t 技术已经可以和j a v a 技术在业界并驾齐2 1 4 1 。 但是在n e t 平台的应用不断拓展的同时我们也发现,n e t 技术在本体处 理方面的发展十分落后,无论是n e t 平台上的本体处理工具,还是面向n e t 平 台的本体语言解析工具,发展都非常缓慢,而且至今没有出现技术较为成熟的代 表工具。这个现状对于本体开发、本体应用及n e t 技术自身的发展来说,无疑 都是非常遗憾的。 1 2 国内外研究现状 o w l 的解析工具在所有的本体编辑工具中都处于核心模块,所以在这方面 的研究与探讨也是现在w 3 c 语义网行动计划研究工作的重点之一。在这一领域 中,j e n a 是比较出名的开放源码的开发包之一,它是由h p 公司开发一个j a v a 开发工具包,起源于早些时候s i r p a ca p i 的工作。j e n a 本体解析器包括三部分, 对r d f 的解析、对r d q l 的查询支撑和对o w l 的解析。j e n a l 2 版本开始支持 d a m l + 0 i l ;从2 0 0 4 年2 月起,j e n a 2 1 版本开始支持o w l 文档的处理。在很 多本体开发工具中,对o w l 的解析工作都引用了j e n a 开发包的a p i 引。 p r o t 6 9 6 是由斯坦福大学开发的本体编辑器,也是一个开放源码软件,具有 优秀的设计和众多的插件,是目前使用最广泛的本体编辑器之一【6 】。p r o t 6 9 6 中对 o w l 文件的处理是由p r o t 6 9 6 o w la p i 提供支持的,而这个p r o t 6 9 6 o w la p i 其实是j e n a 的一个应用,也就是说p r o t 6 9 6 中o w l 解析器的核心仍是j e n a 。但 是许多使用过p r o t 6 9 6 的用户都知道,当将本体以o w l 文档进行输出的时候, 2 一种面向n e t 平台的o w l 解析器的设计与实现 会发现这个o w l 文档看起来与w 3 c 推荐标准中介绍的并不太一样。出现这种 情况的原因,并不是p r o t 6 9 6 对文档的输出结果做出了什么处理或改变,而是j e n a 本身对这些文档进行了一些优化以缩短文件长度。比如说:去掉了一些重复的链 接和简化解析忉。 由于现在o w l 作为w 3 c 推荐的本体语言,且在近几年的使用普遍、并得 到用户的广泛认可,所以提供对本体工具中的o w l 文档处理支持是大势所趋, 这方面的工作还有很多。现在主要的本体语言解析技术有:j e n a 、p r o t 6 9 6o w la p i 等。j e n a 是一个j a v a 的r d fa p i ,是一个由h p 实验室开发的综合系统。p r o t 6 9 6 o w la p i 是对j e n a 的包装,并将其引入到p r o t 6 9 6 中来实现应用程序对本体自 动处理的。 对于这些技术,我们将在第二章中具体阐述。把j e n aa p i 作为介绍重点, 并不代表只有这一个支持o w l 解析的a p i ,还有很多这里不再多说。只是这些 a p i 都是j a v a 环境下的,能支持n e t 环境的o w la p i 还是非常缺乏的。所以 从o w l 发展的大趋势及支持n e t 环境的o w la p i 的缺乏两方面来考虑,开发 能提供n e t 支持的o w la p i 来充实整个语义网基础构件之解析器和a p i 的开放的源码库也是非常有必要的。 所阅读文献主要来自于有关理论专著、近1 0 年来国内外核心期刊的相关文 献、会议论文集和专利,学校图书馆查询系统的网上资源,以及i n t e m e t 上的其 他网上资源。 1 3 本文研究意义 基于s i l v e r l i g h t 技术开发的本体编辑工具要实现对以o w l 语言描述的本体 进行编辑,就必须要有一个面向n e t 的o w l 解析器的提供支持,这个o w l 解 析器就是要实现用o w l 语言描述的本体和用面向对象方法和元素描述的本体之 间的转换。 本解析器采用面向对象方法构建出o w l 语言描述体系的元模型( o w l m o d e l ) ,有了m o d e l 的支持后,再由o w lp a r s e r 将o w l 语言描述的本体文档 中的各种标签及语句转换成相应的类对象。这样,本体编辑工具就可以读取面向 对象元素表示的本体,再由系统中的其它模块接收这些解析结果并组织视图显示 及其它操作。同样,当用户编辑本体后,还要由o w lp a r s e r 将发生变化的面向 3 一种面向n e t 平台的o 、) l ,l 解析器的设计与实现 对象文件反向解析成相应的o w l 本体文档,再由系统的相关模块调用反向解析 结果进行保存等操作。图1 1 给出了面向对象的本体元模型与o w l 描述体系元 模型之间映射的一个例子。 本课题的理论意义在于:w 3 c 语义网行动计划允许对理念和原型进行探索, 创造协作式开发环境以利于w 3 c 团队、成员和感兴趣的各方探讨开放源码的语 义网工具和技术设计,必要时鼓励对关键的语义网基础构件如解析器和a p i 进 行研发以及开放源码i s 。如今解析器等a p i 的源码绝大多数是j a v a 版,缺少其 它版本的源代码。我们以n e t 作为开发环境,以v i s u a ls t u d i 0 2 0 0 8 为开发工具, 以c 群为开发语言来实现这种面向n e t 平台的o w l 解析器,并提供开放的源代 码。这在充实语义网基础构件源代码方面是有一定意义的。 图1 - 1面向对象的本体元模型与o w l 描述体系元模型之间映射的例子 实际应用价值:虽然j a v a 平台上的o w l 解析工具已经较为成熟,但是 在n e t 平台上开发本体编辑工具时并不能直接使用j a v a 平台上的解析工具。面 向n e t 平台的o w l 解析器除能满足n e t 平台上的本体编辑器的应用需求外, 还可以提供不同c 样版本的m o d e l 及p a r s e r ,所以可在一定程度上减小在n e t 环 境下开发其它本体处理工具的阻力。 1 4 论文的组织结构 全文共由5 章组成: 第一章绪论。总结了语义w e b 、本体的发展状况及现实需求,阐述了本课 题的研究背景,说明了开发面向n e t 平台的o w l 解析器的必要性 和重要性,并且提出了本课题的研究价值及主要内容。 4 一种面向n e t 平台的o w l 解析器的设计与实现 第二章语义w e b 及本体概述。概括介绍了语义w e b 的目标、主要工作、发 展现状,介绍了本体的基本理论、开发工具、本体语言解析技术等 问题,最后介绍了n e t 平台下的o w l 解析技术现状。 第三章o w l 语言与c 撑面向对象语言。具体介绍了o w l 语言的构成元素知 识及n e t 平台下的c 群语言的知识,并分析了实现这两种语言之间 映射的可行性。 第四章面向n e t 平台的o w l 解析器的具体设计。具体阐述了o w l 解析 器系统的模块设计;并通过上一章提出的在o w l 语言与c 撑语言之 间实现映射的可行性分析,分析o w lm o d e l 模块的具体设计;最后 粗略介绍了实现对o w l 进行解析的方法。 第五章系统具体实现。具体讲解o w l 语言的各个部分的解析方法与过程。 第六章总结与展望。总结本文的研究成果,指出了系统尚存在的不足之处, 并对将来的工作做了规划展望。 5 一种面向n e t 平台的o w l 解析器的设计与实现 2 语义w e b 及本体论概述 2 1 语义w e b 概述 2 1 1 语义w e b 的发展简史及其定义 1 9 9 0 年w e b 的发明使人们可以通过因特网获得各种资源。此后w e b 的功能 逐步进化到采用交互方式获取数据,再到智能搜索。在智能检索方面,查准率还 是要亟待解决的问题。另外,w e b 还有一些不能让人满意的方面,比如用户界面 不够友好、网络传输速度太慢等等【1 】。这些问题也一直推动着w 曲的发展。要做 到智能,就必须让机器可以“读懂”信息的含义。1 9 9 4 年,t i mb e m e r s l e e 就在 国际万维网大会上发表主题演讲“v e r s i o no f as e m a n t i cw e b ”,他指出给w e b 上的 信息增加语义需要两件事,“允许具有信息的文档采用机器可读的形式;允许创 建具有联系值的链接”【l 】。接着,x m l 在w r e b 上应用、r d f r d f s 的制定后,t i m b e m e r s l e e 针对因特网在信息表示和检索方面存在的缺陷,正式提出了语义w e b 的概念。 根据w 3 c 的定义:“语义w e b 提供了在应用、企业和社区之间共享数据的 通用框架,它由w 3 c 领导,有众多研究人员和企业共同促进。它的基础是资源 描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,r d f ) 。”英文原文如下:t h es e m a n t i c w e bp r o v i d e sac o m m o nf r a m e w o r kt h a ta l l o w sd a t at ob es h a r e da n dr e u s e da c r o s s a p p l i c a t i o n ,e n t e r p r i s e ,a n dc o m m u n i t yb o u n d a r i e s i ti sac o l l a b o r a t i v ee f f o r tl e db y w 3 cw i t l lp a r t i c i p a t i o nf r o mal a r g en u m b e ro fr e s e a r c h e r sa n di n d u s t r i a lp a r t n e r s i t i sb a s e do nt h er e s o u r c ed e s c r i p t i o nf r a m e w o r k i s 。还是要强调,语义w r e b 不是另 一个w e b ,而是充分发挥现有w e b 的价值,把现有w e b 中的信息赋予良定义的 含义,增强信息的机器可读性,提高机器的协同处理能力。 2 1 2 语义w e b 的发展目标 w e b 主要是为人类阅读并为人类服务的,在现在生活中,人们生活越来越依 赖网络提供给我们的各项服务,如个人站点、主页、电子商务以及b 2 b 交易系 统,w e b 上流过的信息资源成倍增长【1 1 。可是w e b 在某些方面存在的缺陷也限 6 一种面向n e t 平台的o w l 解析器的设计与实现 制了它进一步的发展壮大。w e b 的主要目标是为人类所使用,那么如果为机器开 发语义w e b 技术,又将会给人类的生活带来什么样的变化呢? 语义w e b 的目标是为了解决在不同应用、企业和社区之间的互操作性,这种 互操作性就是通过w r e b 中信息的良定义来保证的【9 1 。通过w 3 c 的制定设计原则 及七层次模型可以知道,人们想通过引入本体这一技术来解决为现有w e b 的资 源进行良定义的含义这一任务。 2 2 本体论基本理论 2 2 1 本体的定义 本体( o n t o l o g y ) 的概念最早是出现在哲学的领域,在哲学中的定义为“对世 界上客观存在物的系统的描述,即存在论,【1 0 1 。近年来,随着计算机领域研究发 展的需求,本体在人工智能领域和知识工程等领域的得到发展。 ? 在人工智能领域,本体被定义为“给出构成相关领域词汇的基础术语和关系, 以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在知识工程 领域,本体被定义为“本体是共享概念模型的明确的形式化规范说明”【n 】。 尽管定义的方式不同,但研究者们对o n t o l o g y 的内涵的理解还是统一的,都 是把它当作领域内部不同主体间交流的语义基础。所以o n t o l o g y 是为了提供一 种共识,这种共识是对领域知识的共同理解,包括共同认可的术语词汇、对这些 术语词汇的各种关系的明确的定义。也就是形成了一个共同认可的标准,在标准 的基础上就可以着力于设计信息的计算机可读性的实现了。这种共识服务于机 器,因为机器不能像人类一样去理解自然语言中表达的语义,而只是把自然语言 当字符串处理。所以,在计算机领域讨论o n t o l o g y ,就是要讨论概念的形式化问 题。 就现有各种本体而言,无论是用何种语言表达,在结构上是相似的。大多数 本体描述的都是个体、类、属性以及他们之间的各种关系【1 2 1 。常见构成要有: 个体:是基础的或者说“底层的”对象,也就是实例。 类:集合( s e t s ) 、概念、对象类型或者说事物的种类。 属性:对象( 和类) 所可能具有的属性、特征、特性、特点和参数。 关系:类与个体之间的彼此关联所可能具有的方式。 7 一种面向n e t 平台的o w l 解析器的设计与实现 规则:用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的, i f - t h e n ( 前因一后果) 式语句形式的声明。 公理:采取特定逻辑形式的断言( 包括规则在内) 所共同构成的就是其本体 在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法 和形式逻辑当中所说的“公理”。在这些学科当中,公理之中仅仅包括 那些被断言为先验知识的声明。 p e r e z 等人认为本体可以按照分类法组织,并归纳出本体的五个基本构成要 素:概念、关系、函数、公理和实例,这也和上边的说法没有本质的区别。 本体是具有级别的,适用范围越大,本体的级别越高,全世界可以通用的形 式化概念就是本体领域中的顶层本体,即上层本体。上层本体( u p p e r o n t o l o g y f o u n d a t i o no n t o l o g y ,即基础本体) 是指一种由那些在各种各样的领域本 体之中都普遍适用的共同对象所构成的模型。其中所收录的核心词表( 英语: c o r eg l o s s a r y ) ,可以用来描述一套领域当中的对象【乃】。领域本体d o m a i no n t o l o g y 或者说d o m a i n - s p e c i f i co n t o l o g y ,即领域特异性本体) 所建模的是某个特定领域, 或者现实世界的一部分。领域本体所表达的是那些适合于该领域的那些术语的特 殊含义【1 4 1 。 现在有已经达成共识的标准化上层本体,比如:都柏林核心【l5 1 、通用形式化 本体( g e n e r a lf o r m a lo n t o l o g y ,g f o ) 、o p e n c y c r e s e a r c h c y c 【1 6 1 、推荐上层合 并本体( s u g g e s t e du p p e rm e r g e do n t o l o g y ,s u m o ) 以及d o l c e 【。而g e l l i s h 本体则是一个关于上层本土和领域本体彼此结合的例子【1 7 】。 本体工程旨在明确特定领域的那些隐含在软件应用程序以及企业机构和业 务过程当中的知识。本体工程为解决各种语义障碍所造成的互操作性问题提供了 一个前进的方向。其中,语义障碍指的也就是那些与业务术语和软件类的定义相 关的障碍和问题。本体工程是一套与特定领域之本体开发工作相关的任务。其研 究的内容包括本体开发过程、本体生命周期、本体构建方法及方法学,以及为这 些方面提供支持的工具包、编辑器和语言 9 1 。 2 2 2 本体语言简介 一、本体语言的种类 8 一种面向n e t 平台的o w l 解析器的设计与实现 本体语言是用于构建本体的形式语言,它允许对有关特定领域的知识加以编 码,其中还会蕴含为处理这些知识而提供的推理规则。本体在其发展历程中,出 现了多种为其服务的本体语言,如传统本体语言c y c l 、d o g m a 、k l o n e 编程 语言、o c m l 等,标记本体语言o i l 、s h o e 等,基于框架的本体语言f l o g i c 、 o k b c 、r d f 、r d f s 等,基于描述逻辑的本体语言k l o n e 、o w l ,基于一阶 逻辑的本体语言c y c l 、k i f 1 1 。其中较为重要的,现在较常用的是r d f t l 7 1 和 o w l l l 8 1 。 二、r d f 和r d f s 简介【1 , 1 7 , 1 9 r d f 是r e s o u r c ed e s c r i p t i o nf r a m e w o r k 的缩写,即资源描述框架。r d f 是 一个处理元数据的x m l 应用,提供了一个领域无关的机制来描述元数据( 元数 据就是与描述数据的数据,描述信息的信息) 。它定义了一个简单的数据模型, 是一种用规范词汇来表达命题的断言语言。一个r d f 语句是由资源、属性、属 性值构成的三元组,表示该三元组描述的资源的某个属性;一个资源可由很多条 r d f 语句来描述。一个r d f 文件包含多个资源描述语句,可以描述多个资源。 r d f 三元组中的资源对应于主词( s u b j e c t ) ,属性对应谓词( p r e d i c a t e ) 和一个 宾词( o b j e c t ) ,该三元组的断言声明了由谓词表述的、在主词和宾词所指称的事 物之间的关系。 r d f 的提出是为了在应用程序之间利用机器可理解的w e b 数据提供互操作 性,强调让计算机灵活方便的自动处理w - e b 资源。这样,在资源发现方面,便 可以增强搜索引擎的语义处理能力;在分类领域中,可以用r d f 来描述网站、 网页之间或者数字图书馆中的内容以及内容之间的关系;采用r d f 的代理可以 提高社区之间知识共享和知识交换的能力;在内容分级中,可以用它来描述页面 的集合,使这些页面形成一个有逻辑的文档。 r d f 虽然提供了一个领域无关的机制来描述元数据,但是它没有定义特定 领域的语义。也就是r d f 中的三元组断言都是领域中的断言,三元组描述的资 源的语义是与其所在资源有关的,因此需要使用其他工具来描述领域相关的语 义。这正是r d f s 提出的目的动机。 r d f s 2 0 1 是r d fs c h e m a 的缩写,是对r d f 的补充,定义了类和属性,可以 用这些类和属性来描述其它的类和属性,从而增

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论