(计算机应用技术专业论文)基于数据库和推理机的owl本体查询技术的研究.pdf_第1页
(计算机应用技术专业论文)基于数据库和推理机的owl本体查询技术的研究.pdf_第2页
(计算机应用技术专业论文)基于数据库和推理机的owl本体查询技术的研究.pdf_第3页
(计算机应用技术专业论文)基于数据库和推理机的owl本体查询技术的研究.pdf_第4页
(计算机应用技术专业论文)基于数据库和推理机的owl本体查询技术的研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)基于数据库和推理机的owl本体查询技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t 产 k at h s u p e r v i s o r :p r o f e s s o rm az o n g m i n n o r t h e a s t e r nu n i v e r s i 够 j u n e2 0 0 8 ide,i ife$静t 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名:王拟 日期:矽嘶月 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口、一年口一年半口两年一 学位论文作者签名:王江杉 签字日期: 矽。哗占月 聊签名:观戈弋= ;,o 、l 签字吼洲午同 l e 东北大学硕 摘要 万维网中信息量的迅速增加使得用户很难访问所需的信息。作为下一代网络, 语义网旨在利用机器可读的元数据使用户更加方便地访问网络中的信息。近年来, 本体作为领域知识一种共享的明确的形式化的描述,在语义网中扮演着非常重要 的角色。随着本体越来越多地运用在语义网中,如何有效地查询本体信息变得非 常重要。 鉴于当前本体查询中使用数据库无法完整存储本体信息以及使用推理机无法 处理含有大量实例的本体,本论文研究了如何整合数据库和d l 推理机来支持本 体查询并提出了一种新的本体查询策略。该方法利用d l 推理机来执行本体库中 的t b o x 推理,利用数据库来存储本体中的显式信息和经过推理后得到的隐含数 据,并借助s q l 语句来实现o w l 本体中隐含的推理规则。 首先,本文讨论了几种常见的存储o w l 本体的数据库模式,分析了各自的 优缺点,并给出了本体数据库存储模式的设计原则。接着,根据此设计原则设计 了一种支持本体查询的数据库模式,给出了本体中概念、属性、个体以及概念断 言、属性断言的数据库存储形式以及设计思想,从而借助推理机将本体中的信息 存储到数据库中以支持用户对本体的查询。其次,研究了本体公理中蕴含的推理 规则,提出在本体导入和本体查询两个阶段实现本体推理以平衡本体导入时间和 本体查询响应时间。最后,重点讨论了本体中的1 1 3 0 x 查询和a b o x 查询以及其 下的各类子查询,结合数据库中存储的本体信息通过s q l 语句实现了本体公理中 蕴含的推理规则查询本体中的隐含信息,并给出了基于数据库的本体查询算法。 关键词:本体查询:0 w l ;存储模式;关系数据库:d l 推理机 h i 1: 、;一 l_膏、p。辑 r e s e a 砌lo no 、lo n t o l o 野q u e d 血g u s i n g r e l a t i o n md a t a b a s e 肌dr e a s o n e r a b s t r a c t ,n l er a p i d 伊o w i n gi n f 0 册a t i o nv o l u m e i i lw o r l dw i d ew e bm a k e si t d i 彤c u l tt 0 a c c e s sa n dm a i n t a i nt h ei n f 0 咖a t i o nr e q u i r e db yu s e r s s e m a n t i cw 曲,t h e n e x t g e n e r a t i o nw e b ,a i m st op r o v i d ee a s i e ri n f b 咖a t i o na c c e s s 孤du s a b i l i t yb yc x p l o i t i n g m a c h i n eu n d e f s t a n d a b l em e t a d a t a i l lr e c e n ty e a r s ,0 n t o l o g y w h i c he n a b l e sas h a r e d , f 0 姗a l ,e x p l i c i ta i l dc o m m o nd e s c r i p t i o no fd o m a i nk n o w l e d g c ,h a sb e e nr e c o g n i z e dt o p l a y 锄i m p o r t a i l tr o l e i ns e m a n t i cw 曲w i t ht h ei n c r e a s i n gu s e0 fo n t o l o g yi n s e m a n t i cw e b ,i ti sc r i t i c a lt os u p p l ya ne f f i c i e n tm e t h o dt oq u e r yt h ei n f 0 肌a t i o ni n t h e0 n t o l o g y a st h ee x t r e m e l yl a r g en u m b e ro fi n s t a n c e so fr e a lo n t o l o 舀e sm a k e si td i f f i c u l tf o r d lr e a s o n e r st od e a lw i t ha b o xr c a s o n i n g ,觚dd a t a b a s e sl a c l 【t h ea b i l i t yt 0p e r f b 珊 t h ei n f e r e n c es a n c t i o n e db y0 w lc n t a i h n e n t s ,t h i st h e s i ss t u d i e sh o wd lr e a s o n i n g 孤dr e l a t i o n a ld a t a b a s es y s t e m sc 孤b ec o m b i n e dt 0s u p p o nq u e r i e s a b o u to w l o n t o l o g y 孤dp r o p o s e san e w m e t h o dw h i c bc o m b i n e sd e s c r i p t i o nl o 西cr e a s o n e r sf o r l h et b o xi n f c r c n c cw i t hl o 舀cn l l e si m p l e m e n t e db ys q lf o rt h ea b o x i n f c r c n c e f i r s t ,t h i sp a p e rd i s c u s s e san u m b e r 0 fd a t a b a s es c h e m a st h a tc a i lb eu s e dt os t o r e o w l 鼬aa n dd i s c u s st h et f a d e o 船0 fe a c h t h e n ,i td e t a i l e d l y d e s c r i b e sh o wt 0 d e s i 鲷an e wd a t a b a s es c h e m at 0s u p p o no w l e n t a i l m e n t s ,a l l da l s oe x p l a i n sh o w t o s t o r et h ec o n c e p t s ,p r o p e r t i e s ,i n d i v i d u a l sa n da s s e n i o n si nt h ed a t a b a s e o nt h eb a s i s o fm ed a t a b a s es c h e m a ,ad e s c r i p t i o nl o 百cr c a s o n e ri s u s e dt 0 p r e c o m p u t e t h e s u b s u m p t i o nh i e r a r c h ya n dt h ei i l f o 肌a t i o ni s s t o r e di i i t 0d a t a b a s e n e x t ,t h et h e s i s s t u d i e st h em l e se n t a i l e di nt h ea x i o m sa i l di m p l e m e n t st h e i n f e r e n c ei i lo n t o l o g y l o a d i n gt i m ea n dq u e r y i n gt i m et ob a l a n c et h el o a d i n gt i m ea n dr e s p o n s et i m e f i n a l l y , t h e t h e s i sf o c i l s e so nd e 债e n tk i n d so fo n t o l o g yq u e r y i n ga n d 酉v e st h es p e c i f i c a l g o r i t l l i l l st 0q u e r yt h eo n t o l o g y v p j k e yw o r d s : o n t o l o g yq u e r y i n g ;o w l ; s t o r a g es c h e m a ;r c l a t i o n a ld a t a b a s e ; d e s c r i p t i o nl o 西cr e a s o n e r l t 0 , l 一毒 东北大学硕士学位 独创性声明i 摘要i i i a l b s t r a i c t 。v 第1 章绪论1 1 1 课题背景及意义:1 1 2 本体查询的研究现状2 1 3 论文内容及组织结构4 第2 章本体的相关理论知识。:7 2 1 本体的概念及其存储方法7 2 1 1 本体的概念7 2 1 2 本体的存储方法8 2 2 本体描述语言o w l 9 2 2 1o w l 本体及其结构1 0 2 2 2o w l 的类、属性、个体1 1 2 2 3o w l 中的等价和不等价1 4 2 3 描述逻辑与o w l 1 5 - 2 3 1 描述逻辑简介- 1 5 2 3 2 描述逻辑与o w l 的对应关系1 6 2 4 常用的推理机1 8 第3 章面向查询的o w l 本体存储方法2 1 3 1 本体存储模式的分析2 1 - 3 1 1 基于关系数据库的本体存储模式2 1 3 1 2 存储模式的设计原则2 2 3 2 面向查询的o w l 本体存储模式的设计2 3 3 2 1 本体中原子信息的存储2 4 东北大学硕士学位论文目录 3 2 2 类构造子的存储。2 5 3 2 3t b o x 公理的存储2 7 3 2 4a b o x 断言的存储2 8 3 3 小结2 9 第4 章基于数据库的o w l 本体查询3 1 4 1 基于数据库的o w l 本体查询机制3 1 4 1 1 基于数据库的o w l 本体查询思想3 1 4 2 2o w l 本体的预处理和导入3 2 4 2 基于数据库的本体模式查询3 4 4 2 1 概念层次关系的查询3 5 4 2 2 角色层次关系的查询:3 7 4 2 3 等价关系的查询3 9 4 3 基于数据库的本体实例查询4 1 4 3 1 概念断言的查询4 卜 4 3 2 角色断言的查询4 5 4 4 j 、结4 7 第5 章系统设计与实验分析4 9 5 1 系统设计4 9 5 1 1 体系结构4 9 5 1 2 系统功能5 0 5 1 3 系统界面5 1 5 。2 实验分析5 1 5 2 1 测试环境5 2 5 2 2 实验数据5 2 5 2 3 性能分析_ 5 3 , 5 3 小结5 6 第6 章总结和展望5 7 参考文献5 9 v l 一 致谢一6 3 - x 丐 ¥ 夹 东北大学硕士学位论文第1 章绪论 1 1 课题背景及意义 第1 章绪论 互联网( w r o r l dw j d ew 曲) 发展到今天,已经成为了人们日常生活中必不可少的 一部分。它不仅改变了人们彼此沟通的方式,也改变了人们学习和工作的方式。 然而,在互联网推动社会发展的同时,它的弊端也逐渐显现了出来,大量的无关 信息、垃圾信息充斥着当今的网络,人们被淹没在信息泛滥的互联网之中。在这 种背景下,:如何提高信息检索的能力,如何更快更准地找到所需的信息,在追求 高效率快节奏时间就是金钱的今天显得至关重要。 遗憾的是,当前的搜索引擎提供的查询服务很难让人满意,主要原因在于它 们是基于关键字的检索引擎,因而在处理海量信息时就会面临许多问题,如:查 全率低,搜索结果高度依靠于关键字,几乎无法处理关键字的同义词;查准率也 很低,也就是说检索的精确度非常低,通常会检索出大量冗余信息,而仅仅是因 为使用了同一关键字却会导致在内容上没有太多关联的内容也被检索出来,甚至 出现毫不相关的信息;而且检索结果也只是单一的w r c b 页,无法将分布式存放在 w 曲各处的信息资源统合在一起,而多数检索都往往想要的是一个综合的信息报 告,这也就导致必须得由检索者自己完成信息的浏览、选择和抽取,并将检索出 的信息进行手动拼接才有可能得到最终想要的结果,原因就是在于现有的网络没 有足够的技术能支持机器自动理解和处理信息。 。 于是人们开始思索如何对现有的网络进行改造,其中b e m e r s l e e 提出的语义 w 曲【1 l 被认为是解决当前网络发展难题的有效途径。通俗的讲,语义网就是能够 根据语义进行判断的网络,也就是一种能理解人类语言,可以使人与电脑之间的 交流变得像入与人之间交流一样轻松的智能网络。通过“语义网”,可以构建一个 基于网页内数据语义来进行连接的网络,从而使网络能按照用户的要求自动搜寻 和检索网页,直至找到所需要的内容。 语义w 曲是当前w 曲的一种扩展,而不是替代品或终结者,它将信息表示为 计算机能够理解和处理的形式,使得人和计算机能够更好地协同工作。 本体【2 l 是实现语义w 曲的关键技术之一,在语义网的研究中具有非常重要的作用。一般 认为,本体就是某个领域内( 可以是特定领域的,也可以是更广的范围) 不同主 体( 人、代理、机器等) 之间进行交流( 对话、互操作、共享等) 的一种语义基 东北大学硕士学位论文第1 章绪论 础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者 之间达成的共识。因此,本体的用途包括交流、共享、互操作、重用等等。 随着语义网技术的快速发展,基于本体描述语言r d f l 3 】和o w l l 4 】的各种本体 被越来越多地构建和共享,并作为知识的一种载体应用于各个领域。譬如在信息 检索领域,就出现了一系列优秀的本体搜索引擎【5 l ( 如0 n t o s e a r c h ,o n t o s e l e c t , s w o o 酉e ) ,其中最典型的是:s w 0 0 g l e 【6 l 语义网中的基于蜘蛛网的检索系统, 系统从每个搜索到的文本中抽取本体信息,根据本体之间的相关度来比较文本之 间的关系,返回给用户适当的结果。随着本体在语义网中越来越广泛地运用,语 义网中的信息查询便成了对描述领域知识的本体信息的查询。语义网的强大之处 在于它通过本体提供了更加丰富的语义信息,如何有效地查询本体中的这些语义 信息,为用户提供更全面更准确的信息,是发挥语义网作用的关键所在。同时, 本体查询技术的发展必将带动本体信息提取、本体搜索、本体重用等相关本体技 术以及基于本体的相关技术如语义查询技术的发展,也必将会为人们的学习工作 和生活带来深远的影响。本体查询的最终发展景象是:用户提交的查询只需要描 述查询的目的是什么,而不用描述如何来进行查询,推理和查询由底层自动实现。 本文的研究在于如何有效的利用数据库的特点结合推理机来支持本体信息的 查询。推理机的主要工作是用来获取本体中的语义信息如本体的一致性检测,概 念之间的蕴含关系,属性之间的蕴含关系,个体的分类及实例的检测川。数据库 用来存储大量的本体概念和个体,从而实现本体中显式和隐式信息的持久化存储 以及提供数据的安全控制和事务管理。这样可以通过s q l 查询来实现某些推理和 优化。 1 2 本体查询的研究现状 随着语义网的进一步发展,许多领域涌现了大量的本体,本体作为一种信息 载体逐渐从基础的研究项目中走出来被应用到实际的应用项目中。如何有效和完 整地查询本体中的语义信息,尤其是本体中蕴含的语义信息,得到了越来越多地 关注。 目前,有关本体查询技术的研究主要集中在如下三个方面,一个是集中在查 询语言功能的扩展上面【8 9 ,1 0 ,1 1 1 ,另一个是针对某一种描述逻辑( 如d l u t c ) 对本体 语义查询支持的研究【1 2 ,1 3 ,1 4 1 ,最后一个是结合数据库查询和推理机的推理来实现 本体的查询【1 5 ,1 6 ,1 刀。 东北大学硕士学位论文第1 章绪论 目前本体的查询语言有很多种,有基于r d f 的本体查询语言i l 剐,也有基于描 述逻辑的本体查询语言1 1 9 】,这些查询语言的表达能力各有特点,国外很多研究人 员在对现有的查询语言的功能扩展上做出了很多贡献。文献【8 】通过相似度连接 ( s i m i l a r i t yj o i n s ) 对r d f 查询语言r d q l 【2 0 】进行了扩展得到一种新的查询语言 i r d q l 。i r d q l 不仅能精确匹配本体中的信息,还能近似匹配本体信息。在本体 查询时,精确查询由于本体内部信息的复杂性和灵活性以及对查询条件过度约束 导致返回不完备的结果,i r d q l 可以在不过度牺牲查准率的前提下,提高本体查 询的查全率。文献【9 1 在文献f 8 1 的基础上,对r d f 查询语言s p a r q l 【2 1 j 进行近似 扩展得到i s p a r q l 。与i r d q l 不同的是,它并不是添加新的关键字来指定采用 的相似度计算策略( 添加新的关键字会破坏s p a r q l 的语法) ,而是运用了虚拟 三元组( v i r t u a l t r i p l e s ) 的思想来指定需要进行相似度连接的变量以及所采用的相 似度评估策略。虚拟三元组被封装到一个相似度本体中将个种相似度策略及其具 体实现方法连接起来。文献【1 0 】详细讨论了i s p a r q l 语言的特点。文献【1 1 】又在 文献f 9 1 的基础上提出使用用户自定义的相似度函数进一步丰富i s n 讯q l ,并提 出建立一个统一框架来解决语义网中基于相似度的任务如本体映射、服务匹配和 r d f 本体检索等。 不过,大多数本体查询语言及其扩展都是基于r d f 语言,而作为语义网本体 语言标准的o w l 与r d f 之间在表达能力和推理能力上存在很大的差异,因此使 用r d f 查询语言来查询o w l 本体不能完全查询出本体中的语义信息。目前基于 o w l 的本体查询语言如o w l o l 【2 2 】还有待迸一步地研究。 描述逻辑是本体的逻辑基础,从描述逻辑的角度来切入对本体查询技术的研 究是当前本体理论研究的一个热点。文献【1 2 】介绍了一种新的描述逻辑d l i j t e 及与之相关的推理和查询。文献【1 3 】,在文献【1 2 】的基础上,通过一定的推理机制, 利用描述逻辑p o s u 正中的概念构造子和角色断言,将知识库中的a b o x 里的隐 式信息显式化,从而得到一个扩展后的记录了本体完整信息的a b o x 宰,这样在原 a b o x 中的需要通过推理才能得到的隐含信息变成了扩展后的a b o x 木里的显式信 息,查询原有的隐含信息时可以直接在a b o x 宰里直接查询出来。不过,该论文只 是单纯解决了本体查询中的检索出概念的所有实例( 包括直接实例和间接实例) 这一类查询问题。文献【1 4 】介绍了一种基于d l l i t e 的本体查询系统q u o n t o ,它 基于一种新的描述逻辑d l “t c ,能够处理本体描述的复杂查询( 合取查询) 的 系统,它通过一个辅助存储设备来管理大量的实例,查询复杂度是数据大小的l o g 。 东北大学硕士学位论文第1 章绪论 该种方法很好地利用了描述逻辑的研究成果,将本体中隐含的语义信息挖掘出来 得到完整的本体信息从而使本体查询的查全率得到了很大地提高。但是,随着本 体规模地扩大,如何有效地管理本体信息成为了制约本体查询的一个瓶颈。 描述逻辑推理机能很好地执行本体结构的查询却很难处理含有大量实例的本 体中的a b o x 推理。数据库可以用来很好地存储和查询本体中的实例数据,但是 缺乏执行o w l 本体推理的能力。有鉴于此,研究人员开始思考如何综合利用数 据库的技术和描述逻辑推理系统的功能来实现本体的查询。文献【1 5 】基于这一思 想设计出一个系统i i l s t a n c es t o r e 。i n s t a n c es t o r e 依赖r a c e r 推理机来执行分类、蕴 含、一致性检测等操作,使用s q l 和j a v a 来查询数据库。h l s t 锄c cs t o r e 的一个最 大局限在于:它只能提供不含描述个体问关系的角色断言的a b o x 查询,在不存 在角色断言的情况下检索概念的所有个体。由于i n s t a n c cs t o r c 没有存储角色断 言,因此也无法查询与属性相关的查询如属性的实例,个体对间的关系查询等。 没有角色断言的本体在实际应用中几乎不存在,因此其应用受到了限制。k h i 曲 大学利用o w l 的推理能力来扩展了传统的关系数据库,开发出一个知识库系统 d l d b i l 6 j 。d l d b 使用f a c t ( 一种描述逻辑推理机) 来预处理本体中的层次蕴含 关系,为本体中的每一个类生成一个数据库表来存储其基本信息,同时递归地生 成一个视图来存储该类的层次关系。当所有的概念都存储到数据库中后,通过视 图的连接操作来返回类的所有实例。其不足在于它是基于a l c ( 仅支持概念的并 交补以及存在和全称约束的一种描述逻辑,是其它描述逻辑的基础) ,推理能力有 限,查询所提供的本体信息是不完整的,因此本体查询的查全率受到了影响。文 献【1 8 】提出在本体导入阶段将本体的隐含信息通过推理挖掘出来预先存储到数据 库中,用户对本体的查询转化到对数据库的查询,由于本体查询阶段不需要推理 工作从而保证了响应时间。 1 3 论文内容及组织结构 本文重点研究了基于数据库和推理机的本体查询技术,详细讨论了如何利用 数据库和推理机各自的特点来更快更准更全面地查询本体中的信息。首先介绍了 语义网的构架、本体的概念、本体描述语言o w l 的特点以及o w l 的逻辑基础 描述逻辑等与本体查询相关的知识。然后对当前本体存储技术进行了详细的 分析,比较了各自的优缺点,提出了一种面向本体查询的本体存储模式。接着, 重点研究了基于数据库存储和推理机推理的本体查询技术。最后,给出了一个简 东北大学硕士学位论文第1 章绪论 单的原型系统验证了本文提出的查询方法的效能。 本文的工作主要包括以下几个方面: ( 1 ) 在比较与分析了当前三种常见的本体存储方法后,提出了本体存储模式 的设计原则。鉴于各种本体存储模式的优缺点,从本体查询的实际需要出发,提 出了一种面向本体查询的存储模式。该模式不仅存储了本体的显式信息,还存储 了利用推理机导出的部分隐式信息。另外,该模式不仅存储了本体所描述的语义 信息,还存储了与本体查询相关的辅助信息以指导本体的查询。 ( 2 ) 重点讨论了基于数据库存储和推理机推理的本体查询技术,在利用数据 库存储本体中显式信息的同时利用推理机导出隐含的概念层次和属性层次关系, 存储到数据库中以供查询,另一方面在执行查询的时候根据本体类公理和属性公 理中蕴含的语义规则通过数据库查询来挖掘出本体中隐含的语义信息,返回给用 户。对于本体中的隐含信息,一方面在本体导入阶段通过推理机来得到这部分信 息并将其存储到数据库中,另一方面在本体查询阶段借助数据库查询来得到这部 分信息返回给用户同时存储到数据库中。 - ( 3 ) 利用o r a c l e 数据库来存储本体信息,r a c e r 推理机来验证本体的一致性 以及挖掘本体里隐含的语义信息,本文设计了一个原型系统,通过实验来验证了 查询方法的可行性。 根据上面的研究内容,本论文结构按如下组织: 第一章介绍了本体查询的相关背景,研究现状以及研究意义。 第二章介绍了本体查询的相关知识如语义网和本体的概念, o w l 以及推理机。 籀 本体描述语言 第三章比较了几种典型的本体存储方法,并对基于数据库的本体存储模式进 行了详细地分析,最后重点给出了一种面向本体查询的数据库存储模式。 第四章重点研究了基于数据库的本体存储技术,针对本体查询中的两类查询 t b o x 查询和a b o x 查询展开了详细的研究,并详细讨论了两类查询下所包含的各 种子查询,最后给出了各自相应的查询算法。 第五章设计了一个支持本文提出的本体查询方法的原型系统,并通过实验分 析了本文提出的本体查询方法的可行性,同时与其它查询技术进行了对照分析。 实验表明本文提出的查询方法在本体查询效能上有很好的提高。 第六章对本文的工作进行了总结,并对其中的不足进行了分析,在此基础上 指出了今后工作的研究方向。 6 , 东北大学硕士学位 第2 章本体的相关理论知识 本体在w | e b 上的应用导致了语义w 曲的诞生,从而解决w 曲上信息共享时 的语义问题。本章主要介绍了本体的概念及其存储方法,o w l 本体描述语言的 特点,o w l 与描述逻辑的对应关系,以及常用的推理机等相关理论知识。 2 1 本体的概念及其存储方法 本体通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共 同认可的、可共享的知识,从而解决上面的问题。因此在语义w e b 中,本体具有 非常重要的地位,是解决语义层次上w e b 信息共享和交换的基础。本节主要介绍 了本体的概念及其各种存储方法。 。 2 1 1 本体的概念 所谓本体,最著名并被广泛引用的定义是由g m b c r 提出的“本体是概念模型 的明确的规范说明 f 2 3 】通俗地讲,本体是用来描述某个领域甚至更广范围内的 概念以及概念之间的关系,使得这些概念和关系在共享的范围内具有大家共同认 可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。目 前,本体已经被广泛应用于语义w 曲、智能信息检索、信息集成、数字图书馆等 领域。 表2 1 语义w ,e b 体系结构 r h h l e2 1t h ea r c h i t e c t u r eo fs e m a n t i cw e b 层数名称描述 第一层u n i c o d e 和u r i整个语义网络的基础,u n i c o d e 处理资源的编 码,u r i 负责标识资源。 第二层x m l+n s+用于表示数据的内容和结构。 x i i l l s c h e m a 第三层 r d f + r d f s c h e m a用于描述w 曲上的资源及其类型。 第四层 o n t o l o g y v o c a b u i a r y 用于描述各种资源之间的联系。 第五层 l 0 9 i c 在下面四层的基础上进行的逻辑推理操作。 第六层 p r o o f 。 第七层1 h s t 表2 1 是b e m e r s k e 为未来w r e b 发展提出的基于语义的体系结构,从表中可 以看出本体在语义w e b 的七层架构中处于重要位置,是语义w e b 的核心,用来描 述w e b 上的各种资源及各自资源间的联系,提供了机器可理解的语义。 东北大学硕士学位论文第2 章本体的相关理论知识 一个本体既要描述领域内的概念,又要描述这些概念之间的关系。其中描述 概念比较简单,描述概念之间的关系比较复杂。本体能够描述的概念之间的关系 包括以下几种类型( 以一个学校本体为例) : 层次( h i e r a r c h y ) 关系:两个概念存在子类关系。比如“教工是员工的子 类”,或“员工包括教工。 属性( p r o p e f t i e s ) :两个概念通过属性连接在一起。比如教工教课。“教”是 一个属性,连接着两个概念“教工”和“课程”。 取值限制( v a l u er e s t r i c t i o n s ) 。比如只有教工才能教课( 职工不能教课) 。 声明不相交( d i s j o i n t n e s ss t a t e m e n t s ) 。比如教工和职工是不相交的。 概念间逻辑关系限制。比如每个系必须有1 0 名以上教工。 另外,如表2 2 所示,本体中基本的语义关系共有4 种: 表2 2 语义网中概念间的关系 t a b i e2 2r e l a t i o nb e t w e e nc o n c e p t si ns e m 强t i cw e b 关系名关系描述 p a n 一0 f k i n d ,o f i n s t a n c e o f 表达概念之间部分与整体的关系。 表达概念之间的继承关系,类似于面向对象中 的父类与子类之间的关系。 表达概念的实例与概念之间的关系,类似于面 向对象中的对象和类之间的关系。 a t t r i b u t e o f 表达某个概念是另一个概念的属性。如“价格 是桌子的一个属性。 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以 根据领域的具体情况定义相应的关系。 2 1 2 本体的存储方法 语义网的应用需求促进了0 n t o l o g y 存储管理工作的发展,目前已经出现了很 多o n t o l o g y 存储管理系统,按照存储介质不同可以分为基于主存、基于文件系 统、基于关系数据库三类本体管理系统。 基于主存方法的0 n t o l o g y 数据管理工作的特点是将0 n 幻l o g y 数据全部导入 内存,按照某种结构进行组织;在内存结构上执行数据的查询操作。此方法具有 很高的运行效率,但只能处理有限规模的数据。由于是内存数据管理,不存在磁 盘更新的问题。o w u m 【2 4 】和o w u e s s k b 【矧是两个典型的基于主存的o m o l o g y 东北大学硕士学位论文 ,。i ”_ ,:、;j: 刊 第2 章本体的相关理论知识 存储管理系统。 。 基于文件系统的存储方式实现起来比较简单,但般只适用于规模比较小的 本体,对于规模比较大的本体需要大量的内存管理工作,而对于直接以x m l 格 式的树形结构组织的r d f 数据文件,当文件很大时,要把握r d f 模型数据全局 的结构,必须通过对文件进行反复的扫描大量的数据换进换出工作,对系统的效 率是一个很大的考验。而且为了保证系统的并发性,必须要建立相关的并发控制 和事务管理系统。 基于关系数据库存储方式用关系数据库存取本体,关系数据库技术发展成熟, 关系模式容易建立查询、便于事务处理、便于备份。大多数现有的o n t o l o g y 数 据管理工作使用关系或对象关系数据库管理系统作为后台存储,代表系统包括 s e s a m e 【2 6 1 ,r s t a r 【韧,j e n a 【2 8 l 等等。 2 2 本体描述语言o w l o w l ( w 曲o n t o l o g yl 棚g u a g e ) f 2 9 1 是定义和编写( i n s t 觚t j a 缸g ) 语义w e b 本体 的一种标记性语言。作为一种描述语言,o w l 符合r d 蹦m “3 0 1 语法规范。它是 w 3 c w 曲o n t o l o g yw b r k i n gg r o u p ( w 曲o n t ) 组织推荐的标准。o w l 的出现经历了 一个如图2 1 的演化过程。 r o w l 广l i t c0 w l d l 0 w i ,f u n 1 r o i l +d a m l f 、r 、 is h o e x o l0 m lr d f r d f s l t 71 1 r1 r1 f i x m l + x m l s c h e m a 图2 1 基于x 1 l 本体语言研究的演化 f i g2 11 1 l ed e v e l o p m e n to f0 n t o l o g yl a n g u a g eb 躯e d x m l 用o w l 对一个领域进行描述的本体包括以下内容: 定义领域内所有的概念( 类) ,以及这些概念之间的关系( 或属性) ; 定义属于上述概念的个体( i n d i v i d u a l s ) ,并对这些个体的属性进行赋值; 东北大学硕士学位论文 第2 章本体的相关理论知识 对类及个体之间的关系进行一定程度的推理。 表2 3 语义网的描述语言 t a b l e2 3d i s c r i p t i o nl a n g i l a g ei n 蚓_ i l 锄t i cw 曲 名称描述 x m l x m ls c h e m a r d f r d fs c h e m a 结构化文档的表层语法,对文档没有任何语义约束。 定义x m l 文档的结构约束的语言。 对象( 或者资源) 以及它们之间关系的数据模型,为 数据模型提供了简单的语义,这些数据模型能够用x m l 语 法进行表达。 描述r d f 资源的的属性和类型的词汇表,提供了对这 些属性和类型的普遍层次的语义。 o w l添加了更多的用于描述属性和类型的词汇,例如类型 之间的不相交性( d 埘o i n t n e s s ) ,基数( c a r d i n a l i t y ) ,等 价性,属性的更丰富的类型,属性特征( 例如对称性 s y m m e t r y ) ,以及枚举类型( e n u m e r a t e dc l a s s e s ) 。 如表2 3 所示,0 w l 是w 3 c 推荐的语义网络“栈”中的一部分,它具有更丰 富的词汇和更详细的语义。 2 2 1o w l 本体及其结构 一个0 w l 本体文件里的内容大致分为如图2 2 所示的两部分:本体s c h e m a , 图中虚线上的部分以及本体d a t a ,图中虚线下的部分。本体s c h e m a 部分定义了 本体中的类、属性以及类之间的关系、属性之间的关系等本体的内涵信息,而本 体d a t a 部分定义了类的实例、属性的实例等本体的外延信息。 一个典型的0 w l 本体以一个命名空间声明( n a m e s p a c cd e c l a r a t i o n ) ( h t t p :价 r w w w 3 o 瑁仍v 2 0 0 银e c o w l g u i d e - 2 0 0 4 0 2 10 m l n s ) 开始。当然,被定 义本体的u r i s 未必都是w 3 o r g 的。 建立了命名空间后,接下来我们通常要在0 w l :o n t o l o g y 标签里给出一组关于 本体的声明。这些标签支持一些重要的常务工作比如注释、版本控制以及其他本 体的嵌入等。本体头部定义在 标签处结束,在这段开头之后跟随 的是构成本体的实际定义即本体的i f 文,最终由 终止。本体的正文, 包括: 任意多个类公理( c l a s sa i o m ) 东北大学硕士学位论文 t 第2 章本体的相关理论知识 任意多个属性公理( p r o p e r t y 郐i o m ) 戗。 以及任意多个个体事实( f a c t sa b o u ti n d i v i d u a l s ) 图2 2 一个简单的o w l 本体 f i g2 2as i m p l eo 、lo n t o l o g y 2 2 2o w l 的类、属性、个体 本体中概念:属性、对象,在o w l 中对应于类、属性、个体1 3 l 】。因此,表 达类、属性、个体的语义元素是0 w l 的主体,下面将作重点介绍。 ( 1 ) o w l 中的类( d a s s ) 类是o w l 中的一个重要概念。o w l :d a s s 用来标记一个类,它是r d f c l a s s 的 子集( 在;0 聊l f u l l 中,两者相等) 。与r d f 中的类一样,每个o w l 类都要对应 一个个体;( 1 1 1 d i v i d u a l s ) 的集合。o w l 用一段代码描述一个类,这段o w l 代码 称为“类描述”( c l a s sd e s c r i p t i o n ) 。“类描述”是o w l 语义和抽象语法( o w l s e m a l l t i c sa i l da b s t r a c ts y n t a x ) 【3 2 j 中的概念。所有的0 w l 类都是用“类描述来描 述的。“类描述”可能是一个类名,也可能是一个匿名类的“类扩展”。一个或多个“类 描述”构成一个“类公理”( c l a s sa x i o m ) 。 “类描述”有6 种形式: , 类标识符( au r lr e f e r e n c c ) ; 有限数量个体的枚举,构成类的一个实例集; 属性约束; 两个以个“类描述”的交( i n t e r s e c t i o n ) 运算; 两个以上“类描述”的并( u n i o n ) 运算; 一个“类描述”的补( c o m p l e m e n t ) 运算。 东北大学硕士学位论文第2 章本体的相关理论知识 用类标识符定义类是最简单的形式,例如 。枚举 类使用属性o w l :o n e o f 和r d f 结构r d f :p a r s e t y p e = ”c 0 l l e c t i o n ”描述。在属性约束 定义匿名类的“类描述”中,使用类o w l :r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论