




已阅读5页,还剩78页未读, 继续免费阅读
(计算机应用技术专业论文)异构本体多角度映射机制研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理工大学硕士研究生学位论文 异构本体多角度映射机制研究 摘要 语义w e b 是w e b 发展的延伸,致力于w e b 上信息的语义化,最终 要实现信息在知识级上的共享和语义上的互操作性。本体是实现语义 w e b 的关键要素,但随着本体数量爆炸式地增长,不可避免地大量描述 相同领域的本体各自独立地发展,对于同一个领域可能存在多个本体, 本体间的异构问题突显出来。 如何解决本体间的异构问题,实现不同本体间的互操作,从而无障 碍地实现基于本体的知识共享、融合与集成。本文通过本体映射,即发 现异构本体间实体( 概念、属性与实例) 的对应关系,来解决本体间的 异构问题。本体映射是语义w e b 发展的一个强有力的挑战。 本论文的目标是综合利用本体的各种特征包括本体中实体的标注、 实体间的层次结构、语义关系和属性描述、约束等信息实现异构本体间 的映射。研究的主要内容包括:在分析目前典型本体映射方法的特点及 局限性的基础上,提出基于本体各种特征信息计算实体间语义相似度, 即在深入分析本体各种特征后,提出了1 6 种用于计算实体间语义相似度 的角度,全方位衡量实体间语义相似程度;在给出1 6 种用于实体间语义 相似度计算的角度的基础上,本文提出了两种综合利用多角度的本体映 射机制,混合式本体映射机制与组合式本体映射机制,详细分析了两种 映射机制的具体实现步骤及给出相应算法的描述,并比较了两种机制的 t 太原理:l 大学硕士研究生学位论文 优缺点;编程实现了复合式本体映射算法,选取实验对象完成了算法的 测试,证明本文所提出的基于多角度实体语义相似度计算的本体映射机 制的可行性,能够有效地完成本体映射任务。 本文还涉及到本体推理技术及a h p 方法的研究。提出利用本体推理 技术得到更多的隐含知识来辅助本体映射任务,给出本体推理技术的基 本思想及基于领域本体特征所得出的三条规则。a h p ( 层次分析法) 方 法用于解决马里兰大学语义消解方法中权值分配不合理的问题。 随着计算机的发展,本体的应用领域越来越多,本体的数量也越来 越多。总的来说,本体的研究和应用还处于起步阶段,许多问题还需要 进一步地研究。多个本体的相互作用可以促进本体的发展,因此研究本 体的映射非常重要。本文所提出的基于多角度实体相似度计算的本体映 射机制仍不能自动地进行,还需要人工地干预,这是有待解决的问题, 同时也说明本体研究的复杂性。但为了使本体在未来的应用上受到更多 的重视,本体映射等许多研究难题必须解决。 关键词:异构本体,多角度,语义相似度计算,本体映射 太原理工大学硕士研究生学位论文 r e s e a r c ho n m u l 月i p l ev i e w sm a p p i n gm e c h a n i s m a m o n gh e t e r o g e n e o u so n t o l o g i e s a b s t r a c t a st h ee x t e n s i o no fw e b ,s e m a n t i cw e bf o c u s e so na d d i n gs e m a n t i ct o r e s o u r c e so nw e ba n da i m sa t a c h i e v i n gk n o w l e d g es h a r ea n ds e m a n t i c i n t e r o p e r a b i l i t y o n t o l o g yi st h ek e yf a c t o ro fr e a l i z i n gs e m a n t i cw e b b u t w i t ht h ee x p l o s i v e l yi n c r e a s i n gn u m b e ro fo n t o l o g y , i ti si n e v i t a b l et h a ta l a r g ea m o u n to fo n t o l o g i e sd e s c r i b i n gt h es a m ed o m a i na n ds i m i l a rc o n c e p t s a r ed e v e l o p e di n d e p e n d e n t l ya n dt h e r em a ye x i s tm a n yo n t o l o g i e sf o rt h e s a m ed o m a i nw i t hl e a d i n gt ot h eh e t e r o g e n e i t yp r o b l e m s oh o wt od e a lw i t ht h e h e t e r o g e n e i t yp r o b l e ma n d r e a l i z et h e i n t e r o p e r a b i l i t ya m o n go n t o l o g i e sb e c o m et h ep r e c o n d i t i o no fk n o w l e d g e s h a r e ,m e r g ea n di n t e g r a t i o nb a s e do no n t o l o g yw i t h o u ta n yo b s t r u c t i o n t h i s t h e s i sf i n d st h ec o r r e s p o n d i n gr e l a t i o nb e t w e e nt h ee n t i t i e si nt h eo n t o l o g i e s , n a m e l y , o n t o l o g ym a p p i n gf o rs o l v i n gt h eh e t e r o g e n e i t yp r o b l e m o n t o l o g y m a p p i n g i sas t r o n gc h a l l e n g ef o rs e m a n t i cw e b d e v e l o p m e n t t h i st h e s i sf o c u s e so nr e s e a r c ho fe x p l o i t i n ga l lk i n d so fo n t o l o g y c h a r a c t e r i s t i c si n c l u d i n ge n t i t yl a b e l ,h i e r a r c h ya r c h i t e c t u r e ,s e m a n t i cr e l a t i o n , i i i o nu s i n ga l lk i n d so fo n t o l o g yc h a r a c t e r i s t i c si n f o r m a t i o n ,w h i c hm e a n st h a t p r o p o s i n g 16k i n d so fv i e w sf o rc o m p u t i n gs e m a n t i cs i m i l a r i t yo nd e e p l y a n a l y z i n gt h eo n t o l o g yc h a r a c t e r i s t i c s ,p r o p o s i n g t w ok i n d so fo n t o l o g y m a p p i n gm e c h a n i s m so fc o m b i n i n gt h ep r o p o s e dv i e w s ,o n e i s h y b r i d o n t o l o g ym a p p i n gm e c h a n i s ma n dt h eo t h e ri sc o m p l e xo n t o l o g ym a p p i n g m e c h a n i s m ,a n a l y z i n gt h ec o n c r e t es t e p so ft h et w ok i n d sm e c h a n i s m sa n d c o r r e s p o n d i n ga l g o r i t h m sd e s c r i p t i o ni nd e t a i la n dc o m p a r i n gt h e m ,r e a l i z i n g t h ec o m p l e xo n t o l o g ym a p p i n ga l g o r i t h mi nj a v ap r o g r a m m i n gl a n g u a g ea n d c h o o s i n ge x p e r i m e n te x a m p l et ot e s tt h ef e a s i b i l i t yf o rp r o v i n gt h a to n t o l o g y m a p p i n g m e c h a n i s mo n m u l t i p l e v i e w s e n t i t y s e m a n t i c s i m i l a r i t y c o m p u t a t i o nc a ne f f e c t i v e l yc o m p l e t et h eo n t o l o g ym a p p i n gt a s k t h i st h e s i sa l s or e s e a r c h e so no n t o l o g y - r e a s o n i n gt e c h n i q u ea n da h p m e t h o d i tp r o p o s e st h a tu s i n gi m p l i c i tk n o w l e d g eg e n e r a t e df r o ma p p l y i n g o n t o l o g y - r e a s o n i n gt e c h n i q u et os u p p o r to n t o l o g ym a p p i n gt a s k i tp r e s e n t s t h eb a s i si d e ao fo n t o l o g y - r e a s o n i n gt e c h n i q u ea n dt h r e er e a s o n i n gr u l e so n o n t o l o g yc h a r a c t e r i s t i c s a h pi sp r o p o s e d f o rs o l v i n gt h eu n r e a s o n a b l e a s s i g n e dw e i g h t sp r o b l e mf r o ms e m a n t i cr e s o l u t i o nm e t h o do fm a r y l a n d i v 奎堕堡三奎堂堡主堑窒笙兰垡笙苎 u n i v e r s i t y w i t ht h e d e v e l o p m e n to fc o m p u t e r s ,t h e r ew i l lb em o r ea n dm o r e o n t o l o g ya p p l i c a t i o nd o m a i n s ,s ot h en u m b e ro fo n t o l o g yw i l li n c r e a s eg r e a t l y o n t o l o g yr e s e a r c ha n da p p l i c a t i o na r es t i l li nt h es t a r t i n gl i n e ,t h e r ea r es o m a n yp r o b l e m sr e q u i r e df o rf u r t h e rr e s e a r c h t h ei n t e rf u n c t i o n a m o n g m u l t i o n t o l o g y c a np r o m p tt h ed e v e l o p m e n to fo n t o l o g y , s or e s e a r c ho n o n t o l o g ym a p p i n gi sv e r yi m p o r t a n t p r o p o s e do n t o l o g ym a p p i n gm e c h a n i s m o nm u l t i p l ev i e w s e n t i t ys e m a n t i cs i m i l a r i t yc o m p u t a t i o ns t i l ln e e d st h e i n v o l v e m e n to fd o m a i ne x p e r t s ,w h i c ha s k sf o ra u t o m a t i ce x e c u t i o nt h r o u g h f u r t h e rr e s e a r c ha n dt e l l st h ec o m p l e x i t yo f o n t o l o g yr e s e a r c h b u ti no r d e rt o a b s t r a c tm o r ea t t e n t i o nf o ro n t o l o g ya p p l i c a t i o ni nf u t u r e ,s om a n yd i f f i c u l t p r o b l e m s ,s u c ha so n t o l o g ym a p p i n g ,m u s tb es o l v e d k e y w o r d s :o n t o l o g yh e t e r o g e n e i t y , m u l t i p l ev i e w s ,s e m a n t i cs i m i l a r i t y c o m p u t a t i o n ,o n t o l o g ym a p p i n g v 声明尸州 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:座喂日期:伽多,坦 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 导师签名: 日期:蚀。广) 2 e ii 莓i :仰7 j ,) p 太原理工大学硕士研究生学位论文 第一章绪论 1 1 引言 自1 9 8 9 年万维网产生之后的十余年间,网络技术飞速发展,但同时呈指数级增 长的海量信息使得来自各领域的用户对信息的查找、访问、表示以及维护变得越来越 困难。“丰富的数据和贫乏的知识问题”越来越突出,主要的原因是w e b 对信息的表 示是“呈现”式的,大量的信息以自然语言、图片等方式罗列出来,使人淹没于知识 的辨别、提取等复杂的劳动中。对于w e b 上的信息,计算机只能从格式上来处理和 验证,并不能处理知识级别的问题。 2 0 0 0 年之后,人们努力将万维网不仅仅作为一个供人浏览数据的空间,而是使 其成为各种应用程序和智能设备( 机器) 获取信息和集成应用的空间,使得计算机不 但能读取数据,还能理解和区分数据的语义,实现w e b 信息语义层次上的互操作。 这一阶段的研究热点包括:语义万维网( s e m a n t i cw e b ) 、w 曲服务、智能a g e n t 、点 对点技术( p 2 p ) 等。 语义w e b 的目标就是通过向数据中添加机器可理解的语义, 以及使用启发性的元数据来将w e b 上的海量信息以一种机器可理解的方式组织起来, 以满足w e b 应用对数据互操作性的要求。 来自哲学领域的本体一词,在计算机领域被定义为共享概念模型的形式化的规范 说明,可以描述数据的语义,于是,本体自然地成为指导语义w e b 发展的理论基础。 在t i m b e m e r s 1 e e 提出的语义w e b 体系结构中,构建在u n i c o d e 与u r i ,x m l ,r d f ( s ) 等语言标准之上的本体层起着关键的作用,其提供的丰富原语不仅用来描述领域的概 念模型,而且还是对知识进行推理和验证的基础。 但由于本体自身的分散特性,不同的用户可以构造不同的本体,所以导致了在同 一个或者重叠的领域产生了许多不同的本体。即使一个小的背景领域也可能出现许多 不同的本体。在研究生期间,我参加了国家自然科学基金项目“知晓环境和内容的知 识路由的研究”,主要是本体间异构问题解决的研究,即不同的本体间可能存在语言 层,结构层和内容层的异构,要想实现异构本体间的互操作就必须解决本体间的异构 问题,一般都使用本体映射来解决本体间的异构问题。 1 太原理工大学硕士研究生学位论文 1 2 语义w e b 的基本概念和体系结构 w e b 的特点包括:数量巨大且呈爆炸性增长,地理位置上分散,内容上动态更新, 大多数是无结构数据。针对这些特点,t i mb e r n e r s l e e 在2 0 0 1 年正式提出了语义 w e b 的概念。作为w e b 上信息利用方式的一个梦想,语义w e b 己吸引越来越多的研 究者注意。 1 2 1 语义w e b 的基本概念 t i mb e r n e r s - - l e e 等研究先驱们给出了语义w e b 较为正式的定义: ( 1 ) w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ,万维网协会) 是这样解释的:“语义w e b 是万维网上数据的表现。它是由w 3 c 领导的有大量研究者和工业界人士参与的进行 协作式开发的努力。它基于资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,i f ) , 后者使用x m l 来表示语法,并使用u r i 来命名,从而整合了种种应用程序。” ( 2 ) t i mb e m e r s l e e 和j a m e sh e n d l e r 、o r al a s s i l a 在其 t h es e m a n t i cw 曲一书 中则给出了这样的解释圆:“语义w e b 是现在的w e b 的一种扩展,在其上信息被给予 明确定义的含义,使得计算机和人类更好地协同工作。 1 2 2 语义w e b 的体系结构 t i mb e m e r s l e e 描述了他对语义w e b 结构的设想:认为语义w e b 应当是一个分 层次的塔型结构d 1 ,各层功能逐渐增强,下层向上层提供支持,上层是建筑于下层之 上的应用。语义w e b 体系结构如图卜l 所示: 2 太原理工大学硕士研究生学位论文 图卜1 语义w e b 的体系结构图 f i g u r el - 1s e m a n t i cw e b a r c h i t e c t u r e 语义w e b 体系结构包括七层,各层的基本功能和相互关系如下: ( 1 ) 第一层是u n i c o d e 和u r i ,是整个语义w e b 体系结构的基础。其中u n i c o d e 是 一种字符编码系统,它采用十六位二进制编码,支持世界上主要语言文字的存储和读 取。u r i ( u n i f o r mr e s o u r c e i d e n t i f i e r ,统一资源定位符) 是“一些简短的字符串,用 来标识w e b 上的资源,例如文档、图片、下载的文件、服务、电子邮箱以及其他资 源”【4 】。它和万维网常用的统一资源定位符( u r l ) 以及统一资源名称( u r n ) 的区 别在于u r i 泛指所有以字符串标识的网络资源,包含了u r l 和u r n 。 ( 2 ) 第二层是x m l + n s ( n a m e s p a c e ) + ) a ls c h e m a ,x m l 允许用户根据需要自 定义一些“有意义”标签,对所发布信息的内容进行标记,并使用文档类型定义( d t d ) 或x m ls c h e m a 来约束这些标签的结构【5 1 。由于x m l 标签可以由用户根据自己的需 要来定制,这样不可避免地会造成标签同名的情况,为了避免这样的冲突,w 3 c 采 用了n a m e s p a c e 机制1 6 】。 ( 3 ) 第三层为r d f + r d fs c h e m a ,r d f 是一个开放的元数据框架i7 1 。这个元数据框 架定义了一种数据模型,可以用来描述机器能理解的数据语义。r d fs c h e m a 规范用 进一步定义了建模原语【引,提供了r d f 模型中使用的一个基本类型系统。 ( 4 ) 第四层为o n t o l o g y 词汇( v o c a b u l a r y ) 层,用来定义共享的知识,从而对各种 3 太原理工大学硕十研究生学位论文 资源之间的语义关系进行描述,揭示资源本身以及资源之间更为复杂和丰富的语义信 息。 ( 5 ) 第五层l o g i c ( 逻辑) 层主要是提供公理和推理规则,为智能服务提供基础。比 如可利用分布在w e b 上的各种断言或公理推出新的知识。 ( 6 ) 第六层p r o o f ( 证明) 和第七层t r u s t ( 信任) 则注重于提供认证和信任机制, 使用户代理a g e n t 在网络上实现个性化服务和彼此间交互合作具有可靠性和安全性。 第四层到第七层是在下面四层的基础上进行逻辑操作。在整个语义w e b 体系结 构中,核心层为x m l 、e d f ( s ) 、o n t o l o g y ,其支持从语义上描述w e b 信息,是当前 语义w e b 研究和应用关注的重点。在语义w e b 的提出和发展过程中,本体起着非常 重要的作用。 1 3 本体映射研究现状 研究者们认为本体能够提供对于共同领域的共享理解,从而能够解决不同组织软 件应用间的交互问题。本体使得不同应用就彼此间交流所使用的术语达成一致,因此 不同应用通过共享本体,不仅能够进行句法级的数据交换,也能够进行语义级的数据 交换。 但是,构建唯一的通用本体是不可能的。因为w e b 上存在有大量的不同信息资 源,不可避免地导致大量不同本体的存在。可以预见在不远的将来,即使描述相似领 域的本体数量也会呈指数级增长。 不同本体问实现语义交互成为构建语义w e b 的关键,而只有确定和建立了不同 本体元素间的对应关系才能实现本体间的交互。以前如果两个不同的源本体间需要交 互,映射主要是手动方式来实现的,但这一任务十分枯燥且耗时、准确率低。研究辅 助知识工程师半自动、甚至全自动确定语义映射对的方法、工具就成为语义w e b 成 功的关键。 目前国内对于本体映射的研究刚刚展开,尚处于起步的阶段。国外的研究机构就 本体映射的框架、本体映射方法和所采用的技术以及本体映射辅助工具取得了一定的 成果,比较典型的包括华盛顿大学的g l u e 系统【9 1 ,斯坦福大学知识系统实验室的 c h i m a e r a t l 们、a n c h o rp r o m p t t “1 ,马里兰大学的语义消解方法【1 2 】,k a r l s r u h e 大学的 d 太原理:i :火学硕十研究生学位论文 k a o n 工程中的本体映射框架m a f r a 等。 1 4 课题研究目的和研究成果 本论文的目标是综合利用本体的各种特征包括本体中实体的标注、实体间的层次 结构、语义关系和属性描述、约束等信息实现异构本体映射。主要讨论的关键技术和 文章的闪光点包括:提出了综合利用本体的各种特征,即多角度计算实体间语义相似 度的方法;提出两种基于多角度计算实体间语义相似度的本体映射机制:实现了所提 出的本体映射方法,并进行了概念间一对一映射测试;探讨了本体推理技术对于本体 映射的辅助作用以及使用a h p 方法改进当前一种本体映射方法的权值分配; 研究的若干问题简述如下: ( 1 ) 综合利用本体各种特征信息计算不同本体实体间语义相似度 相似度计算是本体映射的重要步骤,本体映射是应用系统之间基于语义信息互操 作实现的重要基础。本文在分析当前典型的本体映射方法的特点及局限性的基础上, 提出基于本体各种特征信息计算实体间语义相似度,即在深入分析本体各种特征后, 提出了1 6 种用于计算实体间语义相似度的角度,全方位衡量实体间语义相似程度; ( 2 ) 基于多角度实体语义相似度计算的本体映射机制 本体间差异的存在对信息的处理和传递造成了障碍。未来的主体及w e b 服务必 然是基于各种本体的,要在它们之间实现数据的通讯及交互操作,必然要在本体间自 动的建立联系。本文在提出1 6 种用于实体间语义相似度计算的角度的基础上,提出 了两种本体映射机制,即两种综合利用多角度的本体映射机制。 混合式本体映射机制 混合式本体映射机制在整个映射的过程中采用了多个角度。从多个角度、全方位 对实体的语义相似度进行衡量,这一机制的效率更高。 组合式本体映射机制 组合式本体映射机制则是把独立执行的若干个角度的结果融合起来,这种合并多 个角度的能力,使它比基于混合式的本体映射机制具有更大的灵活性,即用户能够根 据需要建立映射的本体的特点,选择所需要的角度,而非任何情况下都需要遍历所有 的角度。 5 第一章绪论,介绍了课题研究的背景以及问题的产生,给出本体映射的必要性和 本体映射的国内外研究现状,并介绍了本文的工作及论文的安排; 第二章本体,对本体作了概要的介绍,深入分析了资源语义与知识本体的关系; 第三章本体映射概述,探讨了本体映射的基本思想,体系结构,详细介绍了目前 典型的本体映射方法及原型系统,进一步分析了本课题所要解决的问题以及最有效的 解决方法本体映射。 第四章多角度实体语义相似度计算,在分析目前本体映射方法及原型系统的特点 与局限性的基础上,提出了综合利用基于o w l 描述的本体中的各种特征,即多角度 实现实体间语义相似度的计算的方法,详细分析了本文所提出的1 6 种角度所使用的 基于o w l 描述的本体特征。 6 太原理:i :大学硕士研究生学位论文 第五章基于多角度实体语义相似度计算的本体映射机制,着重分析了本文所提出 的两种本体映射机制,给出了相应的算法描述,并进一步分析了多角度的优势。 第六章实验,实现了所提出的本体映射方法,并进行了概念问一对一映射测试。 第七章总结全文,并提出了下一步的研究方向。 7 太原理r 大学硕士研究生学位论文 第二章本体 2 1 语义与本体的关系 人类和机器对于数据的理解方式是不同的,人对符号的解释可以通过概念映射到 现实世界对象,也就是说,人类可以获得符号的现实世界语义,而机器却很难做到这 一点。机器更关心的是如何保证形式系统在逻辑运算上的正确性,而非语言符号与现 实世界对象之间的映射关系【1 5 1 。 关于人类所理解的语义,语言学研究认为【1 6 1 :在认知发育的过程中,人类己在大 脑中建立了对世界的基本看法一概念树结构,并通过语言来表达这种概念树结构。 关于机器( 应用程序) 理解的语义,我们以往常把它们分为:公理语义、操作语 义、指称语义等。前二者在逻辑学中通常称作证明系统,指称语义则被称为一种模型 论语义。 在传统应用程序开发过程中,对符号的语义解释通常由程序员本人完成,并以硬 编码的方式实现机器对符号的所谓“语义理解”。这种硬编码方式实现比较简单,但 是并不适合于现今的网络环境。因为它无法保证不同程序员对符号的语义解释一致, 在不受控的网络环境下,这将无法保证系统之间的互操作性。 为了解决上述问题,计算机科学家开始结合人工智能领域中有关知识本体的研究 成果,考虑将现实世界语义用形式语言来编码,即将某个领域内被公众所认可的知识 用形式语言编码。机器通过将符号( 语义标签) 向编码的映射来实现对符号的语义理 解。 综上所述,机器很难将符号向现实世界中的对象直接映射。但如果可以创建一个 符号系统( 知识本体) ,即将现实世界中某个领域知识做形式化封装。那么机器就可 以通过将符号向知识本体映射来达成对符号语义的理解。这正是实现机器理解语义的 关键问题。 8 太原理丁人学硕士研究生学位论文 2 2 本体 2 2 1 本体的起源与定义 在一般意义或者说在哲学意义上,本体论研究或关注的是“存在”,即有什么东 西存在或者说世界存在什么实体? 本体是对领域内概念的本质和关系所作的详尽明 确的描述。本体( o n t o l o g y ) 这个同是从希腊的“o n t o ”( “存在”) 和“l o g i a ”( “簌 言录”) 派生而成的。 在人工智能界,最早给o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义为 “给出构成相关领域词汇的基本术语和关系,及利用这些术语和关系构成的规定这些 词汇外延的规则的定义”1 1 7 。 后来在信息系统、知识系统等领域,越来越多的人研究o n t o l o g y ,并给出了许多 不同的定义。其中最著名并被引用最广泛的定义是g r u b e r 的“本体是概念化的明确的 规范说明”【1 8 】。w n b o r s t 对该定义也进行了引申:“本体是共享的概念模型的形式 化的规范说明”1 1 9 1 。f e n s e l 定义“本体是对一个特定领域中重要概念的共享的形式化 的描述”。f e i l s e l 对这个定义进行分析后认为0 n t o l o g y 的概念包括4 个主要方面【2 0 i : 概念化( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象的相关概念而得到 的模型,其表示的含义独立于具体的环境状态; 明确( e x p l i c i t ) :所使用的概念及它们之间联系和约束都被精确定义; 形式化( f o r m a l ) :精确的数学描述,从而使得o n t o l o g y x r j 于计算机是可读的; 共享( s h a r e ) :o n t o l o g y q b 体现的是共同认可的知识,反映的是相关领域中公认 的概念集,它所针对的是团体而不是个体。 尽管本体的定义方式多种多样,通过研究比较,可以看出他们对本体的认识基本 是统一的,都把本体当作是领域内部不同主体之间进行交流的一种语义基础,即由本 体提供一种明确定义的共识,本体提供的这种共识是为机器服务的。 2 2 2 本体的构成 p e r e z 等人用分类法组织了o n t o l o g y ,归纳出5 个基本的本体建模元语 ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 9 太原理工大学硕士研究生学位论文 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示 的是对象的集合,包括概念的名称,与其他概念之削的关系的集合,以及用自然语言 对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集。从语义上讲, 基本的关系共有4 种包括:a t t r i b u t e o f 表达某个概念是另一个概念的属性;p a r t o f 表 达概念之间部分与整体的关系;k i n d 。o f 表达概念之间的继承关系;i n s t a n c e - o f 表达 概念的实例与概念之间的关系。 类( c l a s s e s ) 或概念( c o n c e p t s ) ( 3 ) 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 1 个元素可以唯一决定第n 个元素。形式化的定 义为f :c l c 2 e l e 。如m o m e r o f 就是一个函数,m o t h e r - o f ( x ,y ) ,表示y 是x 的母亲。 ( 4 ) 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 2 2 3 本体的功能 现在已经有相当多的文献给出了本体的描述和本体的使用目的。大多数的应用实 例都是为了实现“重用”。它们在本体应用上都是把本体当作一种构建知识的一种方 式或者当作知识库的一部分。另一个重要的用途是信息集成。这种方式主要体现在商 业事物的集成,分布式多代理系统和并发处理工程的设计上。 因此,我们把本体的使用功能粗略的划分为以下三种: ( 1 ) 信息交换 本体的核心概念是知识共享。通过减少概念和术语上的歧义,本体描述为某一组 织或是工作小组提供了一个统一框架或是规范模型,使得来自不同背景,持不同观点 和目的的人员之间的理解和交流成为可能,并保持语义上的一致性。 ( 2 ) 互操作 1 0 太原理工大学硕士研究生学位论文 绝大多的应用程序使用本体实现不同系统之间的互操作,即不同系统或是工具之 间的数据传输。这种应用还可以细分为两类:轻量级( l i g h t w e i g h t ) 和重量级 ( h e a v y w e i g h t ) 。基于本体的轻量级应用是一种完全面向语法形式化和转换的本体使 用。它只能保证人们使用相同的词汇,但不能保证他们对相同的词汇有相同的解释或 是理解。而基于本体的重量级应用是一种对知识表示语言中的建构和约束作普通的语 义解释的使用方式,目的是支持本体的不同使用者之间的进行语义层面的信息共享和 互操作。本体共享的数据交换的关键是必须保证对本体一致无歧义的解释。而这类本 体应用中的本体还支持的另外一些功能服务,比如支持推理的查询,更新和一致性检 查功能。这些是由本体的知识表示语言所采用的推理机制所决定的。 ( 3 ) 系统工程 本体还可以应用到软件系统的设计和实现上。在软件开发的规格说明中,本体论 通过对需要解决的问题和任务的理解描述,可以帮助我们在需求分析、信息获取中提 高明确性,减小分析代价。同时,本体可以作为需求分析基础上软件设计时的基础, 以自动或是半自动的方式检查它们之间的一致性,从而提高软件系统的可靠性。本体 还可以通过对系统内部各个功能模块和它们之间的联系的详细描述达到软件的重用 性。 2 3 本体描述语言 由于机器并不能像人类一样理解蕴含在自然语言中的语义,计算机最终把所有的 信息都当作0 、l 字符串进行处理。而本体的目的是使信息成为机器可理解的,因此, 在计算机领域讨论本体,首先就面临着本体究竟是如何描述的,也就是概念的形式化 问题,对应的研究内容就是本体的描述语言。自2 0 世纪9 0 年代以来,一些基于a i 的本 体实现语言陆续被提出 2 1 1 ,如f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) - 与o n t o l i n g u a ,斯 坦福大学知识系统实验室提出的o k b c ( o p e nk n o w l e d g eb a s ec o n n e c t i v i t y ) ,o c m l ( o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e ) 和k a r l s r u h e 大学开发的框架逻辑语言 ( f r a m el o g i c ) 等。 奎堕堡三! ;- 人竺堡塑壅生堂垡堡奎 2 3 1 面向语义w e b 的本体描述语言 作为对w e b 上知识的表示,语义w e b 要求标记语言的数据交换格式具有通用的 表达能力,语法的互操作能力,语义的互操作能力。目前基于w e b 标准的本体描述 语言有s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n ) 【2 2 1 ,x o l ( x m l - b a s e d 、 o n t o l o g y e x c h a n g el a n g u a g e ) 【2 3 】。在标准方面,由w 3 c 主持制定的r d f 【2 4 】和r d f s c h e m a 8 】是基于x m l 的。而s h o e 是基于h t m l 的,是在h t m l 上的一个扩展。 o w l ( w e b o n t o l o g y l a n g u a g e ) 是建立在x m l r d f 等已有标准基础上,通过添加 大量的基于描述逻辑的语义原语来描述和构建各种本体,现在成为w 3 c 推荐的本体 描述语言的标准,本课题采用o w l 作为本体描述语言。 本论文提出综合利用领域本体中的各种特征计算不同本体实体间语义相似度的 方法,为明晰利用哪些特征,本节介绍了如何使用o w l 来描述本体元素,并辅以经 典的葡萄酒本体例子加以说明。 o w l 是一种对w e b 本体进行定义和例示的语言。o w l 相对x m l ,r d f 和r d f s c h e m a 拥有更多的机制来表达语义,从而超越了x m l ,r d f 和r d fs c h e m a 仅仅能 够表达网上机器可读的文档内容的能力。为了使写成的本体能被软件a g e n t s 无歧义地 解释,o w l 需要一个语法和正规的语义。2 0 0 2 年7 月,w 3 c 在d a m l + o i l 基础上 发展了o w l 语言1 2 5 , 2 6 以使其成为国际通用的标准语义w e b 语言。2 0 0 3 年2 月2 1 日 公布了“w e bo n t o l o g yl a n g u a g e ( o w l ) r e f e r e n c ev e r s i o n1 0 ”,本节介绍的o w l 将以此资料为依据。 2 3 2 1 简单的类( c i a s s e s ) 与个体( 1 n d i v id u a is ) 2 3 2 1 1 定义简单的类( c la s s s u b c ia a s o f ) 在一个领域中最基本的概念应该是类,类是各种术语分类树的根。在o w l 世界 中每一个个体( i n d i v i d u a l ) 都是类o w l :t h i n g 的成员。对于一个特定领域来说,根类 ( r o o tc l a s s e s ) 的定义只需简单地声明一个带名字的类即可。例如在葡萄酒领域中, 定义根类w i n e r y : 】2 太原理:l 大学硕士研究生学位论文 s u b c l a s s o f 是术语分类的构造中最基本的机制,其在语义上是传递性的。例如: 这里定义了一个酒类,声明了酒类是可饮用液体类的子类。 2 3 2 1 2 定义个体( i n d iv id u a ls ) 除了类之外,还可以定义语义上属于某个类的个体,例如定义c e n t r a l c o a s t r e g i o n 为r e g i o n 的个体: 2 3 2 2 简单的属性( s j m p i ep r o p e r t i e s ) 属性( p r o p e r t i e s ) 能对类成员的普遍事实进行断言以及指明个体的特殊事实。一 个属性是一个二元关系。有两种属性需要加以区别: d a t a t y p ep r o p e r t i e s ( 数据类型属性) ,描述类的实例r d fl i t e r a l s 以及x m l s c h e m a 数据类型之间的关系。 o b j e c t p r o p e r t i e s ( 对象属性) ,表述两个类的实例之间的关系。 当定义一个属性时,有很多种方法来约束这个关系。可以指定该属性的d o m a i n 和r a n g e 。属性可以定义成为一个现存属性的特殊属性子属性( s u b p r o p e r t y ) 。 r d f s :r a n g er d f :r e s o u r c e = ”# w i n e g r a p e ”) 。 属性m a d e f r o m g r a p e 的d o m a i n 是w i n e ,r a n g e 是w i n e g r a p e ,这就将w i n e 类的 实例和w i n e g r a p e 的实例联接起来了。 2 3 2 3 属性约束( p r o p e r t yr e s t ri c ti o n s ) 可在特殊情况下用多种方法更进一步约束属性的r a n g e ,这就是属性约束机制。 1 3 太原理: 大学硕士研究生学位论文 下面的各种约束形式只能用于属性约束之中,标签o w l :o n p r o p e r t y 指明了被约束的属 性。 o w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初级语文考试题目及答案
- 工程项目管理实施方案
- 2025年靖江编外考试真题及答案
- 隧道施工过程中的土质分析方法
- 房屋施工现场人员管理方案
- 新形势下农机管理与新技术推广的策略研究
- 邵阳卫校考试题目及答案
- 2025年廉洁诚信考试试题及答案
- 2025年酒店服务实训试题及答案
- 2025河北农业大学选聘50人模拟试卷及一套完整答案详解
- 2025年10月“江南十校”2026届新高三第一次综合素质检测 语文试卷(含答案详解)
- 2025-2030中国啤酒生产技术创新与智能化升级路径分析报告
- 2025广东普通专升本《政治理论》试题与答案
- 明市2025新闻记者职业资格考试(新闻采编实务)复习题及答案
- 人工牛黄甲硝唑胶囊课件
- 全产业链视角下我国低空经济保险发展研究
- 核心素养下初中数学符号意识的培养
- 淮北矿业安全管理办法
- 诊所日常运营管理规范流程
- 法国文学课件
- 2025年止血技术理论知识考试试题及答案
评论
0/150
提交评论