（计算机软件与理论专业论文）本体间相似度计算及映射方法的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：70 大小：4.21MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

（计算机软件与理论专业论文）本体间相似度计算及映射方法的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要摘要本体在信息集成、语义网和知识管理等领域中被认为是重要的理论基础。然而，在很多情况下，不同领域对许多相同概念会定义出不同的本体，甚至在同一领域，不同机构定义出的本体也往往各不相同。因此，本体间的异构问题也就显现出来。要解决本体间的异构问题，实现不同本体间的互操作，从而实现基于本体的知识共享与集成，就必须在本体间架起映射的桥梁，也就是通常所说的本体映射。然而目前，已有的本体映射方法大多是针对具体的本体的，它们都是根据各自本体的特点得到的，因此不能适应环境的变化，即缺乏一种相对通用的本体映射机制。本文对已有的本体映射方法进行研究，分析其特点及存在的问题，并对本体映射中概念相似度的计算方法进行改进，从而提高本体映射的通用性、适应性和相似度计算方法的全面性。最后，在此基础上描述了基于该计算方法的本体映射架构。概念间的相似度计算是本体映射的重要内容。在本文中，充分考虑了概念的实例、层次结构关系、以及属性等信息对相似度计算的影响，设计出一种综合的语义相似度计算模型。即分别从不同的角度对概念的相似度进行计算，然后将三个相似度分量加权综合，得到概念间的综合的语义相似度。在语义相似度计算模型不变的情况下，可以通过改变三个相似度分量的权值来适应不同特点的应用本体间的映射，从而使得模型具有通用性。在本文的最后，构建了两个关于学生信息的小型本体，然后用前面设计的综合语义相似度计算模型进行模拟实验。结果表明，该模型可用于本体映射当中，并能更有效地体现概念间的语义关系，使得本体映射方法更加全面，有更好的适用性和通用性。关键词：本体；本体映射；相似度计算 r e s e a r c ho fs i m i l a r i t yc o m p u t i n ga n do n t o l o g ym a p p i n g a p p r o a c h e s a b s t r a c t o n t o l o g yh a sb e e nc o n s i d e r e d a sa l li m p o r t a n tt h e o r e t i c a lb a s i si nm a n ya r e 2 l ss u c h 觞i n f b n n a t i o ni n t e g r a t i o n ，s e m a n t i cw e ba n dk n o w l e d g em a n a g e m e n t h o w e v e r ，m m a | wc a s e s ，f o rt h es a m ec o n c e p t ，t h e r ew i l lb el o t so fd i f f e r e n to n t o l o g yd e f i n e db y d i f f e r e n ta r e a s e v e ni nt h es a m ef i e l d ，ad i f f e r e n ta g e n c yw i l l d e f i n ead i f f e r e n t o n t 0 1 0 9 y t h e r e f o r e ，t h eh e t e r o g e n e o u sp r o b l e mb e t w e e no n t o l o g y w i l le m e r g e t os o l v et h e p r o b l e m o fh e t e r o g e n e o u sb e t w e e no n t o l o g y ， r e a l i z e t l a e i n t e r o p e r a b i l i t y b e t w e e nd i f f e r e n to n t o l o g y ，a n dt h e r e b y a c h i e v eo n t o l o g y - b a 8 e d k n o w l e d g es h a r i n ga n di n t e g r a t i o n ，ab r i d g eo fs e m a n t i cm a p p i n g m u s tb es e tu p b e t w e e no n t 0 1 0 9 y t h a ti s ，o n t o l o g ym a p p i n g ，a sc o m m o n l yk n o w n b u tn o w ，m o s to f t h eo n t o l o g ym a p p i n gm e t h o d sa r ef o rt h ea p p l i c a t i o n 。s p e c i f i co n t o l o g y a n dt h e y a r e u s u a l l vb 2 l s e do nt h e c h a r a c t e r i s t i c so ft h e i ro w n s o ，t h e y c a l ln o ta d a p tt o e n v i r o n m e n t a lc h a n g e s ，n a m e l y ，ar e l a t i v e l yc o m m o no n t o l o g ym a p p i n gm e c h a n i s m i s n e e d e d t l l i sp a p e rs t u d i e st h eo n t o l o g ym a p p i n gm e t h o d s ，a n a l y z e st h e i rc h a r a c t e 斛1 c s a n de x i s t e dp r o b l e m s ，a n dt h e ni m p r o v e sa n e wc o m p u t i n gm e t h o do fc o n c e p ts i m i l a r i t y i no n t o l o g ym a p p i n gt oe n h a n c e t h ev e r s a t i l i t y ，a d a p t a b i l i t yo fo n t o l o g ym a p p m g ，a n d t h eo v e r a l lo ft h es i m i l a r i t yc o m p u t i n gm e t h o d f i n a l l y ，o nt h i sb a s i s ，i td e s c r l b e s a n o n t o l o g ym a p p i n g a r c h i t e c t u r eb a s e do nt h ec o m p u t i n gm e t h o d t h es i r n i l a r i t yc a l c u l a t i o nb e t w e e nc o n c e p t sp l a y sa ni m p o r t a n tr o l e i no n t o l o g y m a p p i n g i nt h i sp a p e r ，i n f o r m a t i o nt h a ta f f e c t st h es i m i l a r i t yc a l c u l a t i o n ，s u c h a st h e i 1 1 s t a n c e so ft h ec o n c e p t ，t h eh i e r a r c h i c a ls t r u c t u r er e l a t i o n s h i p ，a n ds o m ea t t r i b u t e s a r e m u vc o n s i d e r e d a n di td e s i g n sa ni n t e g r a t e ds e m a n t i cs i m i l a r i t y c a l c u l a t i o nm o d e l t h a ti s ，i tc o m p u t e st h es i m i l a r i t yo fc o n c e p t sf r o md i f f e r e n tv i e w s ，a n dt h e ni m e 伊a t c s t h e 缸e es i m i l a r i t yw e i g h t st og e ti n t e g r a t e ds e m a n t i cs i m i l a r i t yb e t w e e nc o n c e p t s - b y u s i n gt h es 锄es e m 锄t i cs i m i l a r i t y c a l c u l a t i o nm o d e l ，u s e r sc a l le n a b l et h em o d e l c o m n l o nt 02 l l lt h eo n t o l o g yb yc h a n g i n gt h et h r e es i m i l a r i t yw e i g h tv a l u e s t oa d a p tt o t h em a p p i n gb e t w e e nd i f f e r e n tc h a r a c t e r i s t i co n t o l o g y f i n a l l yi nt h i sp a p e r ，t w os m a l lo n t o l o g y r e l a t e ds t u d e n t s i n f o 衄a t l o n a r e 英文摘要 c o n s t r u c t e d ，a n dt h e nas i m u l a t e de x p e r i m e n ti sc a r r i e do u tb yu s i n gt h ei n t e g r a t e d s e m a n t i cs i m i l a r i 够c a l c u l a t i o nm o d e lt h a th a sr e f e r r e d e x p e r i m e n t a lr e s u l t ss h o wt h a t t h em o d e lc a nb eu s e da m o n go n t o l o g ym a p p i n g ，a n di tc a ne m b o d yt h es e m a n t i c r e l a t i o n s h i pb e t w e e nc o n c e p t sm o r ee f f e c t i v e l y ，m a k eo n t o l o g ym a p p i n gm e t h o dm o r e c o m p r e h e n s i v e ，m o r ea p p l i c a b l e ，a n dm o r ev e r s a t i l e k e yw o r d s ：o n t o l o g y ；o n t o l o g ym a p p i n g ；s i m i l a r i t yc a l c u l a t i o n 大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明：本论文是在导师的指导下，独立进行研究工作所取得的成果，撰写成硕士学位论文：奎签阊担丝廑让簋丛邀魁友鎏鲍班究：。除论文中已经注明引用的内容外，对论文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。论文作者签名： f 司矛j 。孑年弓月谚日学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管理办法”，同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版，允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。保密口，在年解密后适用本授权书。本学位论文属于：保密口不保密口( 请在以上方框内打“) 论文作者签名：封蟊胭再月名 0 堑年师西鼢加期丁一本体间相似度计算及映射方法的研究第1 章绪论 1 1 问题的提出及意义本体的概念最初起源于哲学领域，用于研究客观世界的本质。在计算机领域中，本体被定义为共享概念模型的形式化的规范说明【1 1 ，可以用来描述数据的语义信息。它的目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义。本体提供了对于某一问题域的普遍而且共享的知识表示，这种知识能够通过在异构并且分布的计算机系统中交流和理解。近年来，本体作为一种领域知识结构化描述和推理的基础已经获得广泛认可。在多a g e n t 系统、信息集成、语义网和知识管理等领域中，本体被认为是重要的理论基础。目前，本体的应用领域越来越多，应用本体的主要目的都是为了知识的共享和重用，即希望通过本体对信息的表达实现语义级的共享和重用，从而为智能代理提供交流工具。同时，本体使得推理规则的出现成为可能。然而，要构建一个包罗万象的项级本体几乎是不可能的，不仅难以构建，也难以修正和维护。这必然导致不同的用户根据自己的需要构建不同本体。由于本体自身的分散特性，并且由于本体的创建者不同，使用的建模方法不同，因而即使对同一个领域内的问题建模，不同的领域专家开发出来的本体必然存在着差别，这样当两个本体协同工作时就会出现语义异构的问题。面对本体的多样性，要想完成信息交流的任务就必须在本体之间架起映射的桥梁。本体映射正是解决不同本体间知识共享和重用问题的方法，它的目的是找出不同本体中实体之间的语义关联，并且将这种语义关系形式化地表达出来。 1 2 本体映射研究背景及研究现状目前，国外许多著名的大学和实验室都对本体映射进行了研究，并且就本体映射的框架、本体映射方法和所采用的技术以及本体映射辅助工具都取得了一定第1 章绪论的成果。比较典型的有华盛顿大学的g l u e l 2 系统的基于概念实例的方法，斯坦福大学的本体代数方法【3 】，马里兰大学的语义消解方法【4 】，m a n d r e w 等提出的利用概念定义的方法【5 】，k a r l s r u h e 大学的k a o n 工程中的本体映射框架m a f r a n 等等。相应的一些方法将在后面的章节中详细介绍。国内对于本体映射的研究刚刚展开，尚处于起步阶段。不过，已经有越来越多的研究者加入到这个团体中。如f a l c o n 7 1 是东南大学开发的一个语义w 曲应用系统，它提供使用本体驱动的方法完成本体的发现( f i n d i n g ) 、串联( a l i g n i n g ) 和学习 ( 1 e a r n i n g ) 以及最终捕获( c a p t u r i n g ) 知识等服务。y s 乡 b ，还有很多大学的实验室也在国家自然基金课题的支持下，对本体及本体映射进行相应的研究。 1 3 本文研究内容和工作我们对现有的本体映射方法和映射系统进行了分析，发现现有的映射系统存在很多问题： 1 ) 通用性不高已有映射方法都是针对具体的应用本体的，而根据不同应用本体的特点，采用的方法也不尽相同，因此这些方法大多不能适应环境的变化，即缺乏一种相对通用的本体映射机制。 2 ) 相似度计算方法不全面已有相似度的计算方法只考虑部分信息，因此要求进行映射的本体满足一定的条件时才能达到比较好的映射效果，计算方法比较片面，没有对本体的各个方面信息进行综合考虑，适应性较差。 3 ) 相似度计算量过大目前，计算两个本体o i 和0 2 中概念的相似度时，本体中的每一对概念都被考虑在内。如果本体o l 中含有m 个概念，本体0 2 中含有n 个概念，那么就要计算m * n 次相似度，因此计算量非常大。有时两个概念根本就不相似，也就是它们的相似度为0 ，所以计算它们的相似度是不必要的，只会增加计算的复杂度。如果编程来真正实现相似度的计算，多余的计算结果会占很大的空间，使空间复杂度本体间相似度计算及映射方法的研究也增加。因此计算时应该对概念对的数量进行限制，以减少相似度的计算量。 4 ) 自动化程度不高目前大多数方法在对映射对进行计算后，由于现有计算方法的不足，相似度的计算结果不一定准确，较多的情况下还需要用户或领域专家的参与，自动化程度不高。本文针对上述本体映射特点及存在的问题，致力于对本体映射中概念相似度的计算方法进行研究，在此基础上设计出一种综合的语义相似度计算模型，以提高本体映射的通用性、适应性和相似度计算方法的全面性；并描述了基于该模型的本体映射方法和映射架构。最后，通过实验对本文提出的综合语义相似度计算模型进行分析，从而得出实验结论。 1 4 论文的组织与结构本文的组织结构如下：第l 章：绪论部分。介绍了本体映射的研究背景及研究现状，并介绍了本文的工作及论文的安排。第2 章：本体概述部分。介绍了本体的概念、分类、构成、描述语言及本体的功能等本体论的基本概念，为下面进行本体映射的研究打下基础。第3 章：本体映射概述部分。探讨了本体映射的问题描述、体系框架、映射的过程，详细介绍了目前典型的本体映射方法及原型系统，并对常用的方法进行了分析比较。第4 章：一种综合的语义相似度计算模型设计。在分析当前本体映射方法的特点的基础上，针对已有映射方法中存在的问题及局限性，本章设计出一种综合的语义相似度计算模型。第5 章：基于综合语义相似度计算模型的本体映射。本章提出了基于综合相似度计算模型的本体映射方法，并描述了基于该方法的本体映射架构。笫6 章：实验及分析。本章首先构建了两个本体，然后用前面设计的综合语义相似度计算模型进行了模拟实验，并对实验结果进行了分析。第7 章：总结与展望。总结全文，并指出进一步研究方向。第2 章本体概述第2 章本体概述由于本体在处理本体映射的过程中占有很重要的地位，在本章中，主要介绍一下本体的相关知识。 2 1 本体的概念本体最早是一个哲学上的概念，从哲学的范畴来说，本体是客观存在的一个系统的解释或说明，关心的是客观现实的抽象本质。在人工智能领域，最早给出本体定义的是n e c h e s 等人，他们将本体定义为“通过定义相关领域词汇中的基本术语和关系，以及利用这些术语和关系的组合来定义词汇的外延【8 1 。 1 9 9 3 年，g r u b e r 给出的定义最为著名，“本体是概念化的明确的规范说明【9 】。 1 9 9 7 年，b o r s t 对g r u b e r 的定义作了一点改动，“本体是对共享的概念化的形式化规范说明【1 0 1 。后来，s t u d e r 等人对上述两个定义作了更深入的研究，“本体是共享概念模型的明确的形式化规范说明【。现在，由s t u d e r 提出的本体概念得到了比较广泛的应用，它包含4 层含义【1 】：概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。概念模型概念模型是指对现实世界的一些事物的抽象建模，所建立的模型确定了该事物的一些相关的概念。明确所使用的概念及这些概念的约束都有明确的定义，没有二义性。形式化本体是计算机可读的。共享本体中体现的是共同认可的知识，反映的是相关领域中公认的概念集，即本体针对的是团体而非个体的共识。尽管定义的方式不同，但从内涵上来看，不同的研究者对于本体的认识是统一的。本体的目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇相互关系的明确定义【l l 】。本体间相似度计算及映射方法的研究 2 2 本体的分类根据本体不同方面的属性( 如形式化程度、目的和描述对象) 可以对本体进行不同的分类【12 1 。根据本体的形式化程度不同，可以把本体分为：高度非形式化的( h i g h - i n f o r m a l ) ：用自然语言自由随意地表达；结构非形式化的( s t r u c t u r e d i n f o r m a l ) ：用受限定的结构式自然语言表达：半形式化的( s e m i f o r m a l ) ：用人工定义的形式语言表达；严格形式化的( r i g o r o u s l yf o r m a l ) ：用属性的形式语义、定理和证明严格、仔细地定义术语，并使之具有正确性和完整性。根据本体的描述对象不同，可以把本体分为特殊领域本体( 如医药、地理、金融等) 、一般世界知识本体、问题求解本体和知识表示语言本体。 g u a r i n o 提出以详细程度和领域信赖度作为本体的划分基础【1 3 】，详细程度是指描述或刻画建模对象的程度，它是一个相对的较模糊的概念。详细程度高的本体称为参考本体，详细程度低的本体称为共享本体。依照领域信赖程度可以分为顶级本体、领域本体、任务本体和应用本体四类，其中：顶级本体描述的是最普通的概念及概念之间的关系，如空问、时间、事件等，与具体的应用无关。其它种类的本体都是该类本体的特例。领域本体描述的是特定领域( 医药、地理等) 中的概念及概念之间的关系。任务本体描述的是特定任务和行为中的概念及概念之间的关系。应用本体描述的是信赖于特定领域和任务的概念及概念之间的关系。 1 9 9 9 年p e r e z 和b e n j a m i n s 在分析和研究了各种本体分类法的基础上归纳出 1 0 种本体【1 4 】：知识表示本体、普通本体、顶级本体、元( 核心) 本体、领域本体、语言本体、任务本体、领域一任务本体、方法本体和应用本体。该分类方法是对 g u a r i n o 所提出分类方法的扩充和细化。但这1 0 种本体之间有交叉，层次不够清晰。第2 章本体概述 2 3 本体的构成 p e r e z 1 4 】等人用分类法组织了o n t o l o g y ，归纳出5 个基本的本体建模元语： ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务，如工作描述、功能、行为、策略和推理过程。从语义上讲，它表示的是对象的集合，其定义一般采用框架( f r a m e ) 结构，包括概念的名称，与其他概念之间的关系的集合，以及用自然语言对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) 在领域中概念之间的交互作用，形式上定义为n 维笛卡尔积的子集 r ：c l c 2 c 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元组的集合。 ( 3 ) 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 1 个元素可以唯一决定第i 1 个元素。形式化的定义为f ：c l x c 2 x x c n - r c n 。如m o t h e r - o f 就是一个函数，m o t h e r - o f ( x ，y ) ，表示y 是x 的母亲。 ( 4 ) 公理( a x i o m s ) 代表永真断言，如概念乙属于概念甲的范围。 ( 5 ) 实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是对象。另外，从语义上讲，基本的关系共有4 种，包括：a t t r i b u t e o f 表达某个概念是另一个概念的属性；p a r t - o f 表达概念之间部分与整体的关系；k i n d o f 表达概念之间的继承关系；i n s t a n c e o f 表达概念的实例与概念之间的关系。在实际建模过程中，概念之间的关系不限于上面列出的4 种基本关系，可以根据领域的具体情况定义相应的关系。在本体建模的最初阶段就必须详细说明模型中涵盖的概念实例、关系和公理等实体，至少是初步认定描述这些实体的绝大部分词汇。 2 4 本体描述语言由于机器不能像人一样理解蕴含在自然语言中的语义，计算机最终把所有的信息都当成0 、1 字符串进行处理。而本体的目的是使信息成为机器可理解的。因此，本体间相似度计算及映射方法的研究在计算机领域讨论本体，首先就面临着本体究竟是如何描述的，也就是概念的形式化问题，对应的研究内容就是本体的描述语言。本体语言使得用户为领域模型编写清晰的、形式化的概念描述。因此，它应该满足以下要求【1 5 】：严格定义的语法( aw e u d e f i n e ds y n t a x ) 严格定义的语义( aw e l l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 在具体的应用中，本体语言主要分为四大类：非形式化语言、半非形式化语言、半形式化语言和形式化语言【l l 】。本体可以用自然语言来描述，也可以用框架、语义网络或逻辑语言来描述。自2 0 世纪9 0 年代以来，一些基于硝的本体实现语言陆续被提出【16 1 。如k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 与o n t o l i n g u a ，斯坦福大学知识系统实验室提出的o k b c ( o p e nk n o w l e d g eb a s ec o r m e c t i v i t y ) ，o c m l ( o p e r a t i o n a lc o n c e p t u a l m o d e l i n gl a n g u a g e ) 和k a r l s m h e 大学开发的框架逻辑语言( f r a m el o g i c ) 等。近年来，w e b 技术为全球信息共享提供了便捷手段，以共享为特征的本体论与网络技术结合是必然趋势。在此背景下，基于w e b 标准的本体描述语言成为本体论研究和应用的热点，如s h o e 17 1 ，x o l 18 1 ，o m l 1 9 1 ，r d f ( s ) 2 0 1 ，o i l t 2 1 1 ， d a m l + o i l 2 2 1 ，o w l l 2 3 1 等，它们之间的关系如图2 1 所示： o w l o l ld a m l + o i l x o l o m lr d f ( s ) x m l 图2 1 基于w e b 的本体语言金字塔 f i g ，2 ，】t h ep y r a m i do fo n t o l o g i c a ll a n g u a g e sb a s e do nw e b 第2 章本体概述以上这几种语言是这一领域比较突出的成果，因此在本小节对其进行说明。 s h o e s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n s ) 语言是一种基于知识本体的知识表示语言【2 4 1 。它通过一些表示原知识的标签来扩展h t m l 语言，并将这些标签同一个或多个知识本体联系起来，这是一种与x m l 相一致的互联网知识表示语言。它使网页编辑者可以用该语言对他们的互联网文档进行标注。 s h o e 语言是基于h t m l 语法，其它的几种语言都是基于x m l 语法的。x m l 是一种描述任意文本结构的标记语言，而h t m l 仅仅能描述特殊的超文本文件。一个x m l 文本包含了一套可嵌套的开关标记，每一个标记可以有许多属性值。 x m l 的词汇和它们所允许的组合都不固定，但是可以在每一个x m l 的应用中进行定义。 x o l x o l ( x m l b a s e do n t o l o g y e x c h a n g el a n g u a g e ) i l ls k ii n t e m a t i o n a l sa r t i f i c i a l i n t e l l i g e n c ec e n t e r ( a i c ) 的b i o i n f o r m a t i c sr e s e a r c hg r o u p 创建。它的语法建立在 x m l 基础上。它使用一般性的方法来定义本体，是一种简单通用的定义本体的方法。因此，x o l 定义的单个x m l 标签集合可以描述全部本体。最初x o l 是应用在生物信息学领域，现在它可以应用于各种领域。 o m l o m l ( o n t o l o g ym a r k u pl a n g u a g e ) 2 5 】是美国华盛顿州立大学在以x m l 作为语法的s h o e 的基础上开发的。o m l 建立在概念图基础之上，采用一阶逻辑对概念、分类、关系以及公理进行表达。o m l 由内到外由四个子语言组成：与逻辑有关的 o m l 内核，与r d f ( s ) 映射的简单o m l ，包含概念图特征的o m l ，以及具有最大表示能力的标准o m l 。 r d f ( s ) r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 2 6 1 是对象( 或资源) 以及它们之间关系的数据模型，为数据模型提供了简单的语义，这些数据模型可以用x m l 语法表达，用w e b 标识符( u r i u r i s ) 标识资源，用特定属性和属性值的陈述( s t a t e m e n t ) 描述资本体间相似度计算及映射方法的研究源。包括下面三种对象类型：六资源( r e s o u r c e s ) 任何一个可以描述的事物都是资源。比如：一个网页，一本书等。每个资源都有一个u 刚，u r i 可以是一个u r l ，或者其他种类的唯标识符。资源的标识符并不定非要能够访问到这个资源，u r i 不仅用来定义w e b 位置，还可以用来指电话号码、地理位置等。属性( p r o p e r t i e s ) 用来描述资源的特定方面，特征、关系等。属性是一种特殊的资源，用来描述资源之间的关系，r d f 里的属性同样用u r i 标识。这种用u r i 标识资源的做法促使了命名空间的使用，即可以减少数据表示时用同名标识异物所带来的麻烦。六陈述( s t a t e m e n t ) 资源加上特定属性以及属性值的集合，一个陈述有三个独立的组成部分，主体( s u b j e c t ) 、谓词( p r e d i c a t e ) 、客体( o b j e c t ) 。属性值可以是资源，也可以是文字( 1 r e r a l s ) 原子值。 r d f 虽然具有很多优点，但它所提供的建模原语非常基础，只是提供了一个模型，因此需要对其作进一步扩展。 r d fs c h e m a 在r d f 基础上增加了许多语义原语，用来更进一步增加对资源语义上的描述能力，如类、属性、类和属性之间的隶属关系等。 1 核心类 r d f s ：r e s o u r c e 描述所有资源的类，它是r d f s ：c l a s s 的实例。 r d f s ：c l a s s定义了一组共享了某些相同属性的i n d i v i d u a l 。因为所有类都是资源，所以r d f s ：c l a s s 是r d f s ：r e s o u r c e 的子类。c l a s s 能通过 s u b c l a s s o f 定义出一个特定的类层次。 r d f s ：l i t e r a l描述所有文字( 字符串) 的类。 r d f s ：p r o p e r t y 描述所有属性的类。 r d i s ：s t a t e m e n t描述所有陈述的类。 2 定义关系的核心属性第2 章本体概述 r d f s ：t y p e将一个资源和一个类相关联，这个资源被声明为这个类的实例。 r d f s ：s u b c l a s s o f类层次可以通过给出诸如一个类是另一个或多个类的子类这样的声明来创建。 r d f s ：s u b p r o p e r t y o f 属性层次可以通过给出诸如一个属性是另一个或多个属性的子属性这样的声明来创建。 3 约束属性的核心属性 r d f s ：d o m a i n一个属性的定义域是能够应用该属性的所有个体的集合。如果属 r d f s ：r a n g e i n d i v i d u a l o i l 性p 把类x 和类y 关联起来，p 的定义域是类z ，那么x 一定是 z 的一个实例。如果没有指定，那么所有资源都可以是这个属性的定义域。声明一个属性p 的定义域为c ，并不表示c 的实例一定就有属性p 。一个属性的值域是该属性所必须有的值的个体集合。如果属性p 将类x 和类y 关联，p 的值域是类z ，那么y 一定是z 的一个实例。类的实例，属性可以被用来把一个个体和另一个个体关联起来。 o i l ( o n t o l o g yi n f e r e n c el a y e r o n t o l o g yi n t e r c h a n g el a n g u a g e ) 2 1 】是一种针对本体的基于互联网的表现和推理层。它广泛使用基于框架语言的建模原语，并通过描述逻辑进行推理服务。o i l 提供一种通用的语义互联网标记语言。o i l 标记语言的语法源自w 3 c 的这些标准。它把基于框架语言的建模原语、描述逻辑所提供的正式语义以及推理服务结合起来。o i l 的使用比较广泛，支持o i l 的工具也很多，最著名的是o i l e d 。o i l e d 是一个基于o i l 的本体编辑器。其它一些工具，如o n t o e d i t 、t h ef a c t ( f a s tc l a s s i f i c a t i o no f t e r m i n o l o g i e s ) s y s t e m 也都支持o i l 。 d a m l + o i l d a m l ( d a r p aa g e n tm a r k u pl a n g u a g e ) 2 2 】，该项目正式开始于2 0 0 0 年8 月，由美国政府支持，目标是开发一种语言和一组工具，为语义互联网提供支持。本体间相似度计算及映射方法的研究 m a r kg r e a v e s 是该项目的领导者。d a m l 形成于d a m l o n t ( 一种本体语言) 和 d a m l l o g i c ( 一种表达公理和规则的语言) 。 d a m l 提出的原因和o i l 类似，一批支持语义互联网的研究者发现x m l 、r d f 作为模式语言其表达能力很有限，希望开发一种有更强的表达能力的模式语言。 d a m l 扩展了r d f ，增加了更多的更复杂的类、属性等定义。它一度很流行，成为网上很多本体的描述语言，直到d a m l 的研究者和o i l 的研究者开始合作，推出了d a m l + o i l 语言，成为w 3 c 研究语言互联网的本体语言的起点。 d a m l + o i l 知识基础是r d f 三元组的集合。d a m l + o i l 使用自己的词汇给 r d f 三元组以具体的意思表述。d a m l + o i l 将整个世界划分为两个不相交的部分。一部分是由属于x m ls c h e m a 数据类型( d a t at y p e ) 的值所组成的，称作数据类型域。另一部分则是由( 单个) 对象所组成的，这些对象应被看作是d a m l + o i l ( 或r d f ) 中所定义的类的成员，此部分称作对象域。 o w l o w l ( w r e bo n t o l o g yl a n g u a g e ) 2 3 1 作为w 3 c 的推荐标准，是从d a m l + o i l 发展起来的。在w 3 c 提出的本体语言栈中，o w l 处于最上层，如下图2 2 所示： t h eo n t o l o g yl a n g u a g es t a c k 塌e 8 圈琴。戮圈一 |；移麓慰乞+ 。易缀癞缀瀚縻露戮 ill 勃篪六；轳图2 2w 3 c 的0 n t o l o g y 语言栈 f i g 2 2t h eo n t o l o g i c a ll a n g u a g es t a c ko f w 3 c 第2 章本体概述 o w l 是其所倡导的语义万维网( s e m a n t i cw e b ) 的核心技术之一，意在提供一种语言，能够用于描述网络文档和应用中固有的类和类之间的关系。它通过定义类和类的属性来形式化一个领域，声明和定义对象和对象的属性，以及在o w l 形式化语义允许的程度上对类( c l a s s ) 和个体( i n d i v i d u a l ) 进行推理。在表达含义和语义方面，o w l 比x m l 、r d f ( s ) 有更多的表达手段，因此在w e b 上表达机器可理解内容的能力也比这些语言强。o w l 添加了更多的用于描述属性和类型的词汇，例如类之间的不相交性( d i s j o i n m e s s ) 、基数( c a r d i n a l i t y ) 、等价性、属性的更丰富类型、属性特征( 例如对称性) 、以及枚举类( e n u m e r a t e d c l a s s e s ) 等。 o w l 有三个子语占：o w ll i t e 、o w ld l 、o w lf u l l ，这三种语言的语义表达能力是递增的。 o w ll i t e 用于提供给那些只需要一个分类层次和简单约束的用户。它支持基数限制，但只允许基数为o 或1 。提供支持o w ll i t e 的工具应该比支持其他表达能力更强的o w l 子语言更简单，并且从叙词表( t h e s a u r i ) 和分类系统( t a x o n o m y ) 转换到o w ll i t e 更为迅速。 o w ld l 用于支持那些需要最强表达能力而需要保持计算机完备性 ( c o m p u t a t i o n a lc o m p l e t e n e s s ，即所有的结论都能够确保被计算出来) 和可判定 ( d e c i d a b i l i t y ，即所有的计算都能在有限的时间内完成) 的用户。o w ld l 包括了 o w l 语言的所有语言成分，但使用时必须符合一定的约束。 o w lf u l l 支持那些需要尽管没有可计算性保证，但有最强的表达能力和完全自由的r d f 语法的用户。不太可能有推理软件能支持对o w lf u l l 的所有成分的完全推理。在表达能力和推理能力上，每个子语言都是前面的语言的扩展。这三种子语言之间有如下关系成立，但这些关系反过来并不成立。 i 每个合法的o w ll i t e 本体都是一个合法的o w ld l 本体： 2 每个合法的o w ld l 本体都是一个合法的o w lf u l l 本体； 3 每个有效的o w ll i t e 结论都是个有效的o w ld l 结论；本体间相似度计算及映射方法的研究 4 每个有效的o w l d l 结论都是一个有效的o w lf u l l 结论。使用o w l 的本体开发者要考虑哪个子语言最符合他的要求。选择o w ll i t e 还是o w ld l 主要取决于用户在多大程度上需要o w ld l 提供的表达能力更强的成分；选择o w l d l 还是o w l f u l l 主要取决于用户在多大程度上需要r d fs c h e m a 的元建模( m e t a - m o d e l i n g ) 机制( 如定义关于类的类以及为类赋予属性) ；使用 o w lf u l l 相比于o w ld l ，对推理的支持是更难预测的，因为目前还没有完全的 o w lf u l l 的实现。尽管有很多因素需要考虑以决定该使用它们中的哪一个，但这里有一些最简单的常用原则：对于o w ll i t e 和o w ld l ，考虑o w ll i t e 。提供的那些简单构造子 ( c o n s t r u c t ) 是否足以描述你的本体，若是则使用o w ll i t e ，否则使用o w ld l 。对于o w l d l 和o w l f u l l ，考虑在你的应用中，是自动推

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）本体间相似度计算及映射方法的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）本体间相似度计算及映射方法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档