




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)异构本体间映射方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨t 稗大学硕十学何论文 i iih ii iiiu 摘要 最近几年,本体被广泛的应用在知识共享、融合与集成等领域中。但随 着本体数量爆炸式地增长,不可避免地出现大量描述相同领域的本体各自独 立地发展,对于同一个领域可能存在多个本体,本体间的异构问题突显出来。 如何解决本体间复杂的异构问题,实现不同本体间的沟通。本文以贝叶 斯决策理论和本体的构建理论为基础,从本体映射的角度出发,提出了一种 解决本体间异构问题的方法。 本论文的目标是综合利用本体的各种特征,包括本体中的概念、属性、 实例、关系、上下文结构、描述信息、数据类型等实现异构本体间的映射。 研究的主要内容包括:在分析目前典型本体映射方法的特点及局限性的基础 上,利用相似度矩阵作为映射发现算法的前提条件,提出基于多策略相似度 计算和贝叶斯决策理论的最小代价异构本体映射模型 h o m m c ( h e t e r o g e n e o u so n t o l o g ym a p p i n gb a s eo nm i n i m u mc o s t ) 。详细分析 了映射机制的具体实现步骤及给出相应的算法描述,并与现有的映射方法比 较了优缺点,编程实现了最小代价异构本体映射算法,选取实验对象完成了 算法的测试,证明了本文所提出的基于多策略相似度计算和贝叶斯决策理论 的最小代价异构本体映射算法的可行性,能够有效地完成异构本体映射任务。 本文所提出的基于多策略的相似度计算方法和贝叶斯决策理论的最小代 价异构本体映射模型仍需要一些人工地干预,这是有待解决的问题,同时也 说明本体研究的复杂性。 关键词:异构本体;本体映射;多策略;相似度计算;贝叶斯决策理论 哈尔滨f :稗人学硕士学位论文 i t i i i i i i a b s t r a c t i nr e c e n ty e a r s ,o n t o l o g yh a sb e e nu s e db r o a d l yi nt h ed o m a i no fk n o w l e d g e s h a r e ,m e 唱ea n di n t e g r a t i o n b u tw i t ht h ee x p l o s i v e l yi n c r e a s i n gn u m b e ro f o n t o l o g y , i ti si n e v i t a b l et h a tal a 唱ea m o u n to fo n t o l o g i e sd e s c r i b i n gt h es a m e d o m a i na n ds i m i l a rc o n c e p t sa r ed e v e l o p e di n d e p e n d e n t l ya n dt h e r em a ye x i s t m a n yo n t o l o g i e sf o rt h es a m ed o m a i nw i t hl e a d i n gt ot h eh e t e r o g e n e i t yp r o b l e m h o wt od e a lw i t ht h eh e t e r o g e n e i t yp r o b l e mt or e a l i z et h ec o m m u n i c a t i o n a m o n go n t o l o g i e s t h i st h e s i sp r o p o s e dam e t h o dw h i c hb a s e do nt h eb a y e s i a n a n dt h et h e o r yo fo n t o l o g yc o n s t r u c t i n gi nt h ev i e wo fo n t o l o g ym a p p i n gt ow o r k o nt h eh e t e r o g e n e i t yp r o b l e m t h i st h e s i sf o c u s e so nr e s e a r c ho f e x p l o i t i n g a l lk i n d so fo n t o l o g y c h a r a c t e r i s t i c si n c l u d i n gc o n c e p t s ,a t t r i b u t e s ,i n s t a n c e s ,r e l a t i o n s ,c o n t e x ts t r u c t u r e , d e s c r i p t i o n s a n dd a t a t y p e t or e a l i z et h e m a p p i n g b e t w e e n h e t e r o g e n e o u s o n t o l o g i e s t h em a i nc o n t e n to ft h er e s e a r c hi n c l u d e s :b a s e do na n a l y z i n gt h ek e y p o i n t sa n dl i m i t a t i o n so ft h ec u r r e n tt y p i c a lo n t o l o g ym a p p i n gm e t h o d s ,p r o p o s e d t h em o d e lo fh o m m c ( h e t e r o g e n e o u so n t o l o g ym a p p i n gb a s eo nm i n i m u m c o s t ) w h i c hb a s e do nt h em u l t i p l ep o l i c i e ss i m i l a r i t yc o m p u t a t i o na n db a y e s i a n a n a l y z i n gt h e c o n c r e t es t e p so ft h em e c h a n i s m sa n dc o r r e s p o n d i n ga l g o r i t h m s d e s c r i p t i o ni nd e t a i la n dc o m p a r e dw i t hs o m ec u r r e n tm e t h o d s ,r e a l i z i n gt h e h e t e r o g e n e o u so n t o l o g ym a p p i n gb a s eo nm i n i m u mc o s ta l g o r i t h m si nj a v a p r o g r a m m i n gl a n g u a g ea n dc h o o s i n ge x p e r i m e n te x a m p l et ot e s tt h ef e a s i b i l i t yf o r p r o v i n gt h a to n t o l o g ym a p p i n gm e c h a n i s mo nh o m m c c a ne f f e c t i v ec o m p l e t e t h eh e t e r o g e n e o u so n t o l o g ym a p p i n gt a s k p r o p o s e do n t o l o g ym a p p i n gm e c h a n i s m o nh o m m cs t i l ln e e d st h e i n v o l v e m e n to fd o m a i ne x p e r t s ,w h i c ha s k sf o ra u t o m a t i ce x e c u t i o nt h r o u g h f u r t h e rr e s e a r c ha n dt e l l st h ec o m p l e x i t yo fo n t o l o g yr e s e a r c h k e y w o r d s :o n t o l o g yh e t e r o g e n e i t y ;o n t o l o g ym a p p i n g ;m u l t i p l ep o l i c i e s ; s i m i l a r i t yc o m p u t a t i o n ;b a y e s i a n 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除了文中 己注明引用的内容外,本论文不包含任何其它个人或者集 体已经公开发表的作品成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确的方式注明。本人完全 意识到本声明的法律结果由本人承担。 作者( 签字) :盔茧堑堡 日期:7 u 、,y 年二月z 箩日 哈尔滨t 稃大学硕十学位论文 i n it i i i 第1 章绪论 1 1 引言 本体( o n t o l o g y ) - - 词来源于哲学领域,主要研究物质的性质及其内在关 系。长期以来,人工智能偏重于问题求解技能的研究,在一定程度上忽略了 问题存在的领域。对于问题求解技能的研究,它只考虑相关的领域知识,如 专家系统,只对某一专业领域知识进行处理,而没有涉及到多个领域共享知 识的处理。随着计算机应用需求的不断增强,知识库的应用范围不断扩大, 大规模的知识模型共享、系统集成以及知识重用就显得越来越重要。因此, 在2 0 世纪8 0 年代,科研人员把本体引入人工智能领域,对赋予其新的含义。 最近几年,本体广泛应用在知识表示、知识共享、知识集成、知识重用和知 识管理等领域中。 许多学科的研究都使用本体这个概念,但却存在不完全相同的定义和理 解。本体的定义有许多种,定义之间的侧重点也各不相同,但本体的本质是 对共享概念的一个正规清晰的描述。在计算机领域,本体被定义为共享概念 模型的形式化的规范说明。本体通常包含5 个建模原语:类( c l a s s e s ) 、关系 ( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) $ 1 实例( i n s t a n c e s ) ,用这些建模原语 可以构造和设计一个本体。在构造和设计本体时有相应的设计准则和具体的 构造步骤。 科研人员在人工智能领域引入本体是为了便于进行知识的共享和复用。 目前,本体也应用在智能信息集成、协作信息系统、信息检索、电子商务和 知识管理等领域。由于本体可以描述数据的语义,所以在网络或传统数据库 中的任何数据( 或元数据) 都可以用本体来表示,以使不同的团体可以相互理 解。 本体的应用领域越来越多,但应用的主要目的都是为了知识共享和复用。 由于本体自身的分散特性,不同的用户可以构造不同的本体,所以导致了在 同一个或者重叠的领域产生了许多不同的本体。即使一个小的背景领域也可 能出现许多不同的本体。这些本体i 日j 是异构的,不能进行互操作,刚户之| f l j f l 哈尔滨下程大学硕十学位论文 i ii 也不能相互理解。类似的问题也出现在数据库中。在联合数据库中,单个数 据库或者成组的数据库之间有不同的模式结构,所以在联合数据库的应用中, 存在用户之间不能相互理解的问题。因为本体的构造是一个非常费时费力的 过程,所以一个用户在同一应用领域中同时建立多个不同的本体是不现实的。 在同一领域内,要想实现不同本体间的互操作就必须解决本体间的异构问题。 本体的异构一般可分为结构异构和语义异构。结构异构是指信息的表示 不同,也称为结构冲突。语义异构是指信息的意义不同。为了实现异构本体 间的互操作,一般可采用三种方法:( 1 ) 本体间建立包含关系,目标本体简单 地包含源本体;( 2 ) 本体间建立映射关系;( 3 ) 对本体进行合并,生成一个完整 的公共本体。在这三种方法中,方法( 1 ) 的缺点是源本体的信息只能被复用而 不能被修改。方法( 3 ) 的难度较大,不易实现;方法( 2 ) l l 较合适,所以一般都 用本体的映射来解决本体间的异构问题。 1 2 本体映射的研究现状 随着本体应用领域的增多,如何解决本体间的互操作是一个比较棘手的 问题。本体映射能更好地解决本体异构问题。本体映射确定不同的本体怎样 被映射或被相互关联。它是本体间概念和关系取得一致性的一个规范说明。 现在本体映射经常面对错综复杂的问题,不同的团体组织对“映射”的称谓 也各不相同,如:a l i g n m e n t ,m e r g i n g ,f u s i o n ,i n t e g r a t i o n ,m o r p h i s m ,c o m b i n i n g 本体的集成是本体映射的另一种说法。在一定意义上,本体集成不仅仅包括 本体映射,它还包括本体之间的包含。与本体映射相关的概念还有本体翻译。 它就是把一个本体中的数据集翻译成为另一个本体中的数据集。o n t o m e r g e 就是一个翻译系统心。它翻译d a m l 的数据集成为新的d a m l 数据集,但 这两个数据集在不同的本体中。 目前国外许多著名的大学和实验室都进行了相关研究,并且一些具体的 映射系统和实现方法已经被开发出来。根据研究重点的不同,可将和本体映射 相关的研究分为s c h e m a 映射、基于上层本体的映射、基于相似度的映射、 基于机器学习的映射、基于组合方法的映射以及其它映射研究。 1 s c h e m a 映射 关于s c h e m a 映射川的研究,主要在数据库领域。其主要手段怂定义了全 哈尔滨t 程人学硕十学位论文 局模式,用来描述所有的分布数据。这样数据集成问题就被转变成为分布数 据库模式和全局数据库模式之间的映射问题。然而基于本体的信息互操作和 语义集成问题虽然也是一个知识共享过程,但其过程更加动态。在这种情况 下,这种全局模式的方法开始变得不太恰当。下面介绍了一些相关的系统和 研究工作。 可以说,s c h e m a 映射的研究在目前已经相对比较成熟了,但本体映射与 s c h e m a 映射并不完全相同。首先,数据在s c h e m a 中还没有清晰的语义,而 在本体中提供的是具有清晰语义的形式化表示的数据,在本体映射中可以充 分利用这些形式化的语义信息;其次,s c h e m a 的初衷并不是专门用来实现共 享和可重用的,然而实现可重用和共享却恰恰是本体最基本的任务之一;再 次,本体开发需要在一个越来越分布的环境下完成;最后s c h e m a 映射中的 每一个数据变化对映射结果的影响都必须要被考虑到,而本体中知识表示的 原语更加丰富、复杂,包括反函数、c a r d i n a l i t y 约束、传递属性、类型检查约 束等,这些丰富的原语为本体映射提供了有用信息的同时也给本体映射带来 了不少新的困难。由于以上这些差异的存在,使得本体映射不能简单直接地 利用s c h e m a 映射的方法。尽管有着非常大差异的存在阻碍了s c h e m a 映射方 法在本体映射中的应用,但是许多研究s c h e m a 映射的技术和基本方法还是很 值得借鉴的,在本体映射的研究中同样可以发挥重要的作用。实际上,目前 已经有数量不小的s c h e m a 映射系统正在进行扩展以支持本体映射。 2 基于上层本体的映射方法 目前,许多研究组织已经开始着手研究具有通用性的上层本体( c o m m o n t o p 1 e v e lo n t o l o g y ) ,这些本体描述了最基本的概念,如事件( e v e n t ) 、时间( t i m e ) 、 空问( s p a c e ) 、事物( t h i n g ) 、人物( h u m a n ) 、处理流程( p r o c e s s ) 等h ,其中一些 通用本体已经逐渐成为了领域标准,例如s u m o i 和d o l c e m 。上层本体的 目的建立通用的词汇集,成为领域本体定义的标准和基础。该方法的基本思 想是:首先定义符合行业标准的通用上层本体,然后按照该上层本体的标准 建立各自领域的本体,以上层本体为基础。如此,不同领域本体之间的映射 问题就转变成为了它们和上层本体之| 日j 的关系实现。这种方法的前提是所有 领域本体的建立必须依赖于上层本体,因此该方法的通f h 性很不乐观。 3 基于相似度计算的本体映射 哈尔滨f :程人学硕十学何论文 i i iif 1 1 基于相似度计算的本体映射计算两个元素之间的相似度,映射的发现问 题可以看作搜索相似度最大的两个元素的问题。计算相似度的方法很多,例 如:本文第3 章介绍的计算相似度的六个策略。基于相似度的本体映射方法 的基本思想是:将本体0 1 到0 2 的映射发现问题分解成为o l 中的每一个元素 e i l 搜索其在0 2 中最相似的映射对象e i 2 的问题。这种方法可以获得局部最优 解。一些研究机构和个人扩展了该方法,试图使其能够发现全局最优的映射 关系。例如,m e l n i k 等人提出了s i m i l a r i t yf l o o d i n g 的本体映射算法n 1 。该算 法是一个通用的图匹配算法,首先将两个本体转换成有向图,其中的概念用 点表示,关系用线表示,在计算两个点之间相似度的时候,图中相邻节点之 间的相似度( 能够通过分类关系或者连接关系关联起来的概念称为相邻节点) 也要同时考虑。该映射算法是一个迭代过程,首次计算得到的两个点之间的相 似度被定义为初始相似度,其后的每次迭代计算相似度的时候,都考虑相邻 节点之间的相似度。在多数情况下,基于相似度的映射方法都只能发现局部 最优的映射结果,为了能够发现全局最优映射,必须要面向特定应用建立映 射规则来对其进行扩展。这在很大程度上限制了该方法的普及。 4 基于机器学习的映射 基于机器学习的映射方法将映射问题转换成分类问题,为某个概念选择 最优映射的问题就转换成对其进行分类的问题。分类学习的方法通常利用一 个本体中的信息学习分类模型,然后利用另一个本体中的信息预测其每个元 素可能的映射对象。基于机器学习的本体映射通常利用已有的机器学习方法, 如使用支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 、形式概念分析旧1 ( f o r m a l c o n c e p ta n a l y s i s ,f c a ) 、贝叶斯学习”0 1 ( b a y e sl e a r n i n g ,b l ) 以及神经网络 ( n e u r a ln e t w o r k s ,n n ) 等。d o a n 等人提出了通过分析实例的联合概率分布来 自动发现映射关系的思想,并开发了原型系统g l u e 。g l u e 的基本思想 是基于实例的:两个概念相同的实例越多,它们之间越有可能存在映射关系。 另外还有一些利用机器学习算法发现本体映射的系统,包括a p f e l 川, c a i m a n 3 1 ,o m e n 1 等。以上这些方法的缺点是:都没有充分利用本体中 的所有可用信息,如元素名称、约束信息( 数捌类型和关系等) 及本体结构t - f 文等信息;此外,很少有系统支持n :l 等渺! 射类型。 5 组合映射 4 哈尔滨工程大学硕+ 学位论文 综合利用上面的几种方法,学术界开发了许多发现本体映射的系统和工 具,其中很多系统采用了各种不同的映射方法集成的方式提高映射精度,其 中的一部分系统还提供了用户交互的功能。例如:斯坦福大学知识系统实验 室的c h i m a e r a n 副和a n c h o 卜p r o m p t n 6 1 等。 6 其它本体映射研究 除此之外,国内外还有许多关于本体映射的研究,比如基于语义推理的 映射方法。其核心思想是利用本体的约束或逻辑来验证映射结果,主要方法 包括验证命题可满足性( s a t ) 、验证形式可满足性以及验证描述逻辑。例如, s a t 的方法是将本体映射问题转化成一系列的命题公式,于是映射发现问题 就转换成了验证命题公式合法性的问题n 。为了提高映射精度,一般情况下, 基于语义推理的映射方法需要和其它方法结合使用,首先需要由其它映射方 法发现一些候选映射,然后对候选映射进行验证。 最后,还有二些针对复杂字串函数和数值函数映射发现复杂映射问题研 究和提高映射效率的研究。 1 3 主要研究内容 本文的研究目标是通过本体映射的方式解决多个异构本体相互作用,知 识共享和复用的问题。主要讨论的关键技术和文章的闪光点包括:提出了基 于多策略的相似度计算方法,策略树推理机,基于最小代价的异构本体映射 模型;对所提出的方法和推理机提供了算法。 研究的若干问题简述如下: ( 1 ) 基于多策略的相似度计算方法。本文提出了六个子策略,包括:基于 元素名称的策略,基于实例的策略,基于元素描述信息的策略,基于数据类 型和关系的策略,基于上下文结构的策略和基于属性的策略。每个策略对决 策行为有限影响,子策略之间相互具有影响力。 ( 2 ) 策略树推理机。在前面介绍的六个子策略基础上,策略树推理机决定 了子策略的应用顺序和相互间的影响方式,进一步提出了多策略的合并方法, 得出元素之间的相似度并写入相似度矩阵,为映射发现提供证据。 ( 3 ) 基于最小代价的异构本体映射模型。基于贝叶斯决策理论,本文提出 了本体问映射损失函数和最小代价计算方法,将异构本体映射看作最优决策 5 哈尔滨t 程大号:硕十学何论文 !|ii 的发现问题,提出基于最小代价异构本体映射模型h o m m c ( h e t e r o g e n e o u s o n t o l o g ym a p p i n g b a s eo nm i n i m u mc o s t ) 。 另外,本文还建立了本体映射发现过程模型,用迭代的方式发现和优化 映射发现,并且提供了用户接口。 1 4 论文章节组织 第1 章介绍了课题研究的背景以及问题的产生,给出异构本体映射的必 要性和国内外研究现状,并介绍了本文的工作及论文的安排。 第2 章对本体做了概要的介绍,深入浅出的分析了本体的异构性和目前 的一些解决方案,简单的介绍了本体映射的概念和本体映射在本体异构问题 上的作用,最后定义了本体映射函数。 第3 章介绍了贝叶斯决策理论,提出了本文的核心内容:基于最小代价 的异构本体映射模型,给出了映射发现过程模型。详细介绍了基于多策略的 相似度计算方法和多策略合成方法。设计了映射代价计算方法。 第4 章首先简单的介绍了一下映射发现算法中用于预处理的自然语言处 理和信息抽取平台g a t e ,然后介绍了映射本体的预处理方法,详细说明了策 略树和相似度算法。对映射模型中的相似度矩阵和侯选映射表做了详细解释, 最后给出了映射发现及优化的详细方法。 6 哈尔滨t 程大学硕十学位论文 第2 章本体概述 随着社会的发展和计算机应用需求的不断增强,计算机的发展日新月异, 然而在快速发展的同时也面临着知识表示、信息的组织、软件复用等一些困 难。特别是由于互联网的快速发展,面对信息的海洋,如何组织、管理和维 护海量的信息,并为用户提供有效的服务成为一个难题。随着跨学科研究的 增多,学科之间知识的共享和复用越来越频繁。大规模的知识模型共享、系 统集成以及知识重用也就显得越来越重要。因此,上个世纪八十年代,科研 人员把本体引入人工智能领域。后来,本体这个概念在其它计算机领域也得 到应用。 2 1 本体简介 本体的概念最早来源于亚里士多德( 公元前3 8 4 3 2 2 年) 在形而上学方面 对事物存在本质的研究,后来成为哲学的研究分支引。在哲学中也有本体论, 但本体和本体论是不同的概念。本体论( o n t o l o g y :o 大写) 是研究客观事物存 在的本质。它与认识论( e p i s t e m o l o g y ) 相对应,认识论研究人类知识的本质 和来源。也就是说,本体论研究客观存在,认识论研究主观认知。虽然本体 、论研究“存在”,但不是研究“存在”的本身,而是对“存在”的一种描述、 解释或认识。本体( o n t o l o g y :o 小写) 是形成现象的根本实体( 常与“现象”相 对) ,是指自然界中存在的实体。目前,小写开头的o n t o l o g y 是计算机领域广 泛使用的概念。 近些年来,随着信息技术的发展和互联网的广泛应用,o n t o l o g y 这个词 经常会碰到。目前该词的中文译名较多,如“本体论”、“本体”、“存在论”、 “知识本体”、“概念集”、“本体模型”等。在众多英汉字典中给出的译名都 是“本体论”和“实体论”。但在中文的哲学书刊中o n t o l o g y 般称为“本体 论”。由o n t o l o g y 在计算机领域的定义和使用可以看到,o n t o l o g y 的本质是概 念化。它表达的是概念及概念之间的关系,即术语及术语问关系的表示被称 为o n t o l o g y ,因此将o n t o l o g y 的科技译名定为本体较好。在本文中o n t o l o g y 翻译为“本体”。 7 哈尔滨t 程大学硕十学位论文 ii1i i 本体通过对于概念、术语及其相互关系的规范化描述,刻画出某一领域 的基本知识体系和描述语言。最著名并被引用得最为广泛的定义是在1 9 9 3 年由g r u b e r 提出的,即“本体是对概念化的明确的规范说明” 1 9 o1 9 9 7 年 b o r s t 对g r u b e r 的定义作了改进:“本体是对共享的概念化的形式化的明确的 规范说明”。后来s t u d e r 等人对这两个定义进行了解释。“概念化 是指 在识别出与世界上某些现象相关的概念后,得出关于这些现象的抽象说明; “明确的”意味着概念类型及概念的使用约束都有明确的定义;“形式化 是 指本体应当是机器可读的;“共享的”指本体捕获的是己达成共同认可的知识, 即本体不是个人私有的,而是一个组织所公认的。虽然关于本体的定义有许 多种,但本体的本质是对共享概念的正规清晰的描述。在计算机领域,本体 被定义为共享概念模型的形式化的规范说明。 随着本体应用范围的不断扩大,在实际应用中又产生了一些与本体相关 的概念和术语,如: 本体理论( o n t o l o g i c a lt h e o r y ) :表达本体知识的逻辑理论。它是一种特殊 的知识库,是本体知识赖以存在的介质,主要强调具体的产品。 本体约定( o n t o l o g i c a lc o m m i t m e n t ) :对使用某一本体所定义词汇,并与其 含义保持相一致的承诺他。 本体工程( o n t o l o g i c a le n g i n e e r i n g ) :知识工程的分支,它研究如何用本体 论的原则来构造本体理论他引。 2 2 本体异构性及其解决方法 2 2 1 本体异构性 在分布式环境中,信息的表示是结构化的,本体可以用来描述信息的语 义。随着语义w e b 中信息量的增多,本体的数量也越来越多,并且单个本体 不能充分完成目标任务。因此必须联合多个本体来完成任务。由于本体的构 造一直没有一个统一的规范和标准,所以在同一个领域内会存在多个本体。 这些本体的概念分类可能不同,概念问的关系也可能不同,并且相同的概念 可能用不同的术语来表示。也就是说,这些本体之间存在冲突。它们是不匹 配的,是芹构的。异构的本体之间不能进行互操作。 本体之i 日j 所存在的冲突有以f j l 类: 哈尔滨工稃火学硕十学位论文 - - i |- ( 1 ) 不同的概念分层,造成结构上的冲突; ( 2 ) 同一类型信息的命名不同或者不同类型信息的命名相同; ( 3 ) 同一数据的表示不同,造成数据冲突。这些不一致一直是本体间互操 作的主要障碍。 因此可以看出,本体之间的不匹配一般来讲表现为两个异构问题:元数 据异构和实例异构心引。元数据异构是指本体元数据定义的异构问题,包括结 构冲突和名称冲突。相同本体可能包含不同的语义结构,这就是结构冲突。 另外不同的名字可以用来表示“意义”相同的概念,相同名字在不同本体中 又可以用于表示不同的概念,这就是名称冲突。 图2 1 和图2 2 给出了存在着这两类元数据异构问题的本体。这是两个异 构的课程本体。在本体a 中,概念“f a c u l t y ”具有和本体b 中概念“a c a d e m i c s t a f f 相同的意义,这就是命名冲突中的同义异名问题。同时也存在同名异 义的情况,例如:在本体a 中,“c o u r s e s ”包含了属性:“n a m e ”、“l o c a t i o n 和“t i m e ”,而在本体b 中,“c o u r s e s ”只表示了“n a m e ”。另一方面,两 个本体也包含结构冲突。例如本体a 中的“s t u d e n t ”有两个子类,而本体b 中的“s t u d e n t ”有三个子类。 图2 1 课科本体a 9 自晕自 哈尔滨工稃大学硕十学位论文 图2 2 课程本体b 实例异构主要考虑实例的表示问题,意义相同的实例可能有不同的表示 形式,即实例冲突。例如:同一日期可以表示成“1 9 8 2 3 2 5 ”,也可以表示 “m a r ,2 5 ,1 9 8 2 ”,人名可以表示成“j a c k s o nm i c h a e l ”或者 “m i c h a e l j a c k s o n ,等等。实例异构问题使得在语义集成之前进行实例规 范化成为必需。例如:w i e s m a n 等人就提出基于规则的归一化方法来解决实 例冲突问题1 2 4 1 。 2 2 2 异构问题解决方法 由于本体的构造是一个非常费时费力的过程。因此一个用户为满足自己 的不同需要而建立多个不同的本体是不现实的。同一领域内的不同本体要想 实现互操作就必须解决本体间的异构问题。为了实现异构本体间的互操作, 一般可采用三种方法心引,三种方法的体系结构如图2 3 所示。 1 0 哈尔滨t 程大学硕+ 学位论文 ii li i7 本体包含 公共本体 本体映射 图2 3 处理本体异构问题的方法 ( 1 ) 本体间建立包含关系。目标本体简单地包含源本体,来自源本体的所 有数据概念都能在目标本体中出现。该方法的缺点是信息和概念只能被复用 而不能被修改。 ( 2 ) 本体间建立映射关系。本体映射就是概念层上语义相关的实体根据语 义关系进行转换的过程。通过映射源本体的实体可以转换成目标本体的实体。 ( 3 ) 找一个公共的本体。把多个源数据所对应的本体进行合并,生成一个 完整的公共本体。也就是寻找一个在任何情况下用户都能进行查询的全局本 体。全局本体为具体的语义说明提供了一个共享的词汇表。所有系统或信息 资源所对应的本体都连接到全局本体上,因而它们的语义是一致的。全局本 体可以是许多模块化的子本体的组合。寻找公共本体的方法是建立在紧密联 系的基础上,缺乏足够的灵活性,不能适应大的丌放式环境。如果在环境中 哈尔滨工程1 5 1 大学硕士学何论文 m a ii ii i i i i i i i i i i i i i i i i i 加入新的信息源,全局本体也会发生变化。这种方法的难度较大不易实现。 因此解决本体异构最有效的方法就是本体间进行映射。本体映射的目的 就是找到本体中概念之间的对应关系,并制定出相应的映射规则。 2 3 本体映射简介 本体映射就是重用己存在的本体,通过一定的方法对它们进行展开和组 合,集成不同领域的本体以实现一个更大的信息和知识池从而支持新的交流 和使用。本体映射是本体学习和发展的一个基本任务。本体的发展是为了给 代理之间的交流提供通用语义。当两个代理间需要交流或交换信息时,它们 必须事先达成一致。这就必须在两个本体间实现映射。例如,在b 2 b 的电子 商务应用乜引中,不同分类标准( 如u n s p s c 和e c l s s ) 的映射就变得十分必要。 2 3 1 本体映射 在已建立的本体上,接下来要面对的问题是,怎样重用已存在的本体、 不同本体间怎样进行映射以便在己存在的和新的领域间交流时能使用通用的 接口、得到共同的理解。我们把这一问题统称为“本体集成”。s o f i ap i n t o , g o m e z p e r e z & m a r t i n s ( 1 9 9 9 ) 给出了一个框架心,解释了“本体集成 的概 念。本体集成包括:本体重用、本体合并、本体修正。 本体修j e ( o n t o l o g ya l i g n m e n t ) $ t l 本体合并( o n t o l o g ym e r g i n g ) 是两个不同 的概念,“本体合并,生成了一个新的本体,即为原来本体的合并版本( 两个 本体合为一个) ;对于本体修正而言,两个原来的本体仍存在,只是在它们间 建立起了联系。”不管是那一种,都需要借助本体映射技术。 所谓本体映射,是指在已生成的本体上建立联系,以便双方能使用通用 的接口、对同一事物有共同的理解。映射可以被描述为条件规则、函数、逻 辑或者表和关系的集合,等等。简单的做法是采用一对一的映射:即比较两个 本体0 ,0 2 中的实体,如果发现本体0 1 中的某个实体a 与本体0 2 中的实体 b 所蕴涵的意义相同,就可以认为在本体0 1 和0 2 间建立了映射,记为: m a p0 10 2 ( a ) = b( 2 - 1 ) ( 这罩的实体a ,可以是本体o 中的一个概念c o ,一个关系r 或是一个 实例i 等。) 哈尔滨t 程大学硕十学何论文 具体可分为以下几种: ( 1 ) 类映射:源本体类名和目标本体类名的映射; ( 2 ) 属性映射:源本体一系列属性的值与目标本体一系列属性的值进行映 射,源本体属性名和目标本体属性名的映射; ( 3 ) 关系映射:源本体关系名和目标本体关系名的映射; ( 4 ) 复合映射:复合源本体表达式与复合目标本体表达式之间的映射。 实体a 被映射成的对象b 的数量是受控制的,一般最多只能有一个。 要想在众多的候选映射中选择出合适的映射对,必须全面比较来自不同 本体的实体。一般来说,需要根据本体中实体的特征进行映射标准测试。而 这些特征只能从本体定义的外延和内涵中去提取。鉴于o w l 已被w 3 c 推荐 为语义互联网中本体描述语言的标准。这些可能的特征分类为:标识符j r d f s 原语、o w l 原语、派生特征、综合特征及领域特征等。 下面的例子说明了什么是本体映射。图2 4 中的两个本体0 1 和0 2 描述 了酒类的销售领域。表2 1 给出了这两个本体之间的一种合理映射,在图上 用没有箭头的实线画了出来。由于两个本体中存在不同的描述,因而确定合 理的映射规则是本体准确映射的保证。 类个体子类属性实例映射 口。叫一_ 一 图2 4 本体映射图 哈尔滨: 程人学硕+ 学位论文 表2 1 本体映射表 本体l本体2 度数 特征 1 0 度非烈性的 王朝x 0张三的葡萄酒 2 3 2 本体映射体系结构 处理本体映射问题的基本体系结构有三种心9 1 :单本体结构、多本体结构及 混合结构。 1 单本体体系结构 在单本体体系结构中,一个全局本体( g l o b a lo n t o l o g y ) 为所有的语义规约 ( t h es p e c i f i c a t i o no ft h es e m a n t i c s ) 提供共享的词汇表,所有信息源都关联到这 个全局本体上,如图2 5 所示。全局本体也可以是几个专用本体的组合。这 么做的一个原因是便于模块化,小本体可以成为潜在的大本体的模块。本体 描述形式支持这种组合,如引入其它本体模块。 图2 5 单本体结构 单本体体系适用于所有信息源对领域内知识都有近似一致的理解的情 况。但是,如果其中一个信息源对领域内知识有不一样的理解的时候,如对 知识表示的粒度不一样,那么要想在它们之间找到最小的一致的本体约束就 成了一件非常困难的事。另外,单本体体系不能很好地适应信息源的变化, 1 4 哈尔滨丁稗人学硕十学位论文 i l lr = i i 这样会影响本体对领域概念的准确描述。单本体体系的这些不足之处导致了 多本体体系方法的发展。 2 多本体体系结构 在多本体体系结构中,每个信息都用自己的源本体来表示,如图2 6 所 示。原则上,“源本体”f s o u r c eo n t o l o g y ) 可以是几个其它本体的组合,但这 些不同的“源本体 并不一定拥有一致的词汇表。 图2 6 多本体结构 多本体体系的好处是不需要全局本体所要求的共同的和最小化的本体约 束。各个元本体的发展演化是相互独立的,没有任何依赖性。这种本体结构 能简化本体集成和映射任务,也支持变化,如,添加和去除某些本体。另一 方面,缺少共同的词汇表使比较不同的源本体变得困难。为了解决这个问题, 需要附加一些定义本体间映射的表述形式规约。本体间映射标识了不同源本 体之间语义一致的术语,如,语义上等价的或相似的术语。但在映射过程中 必须考虑到对同一领域知识的不同理解,如,本体概念的不同聚合度和不同 粒度。在实际过程中,这样的本体间映射是非常难定义的。 3 混合体系结构 为了解决单本体和多本体体系结构的这些不足,研究者又提出了混合体 系结构,如图2 7 所示。和多本体体系相似,每个信息源都有自己的源本体。 但为了便于比较各个本地本体( 1 0 c a lo n t o l o g y ) ,所有本体的构建都遵循一个共 享的全局词汇表。共享词汇表包含领域内的基本术语,本地本体用这些术语 的组合来表示更加复杂的语义。有时候,这个共享的词汇表也是一个本体。 1 5 哈尔滨r t 程大学硕十学传论文 ii ii i 图2 7 混合本体结构 混合体系的好处是新信息源的添加非常方便,不需修改。它也提供了对 本体获取和演化的支持。采用共享词汇表表示源本体更易于比较,解决了多 本体体系中存在的问题。但混合体系仍然有不足之处,不能重用现有的本体, 必须从头开发。 总的来说,单本体方法建立在紧密联系的基础上,缺乏足够的灵活性, 不能适应大的开放式的应用环境。一旦加入了新的信息源,常常会导致全局 本体的变化。因而不太适合于大多数本体映射应用环境。而多本体方法和混 合方法更适合于完成本体映射的任务。在这两种情况下,都需要发展一些协 助映射的方法。 2 3 3 现有本体映射方法及其不足 本体映射算法以两个本体作为输入,然后为这两个本体中的各个元素( 概 念、属性或者关系1 建立相应的语义关系。1 。很多现有的本体映射工程都已经 能够实现本体间的映射,用来描述映射结果的方法各不相同,这些在相关的 文献中均有阐述。采用的方法大体上可分为: ( 1 ) o n e o n e ( 单个本体对单个本体) 的方法”1 ,即映射仅发生莉:源本体和 目标本体之i 日j 。该方法要为每一个本体提供一组转换函数使得它召:没有中介 本体的情况下直接跟其它本体交流。这种力。法的问题是计算的复杂度。 ( 2 ) 共享本体的方法。即在多个本体中选出一个共享本体,作为其它本体 哈尔滨:i :科火学硕十学位论文 ii i i i ii1 1 交流的中介,以实现本体的重用。该方法的缺点是各个本体必须达成一致, 限制了共享本体的选择。 ( 3 ) 本体聚类的方法,即将多个本体根据资源的相似性进行聚类。本体簇 可以按层次进行组织。 下面是一些本体映射方法的简单介绍: 1 i n f o s i e u t h 的参考本体 i n f o s l e u t h 2 。( f o w l e re ta l ,1 9 9 9 ) 能够支持由小的组成本体组成复杂本体, 因而一个小的组成本体可以在多个应用领域使用。例如重用的本体包括测量 单元、化学知识、地理元数据等。本体间的映射是一个本体的术语和另一些 本体的相关术语之间的关系。 本体的映射由一个特殊的被称为“资源代理”的类来完成。一个资源代 理封装了本体映射规则集,通过一个基于代理的系统涉及一到多个本体( 参考 本体1 来展现这些信息。所有映射都被封装在一个资源代理中。所有本体通过 o k b c ( o p e nk n o w l e d g eb a s ec o n n e c t i v i t y ) 来表达,并通过一类特殊的被称为 本体代理的类把它们保存在一个o k b cs e r v e r 中。本体代理能为用户( 为查询) 和资源代理( 用于映射) 提供本体描述。 2 k r a f t 的本体聚类 v i s s e r 和t a m m a ( 1 9 9 9 ) 建议用“本体聚类”的概念来集成异构源。州。本 体聚类是基于不同代理所理解的概念相似性,用层次的形式柬表达。本体的 最顶层是应用本体,它是用来描述特定领域的,因而不能重用。应用本体包 括w o r d n e t 概念的一个相关子集。一个新的本体簇就是使用父本体己有概念 而定义一些新概念的孩子本体。概念是用属性和集成关系来描述的,按层次 关系进行组织。 3 斯坦福大学的本体代数 在这一应用中,本体的映射由本体代数1 i 来执行。它包括三个操作符, 即集合交、集合并和集合差。本体代数的目标是提供一种能力来咨询那些存 在大量语义且互斥的知识资源。两个源本体间映射得到的结果本体只有在它 们的上下文中才被假设为一致的,称为关联上下文( j a n n i n k 等,1 9 9 8 ) 。 m i t r a ,w i e d e r h o l d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农产品品牌建设资金申请成功案例汇编与分析报告
- 2025年地热能源供暖区域供暖项目经济效益与社会影响评估报告
- 电子借钱合同协议书范本
- 销售团队代理合同协议书
- 瑜伽员工聘用合同协议书
- 汽车正规的定金合同范本
- 济南买车位出租合同范本
- 鸡场养殖合同协议书范本
- 清运渣土车维修合同范本
- 高州市小区物业合同范本
- 商铺顶棚拆除方案范本
- 英语四六级资料 全国大学英语四六级全部词汇
- 食品、生鲜、日用品、办公用品、商品等采购服务方案(技术标)
- 校长一日工作流程
- 《医院感染与手卫生》课件
- 横纹肌溶解症的护理
- 老旧小区PE管道改造方案
- 《城市轨道交通不间断电源(UPS)整合设计规范》
- 2024年考研英语一阅读理解80篇试题及答案
- 2025高考数学专项复习:马尔科夫链(含答案)
- 《提高利润的78个方法》
评论
0/150
提交评论