已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本体映射是解决异构和分布本体之间信息交互的关键技术,基于此,一些本体映射 模型被提出,例如基于粗糙集理论( r o u g hs e tt h e o r y ) 和形式概念分析理论( f o r m a l c o n c e p t a n a l y s i s ( f c a ) ) 的本体映射模型( r f c a 映射模型) 。一般,本体映射模型以 映射的计算效率以及计算结果的准确性作为映射模型的判断标准。因此,设计高效而准 确的映射模型是本体映射的目标之一。本体映射的计算效率除了受到映射方法的影响, 也受到本体规模的影响。随着本体规模的增大,计算量越大,映射效率越低。因此,设 计面向大规模本体,高效而准确的映射模型是本体映射的一个挑战。本体映射所追求的 另一个目标是减少领域专家的参与。通常,本体映射模型以两个本体之间存在映射可能 为前提,或者是在领域专家给定本体的前提下进行映射,然而,对于从语义w e b 中获 得的任意两个本体,如果没有领域专家的参与,我们无法知道这两个本体之间是否存在 映射可能。对于没有映射可能的本体仍进行映射,将会浪费大量的时间在不必要的映射 计算之上。因此,设计能自动判断映射存在性的映射模型将进一步减少领域专家的参与。 本文通过对r f c a 本体映射模型的研究,提出了一种降低r f c a 映射过程中本体规 模的方法,以及一种自动判断本体映射存在可能性的方法,并将该判断方法应用到r f c a 映射模型中。在降低r f c a 映射过程的本体规模方法中,通过形式背景的属性约简理论 降低r f c a 映射过程中的形式背景规模,以减少数据的计算量,提高模型的映射效率。 在判断本体映射存在可能性的方法中,首先对本体映射的存在性问题进行描述,然后利 用w o r d n e t 、本体的属性等对本体之间是否存在映射进行判断,并同时给出参与本体映 射计算的本体相关部分,然后将该判断过程加入r f c a 映射流程。最后,我们给出了结 合映射存在判断的r f c a 属性约简实现过程,进一步说明本系统能够初步判断本体映射 的存在性,减少领域专家的参与,避免不j 必要的计算,以使r f c a 映射模型能够面向大 规模的本体,并提高本体映射的效率。 关键词:本体映射,r f c a ,属性约简,映射存在性 r e s e a r c ho n a p p r o a c h e so fr f c a _ b a s e do n t o l o g ym a p p i n g g u p i n g l i ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d h - e c t c db yp r o f x uj i u y u n a b s t r a c t o n t o l o g ym a p p i n g i sa k e yt e c h n o l o g y t oa c h i e v e i n t e r o p e m b i l i t yb e l m 嘞 h e t e r o g e n e o u sa n dd i s t r i b u t e do n t o l o g i e s s of a r , m a n ye f f o r t sh a v eb e e nc o n d u c t e dt os u g g e s t o n t o l o g ym a p p i n gm o d e l s t h er f c am a p p i n gm o d e li so n eo fp o t e n t i a lt h e m m a p p i n g m e t h o dh a se f f e c to ne f f i c i e n c yo fm a p p i n ga n d a c c u r a c yo fm a p p i n gr e s u l t s ,b u ta l s os c a l eo f o n t o l o g yh a se f f e c to ne f f i c i e n c yo fm a p p i n g , t h el a r g eo fs c a l e ,t h el o w e re f f i c i e n c y r e d u c i n gt h ep a r t i c i p a t i o no fe x p e r ti sa n o t h e ra i mo fm a p p i n g i nt h ee n v i r o n m e n to f s e m a n t i cw e b , i nt h ea b s e n c eo fe x p e r t s , w ed o n th a v ea n yp r i o rk n o w l e d g ea b o u tw h e t h e r t h e r ee x i s tm a p p i n gb e l c 、啪t h et w oo n t o l o g i e sw h i c hc a nb eo b t a i n e dr a n d o m l y f fw e m a p t h eu n c o r r e l a t e do n t o l o g i e s ,w ew o u l dw a s t em o r et i m eo nu n n e c e s s a r yw o r k b a s e d0 1 1t h i si s s u e , am e t h o du s i n ga t t r i b u t er e d u c t i o nt oe n h a n c et h er f c a o n t o l o g y m a p p i n gm e t h o di sp r o p o s e d u s i n ga t t r i b u t er e d u c t i o nt e c h n o l o g y , t h er f c am e t h o dc a l l b ea d a p t a b l et ot h el a r g es c a l eo fo n t o l o g ym a p p i n g a n dw ea l s op r o p o s e dam o d e lo f e x i s t e n c eo fm a p p i n g , a n dp r o p o s eam e t h o dt oj u d g et h ee x i s t e n c eo fm a p p i n ga u t o m a t i c a l l y i nt h ea p p r o a c h , w ed e s c r i b et h em o d e lf r a m eo fe x i s t e n c eo f m a p p i n ga n d w o r d n e ti su s e dt o j u d g et h ee x i s t e n c e w i t ht h ed e c i s i o nm a k i n go fm a p p i n g ,w ew i l ld e c i d ew h i c hp a r to f o n t o l o g yi sw o r t ht om a p p i n ga n dw h i c hi sn o t t h ee x i s t e n c em e t h o dw i l li m p r o v et h e m a p p i n ge f f i c i e n c ya n da v o i dd o i n gu n n e c e s s a r yw o r k l a s t l y , w eu s et h er f c am o d e lw i t h a t t r i b u t er e d u c t i o na n de x i s t e n c ej u d g m e n tt o c o m p l e t ec a l c u l a t i o no fm a p p i n g k e yw o r d s :o n t o l o g ym a p p i n g , r f c a , a t t r i b u t er e d u c t i o n , m a p p i n ge x i s t e n 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本入愿意承担相关法律责任。 学位论文作者签名:血至自 一日期:珂年蝴石e l 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印刷版 和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、借阅和 复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他 复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名: 殛空劐 指导教师签名:名衄 日期:沏罗年年月多e 1 日期) 7 年丘月6 日 中国石油大学( 华东) 硕士学位论文 第一章前言 1 1 研究背景 1 1 1 本体映射 语义网被认为是万维网的下一个发展阶段,并能够使万维网的潜力得以充分发挥。 随着i n t e m e t 信息的爆炸性增长,以及数据库的广泛使用,对语义w e b 技术的需求越来 越紧迫。在语义w e b 的分布式环境中,信息的表示是结构化的,信息的语义通过本体 来描述。随着语义网的发展,本体的数量也越来越多,由于单个本体通常不能充分完成 目标任务,因而必须联合多个本体来完成任务,因此要实现本体之间的信息交流,必须 在多个本体之间建立联系。但是,由于语义w e b 的分布特性,本体之间不可避免存在 本体异构。由于本体的构造一直没有一个统一的规范和标准,所以在同一个领域内会存 在多个本体。这些本体的概念分类可能不同,概念间的关系也可能不同,并且相同的概 念可能用不同的术语来表示。由于各自建立本体的局限性和不同本体之间存在个体丰富 性,异构本体间的语义冲突也就不可避免地存在着。随着本体应用的增多,如何解决异 构本体间的互操作已成为一个棘手的问题。本体映射被适时提出用于解决本体异构问 题。本体映射是发现两个相同领域本体的概念之间的相关性( 映射关系) 的过程,它是 本体问的概念和关系取得一致性的一个规范说明。 随着w w w 的普遍应用,w e b 知识的有效地管理和重用是非常重要的。虽然本体 的发展给互联网中的知识提供了通用语义,但是本体仅仅定义了术语以及术语之间的定 义规范。当组织、企业和个人想组合和重用不同的本体时,就不得不面对这样的问题: 如何在已建立的本体上,重用已存在的本体、以及在不同本体之间进行映射,以便在已 存在的和新的领域闾交流时能用通用的接1 :3 、有共同的理解【l 】。这就使得当两个本体 间需要交流和交换信息时,本体之间必须事先达成一致,即需要在本体之间建立映射关 系。例如,在一些电子商务应用中,对于商品的不同分类标准之间的映射是十分必要的。 通常情况下,本体一般可以理解为概念,属性,关系,实例等的集合,其中属性是 某个概念的属性,或者是概念之间的关系属性,关系是概念之问的关系,实例也是概念 的实例。因此从概念定义,关系层次等角度上,通常本体之间所存在的异构冲突有以下 几类【2 】: ( 1 ) 不同的概念分层,造成结构上的冲突; ( 2 ) 同一类型信息的命名不同( 同义异音) 或者不同类型信息的命名相同( 同音异义) ; ( 3 ) 同一数据的表示不同,造成数据冲突。这些不一致一直是本体间互操作的主要 1 第一章前言 障碍。 本体之间的不匹配一般来讲可以分为类别或集合层不匹配、关系不匹配和定义不匹 配。 ( 1 ) 类别或集合层不匹配是指相同的实体被分在不同的子类中,或相同的实体被定 义在不同的层次上。 ( 2 ) 关系不匹配是指不同的关系( 或属性) 被分配到相同的概念中,或者一个属性用同 一个术语表示但属性的类型却不同。 ( 3 ) 定义不匹配主要是指相同的概念用不同的术语来表示,或者同一个术语表示不 同的概念。对于某个领域中的多个本体,概念a 在一个本体中被分成许多子类,而在另 一个本体中相同的概念a 可能却不包含任何子类。 因此,本体映射工作主要集中在概念间的相似度计算( 包括概念的结构、层次关系 等) 。在本体映射的过程中,核心内容就是计算两个概念间的相似度,当其相似度大于 某个阀值时就认为这两个概念间存在一定的映射关系。 目前,对于本体映射比较统一的认识是【3 】:“假设两个本体a 和b ,用一种方式来映 射本体a 中的每个概念( 节点) ,使其能在本体b 中找到相应的相同或类似的概念( 节点) , 反之亦然一。m a t ee h r i g 等人给出了一个形式化的本体映射函数: m a p :o i i 专o 晓 m a p ( e i l j l ) = e 纰,如果s i n i ( c i l j l ,e 翠) t ,就用t 作为实体e i l j 。映射到e 澉的起点: 它们在语义上是完全相等的,每个e ;。j ,最多映射成一个实体e i 2 j 2 。 1 1 2 本体映射模型及框架 从本体映射策略的角度来说,通常有以下几种【l 】: o n e - - o n e 的方法,为每一个本体提供一组转换函数使得它在没有中介本体的情 况下直接跟其它本体交流。即比较两个本体0 ,、0 :中的实体,如果发现本体0 1 中的某 个实体a 与本体0 2 中的实体b 所蕴涵的意义相同,就可以认为在本体o 。和0 :间建立了 映射。这个方法的问题是计算的复杂度,例如蝴的提出的问询处理方法f 4 j 。 一个共享本体的方法。即在多个本体中选出一个共享本体,作为其它本体交流 的中介,以实现本体的重用。共享一个本体的方法的缺点和任何标准样f 5 1 。即各个本 体必须达成一致,限制了共享本体的选择。 本体聚类的方法,由于资源的相似性而聚类。本体簇可以按层次进行组织【6 】。 2 中国石油大学( 华东) 硕士学位论文 如图1 - 1 所示,本体映射模型可以分为模式映射方法、实例映射方法和组合映射方法等。 蚍宅勰跣触班嗽 l t 幺;、l 干实冀的方法蠢:l 、基觅 尹1 住弋黔跣箩弋 置黼千施琴鬟 :缸舞畚自巍奢 | 铷姐奢 小企小小仓 毫辣糖彀捡赛壁梧霉链 霭矗11 l 意诖麓羹售惠 i 誊蠢链棒 图1 - 1 本体映射模型的分类 f 毽l lt h ec l a s s i f g a t i c ma b o u to a t o i o g ym a p p i n gm o d e l 随着本体映射工作的进展,一些本体映射工程都已经实现并在相关的文献中有阐 述,例如l n f o s l e u t h 的参考本体【8 】,支持由小的基本本体组成复杂的本体,因此一个小 的本体可以在多个领域本体中应用;m i t r a ,w i e d e r h o l d & k e r s t e n 使用本体代数中集合 的运算,通过关联本体实现本体间的互操作【9 】;a i f b 的本体学习小组利用形式概念分 析理论讨论本体的合并维护等。 m a f r a 为k a r l s c n d l e 大学的k a n o 工程中的映射框架。该框架包含了整个映射过程: 映射的发现、表达和执行。根据该框架,( 本体映射方法研究) 一个本体映射的过程应当 包含如下几个部分f l o 】: ( 1 ) 范化:这一步把待映射的本体用同一语言表示,弗同一种语言的知识才能共享 , 在进行映射前应该规范本体的表示,把所有的数据映射到同一表示水平,解决语法、结 构、语言的异构。 ( 2 ) 相似度的计算:计算概念之间的语义相似度。其实,概念问的相似度很难计算, 针对不同领域的本体有各自适用的计算方法。 ( 3 ) 根据概念间的相似度,按照一定策略确定映射关系。 ( 4 ) 根据领域约束领域专家对映射结果进行修正。 一个完全自动化的本体映射过程应该没有人工的参与,系统可以完成整个映射过 程。即在上面的第( 4 ) 中,系统可以通过机器学习或别的技术实现对结果的自动修正和完 3 第一章前言 善。这也是目前本体映射研究的难点和焦点。 1 2 问题陈述 1 2 1 本体映射存在的问题 本体映射作为解决分布和异构本体之间信息交流的关键技术,目前已经存在多种方 法。一般的,本体映射模型以映射的计算效率以及计算结果的准确性作为映射模型的判 断标准。比如p a n 1 1 ,s t o i l o s 1 2 ,e u z e n a t 1 3 等都提出了不同的映射方法,虽然这些方法 能获取本体概念之间的等价关系,然而一些其它关系( 如层次关系等) 没有被提取出来 f a n 1 4 提出了一种利用形式概念分析进行本体相似度衡量的方法,除了提取出本体概念 之间的等价关系以外,进一步提取了本体概念之间的层次关系利用概念格表示本体模 型并且进行本体相似度的衡量是非常有效的但是由于本体表现方式的多样性,利用格 结构所提取的本体信息依然是不全面的r f c a 模型【1 5 】在利用形式概念分析理论的基础 上,通过引进粗糙集理论,建立概念格结构,有效解决了粗糙概念之间的相似度计算问 题。因此,设计高效而准确的映射模型仍是本体映射的目标之一。本体映射的计算效率 除了受映射方法的影响,也受到本体规模的影响,例如,在r f c a 映射模型中,随着本 体规模的增大,映射计算量越大,映射效率越低。因此,迸一步设计面向大规模本体的, 高效而准确的映射模型是本体映射的一个挑战。 本体映射所追求的另一个目标是减少领域专家的参与。通常,本体映射模型以两个 本体之间存在映射可能为前提,或者是在领域专家给定本体的前提下进行映射,然而, 对于从语义w e b 中获得的任意两个本体,如果没有领域专家的参与,我们无法知道这 两个本体之间是否存在映射可能。对于没有映射可能的本体仍进行映射,将会浪费大量 的时间在不必要的映射计算之上。 因此,要实现本体之间更加准确,高效率的自动化的映射,必须寻求更加完善的映 射方法。 1 2 2 解决的思路 利用格结构进行本体映射的模型发展,使得人们可以得到更加准确的本体映射信 息,日益完善的本体映射技术使得人们可以方便的重用语义w e b 中已存在的大量本体。 r f c a 模型 i s 】有效解决了粗糙概念之间的相似度计算问题,但受本体规模的限制,使 其效率降低。因此,本文通过对r f c a 本体映射模型的研究,对如何降低映射过程中的 数据规模,以及如何判断映射存在的可能性,以便提高映射效率和减少领域专家的参与 罩 中国石油大学( 华东) 硕士学位论文 的问题上,解决思路主要有以下两个方面: 厂1 ) 根据本体的概念、属性结构,利用形式概念分析理论中的属性约简技术,在 l 保持原有本体结构的前提下,约简不必要的用于描述本体的本体属性,以便减少r f c a 映射模型的中间数据,改善其映射效率。 2 )进一步分析本体之间的映射存在问题,并利用对映射存在性的判断,能初步 减少专家的参与,并对中间数据做分块处理,利用矩阵分块思想,使得模型的中间数据 的处理规模变小,以便设计更高映射效率的映射模型。 1 3 主要工作 本论文中,为了设计更高效率的本体映射模型,我们分析了本体映射模型的特 点,以及粗糙集和形式概念分析在本体映射中的应用;提出了利用属性约简理论对粗糙 形式概念分析模型的中间数据进行属性约简,并进一步给出了判断本体映射存在的初步 方法,使粗糙形式概念分析模型的中间数据能够分块进行映射,以获得更高的映射效率。 1 4 论文的结构 第二章,主要介绍了本体映射模型,以及基于粗糙集和形式概念分析理论的本体映 射模型的国内外相关研究现状; 第三章,给出了基于属性约简理论的粗糙形式概念本体映射模型; 第四章,进一步阐述了基于本体映射存在性的分块粗糙形式概念本体映射模型: 第五章,通过j a v a 编制了一个原型系统对论文中提出的方法进行了实现,并对试验 中产生的结果进行了合法性验证,提供了验证结果; 第六章,总结了本论文的贡献,指出了现有工作的局限性,有待改进的方面。 第二章国内外研究现状 第二章国内外研究现状 本体映射作为解决异构和分布本体之间信息交互的关键技术,一些本体映射模型已 经被提出,例如,r f c a 映射模型就是其中之一。在本章中,我们首先介绍本体映射模 型的分类,并描述其研究现状,然后再详细介绍作为其中之一的r f c a 映射模型的研究 发展现状。 2 1 本体映射模型 根据e r a h m 提出的分类体系,本体映射模型可以分为模式元素映射模型、实例映 射模型、结构映射模型、规则映射模型、混合映射模型。 2 1 1 元素映射模型 基于元素的方法只考虑模式信息,而不考虑实例数据以及结构信息。元素信息包括 本体模式元素的一般属性,如名称,描述,数据类型,关系类型q a 出弋) f ,i s - a 等) ,约 束等等。一般地,一个匹配算法会找到多个候选结果,每个候选结果都有一个介于0 到 1 的数值表示它的相似程度。 元素级匹配考虑的是本体中的单个概念、属性或关系,而不考虑这些逻辑概念之间 的联系f 1 6 】。也就是说,它在匹配父概念时,并不会去考虑其子概念或与其它概念之间 的关系。 在元素级匹配的前提下,根据匹配考虑的原则,是基于语言( 如名称和描述文本) , 还是基于基本的约束信息( 如数据类型、取值范围、唯一性、可选性、关系类型和可选 值等) ,又可将元素级匹配分为语言学方法和基于约束的方法。 语言学方法 基于语言的方法中最常用的信息是元素名称。名称相似通常要求两个名称来自于同 一个x m l 的名字空间这保证了这两个名字拥有相同的语义。度量名称相似的标准有很 多【1 7 】,如等价关系,同义关系,上义关系( h y p c r n y m ,若y 属于x ,则x 是y 的上义 词,如,“出版物一是“论文一的上义词) ,以及编辑距离( e d i td i s t a a c e ) ,词语的发音等。 为了发现这些关系,通常都要用到词典。在这方面,自然语言词典是很有帮助的。在具 体应用领域中,领域相关的词典由于含有领域知识( 常用的专业词汇,简写等) ,因而具 有特别重要的价值。 其中,编辑距离( e d i td i s t a n c e ) 算法用来比较两个概念名的字符串,e d i td i s t a n c e 又 称l e v e n s h t e i nd i s t a n c e 。由l e v e n s h t e i n 在1 9 6 6 年提出,用来比较两个字符串( 后来扩展到 中国石油大学( 华东) 硕士学位论文 语句) 的相似度。e d i td i s t a n c e 为转换字符串( 包括字符的插入、删除、替换及相邻字符的 调换) 所需的最小数目的单元编辑操作。 文献【1 8 】中提出了一种简单的统计的方法来匹配两个本体,该方法适于按关系组织 的本体。两个结点间的基距离( b a s i cd i s t a n c e ) 定义为; d i s t ( n l ,n2 ;1 一旦 n i 十n2 其中,n t ,n 2 分别表示节点n ,在本体0 ,中的个数,节点m 在本体0 2 中的个数,m 为其中重叠的词的个数。 在利用词典比较名称相似度的方法中,要发现同义词( 如c 盯等同于a u t o m o b i l e , m a k e 等同于b r a n d ) ,超同义词( 例如b o o ki s - ap u b l i c a t i o n ,a r t i c l ei s - ap u b l i c a t i o n 则意味 着b o o k 匹配p u b l i c a t i o n ,a r t i c l e 匹配p u b l i c a t i o n 并且b o o k 匹配a r t i c l e 17 ) 等需要利用 词典。对于词典的方法,自然语言中的一词多义现象会极大地干扰名称匹配的过程。为 了减少由此产生的误配情况,需要由人或词典提供失配信息。引入上下文内容,有助于 在算法中自动利用失配信息。 其他名称相似比较方法还有 1 7 1 :名称有相同的子串发音相同根据发音而不是拼写 比较两个名称的相似度( 例如r e p r e s e m b y 匹配r e p r e s e n t a t i v e ,s h i p t o 匹配s h i p 2 ) ,用户 定义的名称匹配( 例如r e p o r t t o 匹配m m m g e r , i s s u e 匹配b u g ) 。 本体中用一些自然语言的描述来解释元素的语义,这些描述也可以用来衡量元素间 的相似度。最简单的方法就是从这些描述文字中抽取出关键词,然后向名称匹配一样来 进行同义词比较,更复杂一些可以利用自然语言理解技术来寻找这些描述文本的语义上 的相似性。 基于约束的方法 本体模式中包含的约束信息【1 6 】,有数据类型、取值范围、唯一性、可选性、关系 类型和可选值等。如果要比较的双方都有这样的约束信息,就可以它为根据来决定模式 元素的相似性。如果仅使用约束信息进行匹配,得到的往往是1 1 :m 的匹配结果。具有 相同约束条件的元素可能有好几个,例如,有好几个元素都是咖类型。为了进一步 区分这些元素,可以和其它的匹配方法( 如名称匹配) 结合起来使用。 一些结构信息也可以认为是约束信息,如整体与部分的关系( p a 玲1 0 。这些信息告 诉我们哪些元素属于同一个更高级别的元素,这个过程可以在多级结构上传递地进行。 这些约束信息也可以看作是结构信息,用结构匹配方法来判定相似性。这样的匹配既考 7 第二章国内外研究现状 虑了拓扑结构,也考虑了不同的元素类型和可能的不同类型的结构连接。 基于元素级的综合方法 是指在映射时参考了本体中概念的名称、描述、关系、约束等等模式信息。如 m a m r e ar o d r i g u c - z 和m a xj e g c n h o f c r 提出了一种利用概念定义计算概念间相似度的 方法 1 9 1 ,其基本思想是,本体中概念由3 个部分组成( 1 ) 表示概念的同义词集( 2 ) 概念的 语义关系集( 3 ) 刻画概念的特征集,对这3 个部分相应进行匹配比较来自不同本体的概 念。得到3 个相似度值s w , s u , s n , 然后3 个值加权平均得到两个概念的语义相似度,进 而确定他们间的映射关系。 这样,一对概念的相似度满足: s ( a p9 b 9 ) = w w s 坤( 口,b 口) + w 。s 。( 口p ,b g ) + w 。j 。( 口,b 9 ) 其中,m ,分别表示3 个部分s 。& 在语义相似度中所占的权重, w 玎0 且+ 也+ = l 2 1 。2 结构映射模型 是指在映射时参考了概念问的层次结构 1 6 1 ,如结点关系( 父结点、子结点、孙子结 点) 、语义邻居关系等等,或者构造其他结构进行映射。由于结点的层次关系中蕴涵了 大量的潜在语义,在很多的映射方法中都利用了这一点。 概念之间的语义关系有多种 1 0 1 ,其中最常见的是:i 卜_ a 关系以及部分与整体的关 系p a r t m w h o l e 。这些语义关系可以用语义邻居( s e m a n t i cn c i g h b o u r h o o d ) 来表示,以该概 念为中心向周围辐射,设定一个语义半径r ,r 的取值大小反映在这个范围里概念之间的 亲疏关系。文献 1 8 l 认为对于一个分类而言,其层次结构很重要,该文所述的映射方法 中除了结点本身外还参考了其父结点、孩子结点,孙子结点这样结点间的距离满足: d ( n l ,n 2 ) = c p a 枷d i s t p a 删( l ,n 2 ) + c 删d i s t u , , e ( l ,2 ) + c 删d i s t c h d d ( n l ,n 2 ) + c 鲫埘如f 删( 1 ,2 ) 其中c 。”w + c ” + c “湖+ c 舯埘4 = l , 文献 t 8 以w o r d n e t 和e d r 为参考本体,按父、自身、孩子、孙子结点的距离的比 例系数的不同进行了8 组实验,实验表明孙子结点的影响微乎其微,但是父结点和子结 点在层次结构中占有重要位置,进行本体映射时,父结点和子结点的信息不可忽略。 本体模式的结构是基于一些包容关系的分级结构。在执行基于结构的匹配时,我们 既可以从上到下,也可以从下到上地遍历整个模式结构。比较起来,从上到下的算法花 8 中国石油大学( 华东) 硕士学位论文 费的代价较小,因为一开始所要比较的对象比较少,以后的比较也只要用到前面的比较 结果。然而,从实际来看,高层元素的差别是很大的,而底层元素则比较相似。这样的 话,从上到下的遍历更有可能得到错误的结果。相反,如果从下到上的遍历,即使中阃 层和高层结构差别很大,仍然能得到较好的匹配结果。 在其他结构级方法中,通过构造某种结构进行映射。在文献 2 0 l 的映射方法中,一 个块结构就是一个实体集。例如,在本体o l 中,有三个实体zm o n t h ,d a y ,y e a r , 0 2 中有实体d a t e ,则o l 中的块为m o n t h ,d a y ,y e a r ,0 2 中的块为d a t e 。该方法将通常的实 例或关系、概念之间的l :l 映射看作块映射的特例。该映射方法包括块匹配和分块质 量两部分。要求分块的标准为:块内聚集度高,块间耦合度小。该方法首先,从输入本 体的描述信息和相邻信息中提取带权的单词给每个块构造虚拟文档。再通过计算虚拟文 档的相似性建立两个块之闯的相关性。然后利用层次二分算法递归地将不相关或不相似 的块分成不相交的块,构造出一个系统树图,最后提取出最优块映射。 2 1 3 实例级映射模型 实例级方法由于利用了数据实例的信息,因而和模式级方法互为补充【1 6 】。它既可 以和模式级方法一起使用,互相验证,也可以单独使用。从实例数据中提取出模式元素 特征的方法很多,如规则,神经网络,机器学习等。一般的实例级方法寻找的是模式元 素之阔的匹配关系,要找到模式元素组合或结构的匹配就需要比较这些元素组合的数据 实例。这样做要遇到的主要问题是模式元素的可能组合空间是极其巨大的。如果不加限 制,这样的任务是根本不可能完成的。 基予实例的相似度的计算常利用一定量的实例在两个概念中出现的联合分布概率 来计算两个概念的相似度。 大部分前面介绍的基于模式的映射方法都可以用在基于实例的映射方法上,基于实 例的映射方法有两种应用方式【1 7 】,第一种是用来提升模式映射的性能。例如基于约束 的映射方法可以根据元素的数据类型来进行映射,同时可以根据对应的实例的取值范围 或者均值以及字符串模式来增加映射的准确率。另外一种是单独使用基予实例的方法, 将一方本体元素的每个实例同男一方本体每个元素的每个实例进行相似度比较,综合每 个实例的相似度得到该元素同另外元素的匹配程度,从中选取最佳的匹配候选。有很多 种方法可以实现这种新实例间的匹配或者分类,如神经网络以及机器学习方法等。 9 第二章国内外研究现状 2 1 4 规则映射模型 基于规则的方法,是指在本体映射中定义了一些启发式规则【l o 】,如“如果这两个 概念的子概念都相同,那么这两个概念是相似的一等等。这些启发式规则是由领域专家 手工定义的。其实,这些的规则的抽取来自于概念的定义和结构信息。 在k a r l s n 妇的s w a p 中【2 l 】,利用规则进行本体映射。首先由领域专家编码相似 规则,即一些启发式规则,对于一对实体e i i i l ,铀2 根据每条规则计算得到一个相似值 s i r e 。( e 晒,e ) 然后用集成的方法把根据各个规则得到的相似度进行综合。确定每个规则 的相似度的权重的方法有s 型函数法和基于神经网络的机器学习法。这样我们可以根据 下面的公式计算得到一对实体俩i j l ,e 雄) 的相似度: s i r e i ( e l l j l p i 2 j 2 ) = ew 七s i r e 量( 气 ,2 b 办) t = l 2 1 5 混合映射模型 每种匹配方法利用不同的信息,对于一个给定的匹配任务,各有不同的适应性和价 值。因而,组合使用几种方法比单单采用一种方法会产生更好的结果。组合的方式有两 种【1 6 】:混合方式集成了多种标准,复合方式则合并各个独立执行的匹配方法的结果。 组合多种匹配方法也为同时进行评估提供了可能。在文献f 2 2 】中利用本体中的元素,结 构,实例,规则等信息作为参考策略,实现多策略的映射发现、多策略映射结果的合并 以及映射发现机制,将本体映射问题形式化为风险决策问题,将最优映射的发现问题转 换成风险最小化问题。在文献【2 3 1 中,提出从不同角度表达本体,通过组合这些不同的 角度进行映射。并多角度描述本体的概念中引入上下文分析,确定映射发生的范围。 2 2 粗糙形式概念本体映射模型( r f c a 映射模型) t r f c a 映射模型是一种结合本体特征和结构的混合映射模型,l 谭c a 映射模型是一 种结合粗糙集理论以及形式概念分析理论的映射模型,因此,在介绍r f c a 模型的研究 现状之前,我们首先简单的介绍了该理论的相关知识,然后再介绍r f c a 映射模型的研 究现状。 2 2 1 形式概念分析与粗糙集概述 利用格结构进行本体映射的模型使得人们可以得到更加准确的本体映射信息,在格 结构映射模型的发展过程中,主要利用了形式概念分析理论和粗糙集理论。下面分别做 介绍。 i o 中国石油大学( 华东) 硕士学位论文 2 2 1 1 形式概念分析概述 形式概念分析理论【2 4 】( f o r m a lc o n c e p t a n a l y s i s ,f c a ) 是德国的i l w i l l e 等在1 9 8 2 年提出,又叫概念格理论,是一种用数学的形式化语言来反映人形成概念的过程的集合 理论模型,用来研究特定领域可能存在的概念的几何结构、概念格形式。概念格是f c a 中的核心数据结构。概念格由形式概念组成,形式概念由外延和内涵两部分组成。外延 是概念所覆盖的实例,内涵是概念所覆盖的实例的共同特征。它从本质上描述了概念之 问的泛化与特化关系,非常适合于发现数据中潜在的概念。形式概念分析理论利用其相 应的h a s s e 图实现了概念层次的可视化。 随着形式概念理论的发展,形式概念分析已经在数字图书馆、信息检索和知识发现 等方面获得了广泛的应用。 形式概念分析理论在格结构的本体映射模型中,主要涉及到形式背景和概念格的相 关理论。现分别介绍如下。 1 形式背景 定义2 1 一个形式背景( f o r m a lc o n t e x t ) 是一个三元组c 气o ,a ,r ) ,其中0 是对 象的集合,a 是属性的集合,r 是o 和a 之间的一个二元关系,即若对象0 有属性a , 则( o ,a ) e r 。 一个形式背景可以用矩阵的形式来表示,矩阵的每一行表示一个对象,每一列表示 一个属性。若i 行j 列的交叉处有值,则表示对象i 具有属性j 。如表2 1 所示。 表2 1 形式背景表 t a b l e2 - 1t a b l ef o rf o r m a lc o n t e x t 属性 abcd 膨雳 xxx bxxx cxx d xx 定义2 2 在形式背景( o a ,r ) 中的一个形式概念是一个对( e ,i ) ,其中e = i ,i = e , r e = x e a i o e o ,( o ,x ) r ,r = x e o l a e a , ( x , a ) e r 即e 是所有具有属性i 的对象 集合,i 是e 中所有对象都具有的属性的集合。 在形式概念分析理论中,称e 为形式概念( e ,i ) 的外延,i 为形式概念( e ,i ) 第二章国内外研究现状 的内涵。 2 概念格 定义2 3 假定给定形式背景( f o r m a lc o n t e x t ) c 气o a 皿) 。其中o 是对象的集合,a 是属性的集合。r 是o 、a 之间的一个二元关系,则存在唯一的一个偏序集合与之对应, 并且这种偏序集合产生一种格结构。这种由形式背景c 所诱导的格l 就称为是一个概念 格,记为l ( o a ,r ) 。格l 的每个节点是一个序偶( 称为概念) ,记为,的,这里每个 序偶关于关系r 都是完备的。 形式概念分析理论中的概念格依然满足格的定义,即偏序关系中的任意两个概念节 点都有最小上界和最大下界,且概念格存在一个唯一的上确界和唯一的下确界。另外, 概念格可以使用h a s s e 图来图形化的表示。图2 1 为表2 1 形式背景所对应的概念格的 h a s s e 图。 t 协,c ,汹, t 馆 t kc i , 圈2 l 形式背景的l l a n e 图 f 蟾2 - 1h _ 啪啊托a b o u tf o r m a lc o a t e x t 图2 1 中的节点为形式概念节点,每个节点都包括对象以及对象所包含的属性。从 图中,我们可以看到该图符合格结构特点,并且存在格的唯一上确界 a ,b ,c d ,由, 和下确界 由,( b c d ,任意两个概念节点都存在最小上界和最大下界。 2 ,2 1 2 粗糙集 1 9 8 2 年,波兰学者z p a wl a k 提出了粗糙集理论 2 5 1 ,它是一种刻画不完整性和不 确定性的数学工具。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定 空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数 据的划分,每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来( 近似) 刻画。该理论与其他处理不 1 2 中国石油大学( 华东) 硕士学位论文 确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的 任何先验信息。 在粗糙集中,下近似和上近似的概念是两个基本概念。通俗而言,一个集合的下近 似就是包含在这个集合内的等价类的并,上近似是与这个集合相交的等价类的并。 定义2 4 设r 是论域u 上的等价关系,对象集逛u ,( 麟,_ x ) 称为p a w l a k 近似空间 ( u ,r ) 上的一个粗糙近似。其中脚q 陆,脚u 隐做碑,g x ,e x 分 别称为r 的下近似和r 的上近似,若r x _ ) ( ,则称x 为r 粗糙集,否则x 为r 可 定义集。 2 2 2r f c a 映射模型发展过程 目前本体映射工作主要集中在概念间的相似度计算及相应的映射。在映射过程中, 本体映射的核心内容是计算两个概念间的相似度,当其相似度大于某个阀值时就认为这 两个概念问存在一定的映射关系。目前已提出了多种概念相似度计算模型。从广义上可 以将他们分成两组:连续度量空间模型、集合理论匹配模型f 2 6 】。前者是基于概率分布 的,例如s h e p a r d 模型f 2 7 】,后者可以进一步分成【1 5 】:几何( g e o m e t r i c ) 模型、转换 ( t r a n s f o r m a t i o n a l ) 模型、特征( f e a t u r a l ) 模型等。几何模型基于距离来判断概念之间 的相似程度,例如编辑距离。转换模型是通过将一个实体转换为另一个实体所需要的转 换步数来判断概念之间的相似程度。特征模型是考虑实体的公共特征集合的数量来判断 概念之间的相似程度,例如t v e r s k y 的比率模型【2 8 】。这些相似度测量模型,可以是单 策略映射模型,也可以是多策略映射模型。单策略映射模型使用j 蛾a 以系数,c o s i n e 方法等。多策略映射模型是两种或两种以上的相似度测量方法共同决定映射结果的模 型,例如贝叶斯映射模型【2 2 】利用概念实例、名称、属性特征,结构信息等多种相似度 测量决策。近来,形式概念分析理论( f c a ) 和粗糙集理论( r o u g ht h e o r y ) 也被用于 本体映射的过程中。这种运用形式概念分析和粗糙集的模型是一种综合考虑了特征信息 和结构信息的多策略模型,目前,这种模型已成功应用到信息检索,数据挖掘等多方面 领域。 1 t v e r s k y 的比率模型 2 0 0 3 年,t v e r s j , y 提出的比率模型【2 8 】是考虑实体的公共特征集合的数量来判断概 念之间的相似程度。其相似度的计算方法和理论信息的相似度定义 2 9 1 是一致的: 第二章国内外研究现状 s i m ( m n p 塑坚q 型! ( 2 1 ) 烈眦m n 产丽丙而两丽j 市歹丽 “u , 其中,m 和n 是m 和n 的特征集,f 表示特征集上的一个度量函数,( m - n ) 表示 出现在m 中,但不出现在n 中的特征集;( n m ) 表示出现在n 中,但不出现在m 中 的特征集。参数a 、b 用于表示不对称评估。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全残保障保险合同
- 室内设计师考试试卷及答案
- 商业综合体景观设计师考试试卷及答案
- 砌筑工高级技师考试试卷及答案
- 代理权合作协议书
- 临聘后勤人员协议书
- 有关单位开具的常驻协议书
- 健身房客户保密协议书
- 给个人签的入股协议书
- 知识产权价值分配协议
- 实施指南(2025)《AQ 2059-2016磷石膏库安全技术规程》
- GB/T 20118-2025钢丝绳通用技术条件
- 信贷业务担保知识培训课件
- 艾滋病卡波西肉瘤课件
- 防护目镜使用课件
- 初中英语整体单元教学研究报告
- 3.1 世界是普遍联系的 课件 高中政治统编版必修4 哲学与文化
- 人教版高中高二《美术》选择性必修一-为眼睛做导游(建构画面)-教学设计
- 监狱智能管理系统
- 人造板行业政策与安全生产考核试卷
- ICD-9-CM-3手术编码6.0标准版-临床版新版字典库
评论
0/150
提交评论