(计算机软件与理论专业论文)基于web知识的本体语义映射研究.pdf_第1页
(计算机软件与理论专业论文)基于web知识的本体语义映射研究.pdf_第2页
(计算机软件与理论专业论文)基于web知识的本体语义映射研究.pdf_第3页
(计算机软件与理论专业论文)基于web知识的本体语义映射研究.pdf_第4页
(计算机软件与理论专业论文)基于web知识的本体语义映射研究.pdf_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本体是一种重要的知识表示形式,它是共享概念模型的明确的形式化规范说明,并在语义w 曲、知识 工程、软件工程、生物医学信息学和社会化网络等领域中得到广泛应用。然而,本体创建的主观性、分布 性和自治性特点导致大量异构本体的产生,阻碍系统间的语义交互。本体异构成为基于本体的很多应用面 临的挑战之一,本体映射则是解决本体异构的主要手段。 本文提出一种新的基于w 曲知识的本体语义映射方法。现有关注语义映射的本体映射方法大多需要依 靠外部知识库,如w b r n e t 和语料库。考虑到w 曲知识库具有信息量大、不断更新等特点,本文尝试将 w 曲信息作为背景知识库来辅助发现语义映射。首先利用搜索引擎获取w 曲知识,再用基于本体语义的修 正规则对查询w r e b 知识库获得的候选映射集进行处理,最后从无矛盾的候选映射集中提取出语义映射。该 方法是对现有基于传统知识库的本体语义映射方法的一种补充。 本文的工作包括以下几个方面:( 1 ) 解决如何从w 曲获取可用于本体映射的知识的问题。将本体元素 之间的语义关系转化成特定的句法模式,利用搜索引擎从w 曲获取本体元素的句法模式。( 2 ) 解决如何根 据搜索引擎查询结果判断本体元素间是否存在语义关系的问题。将搜索引擎查询的命中数和g o o l g e 距离 相结合,定义出反映元素间语义关系置信度的权值,根据权值判断语义关系是否成立。( 3 ) 解决从w r e b 获得的知识与本体语义不一致的问题。提出基于本体语义的修正规则,应用规则能够消除利用w 曲知识构 建的候选映射集中的矛盾并修正映射权值,得到更加准确、完整的本体映射。( 4 ) 设计出本文所提出的本 体语义映射方法的算法,在e c l i p s e 平台下用j a v a 语言实现该算法并进行实验。实验结果表明,该基于w 曲 知识的本体语义映射方法能有效发现异构本体的概念间语义映射,与同类本体映射方法相比映射效果有所 提高。 关键词:本体、本体映射、本体匹配、语义w 曲 a b s t r a c t 0 n t o l o 幻,i s 锄i i i l p o r t a n tr 嘞f 0 rk n o w l e d g er e p r e s e n t a t i o n ,a n di ti sa ne x p l i c i tr n t l a l i z e ds p e c i f i c a t i o fs h a r e dc o n c e l ) t u a l i z a t i o n i l t o l o g h a sb e 锄w i d e l ya p p l i e di l lm 锄y 丘e l d si n c l u d i n gs e m 锄t i cw e b , i m o w l e d g e 伽g i i l e e r i n g ,s o r w a r ee n g i i l e 丽n g b i o m e d i c a li n f o n n a t i c s ,s o c i a ln e l :w o r ka n dt l l el i k e h o w e v e r , t l l ef e a t u r e so fs u b i e “v i t y ,d i s t r i b u t i v i t ya n da u t 0 咀伽n yi i lo n t o l o p b u i l d i n g 孤et h ec a u s e so fal a r g eq u 锄t i 锣 o fh e t e r 0 皆e n e o u s 伽t o l o g i e s ,w h i c ha r eo b s t a c l e sf o rs e m 锄t i ci 1 1 t e r o p e r 习l t i o nb e t w e 朗s y s t e m s o n t o l o 星 m a p p i l l gi sa 嘶m a r ym e a n st os o l v et t l ep r o b l 锄o fo n t o l o 擘h e t e r o 窖e n e i 够n l a ti so n eo fc h a l l e n g e s c o n 舶n t e di 1 1m 锄yo n t o l o g y - b a s e d 印p l i c 撕o n s an o v e ls e m 锄1 t i co 呲o l o 科m a p p i n gm 础o db a s e do nw e bk n a w l e d 擘r ei sp r o p o s e di nt 1 1 i sn l e s i s i o s to f 廿l ee x i s t m gm e t l l o d sf o rs e m 觚t i co n t o l o g ym a l ) p i l l gm a m l yr e l yo ne 斌e m a ll ( n o w l e d g eb 舔e ss u c h 硒 w o r d n e ta | l dc o r p u s h lc o n s i d e 枷o no ft t l em a s sd a t a 锄dt h er e a l - t i m eu p d a t eo ft h ew e bi 1 1 f o 珊a t i o n ,i ti s t r i e da sab a c k g r o u n dk n o w l e d g eb 嬲et oa u x i l i 撕l yd i s c o v e rm es e m a n t i cm a p p i n gi nt h i s 廿l e s i s f i r s t l y ,m e w e bi m o w l e d 霉r ei so b t a i f l e db y a r c he n g i i l e t h e nas e to fc o r i c t i v em l e sb a s e do no n t o l o 垂s 锄a n t i c s 锄e u s c dt 0c o r r e c t 锄dc o m p l e t e 廿l ec 锄d i d a :t em a p p i l l gs e tw h i c hi sb u i l tt h r o u 曲廿l ei i l q u i wo ft t l ew e b l m o w l e d p r cb a s e f i l l a l l y ,t i l es 啪孤1 t i co n t o l o p ym a p p i n g sa r ee ) ( t r 习l c t e df 硒mt t l ec 锄d i d a t em a p p i n gs e t t h i s m c t h o di sac o m p l e m e n tt 0 廿l es e m a n t i cm a p p i i l gm e n l o d sb a s e do n l e 位l d i t i o n a lh o w l e d g eb a s e t h em a i l lc o n t r i b u t i o n so ft t l i s l e s i sa r el i s t e d 舔f o l l o w s :( 1 ) s o l v e 恤ep r o b l e mo fo b t a i l l i n gm e i i l f o m a t i o na v a i l a b l ef o ro i l t o l o 科m a p p i i l g 丘o mw e b t h es e m a n t i cr e l a t i o n sb e 呐e e no n t o l o g ye l e m e n t s 啪 仃锄s f o r m e di n t ol e 】【i c o - 跚t a c t i cp a n e m sw h i c hc 觚b eo b t a i n e df 硒mw e bb ys e a r c he n g i n e ( 2 ) s o l v et h e p r o b l e mo fd e t e m l i l l i l l gw h e m e rt l l e r ei sas e m 锄t i cr e l a t i o nb e 俩e e no n t o l o g ye l e m e n t sb a s e do n l er e s u l t s 代t u m e db ys e a r c he n g i i l e aw e i g h tw h i c hr e n e c t s l ec o n f i d e n c eo ft h es e m a n t i c 陀l a t i o nb 舐 ,e e ne l e m e n t si s d e f i n e db a s e do nu l eh “sn 啪b e ra 1 1 dg 0 0 9 l e d i s t 锄c e ( 3 ) s o l v et l l ep r o b l e mo fr e m o v i i l gt h ec o n n i c t s b e t w e e nw e bi i l f b 姗a t i o na i l dt l l eo m o l o g ys e m a n t i c s ac o r r e c t i v em l es e tb 雏e do no n t o l o 鼢7s e m a n t i c si s p r o p o s e d t h em l e s 棚eu s e dt oe l i m i i l a t ei l l c o n s i s t e n c i e s 锄da d i u s t l ew e i g h t si nc 锄d i d a 钯m a p p i l l gs e t a r c r m ep r o c e s s i n g0 nc 锄d i d a t em a p p i l l gs 吒h i g l lp r e c i s i o na n dr e c a l l0 n t o l o 斟m 印p i n g sc a i lb eg e n e r a t e d ( 4 ) a c o m p l e t ea l g o r i t l l mf 0 rt i l i so n t o l o p ym a p p i n gm e t h o di sd e s i 鲫e da n dr e a l i z e d w i t l lj a v ai i l 王k l i s p e d e v e l o p m e n te n v 讯) 啪e n t e ) e r i i n e n t a lr e s u l t ss h o w 廿l a tm i sm e t h o dc a na c c o m p l i s h 廿l em a p p i i l gb e t w e e n o n t o l o g i e se 仃e c t i v e l y 觚di ss u p e r i o rt oo t l l e rm e t l l o d s 1 哂啊o r d s :o i l t o l o g y ,o i l t o l o g ym a p p i i l 吕o m o l o 斟m a :t c h i f l g ,s e m a n t i cw e b 东南大学学位论文独创性声明 本人声明所星交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名: 垄翻堑j 导师签名: 研究生签名: 垒翻塑j 导师签名: 第一章绪论 1 1 选题依据 第一章绪论 v v e b 是一种超文本信息系统,具有图形化、易于导航、与平台无关、分布式、动态、交互性等特点, 为人们提供了一种重现、传递和检索海量信息的全新平台,极大改变了人类利用信息的方式。w 曲从诞生 至今,已从单纯浏览网页的、静态的、商业驱动的w 曲1 o 演变到如今强调交互、分享、用户自主的w 曲2 o 。 伴随着w 曲的蓬勃发展,w 曲中的信息量不断增长,成为人类最大的知识库。然而,目前的w 曲应用还 缺乏有效技术来处理和利用w | e b 海量信息,即便是最强大的搜索引擎也只能检索w | e b 信息中的很小一部 分【l j 。为了解决这个问题,以w 曲之父b e m e r s l e e 为代表的一批研究人员提出了下一代w 曲的概念 语义w 曲。语义w 曲是现有w 曲的扩展,信息被赋予定义良好的含义,更便于计算机和人的协刚2 1 ,并 提供了一个通用的框架,允许跨越不同应用程序、企业和团体的边界共享和数据重用【3 】。 语义w 曲通过将w 曲上的数据以一种可被机器理解的方式定义和联系起来,使得计算机不仅仅起到 保存和重现信息的作用,还将更进一步地对信息进行智能处理,从而将w 曲的潜力发挥出来。可见,如何 表示语义信息,并使得数据可被机器理解,是语义w 曲研究中需要解决的关键性问题,这需要通过一种有 效的语义信息模型来解决。本体( o n t 0 1 0 9 ) r ) 正是满足语义w 曲要求的一种描述语义知识的建模手段。它形 式化定义了领域内共同认可的知测4 1 【5 】。在b e m e r s l e e 提出的语义w 曲七层结构中【2 1 ,逻辑层、证明层和 信任层依次构建在本体层之上。本体作为一个独立的层次,在整个语义w 曲体系中起着基础核心的作用。 虽然本体最早是为解决知识表示、信息组织和软件复用中碰到的问题而引入的概念,并非同语义w - e b 一同 诞生,但随着近年来语义w 曲的发展,本体再次引起了国内外众多科研人员的关注,本体的相关理论得到 了进一步完善和发展,并促使本体不仅在语义w 曲领域,还在许多其它领域( 如知识工程、数字图书馆、 自然语言理解、信息检索、生物、医学和软件复用等) 得到了广泛应用1 6 j 。 本体能解决特定应用中的知识共享问题。但是,事实上不可能构建出一个覆盖万事万物的统一本体, 这不仅是因为世界知识的无限性决定构建这样的本体在工程上难以实施,更重要的是由于本体构建所具有 的主观性和分布性特点决定了这种统一本体的构建无法得到一致的认可,此外,过于庞大的本体也往往难 以维护和使用。实际中,不同的用户和团体根据不同的应用需求和应用领域来构建或选择合适的本体。这 样一来,即使在同一个领域内也往往存在着大量的本体。这些本体所描述的内容在语义上往往重叠或关联, 但所使用的本体表示语言和表示模型上却具有差异,这便造成了本体异构。在语义w 曲中,为了获取其它 应用所拥有的信息,或者联合多个应用以实现更强大的功能,不同应用系统之间的信息交互非常普遍和频 繁。然而,如果不同的系统采用的本体是异构的,它们之间的信息交互便无法正常进行。实际的语义w r e b 应用中,本体异构造成了大量的信息交互问题。因此,解决本体异构,消除应用系统间的互操作障碍是很 多语义w 曲应用面临的关键问题之一。 本体映射是解决本体异构问题的有效途径。本体映射建立异构本体之间的联系,从而使异构本体能相 互沟通,实现它们之间的互操作。为了解决本体异构问题,首先需要分析造成本体异构的原因,这是解决 本体异构问题的基础。其次,还需要明确映射针对何种本体成分、需要建立何种功能的映射,以及映射的 复杂程度,这对于选择合适的映射建立方法非常重要。本体映射的核心问题在于映射的生成。目前的各种 本体映射生成工作所使用的技术基本可归结为基于自然语言处理进行术语比较、基于本体结构进行匹配, 以及基于实例的机器学习等几类;不同的技术在效果、效率以及适应的范围上都有不同,综合使用多种方 法或技术往往能提高映射的结果质量。本体映射在应用中具有重要作用,除了实现异构本体的互操作外, 对于管理多个本体,进行本体重用,以及异构数据源之间的查询都具有重要作用。 1 2 国内外研究现状 本体映射最难以解决的问题在于如何有效地发现异构本体间的映射。尽管本体间的映射可以通过手工 建立,但是手工创建本体间的映射非常费时,而且很容易出错【7 1 。因此,目前的研究侧重于开发合理的映 l 东南大学硕士学位论文 射发现方法和工具,采用自动或半自动的方式来建立本体间的映射。从已有的映射方法以及相关的工具来 看,发现本体映射的方法可分为四种【s 】【9 】:基于术语的方法,即借助自然语言处理技术,比较映射对象 之间的相似度,以发现异构本体间的联系。这是最直观的映射方法【1 0 】,这也是大多数映射系统所使用的 基本方法。这类映射发现方法通过计算名称、标签或注释的相似度来寻找映射。基于结构的方法,即分 析异构本体之间结构上的相似,寻找可能的映射规则。这种映射方法又可分为内部结构和外部结构两种。 基于内部结构的方法利用诸如关系的定义域、基数、传递性或对称性来计算元素之间的相似度,基于外部 结构的方法主要依靠使用本体过程中的经验性准则,如直接超类或所有的超类相似:兄弟相似;直接子类 或所有的子类相似;所有或大部分后继( 不一定是子类,可能通过其它关系连接) 相似:所有或大部分的叶 子成分相似;从根节点到当前节点路径上的元素都相似等。基于实例的方法,即借助本体中的实例,利 用机器学习等技术来寻找本体间的映射,常用映射发现中的机器学习算法包括形式化概念分析【1 2 1 、贝叶斯 学习l l3 j 及神经网络【1 4 】等。基于知识库的方法,即利用领域知识库、通用知识库,甚至已有的映射结果来 辅助映射发现,这类方法常将映射发现转化为推理问题,利用已有推理技术得到映射结果。引入知识库可 以弥补映射发现中背景知识不足的缺点。 以上多种映射方法,各有特点,不能简单评价其优劣。其实,每种方法都有其特别适合处理的异构本 体类型。对于不同特点的异构本体,同一种方法所取得的效果是存在差异的。因而在实际的本体映射系统 中往往同时采用了多种映射发现方法,以提高映射结果的质量。目前,在国内外科研人员的努力下,已经 出现了一些( 半) 自动的本体映射方法和工具,如c u p i d n 5 1 、g l u e m 3 、q o m n7 。、o l a n8 。、s m a t c i i n9 。、a s c 0 晗 和p r o m p t 【z ,这些系统和工具都综合采用了多种映射方法,并将它们巧妙结合以取得良好的映射效果。 1 - 3 现存问题分析 本体映射分为概念之间的映射和关系之间的映射两类,概念间的映射语义可解释为等价( e q u a l ) 、同形 异义( d i 腩r e n t ) 、上义( i s a ) 、下义( i n c l u d e ) 、重叠( o v e r l a p ) 、部分( p a n o f ) 、对立( o p p o s e d ) 等;关系间的映 射语义可解释为等价( e q u a l ) 、包含( s u b s 啪e ) 和逆( i n v e r s e ) 等1 2 2 】。上文提到现有本体映射方法都利用了本体 的语义信息、结构信息,甚至领域信息来寻找映射【2 3 1 。但目前大部分本体映射的方法和系统,都是简单地 寻找本体元素之间的等价关系,而未考虑本体元素间的其他关系。现有的本体匹配方法很少做到真正意义 上的语义映射。在实际应用中,很多异构本体间存在的映射并不一定是简单的等价,所以解决异构本体间 的语义映射问题具有现实的必要性。 s m a t c h i l9 】是现有的一个本体语义映射系统。s m a t c h 将本体元素写成s a t 语句的形式,并综合利用 多种匹配器来获得本体标签中原子词汇之间的关系,最后求解s a t 问题来发现本体元素间的映射关系。由 于s a t 是n p 问题,这个映射系统存在着效率上的问题。并且该方法中s a t 求解的基础是对本体元素构建 s a t 语句。如何构建s a t 语句以及构建的s a t 语句是否能较好地反映本体元素的语义,成为制约该方法 映射效果的瓶颈。i l i a d s 【2 4 】方法也能够发现异构本体元素间的等价和上下义关系。该方法首先利用文本匹 配等多种方法获得本体元素间的相似关系,接着将这些关系代入本体中,结合本体中声明的公理,进行逻 辑推理,发现新的关系并对先前用文本匹配等方法获得的元素间关系进行调整,最后获得最终的本体映射 结果。由于只有特定的几种形式的公理能够推出新的映射关系,所以该方法的效果受限于本体固有的公理。 同样,这种方法也存在效率问题,这里的推理同样是,问题。 基于语义的本体映射方法关键在于获得描述本体元素的元数据。目前,用一种有效的方法来提供必要 的元数据的问题仍然没有得到很好的解决【2 5 1 。现有研究已经表明,由于信息量太少,缺乏足够的信息来判 断语义关系,仅仅利用本体内固有的知识来发现是本体映射是不够的。映射过程中如何利用背景知识库还 需要进行深入探讨。在某些领域中,可利用特定的领域知识库来提高映射结果质量。然而,对于大多数映 射应用来说,并不存在专门的知识库可供利用,这种情况下只能使用通用知识库,如w b 竹d n e t 等。但是, 这种传统的知识库存在可扩展性差以及所提供的知识不足的问题。尤其是很多知识库都只针对某个特定领 域,只能为该领域的本体映射提供支持,很多情况下并不能满足各个领域的本体映射。此外,每种知识库 都对查询的方式和查询返回结果的形式做出了限制,这一方面使得知识库提供的结果很精确,但另一方面i 也限制了知识库提供知识的灵活性。而w 曲已经成为目前最大的知识库,其中的知识更新较快,因此可尝 2 第一章绪论 试利用w 曲知识来辅助映射发现,以弥补通用知识库的不足。 国外有研究者认为利用搜索引擎从w 曲获取知识是解决获得描述本体元素的元数据问题的潜在方法 瞄儿卯儿6 1 】。这种方法虽不能完全解决目前语义映射方法中存在的问题,但这是一种很有益的尝试。将w 曲 作为知识库,具有几个优点。首先,w 曲能提供海量的知识,涵盖了各个领域,能够提供极为丰富的知识。 其次,w 曲是在不断更新,不断扩展之中,不是一个固定不变的知识库,具有良好的扩展性。并且,利用 搜索引擎从w 曲获取知识的方式较为灵活。人们既可以利用搜索引擎获取查询输入的匹配数,也可以分析 返回的文本;可以查询标准的词汇,也可以查询短语句子,或者特定的句法模式。虽然作为使用外部知识 库的方法,不可避免地会存在效率不高的问题,但对于某些特定组织,比如g o o g l e 本身,可以进行。正l m 的查询,就不会因为查询而带来过多对效率的影响。 目前,已经有一些工作将w 曲知识应用到本体研究中。p a n k o w 例方法通过w 曲搜索引擎获得特定 的句法模式,从而推得词语之间的语义关系,并利用这些语义关系,进行本体标注和本体概念间i s a 关系 的自动发现。之后,有研究者通过这种方法获得两个异构本体概念间的上下义关系,进而自动生成本体映 射i o l j 。还有的研究当中,使用g 0 0 9 l e 距离度量本体元素之间的相关度,从而帮助建立本体概念间的近似 映射【6 3 1 。这些利用搜索引擎引入w 曲知识的本体映射方法,存在一个共同的问题,即直接根据搜索引擎 来获得本体元素间关系来帮助建立本体映射搜索引擎根据本体元素名称来推得这些元素名称之间的自 然语义关系。但需要注意的是,本体元素名的语义和本体元素的语义不完全等价,所以这些方法对本体元 素本身在本体当中具有的语义考虑不够,导致最终建立本体映射的效果并不十分理想。 1 4 本文主要工作 本文主要研究基于w 曲知识的本体语义映射方法。将w 曲看作大型的知识库,利用搜索引擎,从中 获得有助于建立本体映射关系的信息,给出一个自动建立本体映射的方法,生成符合本体语义,较为准确 的本体映射。本文主要工作如下: 一、将w | e b 作为本体映射的知识库 本体映射中的关系可以包括等价、上下义、覆盖等等。通常把不仅仅考虑等价关系的本体映射称作语 义映射。目前关注语义映射的方法并不多,本体自身信息的有限性使得发现语义映射一般要依靠外部知识, 如w b r d l 呵e t 和语料库。本文研究关注具有等价和上下义关系的语义映射。考虑到w 曲知识库具有信息量 大、不断更新等特点,采用w 曲作为外部知识库引入到本体映射中,替代传统的w 硎n e t 或语料库。 二、从w 曲获得本体元素间语义关系 因为w 曲本身并不是传统意义上的知识库,所以将w 曲作为本体映射外部知识库存在的最大问题是 如何从中获取与本体元素相关的元数据。本文将本体元素之间的语义关系转化成基于句法模式的查询语 句,输入搜索引擎,从w ,e b 获取特定的句法模式。根据搜索引擎对元素名的查询结果,计算出一对本体元 素之间的g o o g l e 距离。将搜索引擎查询句法模式返回的命中数和g o o g l e 距离相结合,定义出代表元素间 语义关系置信度的权值,根据权值判断语义关系是否成立。利用从w 曲获得的本体元素间语义关系,可以 得到一个候选映射集。 三、w r e b 知识的修正 从w r e b 获取的知识并不是精确的,会存在矛盾以及同本体语义不一致的情况。而将其应用到本体映射 时必须考虑本体本身的语义信息。因此,本文基于本体语义,提出一个修正规则集,应用修正规则对通过 搜索引擎从w 曲获得的候选映射进行矛盾消除、权值传播处理后,得到精度更高,更加完整的本体间映射。 四、算法的提出和实现 给出一个完整的本体映射算法,该算法采用迭代的方式进行,每步迭代中都包括了查询w 曲知识库和 w r e b 知识修正两个过程,上一步迭代的结果作为下一步迭代的输入,帮助缩减下一步迭代中需要进行的 w i b 查询数量,提高算法效率。用j a v a 在e c l i p s e 平台下实现了该算法,在o a e l l 给出的异构本体对上进 行实验,并对结果进行分析。实验结果表明,该语义映射方法能有效发现异构本体的概念间语义映射,它 是对现有语义映射方法的一种补充。 3 东南大学硕士学位论文 1 5 本文结构 本文各章内容安排如下: 第一章:绪论部分简要介绍了论文工作的选题背景、国内外研究现状并分析现存问题。 第二章:介绍本体、本体异构、本体映射的概念,给出本体映射的形式化定义。 第三章:提出一个基于w 曲知识的本体语义映射方法。详细介绍了从w 曲获取本体概念上下义关系 的方法和过程。提出了用于调整映射权值以及去除候选映射集中不一致情况的修正规则,并证明了矛盾消 除规则的正确性。利用修改的g s 算法从候选映射集中抽取合适的本体映射。最后为该映射方法设计了一 个迭代算法,并分析了算法复杂度。 第四章:在e c l i s p 平台上用j a v a 语言实现了本文提出的映射方法,并给出了实验结果和结果分析。 第五章:对整个论文研究和实践工作的总结。综述了本文在本体映射研究领域获得的成果,并指出现 有工作的局限性以及有待提高和改进的方面,简单阐述正在进行或将要进行的研究工作。 4 第二章本体映射基础 第二章本体映射基础 本章详细介绍了本体、本体异构的概念,分析了不同的本体异构情况,说明了本体异构给知识共享和 重用带来的困难。在此基础上,指出本体映射是解决本体异构的一种有效方法,并给出了本体映射的形式 化定义。 2 1 本体 本体早在上世纪6 0 年代就为计算机领域所使用,但是对于本体的理解和定义在随后很长一段时间内 一直缺乏统一的看法。第一个让人信服并被广泛应用的本体定义是1 9 9 3 年g m b e r 给出的,即“本体是概 念模型的明确的规范说明”【2 6 】。后来,b o r s t 在此基础上,给出了本体的另外一个定义:“本体是共享概念 模型的形式化规范说明”【5 l 。s t u d e r 等人对上述两个定义进行了深入的研究,他们认为本体是“共享概念 模型的明确的形式化规范说明”【4 】,这个定义包含4 层含义:概念模型、明确、形式化和共享,具体描述 为:( 1 ) 概念模型:指通过抽象客观世界中的现象的相关概念而得到的模型,概念模型表现的含义独立于 具体的环境状态;( 2 ) 明确:概念和概念的约束都有明确的和无歧异的定义;( 3 ) 形式化:本体能通过本 体语言描述,使得计算机可读,并可以被计算机处理;( 4 ) 共享:本体体现的是共同认可的知识,反映的 是相关领域内的公认的概念集。总的来说,本体的目标是捕获相关领域的共有知识,提供对该领域知识的 共同理解,确定该领域内共同认可的术语,并从不同层次的形式化模型上给出这些术语和术语间相互关系 的明确定义。 一个本体通常由一些基本的成分构成,目前还没有一种权威的形式化本体定义,不同研究者针对他们 所要解决的问题背景,提出很多形式化本体定义:二元组【2 7 1 ,三元组【2 8 】【2 9 】,四元组【3 0 j 【3 1 】【3 2 】,五元组【3 3 1 , 六元组【3 4 】,甚至八元组的形式化定义【3 5 】都在使用。p e d 眩等人1 9 9 9 年归纳出的5 个基本的本体建模元语【3 6 】: 类或概念、关系、函数( 一种特殊的关系) 、公理,以及实例或个体,这里根据这5 个建模元语给出本体的 形式化定义。 定义2 1 ( 本体) :本体可定义为一个五元组皑c ,冗,7 t ,z ,疋) ,其中c 是概念的集合:冗是关系的 集合;咒表示概念层次;z 是实例的集合;刀是公理的集合。 对该定义的详细描述如下: 概念:概念也称为类,从语义上讲,它是对现实世界中个体的抽象,表示个体的集合,其定义一般包 括概念的名称,以及对该概念的自然语言描述。 关系:也称为属性。一个关系通常包含定义域嗍动z ) 和值域愀) 两部分,这两部分限定了一个关 系所适用的范围。在本体中,关系的定义域通常是一个概念c i ,而根据值域类型的不同,关系又可分为两 种:当值域是概念时,称这种关系为对象关系( 6 晒枷p ,印p ,i 们,当值域是取值域( 如字符和整数范围等) 时, 称这种关系为数据类型关系( 呦华圮尸却p 均,) 。尽管在具体的领域建模中可使用的关系多种多样,但是那 些具有普遍性的关系更值得关注,例如,表达概念之间部分与整体的艘m 矽关系。概念间之所以有差异正 是由于它们有着不同的属性,才对应着不同的个体集合,因此,将概念的属性集合称为概念的内涵,而它 所对应的个体集合称为概念的外延。 概念层次:日表示概念集合c 上通过话- 口关系构成的概念层次结构,它是& 祥彤鼬勘6 c 矗琊公理的集 合。将概念以层次的方式来划分和组织是人类认识世界的重要方式,在本体定义中将其单独列出是为了突 出概念层次的普遍性和重要性。 实例:实例又称为个体( 觑咖池姗。,是本体中实例的集合。一个实例是现实或抽象世界中唯一的个体, 它对应着本体中的一个或多个概念,有着这些概念描述的属性和具体的属性值;由于现实世界中的个体一 方面可能无法穷尽其数量,另一方面新的个体会不断产生而原有个体也会不断消亡,所以实例相对于其它 组成成分来说是动态的。本体的建模活动中一般不考虑实例或只考虑少数重要的实例,但当本体和实际应 用相结合的时候,需要将特定领域内的个体作为实例添加进来,这个过程称为语义标注。 公理:公理集合z 中的每条公理代表领域知识中的永真断言。例如,声明关系“黝”和“勋础扣砂” 5 东南大学硕士学位论文 是互逆的,声明概念“肋所鲫”和“朋砌”是不相交,等等。o 、l 中主要包含三种类型的公理:概念公理、 属性公理和约束【3 7 】。概念公理除了用于声明概念的存在外,还可以声明概念间的层次( ,d 黔:s “6 c 狮、等 价( d w 加g “ ,口k 吼琊) 和不相交( d w ,:以咖加f 脚矗) 等。由此可见,概念层次实际上是一系列s 扰6 a a 嚣万公理 的集合。属性公理不但能够声明关系间的层次关系,还可以描述关系是否互逆、是否具有对称性和可传递 性等。约束公理则提供了对概念中关系的进一步限制,如通过s d m p 陷乜b 胁m 、训玩,“e 胁坍,册饿c c 耽砌口均,、 历加c 翻咖l 口协,等来约束关系中聊巧弦的取值。 在实际构建本体时,除了遵循本体的定义之外, 还需要采用恰当的方式描述本体。目前,通用的本 体描述语言是o w l l 3 8 】和砒) f ( s ) 【3 9 】【4 0 】。采用本体语 言描述的本体通常以文本形式保存( o 、,r d f 文 件) ,考虑到文本形式缺乏直观性,也可以用图、树 或其它的可视化方法【4 1 1 卜【4 5 1 将本体处理后再呈现给 用户。现有的本体构建工具,如p r o t 6 西【4 6 1 、o n t e d i t 【4 7 1 等都支持本体可视化。用户利用这些工具,可根据 o 、,爪d f 文件产生相对应的可视化本体,也可直 接在可视化界面中构建本体,并自动生成相应的 o w l 对) f 文件。图2 1 是一个用o w l 语言描述的 大学本体片段。图2 2 是对应该本体片段的利用 p r o t i 髦蜘生成的可视化描述。图中的实心方框表示概 念和概念具有的属性,红色方框表示实例,空心箭 头的边表示概念间的继承关系,其它边表示概念间、 实例间以及概念与实例之间的各种关系。 图2 1 本体的o w l 语言描述片段 图2 2 本体的可视化描述片段 6 第二章本体映射基础 2 2 本体异构 本体异构是在人们使用本体时必然会遇到的问题,会给基于本体的知识共享和重用带来困难。本体异 构通常会出现以下几种情况:首先,同一领域中不同组织建立的本体往往是异构的,基于不同本体的系统 间的互操作依然困难:其次,交叉领域中的本体通常是异构的,相互之间的信息交互问题依然没有解决; 最后。由于人类本身知识体系的复杂性和对世界的不同主观看法,建立一个包罗万象的统一本体并不现实。 而在基于本体的应用中,由于获取数据或者为了实现特定的功能,不同系统间常常要进行信息交互,同一 系统也往往要处理来自多个领域的信息。要很好的实现这些应用,就必须解决本体异构的问题。图2 3 给 出了对异构的本体。该对本体选自o a e i 提供的异构本体集合b c h m a r k 。图中左边是本体1 0 1 的片段, 右边是本体2 0 5 的片段。这两个本体都将出版物作为描述对象,并且都采用了o w l 语言,但仍然存在异 构现象。 ,一ir e f e r e n c 卜一i e 啪 1卜謦a c a d e m i c 1 f 日o o k 卜1 黪m a s t e r s t h e s i s 卜一c o m p 缸i o n l 参p h d t h e s i s ;一簟c o n f e r n c m i n u t e s 1f 一”b o o k 2 謦m o n o g r a p h y d c o e c t i o n 穆m o v i e ”修m o n o g r a p h 1 l 舔n o n f o r m 训 _ 1 多p r o c e e d i n g s p 。穆b r o c h u r e 1 i 一i n f o r m a i 卜c o u r s e m 永一纠 o 一b o o k i e 它 卜一穆m a n u s c n p t b l e c t u r e n o t e 暑 lr 一r e f r e n c e g u j d e ;一“纛m a n u a l 1 k 1 ir e p o n :- 謦u n p u b s h e db 够d e v e r a b i 一1 謦m i s c 一- ,t c h n i c 引r e p o 够m o 戗o n p i c 饥阳 1卜ls c t i o n 1。1 p a r t 卜,謦c h a p t e r b ,够a r t i c l e i 謦c o m m u n i c a a o n 卜c h a p t e r 卜e x t r a c t 豢i n b o o k ;豢i n c o m p j 嘲o n ”豢i n c o i i e c t i o n l j o u m a i p a p e r l 一j n p r o c e e d i n g s i 参s t u d e n t r e p o r t 1 l 一一r e p o b ,d o c t o r a l t h e s i s 謦d e i i v e r a b l e i m s c t h e s i s l t e c h r e p o v a 旷i o u 图2 3 异构本体片段 实际上,针对模型之间的异构问题研究早在面向对象建模和数据库建模领域中就已经开展了p j 。模型 间的不匹配是导致异构的根本原因。与这些模型相似,本体之间的不匹配正是造成本体异构的直接原因。 然而,本体远比面向对象模型或数据库模式更为复杂,造成本体异构的不匹配因素更多。尽管本体间的不 匹配形式多种多样,但总的来说,这些不匹配的情形都可被划分为两个层次【5 0 】:第一个层次是语言层上的 不匹配,是指用来描述本体的元语言是不匹配的,其中既包括本体语言的语法和所使用的语言原语上的不 匹配,还包括定义类、关系和公理等本体成分的机制上的不匹配;第二个层次是模型层上的不匹配,是指 由于本体建模方式不同所造成的不匹配,包括不同的建模者对事物的概念化抽象不匹配、对相同概念或关 系的划分方式不匹配,以及对本体成分的解释上的不匹配。明确这些不匹配的因素是解决本体异构问题的 基础。下面分别介绍这两种层次上的本体不匹配。 一、语言层不匹配 在本体发展的过程中出现了多种本体语言。不同的时期都存在着几种流行的本体语言,如早期有 o n t o l i n g u a 和l o o m 等本体语言,近年则有d 心他+ o i l 、r d f ( s ) 和o w l 等。这些本体语言之间往往并不 7 东南大学硕士学位论文 完全兼容。当不同时期构建的本体或同一时期采用不同语言表示的本体进行交互时,首先便面临着由于本 体语言之间的不匹配所造成的异构问题【5 3 1 。这类语言层次上不匹配情形分为语法、逻辑表示、原语的语义 和语言表达能力四类等。 ( 1 ) 语法不匹配 不同的本体语言常采用不同的语法。近年来的本体语言基本采用) m 几的书写格式,而早期的本体语 言则没有固定的格式可言。以如何定义一个概念为例:在r d fs c h e m a 中,定义一个概念可采用 r d f s :c l 雏s r d 御d = ”c l a s s n a m e 诊的形式:在l 0 0 m 中,可采用( d e f c o n c e p tc l a s s n a m 巳) 来定义一个类;而在 o n t 0 1 i n g u a 中,定义一个类则是( d e f i n e c l 雒sc o m p o n e n t ( ? x ) ) 的形式。这种语法上的差异是本体之间 最简单的不匹配之一。一般来说,如果所表示的成分在两种语言中都是存在的,则采用一个简单的重写机 制就足以解决这一类的问题。但是,语法上的不匹配通常不会单独出现,而是与其它语言层上的差异同时 出现。因此,尽量将不同的语言转化为同样的语法格式能方便解决其它本体不匹配问题。 ( 2 ) 逻辑表示不匹配 不同语言的逻辑表示也可能存在着不匹配。例如,为了表示两个类是不相交的,一些语言可能采用明 确的声明,如在o w l 中可表示为: ,而另一些语言则必须借助子类和非算子来完成同样的声明,即采用彳s u b c l 私s o f ( n o t 国,曰 s u b c k s 0 f ( n o t 爿) 来表示同样的结果。这就是说,不同的语言可能采用不同的形式来表示逻辑意义上的等 价结果。这一类的不匹配与本体语言所采用的逻辑表示有关。相对而言,这类不匹配也容易解决,例如, 通过定义从语言三1 逻辑表示到语言厶的逻辑表示的转换规则。 ( 3 ) 原语的语义不匹配 在语言层的另一个不匹配是语言原语的语义。尽管有时不同的语言使用同样名称的原语来进行本体构 建,但它们的语义是有差异的。例如,在o w l l i t e 和o w l d l 语言中,原语“c l 嬲s ”声明的对象只能作 为本体中的概念,而在o w l f u l l 和i d f ( s ) 中,“c 1 a s s ”声明的对象既可以作为类,也可以作为一个实例。 有时,即使两个本体看起来使用同样的语法,但它们的语义是有差别的。例如,在o i l 和r d fs c h e m a 中, 当定义一个关系时往往都需要声明关系的定义域,即 ,但是o i l 将 的声明解释 为其中参数的交,而i m fs c h e m a 则将它解释为这些参数的并。因此,当采用不同语言的本体交互时,需 要注意它们的原语在所表达的意义的差异。 ( 4 ) 语言表达能力不匹配 最后一种语言层的不匹配是指不同本体语言表达能力上的差异。这种不匹配体现在一些本体语言能够 表达的事情在另一些语言中不能表示出来。一些语言支持对资源的列表、集合以及属性上的缺

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论