(计算机应用技术专业论文)地理本体匹配.pdf_第1页
(计算机应用技术专业论文)地理本体匹配.pdf_第2页
(计算机应用技术专业论文)地理本体匹配.pdf_第3页
(计算机应用技术专业论文)地理本体匹配.pdf_第4页
(计算机应用技术专业论文)地理本体匹配.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)地理本体匹配.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 地理本体匹配 专业名称:计算机应用技术 申请者姓名:谢亦才 导师姓名:李岩 目前,网络地理信息系统发展迅速,但彼此数据和服务共享能力差。学者们 希望借助语义w e b 中的本体等技术来提高共享能力。然而,由于尚未创建本体的 统一方法和理论,导致不同团体或个人创建的地理本体存在异构,需要借助本体 匹配技术解决此问题。由于地理数据具有规模大、涉及领域概念广,以及概念分 类层次明显等特点,通用本体匹配技术用于地理本体时存在时间效率低等不足。 所以,本文致力于提高大规模地理本体匹配的时间效率展开研究。 本文归纳分析了本体匹配技术的研究现状和地理本体的特性,针对现有本体 匹配技术在o a e i ( o n t o l o g ya l i g n m e n te v a l u a t i o ni n i t i a t i v e ,即本体匹配评 估活动) 竞赛应用中所暴露出对大规模本体匹配时,时间效率低等问题,借助 本体分块理论在时间复杂度上的优越性,设计了适用于地理本体匹配的l o d b m 算法,并以该方法为核心构建了地理本体匹配工具( 简称g e o m a t c h ) 。 首先,在l o d b m 算法中调用两个基于语言的相似度算法计算地理本体中各概 念间的相似度,把相似度超过设定阈值的概念集合( 且这些概念在同一子树上) 作为一个语义模块以实现本体分块;再计算两本体中待匹配块的顶层概念的相似 度以确定匹配块。最终,根据语言级和结构级的算法计算两本体对应匹配块内各 概念间的相似度,采用顺序和并行相结合的策略组合各算法所得相似度值,从而 得到两本体间各概念间的最终相似度,确定最终匹配对。 在实现g e o m a t c h 时,以j a v a 语言为主,借助本体处理j e n aa p i 和w o r d n e t 词典查询j w n la p i 。在此系统的基础上,利用国际组织o a e i 提供的标准测试本 体r u s s i a 对本文构建的匹配工具的效果进行了测试,并利用信息检索领域的查 全率、查准率和f - m e a s u r e 测试值对实验数据进行了统计分析。从实验结果来看, g e o m a t c h 工具具有良好的效果。同时特别比较了采用l o d b m 本体分块算法和不 采用l o d b m 算法时的时间效率,发现用l o d b m 算法对地理本体进行分块再匹配在 时间效率上提高了2 0 。 关键词:地理本体匹配,大本体,语义相似度,本体分块 a b s t r a c t g e o g r a p h i co n t o l o g ym a t c h i n g m a j o r :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e :x i ey i c a i s u p e r v i s o r :l iy a n n o w a d a y s ,w e bg e o g r a p h i ci n f o r m a t i o ns y s t e md e v e l o p sr a p i d l y ,b u tt h e y a r e p o o ri nd a t aa n df u n c t i o ns h a r i n g s c h o l a r sa t t e n dt o u s eo n t o l o g yt e c h n o l o g yo f s e m a n t i cw e bt oe n h a n c es h a r i n ga b i l i t y b u t ,b e c a m et h e r ei sn oc r i t e r i o ni no n t o l o g y c r e a t i n g ,s oo n t o l o g i e sc r e a t e db yd i f f e r e n tr e s e a r c hg r o u pa r eh e t e r o g e n e o u s ,a n do n e o ft h ew a y st or e s o l v ei ti so n t o l o g ym a t c h i n g g e o g r a p h yd a t ah a ss o m ef e a t u r e ss u c h a sl a r g es c a l e ,w i d ed o m a i nc o n c e p t sa n dh i e r a r c h i c a lc o n c e p t s ,a n ds h o r t a g eo ft i m e i n e f f i c i e n c yi s o b v i o u sw h e nc o m m o nm a t c h i n gs y s t e mi ne x i s t e n c ea p p l i e do n g e o g r a p h yo n t o l o g y s oia p p l ym y s e l f t or e s e a r c ho ni m p r o v i n gt h et i m ee f f i c i e n c y o nl a r g es c a l eg e o g r a p h yo n t o l o g ym a t c h i n gi nt h i st h e s i s t h i st h e s i ss u m su pr e s e a r c hs t a t u so ft h eo n t o l o g ym a t c h i n gt e c h n o l o g y ,a n d a n a l y z e st h ec h a r a c t e r i s t i c so fg e o g r a p h yo n t o l o g y b e c a u s et h es h o r t a g eo f c u r r e n t m a t c h i n gs y s t e mw a se x p o s e d i no a e i ( o n t o l o g ya l i g n m e n te v a l u a t i o ni n i t i a t i v e ) , s ot h et h e s i sr e c u rt ot h ea d v a n t a g eo ft h eo n t o l o g yd i v i s i o na n db l o c km a p p i n g ,a n d p r e s e n t sl o d b ma l g o r i t h mw h i c hf i tf o rt h eg e o g r a p h yo n t o l o g ym a t c h i n g ,a n d c o n s t r u c tg e o g r a p h yo n t o l o g ym a t c h i n gt o o lw h i c hn a m e dg e o m a t c hb a s e do n l o d b m f i r s t l y ,i no r d e rt oi m p l e m e n tl o d b m ,i ts h o u l dc o m p u t et h es i m i l a r i t yb e t w e e n t h ec o n c e p t sw i t h i na no n t o l o g y ,a n dt h es i m i l a r i t yw h i c ha r em o r et h a nc e r t a i nv a l u e s e tb e f o r e h a n dc l a s s i f i e dt ob eo n es e m a n t i cs e t ,i ft h e ya r ei nac o n c e p tt r e ei nt h e o n t o l o g y ,t h e yc a nb ed i v i d e di n t oab l o c k t h e nw e f i n dt h em a t c h i n gb l o c kb a s e do n i i i t h ec o n c e p tw h i c hi st h er o o tc o n c e p ti nt h et r e e a tl a s t ,i tc o m p u t et h es i m i l a r i t y a c c o r d i n g t ot h el a n g u a g ea n ds t r u c t u r em e a s u r e m e n tt of i n dt h ef i n a l l ym a p p i n g s , i np r o g r a m m i n g ,i tu s e j a v ap r i m a r ya n dj e n aa p ia n dj w n la p i ,u s er u s s i a n o n t o l o g ya se x p e r i m e n to b j e c t ,r e c u rt or e c a l l ,p r e c i s i o na n df m e a s u ew h i c hu s e di n i n f o r m a t i o nr e t r i e v a lt om e a s u r et h ep e r f o r m a n c eo ft h eg e o m a t c h f r o mt h er e s u l to f e x p e r i m e n t ,t h eg e o m a t c hp e r f o r m sw e l l w ea l s oe x p e r i m e n tw i t hl o d b m a l g o r i t h ma n dw i t h o u tl o d b m ,a n dt h er e s u l ts h o wt h a tt h ee f f i c i e n c yo fg e o m a t c h i si m p r o v e d b y2 0 t h a nt h eo n et h a tw i t h o u tl o d b m k e yw o p d ) s z g e o g r a p h i co n t o l o g ym a t c h i n g ,l a r g e - s c a l eo n t o l o g y , s e m a n t i cs i m i l a r i t y , o n t o l o g yp a r t i t i o n 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究: 作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 论文作者签名:汨黝 一1 年月乒日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论:迂属于保密范围,在年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名: 日期: )h 埝猢 月够日 导师签名: 砰,、 砖多 夕阳 日期:肿歹月垆日 地理本体匹配 1 1 研究背景 第一章绪论 万维网( 简称w w w 或w e b ) 是i n t e r n e t 是重要、最广泛的应用之一,用户通 过它可以浏览i n t e r n e t 上的信息资源。在w e b 出现的短短十几年时间里,它所 拥有的信息和用户的增长速度等方面都取得了巨大的成功。 然而,呈指数级增长的海量信息使得来自各领域的用户对信息的查找、访问、 表示,以及维护变得越来越困难。究其原因,w e b 上的信息是以自然语言、图片 等方式罗列出来,采用超文本标记语言( h t m l ) 编写,而计算机只能从格式上进 行处理、验证以及按格式进行信息展现,很少参与信息的知识级别的处理。这使 得用户需要花大量的时间和精力对信息进行辨别,从而提取所需的信息,这不可 避免的使得w e b 上大部分信息得不到有效利用。搜索引擎技术等信息检索技术的 出现大大地缓解这种状况,用户只需要向搜索服务器提交单个或若干个关键字就 能获取一系列网页地址供选择。但由于w w w 描述语言h t m l 的先天不足,基于关 键字的搜索引擎仍面临着高准确率,低召回率等诸多问题n 1 。h t m l 是一种用来描 述可视化w e b 页面的语言,计算机通过对h t m l 脚本的解析能够正确地将信息显 示给用户,但计算机却不关心网页的内容是什么。 其次,现有w e b 由于缺少对信息知识级别的处理,使得很多智能应用不能在 w e b 上实现。特别是目前地理信息系统( g i s ) 得到广泛应用,而g i s 之间又存在 信息“孤岛”的问题。所以通过本体和w e b 技术实现g i s 之间基于语义的集成和互 操作越来越受到重视。由于在地理信息系统( g i s ) 领域人们对世界认知的不同, 导致对同一地理现象观察描述会侧重于对象不同的侧面,从而产生观点上的差 异,形成语义异构。根据人们对同一地理对象的观点的异同将其分为不同地理信 息团体g i c ( g e o s p a t i a li n f o r m a t i o nc o m m u n i t i e s ) ,不同g i c 之间的o n t o l o g y 存在异构,而它们的o n t o l o g y 之间存在着信息和服务交流的需求,就需要借助本 体匹配,实现g i s 之间的基于语义的集成和互操作。 地理本体匹配 1 2 语义网相关研究 为此,w e b 的创始人t i mb e r n e r s - l e e 在1 9 9 8 年首次提出了语义w e b 设想, 并在随后的一系列文献中阐述了语义w e b 与人工智能、知识表示、实体联系模型、 关系数据库之间的联系与区别。从而拉开了语义w e b 研究的序幕。 根据b e r n e r s - l e e 的观点,语义网并非是全新的w e b ,而是对现有w e b 的扩 展,其思想就是将信息表示为计算机能够理解和处理的形式,使得人和计算机能 够更好的协同工作乜1 并在此基础上实现更高层的、基于知识的智能应用。w 3 c 对 语义w e b 的定义是:语义w e b 是w e b 上数据的一种表示,它是一项由w 3 c 领导的、 众多研究人员和工业伙伴参与的协作式研究计划;语义w e b 基于资源描述框架 ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,r d f ) 来集成以x m l 为语法、统一资源标 识符( u n i f o r mr e s o u r c ei d e n t i f i e r ,u r i ) 为命名机制的各种应用。 1 2 1 语义网 2 0 0 0 年t i mb e r n e r s l e e 在x m l 2 0 0 0 会上提出了语义网技术的总体框架并在 文献口1 中详细阐述了它的七层体系结构,如图卜1 所示: 图1 - 1 语义w e b 的基础体系结构 语义网的体系结构共分七层,自下而上分别是编码定位层( u n i c o d e + u r i ) 、 2 地理本体匹配 x m l 结构层( x 儿+ n s + x m l s c h e m a ) 、资源描述层( r d f + r d f s c h e m a ) 、本 体层( o n t o l o g yv o c a b u l a r y ) 、逻辑层( l o g i c ) 、证明层( p r o o f ) 和信任层 ( t r u s t ) 。各层之间相互联系,通过自下而上的逐层拓展形成了一个功能逐渐 增强的体系。它不仅展示了语义网的基本框架,而且以现有的w e b 为基础,通过 逐层的功能扩展,为实现语义网构想提供了基本的思路与方法。其中第四层本体 层( o n t o l o g yv o c a b u l a r y ) 。提供了对领域知识的共同理解和描述,具有比描 述层更强的表达能力,支持可保证计算完整性和可判定性的逻辑推理。从整个语 义网体系结构来看,本体层起着关键的作用。它不仅弥补了资源描述层的不足, 而且其概念模型也是逻辑层( l o g i c ) 、证明层( p r o o f ) 和信任层( t r u s t ) 各 层发挥作用的基础,因为只有在对领域知识形成一致性描述的基础上才能进行相 应的规则描述、推理和验证。 t i mb e r n e r s - l e e 提出的七层结构中前四层主要用来提供语义数据,而后三 层提供推理服务,第四层的本体层起到了承上启下的作用。本体是解决语义层次 上w e b 信息共享和交换的基础砷3 ,是语义w e b 实现的关键技术,通过对领域知识 概念化、明确化、规范化和形式化的表达,提供对领域知识的一致认识,从而达 达到广泛共享的目的,帮助人们在语法和语义上与计算机实现准确的交流,是人 与计算机交流的语义基础。 1 2 2 本体及地理本体国内外研究现状 语义网的核心层是x m l 、r d f 以及o n t o l o g y 这三层,其中o n t o l o g y 层的相 关技术是实现语义w e b 的关键技术,也是当前研究的热点,基于本体的相似度计 算、映射、集成、推理以及本体搜索等技术是当前的研究难点。 本体的概念起源于哲学领域,即“对世界上客观存在物的系统地描述 n o 】。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则的定义”。 后来在信息系统、知识管理等领域,越来越多的人研究本体,并给出了许多 不同的定义。其中最著名并被引用最为广泛的定义是由g r u b e r 提出的“本体是 概念模型的明确的规范说明1 2 1 。通过对概念的严格定义和概念与概念之间的关 3 地理本体匹配 系来确定概念精确含义,表示共同认可的、可共享的知识。s w a r t o u t 将本体定 义为:“本体是一个为描述某个领域而按继承关系组织起来作为一个知识库的骨 架的一系列术语 。f n n o y 认为“本体是对某个领域中的概念的形式化的明确 的表示,每个概念的特性描述了概念的各个方面及其约束的特征和属性。” f o n s e c a 定义“本体是以某一观点用详细明确的词汇表描述实体、概念、特性和 相关功能的理论”。 虽然,不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的 认识是一致的,均将本体当作某个领域内不同主体( 人、代理、机器等) 之间进行 交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供明确定义的词汇表, 描述概念和概念之间的关系,作为使用者之间达成的共识。 把本体应用在特定的领域,针对该领域的知识和特点建立的本体称为领域本 体。近十多年来,本体论的研究被引入到计算机科学中,受此启发,地理信息科 学领域中的学者们也开始逐步认识到本体对于本学科的影响,从而地理本体的研 究逐步得以展开。地理信息科学中有非常丰富而又相互联系的地理概念,且涉及 众多地理名词术语深受概念模糊性和不确定性的影响,这些地理数据相互间关系 非常复杂,而又需要灵活地集成与应用它们,这些都要求从地理真实这个哲学层 面上来研究地理本体。 地理本体对基于语义的地理信息共享和互操作、地理信息检索以及地理信息 和服务集成至关重要,对于g i s 中的知识重用、知识共享以及智能化、大众化和 网络化发展具有积极的作用。尤其是在w e b g i s 中,使用地理本体可以很好的满 足“数字区域 或“数字地球”建设中数据集成和功能集成的需要。因此,本体 在地理信息科学等领域等到广泛关注,越来越多的学者应用本体来解决本领域的 相关问题。但本体的构建是一个复杂的过程,如果没有好的方法路线指导,就难 以保持一致,也不利于本体的规模化和规范建设。出于对各自问题域和具体工程 的考虑,构造本体的过程各不相刚1 3 1 。时至今日,本体的表示语言、建模规则等 还未形成标准,并且由于本体是对客观世界的主观描述,不同的设计者对本体持 有不同的观点;即使是同一团体,随着时间变化,由于知识水平得提高或其它原 因,对一定领域事物的认识也会有所变化,从而导致在不同时间产生的关于一定 领域词汇描述不一致;不同的应用对本体的要求也不相同。由此,本体异质 4 地理本体匹配 ( h e t e r o g e n e i t y ) ( 又称本体异构) 问题n 铂是难以避免的,解决的办法是本体匹 配。 1 3 本体匹配研究现状及不足 国外学者非常重视本体匹配研究,2 0 世纪9 0 年代就已经开始这方面的工作, 特别是近五年进展非常快,如美国斯坦福大学、华盛顿大学、麻省理工大学等以 及加拿大、意大利、法国、英国、德国的许多大学等机构综合采用以上本体匹配 方法和策略,开发出了许多本体匹配或映射系统,如:c u p i d 、g l u e 等( 后面分 类概述) 。 为促进本体匹配技术的发展,从2 0 0 2 年开始,国际语义网大会 ( i n t e r n a t i o n a ls e m a n t i cw e bc o n f e r e n c e ,简称i s w c ) 下的本体工具评估工 作组( e v a l u a t i o no fo n t o l o g y b a s e dt o o l s ,简称e o n ) 每年举办本体匹配算法竞 赛至u 2 0 0 4 年又有另一组织一一信息解析与集成大会( i n f o r m a t i o n i n t e r p r e t a t i o na n di n t e g r a t i o nc o n f e r e n c e ,简称1 3 c o n ) 举办此类竞赛。从此, 每年的本体匹配竞赛统一由o a e i ( o n t o l o g ya l i g n m e n te v a l u a t i o ni n i t i a t i v e ) 组织协调举办( 2 0 0 5 年由k - c a p 下的本体集成工作组主办,2 0 0 6 至2 0 0 8 年由i s w c 下的本体匹配工作组主办) 。2 0 0 6 年开始,i s w c 的0 m 工作组( i n t e r n a t i o n a l w o r k s h o po no n t o l o g ym a t c h i n g ) 第年组织学术界和工业界进行本体匹配技术 交流与合作,并通过o a e i 竞赛对现有技术进行评估。 国内的本体匹配技术的研究成就也很突出,特别是东南大学和清华大学。东 南大学万维网科学研究所为在语义网领域达到国际水平,在国家自然基金“面向 语义w e b 的本体匹配方法”资助下,瞿裕忠教授等开发出f a l c o n - a o 本体匹配系统。 清华大学也开发出了r i m o m 本体匹配系统,他们都进入了0 m 工作组,技术达到国 际水平,并且他们还正在不断完善升级。 所有这些国际国内匹配方法主要有要有基于s c h e m a 的匹配和基于实例的匹 配。前者只考虑s c h e m a 信息,而不考虑实例数据,后者则利用了这两方面的信息。 目前,基于实例的匹配还比较少,典型的如g l u e n 5 1 ,而其他大多数的匹配算法重 点考虑的都是基于s c h e m a 的策略。根据匹配的映射关系表示的不同,本体的匹配 方法一般可以分为面向相似度的匹配和面向逻辑关联的匹配。面向相似度的匹配 5 地理本体匹配 一般使用 0 ,1 区间上的实数值表示相似度。而面向逻辑关联的匹配则是计算节 点概念之间的语义关系,这种关系一般使用相等、包含、相交等表示。目前大多 数匹配工具都是使用面向相似度的匹配方法;而面向逻辑关联的匹配方法则比较 少,其中比较典型的是s - m a t c h i n g n 们。 一般地,匹配过程中需要考虑语言学上的相似以及结构上的相似,在有较多 ( 或者充足) 实例数据的情况下,需要使用基于实例的匹配方法。下面对国外、国 内主要知名本体匹配系统进行分类概述。 1 基于语言学的本体匹配系统 基于语言学的本体匹配方法是一种采用自然语言处理技术进行本体匹配的 方法,它用于计算本体中单个实体( 即e n t i t y ) 与单个实体之间的名字、标签以及 注释的相似性。目前使用得比较多的是基于字符串处理的方法和基于词典的方 法。基于字符串处理的方法主要有编辑距离、单词前后缀的相似性等等。基于词 典的方法主要采用现成的词典( 如:w o r d n e t n 刀) 识别出词汇间是否近义,是否存在 上下位关系等等。目前几乎所有的本体匹配工具都会采用自然语言处理的相关技 术,或单独使用其中的一种技术或综合多种技术。 c u p i d n 8 1 是一种一般的s c h e m a 匹配工具,其使用了字符串和词典两种技术对 s c h e m a 进行语言学上的匹配。它首先对s c h e m a 中元素的名称进行相应的字符串处 理( 分词、去词缀、扩展缩写单词等) 并在处理过程中使用词典作为处理的参考, 然后通过字符串比较计算元素之间的相似度,在比较的过程中使用词典查找词汇 间的同义和上下位关系。 o l a n 町是一种针对o w ll i t e 所表示的本体进行匹配的工具,它综合使用了字 符串距离和词汇距离来比较计算两个u r i r e f 的相似度。其中词汇距离的计算是基 于w o r d n e t 的。给定两个待比较的词汇,将他们各自的同义词形成两个同义词集, 然后计算这两个集合的规格化的h a m m i n g 距离,从而得到这两个词的词汇距离。 s - m a t c h n 嗣主要面向概念层次结构的本体,计算其中两个概念之间的逻辑关 联。它综合采用了多种自然语言处理技术,包括基于字符串处理的方法( 词缀处 理、编辑距离、n - g r a m 等) ,基于词义的方法( 比如w o r d n e t 、层次距离等) 和基于 注释的方法( w o r d n e t 注释、注释比较等) 等。 a s c o 是由法国i n r i a 研究所开发的一个本体匹配工具。其主要思想是在匹 6 地理本体匹配 配过程中尝试使用包含在本体中的所有可能的信息,如:本体的数据实例、概念 和关系( r e l a t i o n ) 的信息、概念和关系的层次结构等。在a s c o 中,本体实体间的 语言学上的相似度主要通过它们的名字的相似度、标签的相似度和注释的相似度 线性组合得到。计算名字之间和标签之间的相似度的时候使用了w o r d n e t 查找近 义词,而在计算注释之间的相似度的时候使用t t f i d f 乜方法。 2 基于结构的本体匹配系统 目前基于结构的本体匹配方法比较多,也是一种本体匹配方法区别于另外一 种方法的主要特征之一。 s i m i l a r i t yf l o o d i n g ( s f ) 乜2 3 是一个面向一般的图的匹配算法。其主要思想 是根据相邻概念节点之间的相似传递性来计算相似度的,也就是说如果两个概念 节点的邻近节点是相似的,那么它们也趋向于相似,即节点相似性的传播。 c u p i d n 羽中的结构上的匹配是基于树状结构的,给定的s c h e m a 需要转化或者 简约成一棵概念树。其主要思想是对树状结构的s c h e m a 作自底向上的结构匹配, 两元素之间的相似度取决于它们的语言学上的相似度以及它们的叶子集的相似 度( 叶子节点之间的相似度取决于它们语言学上的相似度、数据类型的相似度和 邻接节点的相似度) ,如果算出的相似度超过了某个给定的阈值,那么就增加其 叶子集的相似度值。 a n c h o r - p r o m t 例是美国s t a n f o r d 大学开发的一个半自动的本体匹配工具。它 分析图结构的本体,输入若干对已知的匹配项,通过路径产生新的匹配项。具体 地,输入的若干对已知的匹配项作为a n c h o r s ,所抽取的结构特征艮p a n c h o r s 之间 的定长的路径,相似度的计算是通过遍历被a n c h o r s 限定的子图中的路径,对位 于路径中同样位置的节点每次增加它们的相似度值( 通常是设定的一个常数) ,这 些节点所对应的概念很可能就代表了语义上相似的概念。 a s c o 啪1 的基于结构的匹配中,本体表示为带有根节点的有向无环图,其中节 点表示c l a s s 和r e l a t i o n ,边表示i s a 关系或d o m a i n 或r a n g e 关系。所抽取的结构 相似特征是节点的邻接关系和概念层次的路径,即如果直接的上层概念或直接的 子概念或兄弟概念已相似,则这两个概念相似:如果从一个概念层次的根到概念 a ,与从另一个概念层次的根到概念b 所经过的路径中包含相似的概念,则概念a 和b 有可能是相似的。结构相似性的度量和计算是分别计算概念在邻接结构和路 7 地理本体匹配 径结构的相似比例,然后取加权和。 o l a n 钔主要针对o w ll i t e 语法描述的本体进行匹配。按照o w l 语法,本体中的 实体被分类成若干类,如:类、对象、属性、关系、属性实例、数据类型、数据 值等。一个本体表示为一个o l - g r a p h ,它是一个有向标记图,图中节点对应o w l 实体,边对应于各种实体关系,如:类或关系的特殊化、类和对象以及属性和属 性实例间的实例化、在类的属性上的属性限制等。相似度的计算在相同特征空间 进行,例如两个类实体的相似度依赖于超类( 子类) 、属性限制和对象成员的相似, 换句话说仅仅相同种类的实体可比较,即同一种类的两个节点的相似度依赖于在 各自的o l - g r a p h 中,与表示相同实体关系的边连接的相邻节点的相似度。最终的 结果通过实体集合的局部匹配以及迭代计算得到。 3 基于实例的本体匹配系统 基于实例的本体匹配方法一般使用综合多种学习策略的机器学习方法,寻找 两个本体之间的映射关系。目前,基于实例的本体匹配方法和工具还比较少,比 较有名的是g l u e n 副。g l u e 采用概念之间的联合概率分布来度量相似度,为此,使 用了机器学习技术来估计这种概率分布。这类方法所面临的问题包括实例关联的 学习以及属性之间的相似度计算问题,以及训练样例数量、学习算法性能与正确 性的优化问题。 4 综合语言学、结构的本体匹配系统 f a l c o n - a o 胁3 的最新版本0 7 版中包括5 大模块:本体模型池、匹配结果集、 匹配算法库、中央控制器及外部存储数据库。测试结果表明,f a l c o n - a o 表现出 色且稳定快速。 r i m o m 瞳5 3 是基于最小风险本体映射模型开发的本体匹配系统。它采用贝叶斯 决策理论,将映射发现问题转化为风险最小化问题。r i m o m 的执行流程包括:用 户交互、匹配算法执行、多策略匹配结果组合以及最终匹配结果发现。该系统的 另一个特点是可以发现多对多的匹配结果。 由于单个匹配算法无法全面反映本体中各元素间的语义关系,所以所有本体 匹配系统都综合采用了多种匹配算法,再按一定的思想把它们组织协调起来,使 匹配效果达到最好现有匹配系统采用的算法归纳起来,可以概述如下: ( 1 ) 从字符串的角度口7 蚺1 。从字符串的角度计算本体相似度可以通过字符串 8 地理本体匹配 匹配以及字符串之间的编辑距离来计算。 ( 2 ) 词义或者自然语言的角度。在比较两个实体的时候,可以比较两个实体 是否为同义词以及词义相近程度,这通常需要借鉴与w o r d n e t n 力类似的词典的帮 助来完成。 ( 3 ) 原子概念的可比较属性的综合比较船l 鲫。在本体定义中一个原子概念除 了字符串属性外,还有许多可比较的属性( 如属性的定义是一个整数值) 。虽然原 子概念间的关系在描述逻辑中也是以属性的形式表示出来,但这种属性现有的算 法一般没有考虑。 ( 4 ) 原子概念的类型以及与其他原子概念的关系。这主要是从构成本体的描 述逻辑的语法的角度出发来考虑啪1 。 ( 5 ) 本体的结构或者本体构造的图或者树的角度啪1 。这个因素一般结合第一 个或者第二个因素来考虑。但因为涉及到容易导致循环比较的问题,所以计算复 杂度比较高。 ( 6 ) 推理的角度。本体的一个重要特点就是具有一定的推理能力,只有充分 利用了本体的推理能力,才能发挥用本体来描述信息的优势,否则用本体来描述 信息和用普通的x m l 来描述信息就没有什么不同了。 ( 7 ) 机器学习的角度n 引。机器学习与其说是一个角度不如说是一种方式或者 是应用的场景,用机器学习的方式来计算本体相似,对某些应用如基于本体的信 息抽取是必要的也是非常有效的。这需要考虑机器学习过程中本体相似以及机器 学习完成后应用过程中本体相似的不同。 现有本体匹配技术在o a e i 竞赛中,暴露出对大规模本体匹配时,时间效率 低的问题。另一方面,地理数据具有规模大、涉及领域概念广,以及概念分类层 次明显等特点。所以在o a e i 竞赛中,现有匹配技术对包括地理本体r u s s i a a 和 r u s s i a b 等测试本体进行匹配时,所有匹配系统匹配时所需时间都超出了应用中 所能容忍的要求。 1 4 主要研究内容及目标 迄今为止,已有很多科研团队开发出了很多本体匹配系统,他们对所有领域 的本体都适用,例如上文提到的c u p i d ,s f ,s - m a t c h i n g ,f a l c o n a o ,r i m o m 等 9 地理本体匹配 本体匹配系统。但从理论上讲,用统一的方法对所有领域的本体计算相似度进行 匹配是既不现实也没有意义的事情随引。不同的领域本体有不同的特点,所以它们 要有针对领域特点的匹配系统,才能达到更好的匹配效果,才能提高匹配效率钔。 地理信息涉及自然地理、空间信息、经济、文化等各方面的信息,导致地理 信息量非常大,地理数据海量而且复杂,用本体组织表达地理数据的地理本体往 往比较大( 称之为大本体,本体中实体数超过1 0 0 个) ,并且本体中概念间分类 层次关系比较突出。 本文研究的匹配针对的地理本体,类层次明显,是一种比较常见的大本体。 但由于现有本体匹配系统多用到基于迭代的图匹配算法,如果将上述映射方法不 经过分块直接应用于大本体上,将会造成系统效率低下,甚至无法正常运行。当 本体规模较大时,耗时往往超出实际应用的限制,因此通常将大本体分块后进行 块匹配,以提高效率。 基于上述目标,本文研究的核心内容包括:归纳总结地理本体的特性,借助 语言级信息和算法分割大本体为各个小本体块;再对各个小本体块进行匹配;设 计一种混合匹配策略找出本体间最终的匹配对,且通过这些算法和策略实现的匹 配工具能大幅度提高匹配的时间效率。 1 5 本文的组织结构 论文共分六章,其结构如下: 第一章为绪论。介绍了课题的研究背景,概述了语义网及其核心一一本体, 从而引入地理本体。简单分析了本体异构产生原因及其解决办法一本体匹配, 并针对地理本体的特点,引入大本体分块匹配思想,提出了本文的核心研究内容。 第二章为介绍地理本体匹配的技术基础。概述了本体的定义、建模原语、描 述语言及其应用;分析了本体异构的原因及其种类,对本体匹配的定义等有关基 本理论及其研究现状进行了总结,最后特别分析了地理本体的特殊性,从而导出 地理本体匹配研究的针对性。 第三章为g e o m a t c h 采用的两种语义相似度计算方法。详细介绍了g e o m a t c h 所采用的两种语义相似度计算方法,包括基于语言级的两个方法:编辑距离方法 和w o r d n e t 查询方法;另一种计算方法是基于结构级的。 1 0 地理本体匹配 第四章为地理本体匹配工具及其实现。详细介绍了g e o m a t c h 的体系结构, 功能模块及其各匹配器的实现。 第五章为实验验证。介绍了本体匹配效果的度量标准;所采用的实验数据及 其特点;实验环境及其采用的工具;最后对实验结果进行了分析。 第六章为工作总结与展望。对本文工作进行了总结,并展望了进一步研究改 进方向。 地理本体匹配 第二章地理本体匹配的技术基础 2 1 本体的相关研究概述 2 1 1 本体的定义 虽然,本体早在2 0 世纪6 0 年代就为计算机领域所使用,但是对本体的理解 和定义一直缺乏统一的认识。第一个让人信服并广泛应用的本体定义是1 9 9 3 年 g r u b e r 给出的,即“o n t o l o g y 是概念模型的明确的规范说明 。后来,b o r s t 在此基础上给出了o n t o l o g y 的另外一种定义朝:“o n t o l o g y 是共享概念模型的 形式化规范说明”。s t u d e r 等对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明。这包含4 层含义嘲:概念模型 ( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 1 概念模型:指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得 到的模型。概念模型所表现的含义独立于具体的环境状态; 2 明确:指所使用的概念及使用这些概念的约束都有明确的定义; 3 形式化:指o n t o l o g y 是计算机可读的( 即能被计算机处理) ; 4 共享:指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇间相互关系的明确定义。 本文中本体的定义同文献口 ,本体由五元组:o := ( c :h c :r :h r :i ) 定义。c 为本 体中的概念集:h 。为概念间的i s - a 层次关系集;r 为概念间的其它关系集,如: s a m e a s 关系、a s s o c i a t e s 关系等;h 6 和r 均是概念集的笛卡尔积的子集;h 8 为关系 之间的层次结构;i 为概念c 的实例集。本文主要研究本体的概念体系结构,即本 体由o := ( c ;h c ) 定义。忽略掉其它的关系和实例似乎是一个很强的条件。然而考 虑其它关系与实例的匹配往往依赖于概念的匹配( 例如关系匹配通常需要考虑关 系的r a n g e 与d o m a i n 是否匹配姗。我们认为对概念匹配的研究有助于整体匹配效 1 2 地理本体匹配 率与质量的提高。 在研究中本体被转化成相应的d a g ( d i r e c t e da c y c l i cg r a p h ) 矧来处理,由 2 元组:g := ( n ,a ) 定义。其中结点集n 代表概念集c ,有向边集a 代表i s - a 关系 集。在没有特殊说明的情况下,在本文中“结点”与“概念 ,“边 与“i s - a 关系”为同一事物的不同形式。 2 1 2 本体的建模原语 p e r e z 啪3 等人用分类法组织了本体,归纳出了5 个基本建模原语( m o d e l i n g p r i m i t i v e s ) 。 1 类( c l a s s ) 或概念( c o n c e p t ) 含义很广泛,指任何事务,如工作描述、功能、行为、策略和推理过程等 等。从语义上讲,它表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构, 包括概念的名称,与其它概念之间的关系的集合,以及用自然语言对概念的描述。 每个概念可以由属性分别描述其不同方面的特点。 2 关系( r e l a t i o n s ) 关系描述了概念与概念之间或者属性与属性之间的关系。关系可以分为两 类:分类关系( t a x o n o m i e s ) 和连接关系( a s s o e i a t i v er e l a t i o n s h i p s ) 。分类关 系表示概念与概念之间的父类、子类等上下位的层次关系:连接关系表示除了上 下位层次关系以外的其它关系。概念可以定义为层次状的分类体系,在分类体系 中各个概念通过分类关系联系在起。关系也可以组织成一个层次状的分类体系: 同样关系也可以用属性描述其不同方面的特点( 例如:关系的势( c a r d i n a l i t y ) 以 及关系是否具有传递性( t r a n s i t i v e ) 等属性) 。 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿乘积的子集:r :c 1 xc 2x - - - xc n 。如子类关系( s u b c l a s s - o f ) 。在语义上关系对应于对象元组的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论