




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的数据源映射方法与策略.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo fm e n g o n t o l o g y - b a s e dd a t as o u r c em a p p i n g m e t h o da n ds t r a t e g y c a n d i d a t e :z h a oy a n g y a o s u p e r v i s o r :p r o f w a n gn i a n b i n a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i e dt e c h n o l o g y d a t eo fs u b m i s s i o n :j a n u a r y1 ,2 010 d a t eo fo r a le x a m i n a t i o n :m a r c h12 ,2 010 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :赵阳耀 日期:上口卜年弓月,歹日 哈尔滨工程大学 、学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可叼在授予学位1 2 个月后口解 密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :赵阳癯 日期:2 口i o 年多月佣 导师( 签字) :衫钳乞 2 0 l o 年弓月珀 n 合尔滨t 程大学硕十学何论文 摘要 目前,随着网络技术的发展和各种网络应用的普及,与传统的静态h t m l 页面相比,蕴含数据更加丰富,质量更高的网络数据库正引起研究人员的广 泛关注。然而,在特定的应用领域,由于不同的开发者对同一个数据库模式 的理解存在差异,从而导致了在系统、语法、结构和语义层面上,对描述同 一个数据库的数据模型存在差异。在这些差异中,由语义理解导致的语义异 构将直接影响网络数据集成系统的应用。因此,如何消除语义异构问题成为 了网络数据集成领域急待解决的核心问题。 为了解决语义异构的问题,本文引入了本体的概念。本体是描述领域知 识的有效工具,它为系统提供了一个领域通用的术语和关系集,同时为待匹 配的模式提供了领域级的证据和分类方法,因此可以有效地解决网络数据源 模式集成系统中的语义异构问题。 本文从深层网络中本体号数据源映射的相关技术出发,首先对研究现状 及映射工具做了简要的介绍,然后给出了映射的形式化定义。在此基础上, 本文重点讨论了本体与数据源映射的构建方法及过程。从对数据源模式的预 处理开始,包括领域分类和分类本体的建立以及对数据源模式的标记过程, 到最终的映射建立和查询分析,本文都给予了详细的介绍。最后,本文还介 绍了三种不同的查询分析方法,并对各种方法都给予了实例验证。通过本文 介绍的方法,网络数据集成系统可以很好的解决语义异构问题,并通过不同 的应答方式对用户的查询做出响应。 关键词:深层网络:领域:本体:数据库模式;映射 哈尔滨 二稗大学硕十学位论文 a bs t r a c t n o w a d a y s ,f o l l o w i n gw i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g ya n dt h e p o p u l a r i z a t i o no fn e t w o r ka p p l i c a t i o n s ,r e s e a r c h e r sg r a d u a l l yp a ym o r ea t t e n t i o n t ot h ew e bd a t a b a s e sw h o s ed a t aa r e r i c h e ra n dh a v eh i g h e r - q u a l i t yt h a nt h e t r a d i t i o n a ls t a t i ch t m lw e bp a g e s h o w e v e r , i ns o m es p e c i f i cr e s e a r c ha r e a s , d u et od i f f e r e n c eo fd e s i g n e r s u n d e r s t a n d i n g sa b o u tt h es a n l ed a t a b a s es c h e m a s , t h ed a t am o d e l sw h i c hd e s c r i b et h es a r n ed a t a b a s ew i l lb ed i f f e r e n ti nt h el e v e l s o fg r a m m a r , s t r u c t u r ea n ds e m a n t i c s w i t h i na l lt h e s ed i f f e r e n c e s ,t l l es e m a n t i c h e t e r o g e n e i t yi s t h em o s ti m p o r t a n to n eb e c a u s ei tw i l ld i r e c t l yi n f l u e n c et h e a p p l i c a t i o ne f f e c to ft h ew e bd a t ai n t e g r a t i o ns y s t e m t h u s ,h o wt oe l i m i n a t et h e s e m a n t i ch e t e r o g e n e i t yb e c o m e st h ec o r ei nt h ew e bd a t ai n t e g r a t i o nf i e l d i no r d e rt os o l v et h es e m a n t i ch e t e r o g e n e i t yp r o b l e m s ,t h eo n t o l o g yi s i n t r o d u c e di nt h i sp a p e r o n t o l o g yi sau s e f u lt o o lf o rd e s c r i b i n gt h ek n o w l e d g ei n s p e c i f i cd o m a i n i ts u p p l i e sas e to fc o n c e p t sa n dr e l a t i o n s h i p sa m o n gt h e mw h i c h c a nb eu s e df o rt h ew h o l es y s t e m ,a n ds i m u l t a n e o u s l y , i tp r o v i d e st h ee v i d e n c e a n dc l a s s i f i c a t i o nm e t h o df o rt h ed a t a b a s es c h e m a sw a i t i n gf o rm a p p i n gi n d o m a i nl e v e l ,s oi tc a nb ew e l lu s e dt os o l v et h es e m a n t i ch e t e r o g e n e i t yp r o b l e m s i nw e bd a t ai n t e g r a t i o ns y s t e m t h i st h e s i sb r i e f l yi n t r o d u c e dt h er e s e a r c h i n gs t a t u sa n dm a p p i n gt o o l so f o n t o l o g ya n dd a t as o u r c e sm a p p i n gm e t h o di nd e e pw e bf i e l d o nt h i sb a s i s ,t h e p a p e rm a i n l yf o c u s e do nt h eb u i l d i n gm e t h o d sa n dp r o c e s so ft h em a p p i n g s t h i s p a p e rh a sg i v e nad e t a i l e di n t r o d u c t i o nf r o mt h eb e g i n n i n go fp r e t r e a t m e n t , i n c l u d i n g t h ec r e a t i o no fd o m a i n t a x o n o m y , t a x o n o m yo n t o l o g ya n dt h e a n n o t a t i o no ft h ed a t as o u r c e s ,t ot h ef i n a l s t e po fc r e a t i n gm a p p i n g sa n dt h e d i s c u s s i o na b o u ts e a r c h i n gm e t h o d s a tl a s t ,t h e r ea r et h r e ed i f f e r e n ts e a r c h i n g m e t h o d sa r e p r e s e n t e d i nt h i s p a p e r , a n dr e s p e c t i v e l y , e a c ho n eh a sb e e n i l l u s t r a t e db ya ne x a m p l e t h r o u g ht h ei n t r o d u c t i o no ft h i sp a p e r , t h es e m a n t i c h e t e r o g e n e i t yi nw e bd a t ai n t e g r a t i o ns y s t e m sw i l lb es o l v e de f f e c t i v e l ya n da l s o , 哈尔滨t 程大学硕十学位论文 i tc a ng i v eav a r i e t yo fa n s w e r st ou s e r s q u e r yt h r o u g hd i f f e r e n ts e a r c h i n g m e t h o d s k e yw o r d s :d e e pw e b ;d o m a i n ;o n t o l o g y ;d a t a b a s es c h e m a ;m a p p i n g 哈尔滨一r = 程大学硕十学位论文 目录 第1 章绪论l 1 1 研究的来源、目的及意义”1 1 1 1 课题的来源1 1 1 2 课题的目的及意义“2 1 2 国内外研究现状”3 1 2 1 深层网络的研究现状4 1 2 2 本体的研究现状6 1 2 3 本体与数据源模式映射的研究现状7 1 2 4 映射工具简介1 2 1 3 关键技术1 4 1 4 主要研究内容和预期研究成果l5 1 5 论文的组织与结构1 5 第2 章基于本体的数据源映射相关问题研究”1 7 2 1 本体概述17 2 1 1 本体的概念l7 2 1 2 本体的功能19 2 1 3 本体的分类与特点1 9 2 2 深层网络中本体与数据源映射的相关问题2 0 2 2 1 映射的形式化定义2 0 2 2 2 映射的难点”2 0 2 3 本体和数据源映射的相关应用2 1 2 4 本章小结2 2 第3 章本体与数据源映射的建立方法及过程2 4 3 1 建立映射的相关研究概述2 4 3 2 基于领域分类的映射方法概述2 5 3 2 1 体系结构概述2 5 3 4 1 构建小型本体树”3 3 3 4 2 计算概念相似度3 4 3 4 3 计算相似度的实例讨论3 7 3 5 本章小结3 8 第4 章基于本体的数据源映射算法及实现3 9 4 1 映射算法 公”3 9 4 1 1 映射算法概述3 9 4 1 2 算法的创新点分析4 0 4 2 分类本体和信息源间的映射4 3 4 3 查询分析4 5 4 3 1 标准查询应答方法- 4 5 4 3 2 推荐查询应答方法4 6 4 3 3 模糊查询应答方法”4 8 4 4 本章小结5 2 结论”5 3 参考文献5 4 攻读硕士学位期间发表的论文和取得的科研成果6 1 致谢”6 2 和 哈尔滨t 稃大学硕十学何论文 第1 章绪论 1 1 研究的来源、目的及意义 1 1 1 课题的来源 近年来,随着网络技术的发展和应用的普及,可将网络上存储的数据主 要归纳为以下三类:纯数据库数据、以x m l 形式存在的数据和通过网页获 取的数据库数据。其中,蕴含数据的质量更高,更专业,增长速度更快的网 络数据库引起了研究者们的广泛关注。f i 】 这里提到的网络数据库( 简称为w e b 数据库或w d b ) 【2 】是指分散于不同 地理位置的各种自治、异构的数据库,它们的内容只有在被查询时才会由w e b 服务器动态生成的页面以结果的形式返回给访问者【3 】。研究1 2 1 表明,网络数据 库中包含的数据是网络其它数据的5 0 0 倍,而且大量的信息是结构化的数据信 息,这使得如何高效的利用这些信息的研究具有了重要的意义。 然而,针对特定领域的不同应用,由于开发者对领域的理解差异,对相 似的数据模型产生的理解也存在差异,最终导致其建立的数据模型存在差异。 这些差异主要体现在系统、语法、结构和语义层次上。 4 1 而由语义理解差异 导致的语义异构问题直接影响了网络数据集成系统的应用效果,因此如何消 除语义异构成为了诸多领域的核心问题。【5 】例如,语义网应用程序难以以自 由的访问和操纵存储在网络上的关系数据库中的数据,因此迫切的需要一个 通用的语义框架,消除不同关系数据库模式的语义异构问题,实现数据在不 同应用之间的共享和集成。要高效的利用这些异构数据库中的信息,万维网 数据集成系统必须在不修改现有的各数据库的结构和保持原有应用基础上实 现不同的异构数据库的信息共享,提供给全局用户与应用程序对系统中所有 信息的透明访问。 综上所述,一个高效的万维网数据集成系统离不开全局模式的构建。全 局模式构建是解决数据源语义异构问题的有效途径,因此成为了数据库领域 长期以来研究的重要课题之一,它需要匹配及融合数据源的相关概念、术语 - 卜 l , 哈尔滨t 程大学硕十学位论文 及关系,以获得全局模式与局部模式的映射集合。国内外研究主要的方法州 是基于规则方法和基于学习方法,多数采用手工方法或半自动方法。在建立 信息源良好的语义描述、解决集成的语义异构的有效方法等问题方面仍然存 在巨大的困难,从而造成构建全局模式的困难。 为了解决语义异构的问题,本课题引入了本体的概念。本体( o n t o l o g y ) 是描述领域知识的一种有效工具。本体作为解决模式集成问题的一种策略和 方法,可用于解决语义层次上的数据集成、数据共享和交换。【7 】由于领域本 体提供了一个领域的较为通用的术语和关系,因此通过对本体的利用可以消 除部分模型和表示的差异,同时为模式的语义提供领域级的证据以及分类方 法。通过本体与数据源模式的匹配解决模式元素的类型及基本划分和通用概 念的问题,这将成为模式匹配的基础和主要证据。 总体上来说,可以通过以下三个步骤来构建基于本体的万维网数据集成 系统i 川: ( 1 ) 局部数据源模式元素与本体的匹配; ( 2 ) 组合模式到本体的匹配以建立模式到模式的映射; ( 3 ) 通过映射算法融合模式以建立全局视图。 而本文要讨论的主要问题属于步骤l ,即局部数据源模式元素与本体的匹 配方法。它是解决后两个步骤的基础和关键问题,主要用以生成模式到模式 的映射匹配和建立语义异构多数据源的全局视图。 1 1 2 课题的目的及意义 本课题的目的在于构造关系数据库模式和本体之间的映射,因此,参照 瞿裕忠等所著文献 6 中的定义,首先通过形式化定义的方法给出关系数据库 模式和本体间映射问题的描述旧: 关系数据库模式:一组关系模式组成了一个关系数据库模式,其中包含 了两个部分:基表结构和完整性约束。通过基表结构定义关系的结构、属性 及其数据类型与长度等;通过完整性约束定义施加在数据上的语义约束。【6 】 本体:一个本体可以被表示为一个二元组o :( i d ,a x i o m ) 。其中,i d 是 本体的词汇集合,且满足i d = c ur ui 。这里,c 概念( c o n c e p t ) 集合,r 2 _ 哈尔滨t 程大学硕十学位论文 关系( r e l a t i o n ) 集合,i 实例( i n s t a n c e ) 集合;a x i o m 本体的公理( a x i o m ) 集合。1 6 1 关系数据库模式和本体之间的映射:给定一个关系数据库模式s 和一个 本体o ,s 和o 之间的映射m a p 是由五元组作为元素构成的一个集合 m 。 其中,m 表示一个基本的映射单元,可以写成( u ,e ,v ,r e l ,f ) 的形式。 u 为单元标识符,用于惟一标识该五元组;e 和v 分别为s 和o 中的元素, 且满足m a p ( e ) - - v :r e l 描述e 和v 之间的关系,f 标识映射的确信度( 或相似 度) 。1 6 1 给出了上述形式化定义后,不难看出,研究关系数据库模式和本体之间 的映射的意义在于描述了一个用于集成和融合多数据源数据的自动方法。旧 该方法定义了如何构造从领域本体到局部模式的映射。在此基础上,用户还 可以通过精确查询和模糊查询来搜索映射结果。该方法将为基于本体的模式 匹配方法打下研究基础,也是通过集成局部模式得到全局模式的前提。 1 2 国内外研究现状 随着网络数据库在互联网中的不断增加,对大规模的网络数据库发现和 集成的研究将成为一个应用前景十分广泛的课题。而通常所说的网络数据库 集成问题实质是对网络数据库模式的集成问题。随着有关本体论方向的研究 的深入,通过本体构建全局模式逐渐成为目前在网络集成方面比较热门的研 究方向之一。而本体在该研究中的应用主要可分为两类,第一类是将本体本 身作为全局模式,构造其与底层数据库模式之间的语义映射;第二类是将本 体作为局部模式匹配过程中的参考和证据,利用本体在领域内对领域知识和 关系的高度概括和抽象的能力,提高局部模式之间的匹配效率和精确性。综 上所述,以上提到的任何一种本体应用都离不开对本体和局部模式之间映射 匹配问题的研究,而这也是本课题的研究重点。 经过对大量的文献研究表明,诸多的研究领域涉及到了网络数据库的模 式集成问题。例如,对深层网络( 即d e e p w e b ) 数据集成的研究主要分为两 个方面,一是集成查询接口的生成问题,二是对用户的查询处理问题。其中 集成查询接口的生成问题是主要问题,而对用户查询的处理仅仅是集成接口 - q 哈尔滨t 挥大学硕十学位论文 生成的逆过程。显然,要集成查询接口,必须对网络数据库模式进行统一, 生成全局数据库模式。而在本体论领域,本体论在万维网上的应用导致了语 义网的诞生,其目的是解决万维网上信息共享时的语义问题。当在语义网中 使用本体来描述领域概念和关系时,也涉及到了关系数据库和本体之间的互 操作问题,即关系数据库模式和本体之间的映射问题。只有先解决了这个问 题,才可以提高语义网在在诸如信息检索领域的实际应用效率。 下面将从深层网络领域和本体论( 特别是语义网) 领域的发展开始对基 于本体的数据源映射方法的研究现状进行展开讨论。 1 2 1 深层网络的研究现状 深层网络是指互联网中可访问的在线数据库,其内容存储在真正的数据 库中。这些内容只有在被查询时才会由w e b 服务器动态生成页面把结果返回 给访问者,因此没有超链接指向这些页面,这是和那些可以被直接访问的静 态页面的根本区别。【9 1 至今,虽然深层网络领域的研究正被广泛的开展,但所开发出的深网数 据集成系统只局限于研究性的原型系统,因此确切地说目前在各种网络工具 和应用中还找不到一个真正可以实际应用的深网数据集成系统。| i o 】要实现 一个实际的集成系统仍然有许多的问题有待解决。下面就具体分析一下深层 网络数据集成系统框架中有哪些正在进行中的研究工作。 网络数据库的发现:目前一种有效的办法是利用成熟的传统搜索引擎完 成对网络数据库的搜索。由于查询接口存在于静态的页面中,因此可以被传 统的搜索引擎爬取到。如果能够通过搜索引擎强大的静态页面搜索能力,那 么就极大地降低了搜索代价。这种方法虽然是可行的,但也包含了一些挑战。 例如,搜索引擎的作用是通过提交关键词查询来搜索万维网中的页面,而在 全部页面中,只有很小的一部分包含网络数据库查询接口,提交不合理的关 键词会导致搜索到的页面结果集中所包含的查询接口比例太小,使得不仅每 次获得的网络数据库数量少,而且也会增加筛选的代价。因此如何设计合理 的关键词查询是利用搜索引擎获取网络数据库的关键问题。 网络数据库的分类:总体来说,当前的研究并未彻底解决网络数据库的 4 - 哈尔滨j r 稃大学硕+ 学位论文 分类问题,其根本原因在于如果只是利用了查询接口及其所在页面提供的信 息,当属性信息非常类似时就会无法区分。另外对于某些特定的领域的网络 数据库,它们为了方便用户的查询,通常提供了十分简单的查询接口,如音 乐和图书领域。在这些领域中用户通常只需填写关键字就能完成相关信息和 服务的查询,这会使得仅凭借分析查询接1 :3 的模式信息,很难最终准确的判 断出这个接口应属于哪个领域。目前人们通常通过两个方法来解决类似情况。 首先,根据领域之间的不同特征,相似性判断函数里的判断标准要能够实时 的被更新,并实现多阶段的执行分类过程。其次,通过在查询接口上提交与 领域相关的查询,根据返回结果来分析原来的查询接口属性,从而对其进行 分类,这是直接判断一个网络数据库属于哪个领域的最有效方法。提交样本 查询也是网络数据库发现的一种有效方法,进一步说,如果能够设计一个合 适的领域相关的样本查询集合,就可以把网络数据库发现和分类两个步骤合 并在一起,这叫做基于领域的网络数据库的发现,该方法不仅可以保证更高 的准确性和效率,而且具有实际应用意义。 网络数据库的选择:网络数据库数量的不断增长导致了网络数据库的选 择成为深层网络研究领域中一个急待解决的问题。为了能够降低对网络数据 库的访问代价同时获得高质量的数据,需要在同一个领域中选取合适的网络 数据库进行查询。在这种情况下,必须通过对这些网络数据库进行特征概括, 从而判断一个网络数据库是否与给定的查询相关。目前已有的工作主要是针 对搜索引擎和网络数据库中非结构化的文本数据库提出,而对于比例最大的 结构化网络数据库而言,现有的工作主要是在数字属性( 如价格、日期) 和 离散属性( 如有限种选择的属性) 上进行特征概括,这些方法虽然对网络数 据库的选择起到了一定的作用,但还未从根本上解决网络数据库选择的问题。 因此下一步的研究工作主要集中在能够对非数字的不可穷举属性进行高效的 特征提取和属性概括,这就要提出不同的方法来处理这类属性。随着不断成 熟的本体和语义领域理论,一个特定域的本体将被借助来对一个网络数据库 进行特征概括。首先建立一个概念的层次树结构,最低层节点是属于父节点 概念的实例集合,这样通过实例查询可以估计每层的每个分类在一个网络数 据库中所拥有的信息比例,从而能够更好的刻画网络数据库及其在这个属性 上的特征总结。 哈尔滨t 稃大学硕十学位论文 对查询结果的语义注释:对查询结果添加语义注释的目的是为了使从页 面中抽取到的数据具有使用价值。而在目前,这方面的研究工作尚处于初步 阶段,都是采用启发式规则的方式对抽取到的结果进行语义注释,不仅准确 性低,而且更重要的是这种方法很难对抽取到的所有数据添加相关注释。为 了更好的高效的利用网络数据库的数据,两个方面都需要做较大的改进。对 于一个特定的网络数据库来说,抽取数据的自动语义添加可以通过机器学习 的方式,预先在一组样本数据上训练,逐渐形成一个自动添加语义的程序, 学习出数据与对应语义之间的关系,从而使其能够处理新的页面。【佗b 】 1 2 2 本体的研究现状 本体论( o n t o l o g y ) 起源于哲学,信息科学领域近年来对其给予了广泛 的关注 1 4 1 ,并认可了其在诸多研究领域的重要性。尤其是最近通过将本体论 应用于万维网的查询和语义分析领域,这直接导致了语义网的诞生。在w 3 c 组织的主导下,应用该技术在不久的将来有望解决万维网信息共享时的语义 问题,从而成功实现世界范围内的知识共享和智能信息集成。【”6 l 虽然本体论在网络以及人工智能领域都有许多应用,但是从本体论的起 源和概念出发,可以简单地将其归结为以下三类: 1 人与组织之间的信息交流。1 1 7 1 知识共享是本体的核心概念。通过减少 概念和术语上的歧义,本体描述为某一组织或是工作小组提供了一个统一框 架或是规范模型,消除了不同背景,持有不同观点和目的的研究员和工程师 之间的语义和理解障碍,并保持语义上的一致性。 2 系统互操作。本体论可以被用来实现异构应用系统之间的互操作, 即消除不同系统或是工具之间的语义理解和数据传输问题。现在在研究领域 十分热门的语义网服务就是此类的典型应用。 3 软件工程。工程师通过使用本体论,加强对问题和任务的理解描述 的精确性,减小需求分析的代价。同时,本体还可被进一步用作软件设计的 基础,以( 半) 自动方式检查需求和设计是否保持了一致性,从而提高应用程 序的可靠性。在提高软件的重用性方面,本体还可以被用来详细描述软件内 部各个模块和它们之间的语义联系。其中,本体最为典型,也最为普遍的应 6 哈尔滨_ t 程大学硕十学何论文 用是在互操作,即信息系统的集成方面,可以进一步细分为以下三种: ( 1 ) 基于本体的信息检索。利用本体对信息的描述来检索知识库是本体 在信息检索引擎中的应用的基本思路,通过该方法可以显著提高检索的效率 和精确度。 ( 2 ) 基于本体的共享信息访问方式。通过一致的共享本体,不同的应用 软件开发人员定义了一个可以双向转换的数据传输格式。典型的例子是 e c o c y c 【1 8 】。 ( 3 ) 基于本体映射的信息访问方式。与前一种应用的不同之处在于,不 同的应用程序之间不存在一个共享的本体,而它们各自拥有自己的独立本体。 因此,它们之间互操作( 例如信息共享和数据交换) 只能通过构造不同的独 立本体之间的映射( m a p p i n g ) 来实现。典型的应用主要有o n i o n s u g ) 等。 1 2 3 本体与数据源模式映射的研究现状 在过去的l o 年里,关于语义网( s e m a n t i cw e b ) 阻:,】白勺研究在计算机科 学领域中出现的越来越多。在语义网中,通用的语义框架被提出,从而实现 了数据在不同应用系统之间的共享和集成。本体( o n t o l o g y ) 可以被认为是 语义网的基础,它通过描述数据的语义信息成为领域知识概念化和模型化的 一种重要途径。目前万维网联盟w 3 c 发布了标准化的本体语言,例如r d f s t 2 4 2 5 】和o w l 【2 6 - 2 r l 。 尽管语义网取得了阶段性成功,特别是在诸如信息检索和分析等许多应 用领域,但是要将它部署于实际的应用系统,还需要一个很长的过程。其中 最为主要的一个原因是关系数据库( r d b ) 目前仍然是万维网上绝大多数数 据的储存方式( 约占7 7 3 ) 【2 r 】,它使得大多数语义网应用程序不能够自 由方便地访问和操纵这些互联网数据,从而在很大程度上限制了语义网的发 展。关系数据库模式和本体间的映射问题是关系数据库和本体间的数据互操 作问题的根源所在。在传统的关系数据库中,关系数据库模式( r d bs c h e m a ) 定义了关系表的结构及其完整性约束,并且,许多近似的对应关系存在于关 系数据库模式和本体间,例如关系数据库模式中的表( t a b l e ) 与本体中的类 ( c l a s s ) 是相互对应的。因此,关系数据库模式和本体间映射可以用来实现 哈尔滨t 稗大学硕十学位论文 i 宣篁宣i 昌誊i i 薯i 置薯宣暑暑暑暑暑暑曹置_ | 青暑i 昌i i i i i 置葺葺宣i 宣宣暑宣暑置i i i i 宣置暑暑宣i i i i i 宣宣宣昌暑暑置宣置置暑暑暑_ 关系数据库和本体之i n 数据的互操作。 目前,无论国内国外,很多的研究方向都涉及到了关系数据库模式和本 体间映射问题。虽然各个研究采用了不同的方法,但通常遵循一个通用的过 程:输入方是假设分别独立存在一个关系数据库模式和一个已有的领域本体, 通过多种不同的映射策略配合相应的人工辅助参与,构建本体和关系数据库 模式中对应元素之间的映射。 寻找映射的过程又可以进一步细分为三个阶段( 如图1 1 所示) :首先通 过模型转换消除关系数据库模式和本体在模型上的异构性;接着根据应用场 景选用映射策略,寻找映射结果;最后生成映射结果并以某种形式表达。 图1 1 关系数据库模式和本体间映射的基本框架 关系数据库模式和本体之间的映射问题可以从多个方面进行讨论,例如 描述关系数据库模式和本体间映射的系统框架 2 9 - 3 :j ;提出具体的映射算法以及 描述映射结果的语法语义【3 3 蚓。归纳起来,可以从三个角度对已有的解决途 径进行分类( 如图1 2 所示) : 1 基于模型转换途径的分类【3 5 】 主要有三类途径可以消除关系数据库模式和本体之间模型上差异: ( 1 ) 将本体转换为关系数据库模式的形式: ( 2 ) 将关系数据库模式转换为本体的形式; ( 3 ) 将关系数据库模式和本体分别转换为中间模型。 目前采用第二类和第三类解决途径的研究较多。然而,到目前为止还尚 哈尔滨工程大学硕十学何论文 未有方法采用第一类模型转换途径。本体对语义和语法的表达能力强于关系 数据库模式是主要原因,所以用对应的关系数据库模式的形式表达本体概念 会使本体丧失丰富的语义信息,从而使得从语义层次上发掘映射会变得十分 困难,并且目前对于映射结果而言,也很难进行语义层面上的分析、实验和 调试。在另外的一部分工作中,研究人员采用了把关系的模式用本体的术语 及术语间关系的形式来表达的转换途径。通常在这类工作中,首先重要的一 步是通过一些转换条件和规则,例如:采用关系数据库的逆向工程( r e l a t i o n a l d a t a b a s er e v e r s ee n g i n e e r i n g ) ,通过一些自动或半自动的方法,把关系数据 库模式表达为本体模型的形式( 最为常见的是r d f s 或o w l 形式) ,然后再 建立两者之间的映射。这类转换思想有许多的优点,其中之一是可以将已有 的本体映射算法在最大限度上重用,并通过实验证明结果准确性高。但在日 常的应用中研究人员发现,由于关系数据库模式和本体之间的语义兼容性并 不好,并且关系数据库模式和本体在表达能力等方面有着较大的差距,所以 这种转换通常有不完备的问题。现有的研究主要把重点放在如何构建最后一 类模型转换方法上,即引入中间模型的概念,将本体和关系模式都转换到这 个中间模型上。这类中间模型的表达能力需要适中,例如,采用有根的有向 无环图或者是w e b p d d l 中间模型等,然后就是建立关系数据库模式和本体 到这种中间模式的转换。在转换的过程中,可以对其增加某些由系统通过发 掘的方法得到的语义信息,从而可以发现更多的隐含的关系。例如,通过机 器学习和数据挖掘的方法来发现更为复杂的关系:同样,在将本体向中间模 型的转换过程中,则需要首先分类,然后裁剪掉一些不兼容的语义信息,例 如把本体模型转换为连接公式( c o n j u n c t i v ef o r m u l a s ) 。这类转换思想有着显 著地优点,其一在于中间模型可以将关系数据库模式和本体之间的差异调整 到最小,并且有着较大的灵活度。但是,由于映射方法本身定义了中间模式, 所以很难直接利用已有本体映射的方法或数据库模式映射,因此,其重用性 较不理想。 2 基于映射策略适用范围的分类【3 6 】 按此方法分类,目前已有的解决方案可以从两个维度进行分析归纳: ( 1 ) 按照自动化程度分类( 手动、半自动、全自动) ; ( 2 ) 按照关系数据库模式和本体的数量分类( 任意数目、两者之一数目 9 哈尔滨丁程大学硕十学何论文 固定、数目都固定) 。 对于第一个维度而言,目前的映射方法大多针对特定的应用场景而设计, 例如中医药领域以及大学数字图书馆资源等。这类手动构建映射的方法有其 自身的好处,包括可以发现复杂映射,但同时又非常繁琐。而对于半自动化 的方法来说,它可以通过多次和用户进行的交互,来提高映射的准确度和精 确性。不难看出,用户交互质量可以直接影响到这类半自动化的映射方法。 由于实现难度较大,并且通常情况下很难实现较高的准确度,同时也很难发 现复杂的隐藏的映射关系,目前很少有研究组织可以实现全自动的映射方法。 对于这里提到的半自动和全自动的两种方法,还可以从方法的主要特性上进 行讨论。从发掘映射的算法策略上看,它们可以再被分为单一型算法和集成 型算法。例如,基于图的相似度传播的算法可以看做是单一型算法的代表; 对于集成型算法,通常又可被细分为混合型( h y b r i d ) 和组合型( c o m p o s i t e ) 两种。集成型算法的方法通常来说应用面更加的广泛,性能也更加的稳定。 另外,时空复杂度也是映射方法的一个重点考察特征。通常来说,自动化方 ,法在速度上要比半自动化方法更快、基于字符串比较的映射方法在时间复杂 度上要比基于相似度传播的映射方法更低。根据第二个维度,主要针对关系 数据库模式和本体都是任意数目的映射问题,其主要目的是提供一种通用的 解决方案:面向任意多个关系数据库模式和一个已知本体之间的映射是最为 常见的一类方法。通常而言,此类方法主要是用于面向某些特殊领域的数据 集成问题,在这些领域的显著特点是,它们存在被普遍认同的通用本体,且 该领域中绝大多数的概念知识都被这些通用本体覆盖了,这时的映射问题就 变成了多个关系数据库模式到该通用本体的映射问题,这里一般采用本地视 图( l o c a la sv i e w ) 的方法,例如,在多个关系数据库模式和通用的中医药 本体之间构建映射。 3 基于映射结果表达形式的分类 3 v 】 这种分类主要包含两个层次的映射结果:第一种是关系数据库模式和本 体元素间的简单对应关系,第二种是相对来说较复杂的包含语义信息的映射。 对于简单的对应关系,通常可以只考虑1 :1 的关系,也可以考虑允许多对多 ( m :n ) 的关系。然而,无论是1 :l 还是m :n ,不指明语义关系( 例如等价关 系、包含关系等) 是这种方法的特点之一。因此,它们形成最终的映射结果 l o - 哈尔滨t 程大学硕十学何论文 还通常需要用户进一步的参与。另外的一个更高的层次是输出,它是包含语 义信息的映射,也就是说,它不仅仅找到映射,还同时指明该映射关系的语 义。d o u 等人通过桥接公理( b r i d g i n ga x i o m s ) 证明了关系数据库模式和本 体元素之间的语义映射。这种映射结果还充分利用了本体本身的推理能力。 另外,在本体映射领域,映射方法的映射结果表达形式也很多样,但主要是 以语义映射的形式表达。不难看出,构建复杂的查询重写( 例如,从s p a r q l 到s q l 的查询重写) 是关系数据库模式和本体之间映射的目标,这就使得语 义网可以方便的查询和集成现存储在关系数据库中的数据。并且,本体在逻 辑推理等方面的优势也可以很好的应用于语义映射中,所以包含语义信息的 映射与简单的对应关系相比,它更符合语义网的特点。但是也应该看到,由 于目前缺乏一种统一的表达形式来表达映射结果,而现存的方式之间又不存 在显式的兼容关系,所以要寻找到统一的框架集成这些包含语义信息的映射 还是十分困难的。 1 、 7 八入 黼张一船椭 手众动呆 ,m :n 手动半自动全自动i l :1 任意数目两者之一 两者都 确定 固定 图1 2 对已有关系数据库模式和本体i 甘- j 映射解决方案的分类 哈尔滨t 稃大学硕十学位论文 1 2 4 映射工具简介 1 o n t o g r a t e o n t o g r a t e t 3 剐是2 0 0 6 年e h 美国o r e g o n 大学开发的,它是一个典型的关系 数据库模式和本体间映射的系统。系统主要的六个功能模块如下:语法转换 器、映射生成模块、推理模块、学习模块、挖掘模块、用户界面模块。下面 简要介绍一下系统的执行过程:首先利用语法转换器,分别将关系数据库模 式和本体转换为中间模型( 用w e b p d d l 语言描述) ,然后通过人工参与映 射生成模块,从而可以生成两个中间模型之间的映射,最后输出的是桥接公 理。另外借助于推理、学习以及挖掘模块,还能够进行更深入的处理。提供 了一个较全面的映射框架是该系统的一个显著优点,另外它还通过充分利用 多种类型的外部知识来辅助构建语义映射。 2 m a p o n t o m a p o n t o e | 3 9 】是2 0 0 5 年,由加拿大多伦多大学实现的一种映射工具, 它是基于树的相似度传播思想的。在这个系统中,树状结构被用来作为中间 模型,进行数据库模式和本体的转换。执行过程可以分为以下几步:首先, 寻找关系数据库模式的属性和本体的数据属性之间的简单对应关系,找到这 种对应后,继续在两个中间模型( 即两棵树) 上传播这种对应( 迭代方法) , 最终的目的是找到关系数据库模式中多个元素( 表、关系) 和本体中多个元 素( 类、对象属性) 之间存在的多对多的关系,最终映射结果是以h o r n 子句的 形式输出。在该工具中,扩充e r 数据模型到树状结构的转换规则被全面 的考虑了。但是工具的时间开销较大,这主要是因为它是基于迭代算法的。 3 d l 0 4 d l 0 4 t , o j 是2 0 0 4 年,由美国爱荷华大学开发的一个映射工具。它包含的 主要功能有两个:第一是采用半自动化的方法实现关系数据库模式和本体之 间的映射;第二是自动化地实现了关系数据库模式之间的映射。在这里主要 介绍前者。它首先是把关系数据库模式和本体模型都转换为c o m a 图格式 ( 有根的有向无环图) ,然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全国甲卷难吗数学试卷
- 全国二年级期末数学试卷
- 普陀区中考数学试卷
- 衢州市高一数学试卷
- 七年级数学几何图形单元试卷及答案
- 2025上海市食品药品包装材料测试所公开招聘笔试参考题库附答案解析
- 普高中高一数学试卷
- 2025青海海南州共和县招聘幼儿保育员等政府临聘人员152人考试参考题库附答案解析
- 丰田汽车EU规格化推进
- 汽车维修技术数学试卷
- CCTV路亚基础知识讲座
- 手机查询健康体检报告
- 家庭经济困难学生认定申请表
- JJG 643-2024标准表法流量标准装置
- 《宠物内科病防治》课程教学标准
- 2024年无人机相关项目招商引资方案
- 中职教育人工智能技术赋能
- 《机电一体化系统设计》第四章课件
- 应急救护知识题库(550道)(一)
- 08690-幼儿园卫生消毒知识培训(课堂)课件
- 新污染物科普知识讲座
评论
0/150
提交评论