




已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的异构数据库集成技术研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士研究生学位论文 摘要 随着计算机和信息技术的发展,各企业部门都不同程度的构建了信息管理系统。但 由于各种原因,这些系统的数据库存在诸多不同程度的异构,使得相互联系的部门之间 不能交换和共享信息。因此如何将多个分布、异构的数据库集成在一起,并可以进行灵 活的互操作,是目前急需解决的问题。异构数据库集成的目标就是对地理位置上分布的 多个异构数据库,在尽可能少地影响本地自治性的基础上,构造具有用户所需要的透明 性的全局视角,屏蔽各参与局部数据库之间的各种异构,实现信息的共享和透明访问。 已经有许多数据库集成方案被提出,有效解决了一些异构问题,但语义异构一直没 有得到很好的解决。本文主要引入本体的概念束解决数据库集成中的语义异构问题。 本文主要的研究工作包括: 1 、分析了异构数据库集成过程需要解决的问题,以及现有的异构数据库集成的优 缺点,为本文的进一步研究奠定了基础。 2 、针对语义异构现象,讨论了将本体用于数据集成的优势,给出了一种基于混合 本体的异构数据库集成体系结构框架;提出了根据关系数据库建立局部本体并生成它 们之间映射的方法;研究了基于词汇相似度的本体合并方法,给出了自动合并局部本 体得到全局本体和生成映射的方法。 3 、在全局查询处理部分,给出了查询解析、查询分解和查询重写算法,将全局查 询最终分解为对各数据源的查询语句。 4 、给出了集成系统关键部分的结构设计与实现,并在某省的公路交通信息资源整 合与服务工程项目中利用了本文提出的集成方法,降低了系统内部的耦合度,增强了 可维护性,验证了此集成方法的实用性。 关键词:数据异构,数据库集成,本体,本体映射,语义异构 江苏大学硕士研究生学位论文 a b s r r r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e ra n di n f o r m a t i o nt e c h n o l o g y , m a n ye n t e r p r i s e sh a v e b u i l tt h e i ri n f o r m a t i o nm a n a g e m e n ts y s t e m s h o w e v e r , d u et ov a r i o u sr e a s o n s ,t h e r ea r em a n y v a r y i n gd e g r e e so fh e t e r o g e n e o u si nt h e s es y s t e m s d a t a b a s e s ,m a k i n gd e f f e r e n ti n t e r - l i n k a g e d e p a r t m e n t sc a nn o te x c h a n g ea n ds h a r ei n f o r m a t i o n s oh o wt oi n t e g r a t et h e s ed i s t r i b u t e d a n dh e t e r o g e n e o u sd a t a b a s e s ,a n dm a k et h e mh a v ef l e x i b l ei n t e r o p e r a b i l i t y , i sn o wa nu r g e n t w o r k t h ep u r p o s eo fh e t e r o g e n e o u sd a t a b a s ei n t e g r a t i o ni st ob u i l dag l o b a lt r a n s p a r e n td a t a m o d e lp e r s p e c t i v ea n ds h i e l dt h eh e t e r o g e n e i t yb e t w e e np a r t i c i p a t i n gd a t a b a s e s ( 1 0 c a l d a t a b a s e ) w h i c hi sg e o g r a p h i c a ld i s t r i b u t e d ,a c h i e v i n gi n f o r m a t i o ns h a r i n ga n dt r a n s p a r e n t v i s i t i n gw i t hm i n i m a li m p a c to nl o c a la u t o n o m y t h e r ea r em a n yd a t a b a s ei n t e g r a t i o nt e c h n o l o g yh a v eb e e na d v a n c e da n dh a v er e s o l v e d , s o m eh e t e r o g e n e o u sp r o b l e m se f f e c t i v e l y , b u ts e m a n t i c sh e t e r o g e n e i t yp r o b l e mh a sn o tb e e n r e s o l v e d t h i sp a p e ri n t r o d u c e dt h ec o n c e p to fo n t o l o g yt or e s o l v et h es e m a n t i ch e t e r o g e n e i t y i nd a t a b a s ei n t e g r a t i o n t h em a i nc o n t e n t so ft h ep a p e ri n c l u d e : 1 、 a n a l y s i st h ep r o b e l m st h a tn e e d t ob ea d d r e s s e di n h e t e r o g e n e o u sd a t a b a s e i n t e g r a t i o n ,a sw e l la st h ea d v a n t a g e sa n dd i s a d v a n t a g e si ne x i s t e dh e t e r o g e n e o u sd a t a b a s e i n t e g r a t i o ns y s t e m s t h e s ew o r k sl a yaf o u n d a t i o nf o r t h ef u r t h e rw o r k 2 、d i s c u s st h eo n t o l o g i c a la d v a n t a g e si nd a t ai n t e g r a t i o n ,a n db r i n gf o r w a r dah y b r i d o n t o l o g y - b a s e dh e t e r o g e n e o u sd a t a b a s ei n t e g r a t i o na r c h i t e c t u r ef r a m e w o r k ;p u tf o r w a r da m e t h o do f e s t a b l i s h i n gt h el o c a lo n t o l o g ya n dg e n e r a t i n gm a p p i n gb e t w e e nt h e mb a s e do nt h e r e l a t i o n a ld a t a b a s e ;s t u d yt h em e t h o do fc o m b i n i n go n t o l o g yb a s e do nt h ev o c a b u l a r y s i m i l a r i t y , a n dp r o v i d eam e t h o do fa u t o m a t i cm e r g e r i n gl o c a lo n t o l o g i e sa n dg e n e r a t i n g o n t o l o g ym a p p i n gb e t w e e ng l o b a la n dl o c a lo n t o l o g i e s 3 、a tt h ep a r to ft h eg l o b a lq u e r yp r o c e s s i n g ,d e s i g nt h ea l g o r i t h mo fq u e r yp a r s i n g , q u e r yd e c o m p o s i t i o na n dq u e r yr e w r i t i n g ,t h u st h eg l o b a lq u e r yi sd e c o m p o s e di n t ot h ef i n a l q u e r yt ot h ed a t a b a s e 4 、d e s i g na n di m p l e m e n tt h ec r u c i a lp a r to ft h ei n t e g r a t i o ns y s t e m 。a tt h ee n do ft h i s 江苏大学硕士研究生学位论文 p a p e r ,a p p l yt h i si n t e g r a t i o nm o t h o dt ot h ex x p r o v i n c er o a dt r a f f i ci n f o r m a t i o nr e s o u r c e s i n t e g r a t i n ga n ds e r v i c e sp r o j e c t p r a c t i c a la p p l i c a t i o ns h o w st h a tt h i si n t e g r a t i o na p p r o a c h r e d u c e st h es y s t e mc o u p l i n g ,a n de n h a n c e st h em a i n t a i n a b i l i t y , v e r i f yt h ep r a c t i c a l i t y k e y w o r d s :h e t e r o g e n e o u sd a t a ,d a t a b a s ei n t e g r a t i o n ,o n t o l o g y ,o n t o l o g ym a p p i n g , s e m a n t i c sh e t e r o g e n e i t y 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 学位论文作者签名: 签字日期:年 保密口,在年解密后适用本授权书。 不保密口。 指导教师签名碜诗 签字啸哆砌如 f 膨 方 日高月 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:舀文辔 日期:年月日 江苏大学硕士研究生学位论文 1 1 课题研究背景与意义 第一章绪论弟一早珀 下匕 随着计算机和信息技术的发展,各企业部门都不同程度的构建了信息管理 系统。但由于信息系统建设的阶段性、技术性和一些人为的因素,导致相同的数 据以不同的方式建模,在不同的软硬件下运行,采用不同的存储方式【1 】,以及使 用不同的概念,属性和关系来表达数据,形成了不同程度的异构,使得相互联系 的部门之间不能交换和共享信息。因此如何将多个分布、异构数据源集成在一起, 并可以进行灵活的互操作,是目前急需解决的问题。这对于深度利用各种数据资 源,提高数据共享的效率和层次,进而提高自身的竞争力都有深远的意义。 待集成的数据源通常是独立、自治的,并且在已有的数据源上可能已经存在 大量的应用,因此常常不允许修改已有的数据模式,加上各个数据模式没有统一 的规范,所以异构问题广泛存在。在这样的情况下,要集成分布的、异构的数据 库是一个很大的挑战。 异构数据库集成的目的【2 】就是提供一个统一的查询接口,屏蔽底层数据库的 不同,使得用户不必再考虑底层数据库的类型、物理位置和其中数据的语义异构 等问题,能够通过一个统一的查询界面实现对分布、异构数据库的灵活访问。集 成系统提供模式转换与集成、全局查询处理等功能,将从多个数据库取得的数据 以统一的方式呈现给用户。这样就使得对多数据库的操作就像操作单独的数据库 一样简单。其中的关键是如何以一种统一的数据模式描述各数据库中的数据,屏 蔽它们的平台、数据模式和语义等异构性,实现数据的无缝集成。 1 2 研究现状 信息集成技术经过多年的发展,研究者已经提出了多种信息集成的体系结构 和实现方案。 1 2 1 异构数据集成的数据组织方式 按照数据的分布位置及存储方式,异构数据集成系统的数据组织方式可分为 江苏大学硕士研究生学位论文 虚拟方式和物化视图方式。 ( 1 ) 虚拟方式 2 0 世纪8 0 年代初期,虚拟方式【3 】首先在多数据库系统中应用。该方式中, 数据并不存储在本地,集成系统建立与远程各数据源的逻辑映射,并且提供一个 虚拟的集成视图( 即全局模式) 和对该集成视图查询的处理机制,系统能自动地将 用户对全局模式的查询请求转换成对各成员数据库的查询,最后合并返回的查询 结果。在处理查询时,由于需要访问信息源,所以响应查询一般比较费时,其查 询代价较高。联邦方式和w r a p p e r m e d i a t o r 方法用的就是这种方式。 ( 2 ) 物化视图方式 与虚拟方式相对应,是物化视图方式【4 】。在这种结构中将各数据库的数据过 滤后预先装载到一个存储数据的全局数据库中,用户直接查询全局数据库中的数 据,而无需对数据源进行访问,数据的维护采用增量方式。与虚拟方式相比,物 化视图方式具有更快的查询响应时间;缺点是数据更新不及时、数据重复存储、 存储空间需求大。数据仓库方式采用的就是这种数据组织方式。 两种方法各有其适用范围,总体上来讲,虚拟的方法比较适用于数据源经常 变动的情形,而物化视图的方法对于数据源不经常变化且要求有快速查询响应的 情形更加适用。 1 2 2 现有的数据集成架构 异构数据集成目前存在的系统架构主要有:联邦方式,数据仓库方法和 w r a p p e r m e d i a t o r 方法。 ( 1 ) 联邦方式 早期数据集成普遍采用的是单个联邦系统【5 】,其结构如图1 1 所示。该方式 将由一组互相协作但保持各自自治性的局部数据库系统组成,各个局部数据库系 统之间仅存在着松散的联邦式耦合关系,没有全局统一模式,它们通过定义输入、 输出模式进行彼此之间的数据访问。每个局部数据库维护本地输入输出策略,输 出策略指明了本地系统提供的全局共享数据,输入策略指明了允许输入本地系统 的来自远程节点的数据,局部输入输出策略构成了全局策略的一部分。这种方式 存在一系列的问题:首先,构建这样一个集中式的系统需要很长的开发时间,要 求高性能的主机设备,实现代价较高;其次,系统的扩展和维护会涉及到整个系 2 江苏大学硕士研究生学位论文 统,而且一个集成系统无法共享另一个集成系统的模块。 图1 1 联邦数据库系统 ( 2 ) 数据仓库方法 数据仓库方法嗍,其结构如图1 2 所示。该方法将各数据源的数据按照需要 的全局模式从各数据源抽取并转换,存储在数据仓库中。用户的查询就是对数据 仓库中的数据进行查询。对于数据源数目不是很多并且数据变动不是很频繁的应 用来说,该方法十分有效。但对目前的海量数据,数据源繁多且变化快,对数据 源的数据抽取和转化要复杂得多,数据仓库方法的不足十分明显。 匡据仓司 i 数据仓库i 、一 t 合成器 i 抽取器 抽取器 +t 匡。苦s 司匡。苦s 主 图1 2 数据仓库方式图1 3w r a p p e r m e d i a t o r 方式 ( 3 ) w r a p p e r m e d i a t o r 方法 目前比较流行的建立数据集成系统的方法是w r a p p e r m e d i a t o r 7 1 力f ,其结 构如图1 3 所示。该方法并不将各数据源的数据集中存放,而是通过 w r a p p e r m e d i a t o r 结构满足上层集成应用的需求。数据集成系统通过中介模式将 各数据源的数据集成起来,而数据仍存储在局部数据源中,通过各数据源的包装 器m a p p e r ) 对数据进行转换使之符合中介模式。用户的查询基于中介模式,不必 知道每个数据源的特点,中介器( m e d i a t o r ) 将基于中介模式的查询转换为基于各 局部数据源的模式查询,它的查询执行引擎再通过各数据源的包装器将结果抽取 出柬,最后由中介器将结果集成并返回给用户。w r a p p e r m e d i a t o r 方法解决了数 3 江苏大学硕士研究生学位论文 据的更新问题,从而弥补了数据仓库方法的不足。 随着x m l 和语义w e b 的发展,w e bs e r v i c e 框架【2 】成为一种比较好的构建集 成系统的结构。在w e bs e r v i c e 的框架下,使用一组w e bs e r v i c e 协议,构建信息 集成系统,具有良好的封装性,松散耦合性,高度可集成能力等特征,成为了信 息集成系统较为理想的实现方案。 1 2 3 基于本体的数据集成的方式 数据集成系统的框架日趋成熟,但数据源在集成过程中表现出来的语义异构 性问题变得越来越突出。为了解决数据语义异构问题,许多研究组织进行了研究, 并提出将本体作为一种工具用于数据集成系统中。利用本体,用计算机可理解的 方式来描述数据源信息和全局数据模式。利用全局本体建立共享词汇库,以及待 集成领域的领域知识,所有的分布数据源都利用全局本体的共享词汇和共享知 识,从而最大程度的减少各个数据源数据的语义异构问题。 在基于本体的数据集成方法中,本体被用作信息源语义的直接描述。一般情 况下,存在三种方法:单一本体方法,多本体方法和混合本体方法【1 0 1 ,其结构如 图1 4 所示。 全 局部本体局懒局榔 a 单一本体 b 多奉体 c 混合奉体 局 部 本 体 图1 4 基于本体集成的三种方法 ( 1 ) 单一本体方法 这种方法中由单个本体提供一个全局本体,给出共享词汇集对语义进行说 明。所有的信息源都和这个全局本体相关。当所有的信息源在一个领域里被集成, 提供了一个统一的视图时,单本体方法就解决了集成问题。但是如果一个信息源 在领域内存在不同的视图时,也就是说提供了另一个级别的粒度,这时就很难发 现最小的本体承诺。并且单本体易受信息源改变的影响,由于信息源的改变,将 导致全局本体的改变和对其他信息源之间映射的改变。 代表系统是斯坦福大学的s i m s 项目,它的应用领域模型包括一个层次术语 4 江苏大学硕士研究生学位论文 知识库,每一资源简单地与全局领域本体相联。全局本体也可为几个专门本体的 结合,该结合体由本体表示形式化所支持。 ( 2 ) 多本体方法 在多本体方法中,每一个信息源对应于一个局部本体( 1 0 c a lo n t o l o g y ) ,局部 本体可以和其他本体合并而成,不同局部本体间建立映射关系( 如不同局部本体 中的概念相等或相似的对应关系等1 ,当某个局部本体更改时,只需修改受影响 的关联部分。多本体方法可以支持领域视角不同的信息源集成,不需要构建全局 本体,当信息源发生改变或者需要添加和删除信息源时,只需要对相应的局部本 体和受影响的关联部分进行修改,因此可以支持动态性较强的信息源集成。 但是多本体方法没有共享的词汇表( 或者全局本体) ,不利于本体间的互操 作。为了解决这个问题,该方法采用本体间映射以定义不同局部本体间的语义对 应关系,但是由于各个局部本体的领域视角可能不同,本体间语义异构问题众多, 因此建立本体间的映射难度较大。 ( 3 ) 混合本体的方法 为了克服单本体和多本体的缺点,产生了一种混合本体方法。和多本体的方 法相似,每个信息源由它自己的本体来描述语义。但是为了使每个源本体之间能 够相互比较,在最上层建了一个共享的词汇集,共享的词汇集包含了领域内基本 的术语。因为每一个源本体的术语是建立在原语的基础上,这样术语之间的比较 就变得简单。混合方法的优点是很容易增加一个新的信息源,不需要对映射和共 享的词汇集做过多的改动,并且能够支持本体的获取和进化。共享词汇表的应用 使得源本体兼容并避免了多本体方法的不足。但其缺点是己有本体的重用不方 便,必须从头开发。 1 2 4 现有的数据集成项目 国外对于基于本体的数据集成研究已经十分活跃,被广泛应用于知识管理、 信息检索和教育等领域。 s k c l l l l ( s e a l a b l e k n o w l e d g e c o m p o s i t i o n ) 是s t a n d f o r d 大学开展的一个项目, 其目标是解决信息系统中的语义异构问题,实现异构自治系统之间的互操作。希 望通过在多个信息源上建立不同的本体,然后在这些本体上建立一个代数系统, 用这个代数系统来实现各本体之间的互操作,从而实现异构系统之间的互操作。 5 江苏大学硕士研究生学位论文 a r i a d n e 项目| 1 2 】将目标集中在开发能够抽取、查询和集成w e b 数据源的智能 a g e n t 。在a r i a d n e 项目中,应用能够通过一个使用l o o m 编码的本体作为a r i a d n e 信息中间层来访问不同的数据源,在这个中间层中包含了本体与数据源之间的映 射信息。 o n t o b r o k e r t l 3 】面向的是w w w 上的网页资源,其目标是为用户检索到所需 要的网页。其基本思想是在页面中加入预先定义的本体标识( 基于h t m l 或x m l ) , 由w r a p p e r 收集这些标识并保存在数据库中。但在页面中标注有关数据是一项十 分浩大的工程,很难实施。 国内对于基于本体的数据集成研究开展的较晚,但仍取得了不少成果。 文献【1 4 】中张凯等人把本体作为知识共享的工具,提出了一个基于本体集成 的资源共享平台实现方法,并且在其中对本体集成过程中的不一致检查、处理和 概念层次统一问题进行了讨论。文献1 5 1 中提出了本体在w e b 信息集成中的一种 简单的体系结构。文献 1 6 1 中,介绍了一种利用数据挖掘和本体实现信息系统互 操作的方法。该方法通过基于本体的逻辑推理实现概念语义在不同空间信息系统 之间的转换,利用数据挖掘技术从候选集合中确定转换集合并将操作的结果返回 给用户,从而完成空间信息系统的互操作。 上面提到的系统取得了不错的成果,不过大多只局限于试验模型,都是针对 特定的工程环境下进行的,对一般应用环境下异构数据库集成问题,一直没有被 广泛接受且行之有效的方法,并且这些系统基本上都存在着欠缺全局模式、用户 操作复杂,或者存在全局模式但全局模式修改维护不便的问题。 1 3 本文主要工作 本文主要的研究内容包括: 1 、分析了异构数据库集成过程需要解决的问题,针对语义异构现象,讨论 了本体用于数据库集成的优势,给出了一种基于混合本体的异构数据库集成体 系结构框架。 2 、分析了全局本体和局部本体的建立问题,提出了在关系数据模式上自动 构建局部本体的方法,以及基于词汇相似度的自动合并局部本体得到全局本体 的方法。 6 江苏大学硕士研究生学位论文 3 、讨论了本体映射关系建立问题,给出了从全局本体到局部本体以及局部 本体到数据源的映射信息建立方法。 4 、设计了查询解析、查询分解和查询重写算法,查询解析将全局o q l 查询 解析为全局查询树,查询分解将全局查询树分解为对各局部本体的子查询树, 查询重写又将子查询树重写为对具体数据库的查询语句。 5 、给出了集成系统关键部分,即集成层和数据层d s p r o x y 的结构设计与实 现,并在某省的公路交通信息资源整合与服务工程项目中利用了本文提出的集 成方法,得到了理想的效果,验证了此集成方法的实用性。 1 4 本文的组织 本文共分六章: 第一章:主要介绍了基于本体的异构数据库集成的研究意义、研究现状和本 文的主要研究内容。 第二章:介绍了数据库集成的基本概念及语义异构问题,讨论了与数据库集 成相关的技术、本体的概念和本体在数据集成中的应用。 第三章:提出了基于本体的数据集成总体框架;给出了基于关系数据模式自 动建立局部本体和它们之间映射的方法;研究了利用知网计算词汇相似度的方 法,给出了自动综合局部本体生成全局本体的方法;给出查询解析、查询分解 和查询重写算法。 第四章:给出了系统集成层和数据层d s p r o x y 部分的设计方案,并对其中 的关键类结构进行了设计。 第五章:介绍了某省公路交通信息资源整合与服务工程的背景,在此基础上 给出了利用本集成系统实现综合应用的系统架构设计和系统实现过程。 第六章:对论文内容进行了总结,并对该领域的进一步研究工作进行了展望。 7 江苏大学硕士研究生学位论文 第二章异构数据集成及相关技术 2 1 异构数据库的特征 异构数据库系统是相关的多个数据库系统的集合,其基本特征是已存性、分 布性、自治性和异构性m 。 ( 1 ) 已存性 现代企业中,数据是有价值的资源和财富,收集、维护和利用这些数据与一 个机构的生存发展息息相关。由于应用领域的不同或历史等原因,这些数据可能 被保存在不同的数据库中,考虑到成本和技术的原因,这些数据难以合并到一个 数据库中,但它们仍然是有价值的,需要引入到新的应用环境中发挥作用。已存 性是对这一客观事实的承认,即异构数据库系统中的各局部数据库系统在异构数 据库系统建立之前就已经存在。 ( 2 ) 分布性 异构数据库系统中用户需要的数据来自于多个局部数据库,各局部数据库可 以存储在同一场地,但更多的是工作于一个分布式环境中。分布性是指数据被分 散地存储在各个不同的场地上,各数据库的内容被融入到用通信设备互联的计算 机网络环境中。异构数据库系统的分布性意味着异构数据库系统需要利用模式集 成的手段解决分布式数据库系统中的重复副本透明性、位置透明性和分布式事务 管理等问题。 ( 3 ) 自治性 由于异构数据库系统的各局部数据库系统都是独立设计的,并且运行在局部 数据库管理系统的控制之下,因此自治性是指各局部数据库管理系统能保持对自 己数据库的局部控制,即成员系统的数据库管理员可以自主的决定与其他局部数 据库系统共享和协作的程度。具体表现如下: 1 1 各局部d b m s 的局部操作不因其参与异构数据库系统而受影响。 2 ) 各局部d b m s 处理查询和优化不受全局查询执行的影响。 3 ) 各局部d b m s 加入或离开异构数据库系统并不影响整个系统的一致性。 自治性意味着在异构数据库系统中需要对数据的一致性、并发控制以及事务 8 江苏大学硕士研究生学位论文 处理重新进行定义。 ( 4 ) 异构性 异构数据是一个含义丰富的概念,不仅指不同结构的数据之间的异构,如结 构化的数据库数据和半结构化的文档数据,还包括不同的数据库系统之间的异构 性,如o r a c l e 和s q ls e r v e r 数据库,更重要的是数据表示的语义上的差异。数 据集成的一个重要任务就是屏蔽各种异构数据间的差异,对各种异构数据提供统 一的操作,使集成后的异构数据对用户来说是统一的和无差异的。 异构的形式主要可以分为下面几类: 1 ) 系统异构 , 系统异构主要指数据所依赖的应用系统,如数据库管理系统、硬件平台、 操作系统、并发控制、访问方式和通信能力的不同等。 劲数据模式异构 数据模式异构主要指数据在存储模式上的差异。一般的存储模式包括关 + 系模式、对象模式、对象关系模式和文档嵌套模式等几种,其中关系模式为 主流存储模式。需要注意的是,即便是同一类存储模式,它们的模式结构可 能也存在着差异。例如o r a c l e 所采用的数据类型与s q ls e r v e r 所采用的数据 类型并不是完全一致的。 3 ) 语义异构 信息资源之间存在着语义上的区别,这些语义上的不同可能引起各种冲 突。例如,从简单的命名冲突( 如同名异义,同义异名) ,到复杂的结构语义 冲突( 不同的模式表达同样的信息) ,语义冲突将会使数据集成变得复杂化。 所以如何尽量减少语义冲突是数据集成的一个研究热点和难点。 语义冲突可以分为概念模糊、命名冲突、域冲突三类: 概念模糊:概念模糊是指看上去是相同的概念表示不同的实体。例如“最 新的汇率 在不同的时间指不同的实体。概念模糊一般需要自然语言处理 技术来解决。 命名冲突:命名冲突是指同名异义、同义异名。广义的命名冲突包括概念 抽象程度不同等。 域冲突:域冲突是指同一个值用不同的尺度衡量。例如一个数据库中的价 格用人民币表示,另一个可能是用美元来表示。 9 江苏大学硕士研究生学位论文 2 2 异构数据库集成的定义及目标 异构数据库集成技术是为实现各个数据库之间信息的交流和共享而发展起 来的,目标【2 】是屏蔽各底层数据库的异构性,从多个自治的、分布的异构数据库 中获取信息,建立多数据源的全局统一视图,而不考虑其数据类型、数据存储、 物理位置等影响因素,提供对数据统一、透明的访问,为用户提供简单一致的查 询方式,最终实现信息共享。 具体来说,数据集成应达到这样两个目标,即分布的透明性和异构数据源 的透明性。 ( 1 ) 分布的透明性 这包括两方面:位置的透明性,即用户不必知道数据的物理存储地,就好像 所用到的数据全部存储在本地一样。这是由一个专门地分布式数据库管理系统来 实现的。如果缺乏数据位置透明性,则每个应用程序都必须关心自己的位置,本 地数据就不得不与远程数据分离开来。分布式存取透明,即可以处理各种网络资 源,就如同他们在本地机器上一样,系统必须对存取进行控制,同时提供设备目 录。 ( 2 _ ) 数据源的透明性 在数据集成中,如果仅从数据的角度来考虑,则主要是实现单一数据映像 s d i ( s i n g l ed a t ai m a g e ) 。即对于系统中的任何一个用户,不管它所需要的数据在 什么地方,来自什么样的数据源,在用户看来,这些数据是透明的。异构数据源 的透明性主要表现在两个方面:不同d b m s 的常规数据之间的透明性;不同 d b m s 的常规数据和非常规数据( 工程数据、制造自动化的实时数据、多媒体数 据等) 之间的透明性。 2 3 基于本体的数据集成 2 3 1 本体的概念 本体最早是一个哲学上的概念1 1 8 l ,从哲学的范畴来说,本体是客观存在的 一个系统的解释或说明,关心的是客观现实的抽象本质,它用于说明某种形式语 言( 或逻辑) 内在含义的逻辑理论,通过一种本体化约定的方式近似地描述了关 1 0 江苏大学硕士研究生学位论文 于现实世界的概念化,本体的本质是“建立在逻辑理论上的对概念化的近似描 述”。在人工智能界,最早给出本定义的是n e c h e s 等人,他们将本体定义为“给 出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这 些词汇外延的规则的定义 。本体是依靠人的智慧而创建的工程化产品,它包含 了许多领域中的技术,如知识表示与推理、面向对象建模、数据库理论以及人工 智能等。它可能被包含在一个软件系统中,像知识库一样工作,提供智能化的信 息处理功能。本体在英文中表示为“o n t o l o g y 或“o n t o l o g y ,前者用于哲学领 域,整个计算机科学领域使用“o n t o l o g y 。一个本体其实就是一套关于某一领域 的规范而清晰的描述,它包含概念( c o n c e p t s 或c l a s s e s ) 、每一个概念的属性 ( p r o p e r t i e s ) ,还有属性的限制条件( r e s t r i c t i o n s ) 。一个完整的本体还要包含一系 列与某个类相关的实侈w ( i n s t a n c e s ) ,这些实例组成了一个知识库( r d 3 一k n o w l e d g e b a s e ) 。 它有五个基本的建模原语( m o d e l i n gp r i m i t i v e s ) ,或者称为本体的五个基本 元素【1 8 l : ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) :指任何事物的抽象,从语义上讲,它表示的 是对象的集合。 ( 勾关系( r e l a t i o n s ) :在领域中概念之间的交互作用,形式上定义为n 维笛卡儿 积的子集:r :c 1 c 2 c n 。 ( 3 ) 函数( f u n c t i o n s ) :一类特殊的关系。该关系的前n - 1 个元素可以唯一决定第 n 个元素。形式化的定义为映射f :c 1 c 2 c n 1 一c n ( 4 ) 公理:代表永真断言,如概念乙属于概念甲的范围。 ( 5 ) 实例( i n s t a n c e s ) - 代表元素,从语义上讲实例表示的就是对象。 本体描述现实世界的能力十分强大。从描述对象的类型来说,本体既可以用 来描述简单的事实,又可以用来描述信念、假设、预测等抽象的概念;既可以描 述静态的实体,又可以描述与时间推移相关的概念,如事件、活动、过程等。 2 3 2 本体描述语言 自上个世纪9 0 年代以来,大量的研究工作者活跃在本体研究领域,诞生了 许多种本体描述语言,经常被使用的本体表示语言大都以框架模型或逻辑为基 础。一般将其归为以下两大类: 江苏大学硕士研究生学位论文 ( 1 ) 基于w e b 的本体语言( 也叫做本体标记语言) 有:r d f l 2 0 i 和r d f s 、o i l 【2 1 1 、 洲l 【2 2 1 、o w l 矧、s h o e l 纠等。其中s h o e 是基于h t m l 的,而其他语言 之间有着密切的联系,存在于w 3 c 的本体语言栈中的不同层次中,它们都是 基于x m l 的。 ( 2 ) 基于a i 的本体实现语言有:k i f 、o n t o l i n g u a 、c y c l 、l o o m 、f l o g i c t 矧等。 k i f 是美国国家标准,但是它没有被广泛应用于互联网,作为一种交换格式更 多的应用于企业级。 本文主要采用o w l 作为本体描述语言,下面将重点介绍o w l 语言的特点。 o w l t 2 3 】全称w e bo n t o l o g yla n g u a g e ,是w 3 c 推荐的语义互联网中本体描述 语言的标准。它是从欧美一些研究机构的一种结合性的描述语言d a m l + o i l 发 展起来的,其中d a m l 来自美国的提案d a m l - o n t ,o i l 来自欧洲的一种本体 描述语言。在w 3 c 提出的本体语言栈中,o w l 处于最上层,如图2 1 所示。作 为r d f 的扩展,目的是提供更多的原语,支持更加丰富的语义表达,更好的支 持推理。 o w l 能够用于清晰的表达词汇表中的词条的含义以及这些词条之间的关系。 而这种对词条和它们之间关系的表达形式就称为本体。相对于x m l 、r d f 和 r d f s 来讲,o w l 拥有更多的机制来表达语义。 针对不同的需求o w l 有三个子语言,即o w l l i t e ,o w l d l ,o w l f u l l 。 o w ll i t e 用于提供给那些只需要一个分类层次和简单的属性约束的用户。 支持基数( c a r d i n a l i t y ) ,只允许基数为o 或1 。 图2 1 本体语义栈 江苏大学硕士研究生学位论文 o w ld l 支持那些需要在推理系统上进行最大程度表达的用户,这罩的推理 系统能够保证计算完全性( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有地结论都能够保 证被计算出来) 和可决定性。它包括了o w l 语言的所有约束,但是可以被仅仅 置于特定的约束下。当一个类可以是多个类的一个子类时,它被约束不能是另外 一个类的实例。 o w lf u l l 支持那些需要在没有计算保证的语法自由的r d f 上进行最大程度 表达的用户。它允许在一个o n t o l o g y 在预定义的( r d f 、o w l ) 词汇表上增加 词汇,从而任何推理软件均不能支持o w lf u l l 的所有f e a t u r e 。 o w l 本体中的大多数元素都与类( c l a s s ) 、属性( p r o p e r t y ) 、类的实例( i n s t a n c e ) 以及这些实例间的关系相关。 o w l 的基本语法在w 3 c 上有详细的描述,常用到的语法标签如表2 1 所示: 表2 1o w l 基本语法标签 标签 含义 o w l :o n t o l o g y 声明本体描述 o w l :t h i n g 内置的公共类,为所有类的父类 o w l :c i 鹕 定义了一组共享了某些相同属性的个体 o w l :s u b c l a s s o f 定义一个类是另一个或多个类的子类 o w l :o b j e c t p r o p e r t y 属性被声明为对象类型的属性 o w l :d a t a t y p e p r o p e r t y属性被卢明为数据类型的属性 r d f s :d o m a i n一个属性的d o m a i n 是能够应用该属性的个体的组合 r d f s :r a n g e一个属性的r a n g e 是该属性所必须有的值的个体的集合 r d f s :i d声明所描述的概念的名称 2 3 3 本体在数据集成中的作用 在数据集成的许多经典论述中,都将本体及其相关技术,作为达到系统互操 作的数据集成方案的基础。通过对概念的严格定义和概念之间的关系来确定概念 的精确含义,表示共同认可的、可共享的知识,从而解决语义异构的问题。一个 本体为特定领域的实体给出名字和描述,使用谓词来表示这些实体之间的关系。 它为表示和交流领域的知识给出了一个词汇库,并给出了一系列包含着词汇库里 的术语的关系。具体来说,本体在数据集成中起着公共语义描述、查询模型、推 理基础三大作用。 江苏大学硕士研究生学位论文 ( 1 ) 公共语义描述( 概念定义) 利用本体作为语义描述的许多实现中,都提供了一个覆盖了几乎所有包含 在被集成数据源中的概念的本体。概念定义有两层含义:第一,本体内部复 杂概念和关系通过其它基本的概念和关系定义出来。第二,可以将本体作为 公共概念模型,来定义各数据源的概念和关系,作为各数据源语义数据集成 的基础。 ( 2 ) 查询模型 本体用于数据集成系统,使它作为一个中介或代理,让大量的异构的底 层数据源对用户来说是透明的。即用户可以不知道数据源的结构,仅提交一 个针对本体的查询,系统基于语义定义,可以自动地将针对本体的查询分解 为针对数据源的查询。这样,用户就可以仅仅提出需要什么数据,而不需要 指出如何去发现数据。 ( 3 ) 推理基础 本体用于数据集成系统的另一个意义在于:由于本体可以建立在逻辑基础 上,这使数据源中的一些隐性的概念或关系可以被发现。如果用户查询本体 中的一个概念,相关的答案可能在和其子概念和父概念联接的元素和属性中 找到。从一个明确的被查询的概念出发,可以按照本体的结构,依次找到子 孙概念和祖先概念作为其潜在的支持答案的概念。本体的推理基础作用,体 现在异构、分布环境下的数据集成中,可以提高数据的查全率和查准率。 因此,本体具有描述数据源语义和解决异构的潜力,在数据集成中使用本体 有许多的优点:第一,本体提供了一个丰富的、预定义的词汇库,可作为与数据 源的稳定的概念接口,并且独立于数据模式;第二,本体表示的知识足够支持所 有相关信息源的转换;第三,本体支持一致的管理和非一致数据的识别。 2 4w e bs e r v i c e 技术 w e bs e r v i c e 2 6 l 是近年来备受关注的一种分布式计算技术。它是在i n t e r n e t 或i n t r a n e t 上使用标准的x m l 语言和信息格式的全新的技术架构。其内容主要 包括: w s d l ( w e bs e r v i c e 描述语言,用于进行服务描述) ,u d d i ( 统一描述、 发现和集成规范,用户服务的发布和集成) ,s o a p ( 简单对象访问协议,用于消 1 4 江苏大学硕士研究生学位论文 息传输) 。 从用户角度看,w e bs e r v i c e 就是一个应用程序阳,它向外界暴露出一个能 够通过w e b 进行调用的a p i 。服务请求者能够用非常简便的类似于函数调用的 方法通过w e b 来获得远程服务,服务请求者与服务提供者之间的通信遵循s o a p 协议。 s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c o ) 协议是在分布式环境中交换信息的灵活 简单的协议,它采用了x m l 格式来表示消息。s o a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 在挫折中奋起教学设计高中心理健康北师大版浙江专版高中三年级全一册-北师大版浙江专版
- 第5课 三大改造 教学设计-统编版八年级历史下册
- 基于人工智能的2025年高速公路智能交通系统智能调度报告
- 2025-2032年新能源汽车出口至菲律宾市场增长潜力分析报告
- 第15课 瞧这一家子说课稿小学美术苏少版六年级上册-苏少版
- 2025年新能源电动车智能化市场机遇与产品升级报告
- 2025年5G网络技术在智慧农业中的应用报告
- 氢能基础设施2025年投资成本分析及技术创新路径研究
- 第5课 分分合合有规划-管理工作表 说课稿-辽师大版(2015)初中信息技术七年级上册
- 2025年中国高密度聚乙烯管行业市场分析及投资价值评估前景预测报告
- (新教材)2025年秋期人教版一年级上册数学全册核心素养教案(教学反思无内容+二次备课版)
- 2024-2025学年浙江省宁波市金兰教育合作组织高一下学期期中联考历史试题(解析版)
- 羊驼介绍课件
- 特种设备安全监察条例培训
- 医德医风培训课件内容
- 2025年政工师考试试题及答案
- 孕优培训课件
- 2025广东高考物理第一轮基础练习:机械能守恒定律(有答案)
- 马工程西方经济学(精要本第三版)教案
- 新课标下的小学语文跨学科教学模式探讨
- 2025年物联网安装调试员(高级)技能鉴定考试题库
评论
0/150
提交评论