(计算机应用技术专业论文)基于本体异构数据集成方法的研究.pdf_第1页
(计算机应用技术专业论文)基于本体异构数据集成方法的研究.pdf_第2页
(计算机应用技术专业论文)基于本体异构数据集成方法的研究.pdf_第3页
(计算机应用技术专业论文)基于本体异构数据集成方法的研究.pdf_第4页
(计算机应用技术专业论文)基于本体异构数据集成方法的研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)基于本体异构数据集成方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工业大学硕士学位论文 基于本体异构数据集成方法的研究 摘要 随着计算机技术和网络技术的发展,现代企业在信息化建设的过程中,开发 了大量基于不同软硬件平台的信息管理系统,应用于各自的生产和管理。在这 些应用系统中存储了大量的异构数据。为了更好的利用网络上的信息,以及避免 企业在信息化建设过程中的重复建设,充分利用遗留的信息管理系统,我们需要 将这些地理上分布、管理上自治、模式上异构的异构数据源进行集成。对异构数 据源进行集成,其目的是实现信息共享,解决“信息孤岛 造成的重复录入、资 源浪费、数据不一致等问题,同时为综合信息查询和决策支持服务提供基础数据 平台。本体由于在知识概念的表示和推理方面的优势,在数据集成中得到应用。 本文主要针对目前企业信息化建设过程中的异构数据集成问题进行了研究, 将本体技术应用到数据集成领域中,本文主要的研究工作和创新点如下: ( 1 ) 在研究了现有的一些数据集成系统基础上,我们设计了一个数据集成系 统,提出了一种m e d i a t o r - w r a p p e r 方式的数据集成框架。 ( 2 ) 研究了全局本体和局部本体的构建方法,并利用p r o t 6 9 6 工具构建了全 局本体和局部本体。 ( 3 ) 研究基于本体技术异构数据集成面临的两个关键问题:本体映射和查询 处理。建立了全局本体和局部本体之间以及局部本体和数据源模式之间的映射。 ( 4 ) 借鉴x m l 和关系数据库的查询表示方法,提出了一种本体概念实例查 询操作表示和一种建立在查询操作图基础上的查询分解方法,用束将全局查询分 解成若干局部查询,实现对x m l 和关系数据库( r d b ) 这两种典型的基于不同数 据模型的异构数掘数据源的集成式查询。 关键词:本体,异构数据集成,m e d i a t o r - w r a p p e r ,映射,查询处理 浙江工业大学硕士学位论文 r e s e a r c ho nt h ea p p r o a c h f o r o n t o l o g y _ - b a s e dh e t e r o g e n e o u sd a t a i n t eg r a t i o n a b s t r a ct f o l l o w i n gt h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g ya n dn e t w o r kt e c h n o l o g y , m o d e me n t e r p r i s e sh a v ed e v e l o p e dl a r g ea m o u n to fi n f o r m a t i o nm a n a g es y s t e m s b a s e do nd i f f e r e n tp l a t f o r m so fs o f t w a r ea n dh a r d w a r ei nt h ep r o g r e s so fi n f o r m a t i o n r e a l i z a t i o n i no r d e rt og e tb e t t e ru s i n go ft h ei n f o r m a t i o no ni n t e r n e t ,a n dt oa v o i dt h e o v e r l a p p e dc o n s t r u c t i o ni np r o g r e s so fe n t e r p r i s ei n f o r m a t i o nr e a l i z a t i o na n dt om a k e f u l lu s eo ft h el e g a c yi n f o r m a t i o nm a n a g es y s t e m s ,w es h o u l di n t e g r a t et h e h e t e r o g e n e o u sd a t aw h i c hi sd i s t r i b u t e di ng e o g r a p h i c a l ,a u t o n o m yi nm a n a g e m e n t , a n dh e t e r o g e n e o u si nm o d e l t h eg o a lo ft h eh e t e r o g e n e o u sd a t as o u r c ei n t e g r a t i o ni s t or e a l i z ei n f o r m a t i o ns h a r i n ga n dt or e s o l v et h ep r o b l e m sc a u s e db y “i n f o r m a t i o n i s o l a t e di s l a n d ”w i t c hi n c l u d er e p e a te n t r y ,r e s o u r c ew a s t a g e ,d a t ai n c o n s i s t e n c y , e t c m e a n w h i l e ,t h er e s e a r c hw i l lp r o v i d eab a s i cd a t ap l a t f o r mt os y n t h e t i ci n f o r m a t i o n q u e r ya n dd e c i s i o ns u p p o r ts e r v i c e b e c a u s e o ft h ea d v a n t a g eo nk n o w l e d g ea n d c o n c e p tr e p r e s e n t a t i o na n dr e a s o n i n g ,o n t o l o g yi su s e di nt h ef i e l do fh e t e r o g e n e o u s d a t ai n t e g r a t i o n i n t h i st h e s i s ,w er e s e a r c ht h ep r o b l e mo fh e t e r o g e n e o u sd a t ai n t e g r a t i o nw h c h a p p e a r e di n t h ep r o g r e s so fe n t e r p r i s ei n f o r m a t i o nr e a l i z a t i o n t h eo n t o l o g yi s i n t r o d u c e dt ot h ef i e l do fd a t ai n t e g r a t i o n t h em a i nw o r ka n dc r e a t i v ec o n t r i b u t i o n s o ft h i sp a p e ra r ea sf o l l o w s : ( 1 ) b a s e do nt h er e s e a r c ho fe x i s t i n gd a t ai n t e g r a t i o ns y s t e m s ,w ed e s i g n e dad a t a i n t e g r a t i o ns y s t e ma n dp r o p o s e dad a t ai n t e g r a t i o nf r a m e w o r kb a s e do nm e d i a t o r 浙江工业大学硕士学位论文 ( 2 ) w ed i s c u s s e dt h ea p p r o a c ho fg l o b a lo n t o l o g ya n dl o c a lo n t o l o g yc o n s t r u c t i o n , t h e nc o n s t r u c t e dt h eo n t o l o g yb yat o o lc a l l e dp r o t 6 9 6 ( 3 ) t h i sp a p e ra l s or e s e a r c h e dt w ok e yp r o b l e m s :o n t o l o g ym a p p i n ga n dq u e r y p r o c e s s i n g , a n dw ee s t a b l i s h e dt h em a p p i n g sb e t w e e ng l o b a lo n t o l o g ya n dl o c a l o n t o l o g ya n dt h em a p p i n gb e t w e e nl o c a lo n t o l o g ya n dl o c a ld a t as o u r c e s ( 4 ) r e f e r e n c i n gt ot h eq u e r ye x p r e s s i o n si nx m la n dr e l a t i o nd a t as o u r c e ,w e p r o p o s e daq u e r yo p e r a t i o ne x p r e s s i o no fo n t o l o g yc o n c e p t sa n da na p p r o a c ho fq u e r y d i v i s i o nb a s e do nq u e r yo p e r a t i o nc h a r t w ed i v i d e dt h eg l o b a lq u e r yi n t os e v e r a l l o c a l q u e r i e sa n dr e a l i z e d t h ei n t e g r a t e di n f o r m a t i o nr e t r i e v a lo nt w ot y p i c a l h e t e r o g e n e o u sd a t as o u r c e s :x v i la n dr d b ,w h i c ha r eb a s e do nt w od i f f e r e n td a t a m o d e l s k e yw o r d s :o n t o l o g y , h e t e r o g e n e o u sd a t ai n t e g r a t i o n ,m e d i a t o r - w r a p p e r , d a t a m a p p m g ,q u e r yp r o c e s s i n g 浙江工业大学 学位论文原创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研 究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包 含其他个人或集体已经发表或撰写过的研究成果,也不含为获得浙江工业大 学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献 的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。 作者签名:3z - 弘日期 月以日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本 学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保删 ( 请在以上相应方框内打“、) 作者签名:3 工 刷噬名捌 日期:冲r月3 旧 日期:加7 年r 月西日 ,勿 浙江工业大学硕士学位论文 1 1 课题的研究背景 第一章绪论 随着计算机技术和网络技术的快速发展,w e b 上的信息量成指数级增长,已 经使互联网成为一个巨大的信息库。另一方面,现代企业在信息化建设的过程中, 开发了大量基于不同软硬件的信息管理系统,应用于各自的生产和管理。在这 些应用系统中存储了丰富的数据。有传统的关系型数据,h t m l 、x m l 等半结 构化数据,还有图片、声音和其它多媒体信息等的非结构化数据。但是由于各自 软硬件平台以及数据模式的不同,使得这些数据源各自相互独立,缺乏统一的查 询访问接口,这样就形成了成千上万个分布、自治、异构的数据源,为了更好的 利用网络上的信息,以及避免企业在信息化建设过程中的重复建设,充分利用遗 留的信息管理系统,我们需要将这些地理上分布、管理上自治、模式上异构的异 构数据源进行集成,同时还需要保持数据在在不同系统上的完整性和一致性。同 时,必须向用户隐藏差异性同时提供给用户一个统一和透明的查询访问接口。对 异构数据源进行集成,其目的是实现信息共享,解决信息孤岛造成的重复录入、 资源浪费、数据不一致等问题,同时为综合信息查询和决策支持服务提供基础数 据平台。研究的重点在于确定一种具有普遍意义的,可操作性强的分布异构数 据源的集成方法。 随着x m l 技术的发展,现在x m l 成为了应用问交换数据的一种标准,也 是万维网重要的信息交换标准和表示的技术。x m l 拥有成熟技术标准,和完善 的查询机制。x m l 使用模式级规范( d t d 或x m ls c h e m a ) 作为标准在电子商务 中得到广泛的应用,例如e b x m l o q ,b i z t a l k 和r o s e t t a n e t ,模式级规范可用于指 定共同接受的用于交换产品信息的标签集,x m l 具备相当丰富的数据表达能 力,这也造成了数据标签的不一致性,这样语义异构在x m l 交换中依然存在。 近年来,随着语义网( s e m a n t i cw e b ) m 3 的兴起和本体技术的研究,本体已经 浙江工业大学硕士学位论文 被作为一种数据源的描述和共享工具而加入到了异构数据集成领域。通过这种方 法不仅可以比较有效地解决异构数据集成中的语义异构问题,而且也可以为目前 的研究热点d e e pw e b 啪1 搜索提供技术支持,即可以将基于本体的数据集成技术运 用于d e e pw e b 的主要构成成份:分布在网络上的各个应用程序的后台数据库, 从而支持通过自然语言关键字对数据源进行搜索。 将本体引入到异构数据集成中,作为全局概念模型的描述工具,恰好可以利 用丰富的语义表达能力和推理能力,来支持异构数据源的集成和映射,因而,基 于本体的异构数据集成系统成为数据库集成领域的一个新的研究方向。 1 2 国内外的研究发展与现状 1 2 1 异构数据的介绍 异构数据不仅指不同的数据库系统之间的数据,如o r a c l e 数据库和s q l s e r v e r 数据库分别存放的数据;而且还包括不同结构的数据,如结构化的关系型 数据库数据,半结构化的x m l 数据和h t m l 数据,以及无结构化的文本,图片, 声音和其它多媒体信息数据,异构数据的划分如图1 - 1 所示。目前异构数据集 成的研究主要集中在各种关系型库和x m l 文档数据。在面向企业的应用集成中 数据集成的主要对象也是各种关系型数据库和x m l 文档。 父系数据库 ( r d b ) 图1 1异构数据的划分树图 2 浙江工业大学硕士学位论文 使用着多个异构数据源的系统形成了异构数据系统,系统包括数据源和数据 接收者,其中数据源主要指关系型数据库、x m l 文件、文本文件等,接收者是指 提出查询请求的用户和应用程序。异构数据系统的具有如下主要特点n 2 1 : ( 1 ) 分布性 当前有很多的计算机都连接在某种类型的网络上( 特别是i n t e m e t ) ,通过组 合这些分布在不同地点的应用程序和数据源。它们就能通过网络进行通信。 ( 2 ) 自治性 每个数据源都可以独立地被用户或应用程序访问,而不受其它系统的限制。 s c h e u e r m a n n d l 提出了不同类型( 等级) 的自治: 设计自治:包括所管理的数据或信息、数据元素的表示( 数据模型、查询 语言) 和命名、数据的概念化或语义解释、管理数据的限制、系统功能、与其它 系统的关联; 通信自治:指系统自己决定与其他什么系统通信,以及它们之间交互的内 容; 执行自治:指系统自己决定如何及何时执行来自其它系统的请求,外部系 统不能强制命令的执行,则系统本身可以忽略所有不满足本地限制的操作。 设计自治将导致多种不同类型的异构,同时设计自治使得语义互操作( 不同 系统间的信息进行有意义的交互) 变得困难。通信自治和执行自治为查询处理和 优化提出了挑战。 ( 3 ) 异构性 数据源的异构性主要包括:平台异构( p l a t f o r m h e t e r o g e n e i t y ) ,结构异构 ( s c h e m a t i c h e t e r o g e n e i t y ) ,语法异构( s y n t a c t i c h e t e r o g e n e i t y ) ,语义异构( s e m a n t i c h e t e r o g e n e i t y ) 2 i o 。其中平台异构包括硬件和操作系统,例如,硬件,系统软 件( 如操作系统) 和通信系统之间的差异。语法异构包括不同的语言和数据表示; 结构异构包括不同的数据模型;语义异构包括用户信息请求的语义和数据源的语 义。现在已开发出很多技术来解决这些类型的异构。其中系统异构和结构异构己 经可以利用基于c o r b a ,d c o m 的各种中间件产品束解决,语义异构是数据集 成过程中最难解决的问题,目前还没有彻底的解决方法,目前比较有效的方法是 使用本体技术来消除语义异构问题。这也是目前数据集成领域和语义网技术领域 的一个研究热点。 3 浙江工业大学硕士学位论文 异构性对于系统设计者来说既是一个受欢迎的特征也是一个不受欢迎的特 征。一方面受欢迎是因为它与系统效率紧密相连,程序与需要解决的问题的匹配 度越高,该程序就会工作得越好,在这个过程中会选择一个合适的编程语言并给 出一些需要的假设条件。另一方面异构性也被考虑为是不受欢迎的特征,因为它 为系统的互操作性带来了障碍,使得异构系统间的数据不易交换,不利于数据的 共享,使用着异构数据的系统形成了异构数据系统,系统包括数据源和数据接收 者,其中数据源指关系数据库、x m l 文件、文本文件等,接收者是指提出查询请 求的用户和应用程序。 1 2 2 异构数据集成的发展与研究现状 异构数据集成是对各种异构数据提供统一的表示,存储和管理,这些功能在 异构数据集成系统中实现。数据集成屏蔽了各种异构数据间的差异,通过异构数 据集成系统进行统一操作。实现不同应用系统中异质信息资源的跨时间、空间的 透明、无缝整合,以便以统一的方式为用户提供更高层的信息服务。因此集成后 的异构数据对用户来说是统一的和无差异的,整个访问的过程对用户而言是完全 透明的。 根据a m i tp s h e t h n 幻提出的观点,数据集成的发展可大约分为三个阶段: 7 0 年代8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库系 统,重点在于使有着不同软硬件设备的计算机系统进行互连和通信,解决了一定 程度上的语法和结构异构,实现了地理分布,数据模式等的透明性,主要的产品 有u n i s q l m ( u n i s q l ) ,m e r m a i n ,d a t a l o i n e r ( i b m ) ,o m n i c o n n e c t ( s y b a s e ) 等。 8 0 年代中期9 0 年代中期:随着网络的出现,i n t e r n e t 的发展以及多种类 型的数据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出现了一 些支持多种类型的异构数据集成的技术,如m e t a d a t a ,m e d i a t o r ,中问件等, 主要的系统有t s i m m i s ,g a r l i c ,s i m s ,h e r m e s ,l n f o s l e u t h 等。 9 0 年代中期现在:这个阶段比较关注数据集成过程中的语义异构的解 决问题,更多的运用知识领域的有关技术如本体等。主要有信息的智能集成、数 字化图书馆等,目前本体技术是解决异构数据集成中语义异构的有效途径,通过 本体的映射机制,我们可以逐步达到消除语义异构的目的。 4 浙江工业大学硕士学位论文 数据集成系统为用户提供统一的数据源访问接口,执行用户对数据源的访问 请求,其简化结构如图1 - 2 所示: 图1 - 2 数据集成简化结构图 随着计算机软件技术的发展,如中间件,x m l 技术,w e bs e r v i c e s 技术和 本体技术,通用的异构数据源集成系统的研究也正在火热的进行。目前已经取得 了许多重要的研究成果,其中比较典型的异构数据集成系统有以下几种: t s i m m i s ( t h es t a n f o r d i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 是由 s t a n f o r d 大学研究开发的异构信息源集成系统“。t s i m m i sp r o j e c t 首先阐述了 半结构化数据在数据集成中的益处和重要作用。该系统采用了一种带标签树( 自 描述) 的数据模型o b j e c te x c h a n g em o d e l ( o e m ) 将各异构数据转化为o e m 数据 ,并提供l o r e l 语言对这些数据进行访问n 5 1 。这种方法的好处是对异构数据 没有任何限制,不同的数据可以编写不同的程序来解决。但是将异构数据转化为 o e m 数据的转换程序主要靠手工编程,编程任务太繁重。 i b m 的t h eg a r l i cp r o j e c t 引,是一种联邦数据库系统( f d b s ) ,由半自治数 据库系统构成,相互之间分享数据,联邦各数据源之间相互提供访问接口。对于 联邦数据库中的任何数据,用户可以按照d b 2 的方式来进行操作。目前g a r l i c 项目拓展了这一思想柬构建联邦体数据库系统,该系统可以有效地查询各种不同 的,可能是非关系型的数据源。在此系统中,中问件查询处理器促进了优化执行 方案,并弥补了各数据源可能缺乏的功能。g a r l i c 由于采用的是联邦数据库的体 系结构,所以造成了数据源接口映射量大,扩展性差的缺点。 5 。l 盆 , ;“;土 浙江工业大学硕士学位论文 y a t ( 基于中间件的信息集成系统) 系统n 力( 由美国政府o p a l 计划支持) , 该系统采用m e d i a t o r w r a p p e r 中间件框架实现了关系模式和s g m l 到o d m g 的 转化,在2 0 0 0 年,该系统的研究再次受到o p a l 计划和a q u a r e l l e 资助,并 以研究基于x m l 中间件信息集成系统( y a t 系统) 为主,其中c h r i s t o p h i d e sv , c l u e ts ,s i m e o nj 等人主要研究了以x m l 集成视图对异构数据的包装和查询, 并提出了相应的代数体系结构。 与国外所开展的研究工作相比较,国内关于数据集成技术的研究起步较晚, 但是发展很快,该领域关键技术的研究倍受国内各大学和科研院所研究人员的关 注,正逐渐成为信息管理与应用领域研究的热点与焦点。国内异构数据集成研究 相关的主要项目有国家重点基础研究发展规划( 9 7 3 规划) 的“网络环境下海量信 息组织与处理的理论与方法项目”和“万维网上的数据集成,数据仓储及知识发 现的有效算法与软件系统”,国家数据库重大专项课题( 8 6 3 项目) 的“基于x m l 的数据集成、共享与交换”等。中国人民大学信息学院的孟小峰教授等就w e b 数据管理的若干问题进行了研究,重点就w e b 查询问题,半结构化数据模式和 w e b 信息集成方法进行了研究。他们提出了一个基于x m l 的w e b 数据管理系统 框架婶,首先将各异构信息源转换载入到x m l 数据中心,然后对数据中心的 x m l 数据进行管理和查询。目前研究工作仍处于进一步探索阶段。 目前国内的研究机构也在在这个领域取得了一定研究成果,其中具有代表性 的有华中科技大学智能与分布计算实验室的p a n o r a m a 和东南大学的v e r s a t i l e 。 p a n o r a m a 可扩展多数据库原型系统n ,该系统具有模式集成,查询处理和 事务处理功能,能够提供对o r a c l e ,s y b a s e 和d b 2 等成员数据库系统的透明互操 作。提出了一种以多数据库系统为主要技术路线的分布异构数据集成方法一 “c a x ”方法。该方法采用c o r b a 中间件作为集成系统的物理模型框架,采用 基于a g e n t 的逻辑模型框架,采用基于x m l 的公共数据模型。该方法通过融合 c o r b a 和a g e n t 技术,实现对各类关系数据源的封装,使集成系统的结构更适 合分枷式环境,增加业务流程的灵活性,同时也简化了集成系统的设计。 v e r s a t i l e 是一个基于c o r b a 的分布式异构数据源集成系统原型“。它使用 对象集成模型( o i m ) 作为数据集成的公共模型,在s q l 语句的基础上增加了一 些构造符,形成一种对象集成查询语言作为其查询语言。同时引入模板和动态字 典的概念统一描述各种异构数据源的模式,不通过扫描数据库,而是利用局部动 6 浙江工业大学硕士学位论文 态字典的模板操作构造集成系统全局动态字典,为查询的分解和优化奠定了基 础。 1 2 3 异构数据集成面临的技术问题 异构数据集成主要面临如下的技术问题: ( 1 ) 全局数据模式及全局查询语言( g l o b a ld a t am o d e la n dg l o b a lq u e r y l a n g u a g e ) 因为联合使用的各局部数据源( l d b ) 的模式可能互不相同,通过建立全局 数据模式,使用户感觉就像使用一个单一数据库一样,从而使用户透明地访问异 构数据源。全局查询语句包括数据定义语言( d d l ) 和数据操纵语言( d m l ) ,它 是对应于全局模式的。 ( 2 ) 识别数据匹配性( r e c o g n i z i n gd a t ai n c o m p a t i b i l i t y ) 由于相同的对象在不同的数据源中也可能有诸如类型、长度等的不同,因而 在集成多个局部数据源时要识别这些不匹配的数据,并在全局数据字典或者映射 表中表示它们。 ( 3 ) 全局数据字典( g l o b a ld a t ad i c t i o n a r y ) 描述整个集成网络中数据源的定义及分布情况,包括全局实体名称对应的局 部实体名、局部数据源存在的节点名等,它是全局查询的基础。 ( 4 ) 查询分解及翻译( q u e r yd e c o m p o s i t i o na n dq u e r yt r a n s l a t i o n ) 从客户端发出的全局数据查询被分解成对各局部数据源的子查询,再由相应 的l d b m s 或者本体查询接口完成局部查询。因为本体数据源查询系统使用的查 询语言与全局查询语言可能有较大的不同,因此分解出的查询必须翻译为各 l d b m s 或者本体数据源查询系统对应的查询语言。 ( 5 ) 查询优化( q u e r yo p t i m i z a t i o n ) 网上传输的速度是制约查询效率的一个因素,而各l d b m s 和本地查询系统 的查询方式与速度的不同又使处理变得更为复杂,特别是对涉及到多个数据源节 点的连接查询提高处理效率尤为重要。 ( 6 ) 查询结果处理( q u e r yr e s u l t sp r o c e s s ) 对于来自各数据源的局部查询结果要进行汇总,并按一定格式进行存储和显 示。 ( 7 ) 安全控制( s e c u r i t yc o n t r 0 1 ) 7 浙江工业大学硕士学位论文 当异构的数据源被集成到联合使用的系统中以后,要保证原来某一系统中的 保密数据不能被非授权的用户访问,被纳入到全局模式的各局部数据库不能被其 所在场所的用户随意修改。 ( 8 ) 数据转换( d a t at r a n s f o i m ) 包括单节点上不同数据源的转换,网上任意两个节点上不同间数据源之间的 数据的转换。 1 3 本文的研究内容和目标 鉴于数据集成的重要性和现实意义,本文的主要研究内容有:首先重点了解 本体的概念及应用,并说明了本体在集成中的重要作用,在阐述了本体的概念、 分类、描述语言之后,本文会以一个医疗设备领域为例,利用s t a n f o r d 大学开发 的p r o t 6 9 6 工具来建立一个全局本体,和相关的局部本体,本文在研究了当前集 成的一些方法之后,给出一个基于本体的分层的数据集成系统框架设计,并详细 说明各层的功能模块。然后我们会针对这个集成方法和已建立的本体来建立映射 关系,其中涉及到全局本体、局部本体和数据源。本文以目前最广泛使用关系数 据模型和x m l 数据模型为基础,提出由关系数据的e r 模型到局部本体转换方 法,以及由x m l 数据模式到局部本体的转换方法。最后我们会借鉴关系数据库 查询操作的表示方法,提出基于本体概念实例的全局查询表示,并通过构造查询 操作图来实现全局查询的分解,然后对分解后的若干子查询进行本地转换,使其 成为能被本体数据源管理系统执行的本地查询。最后进行集成式查询的演示。 1 4 论文的结构 本论文分为血章,各章节安排如下: 第一章,绪论。介绍了论文选题背景,国内外的研究现状和面临的问题以及 主要的研究内容。 第二章,异构数据集成和本体相关技术。先研究了异构数据集成中的数据模 型,集成的主要方法和集成模式的映射方式。然后研究了本体的相关技术,包括 本体的定义、分类、功能特点、描述语言。 8 浙江工业大学硕士学位论文 第三章,基于本体集成系统的设计。通过研究目前基于本体数据集成的方法, 然后给出一个分层的系统框架设计。 第四章,本体的创建与映射建立。以医疗设备生产销售领域为例,利用 p r o t 6 酌工具演示了全局本体的构建。研究分析了由x m l 和关系数据源模式构建 局部本体的转换方法。建立了全局本体和局部本体,局部本体和数据源之间的映 射。 第五章,查询处理。查询的处理是集成的一个关键技术,本章节给出了基于 本体概念事例的全局查询表示,研究了查询操作图的构造方法,并在此基础上详 细给出了查询的分解算法和局部本地查询的转换方法,并进行了集成查询实例演 示。 第六章,总结与展望。总结了本文的研究工作和不足之处,并对下一步工作 提出了的展望。 9 浙江工业大学硕士学位论文 第二章异构数据集成和本体相关技术 2 1 异构数据集成概述 异构数据集成技术就是要从多个自治的,分布的异构数据源中获取信息,建 立多数据源的全局统一视图,而不考虑其数据类型、数据存储、物理位置等影响 因素,随时随地提供对数据统一,透明的访问,为用户提供简单一致的查询方式, 最终实现信息共享。简单的说,数据集成的目的就是在用户看来,他们需要的所 有数据,应该好像驻留在一个单一的数据源里一样。数据集成技术具备以下两个 方面的特点: ( 1 ) 全局统一的数据视图:信息集成基础架构必须根据应用层的需要,为它 提供访问数据的全局的统一数据视图,使应用对数据的访问不受数据格式、数据 位置和访问接口差异的限制; ( 2 ) 灵活的访问方式:应用访问信息可以通过a d o 、o d b c 、j d b c 、w e b s e r v i c e s 、数据库自带客户端或异步客户端接口来实现,无论数据是分布在何种 数据库、文件或消息队列中,应用对数据的访问都如同是在对一个逻辑的数据库 进行。 。 2 1 1 公共数据模型c d m 数据集成环境需要一个统一的数据模型末屏蔽各个数据源数据模型的在数 据结构、行为、关系和类型约束等方面的差异,并给出差异之问的映射关系。数 据模型实际上也是查询语言的基础,数据模型能够准确完整地描述数据,相当于 给查询语言提供了一个统一的视图,这样就可以忽略异构数据源数据在结构上的 i o 浙江工业大学硕士学位论文 差异。这种可以共享的全局的数据模型被称为公共数据模型c d m ( c o m m o n d a t am o d e l ) ,当前己有的数据集成系统中,应用的典型的数据模型主要有以下 几种: ( 1 ) 关系模型( r e l a t i o n a lm o d e l ) 关系模型是数据库领域中最常见的一种数据模型,它的逻辑结构是一张二维 表,数据是扁平结构( f l a t t e ds t r u c t u r e d ) ,其理论基础为关系代数,目前关系模型 在描述结构化数据时相当有效,关系型数据库占据主导地位就可以说明这个事 实。目前以关系模型作为公共数据模型来进行数据集成的主要方法是数据仓库法 和中间件转化方法,在进行集成时,往往需要中间件等各种e t l 工具将源数据转 化成目标数据的格式,进行存储。在进行查询的时候也需要利用中间件软件将用 户查询分解重写转化成符合各个d b m s 规范的本地查询。目前这种数据模型在解 决结构异构上效果不错,但仅限于结构化数据。 ( 2 ) x m l 模型( e x t e n s i b l em a r k u pl a n g u a g em o d e l ) x m l 是互联网联合组织( w 3 c ) 设计并推荐的新一代可扩展标记语言,它是 s g m l 的一个优化子集。它以一种开放的自我描述方式定义数据结构,在描述数 据内容的同时能突出对结构的描述,从而体现出数据之间的关系。x m l 是一种半 结构化的数据模型,它的很多特性使得它可以描述不规则的数据,能够集成来自 不同数据源的数据,可以将多个应用程序所生成的数据纳入同一个x m l 文件。 x m l 具有内容的自描述、跨平台、内容和显示分离、可扩展性好等特点, 它的强适应性使其可以实现对资源的快速包装和集成发布,所以从数据模型的角 度来看它来描述各种异构数据源。目前x m l 广泛应用于内容管理发布、电子商 务、数据集成、分布式系统集成、系统配置信息描述等领域。 通过使用x m l ,集成系统就不必了解每个异构数据源的模式和规则,这在 x m l 出现之前几乎不可能实现的,x m l 能够是结构化数据和半结构化数据容易 的结合在一起。从技术的角度来说,目前很多的数据集成系统已经使用x m l 作 为基本数据模型,并且使用x m l 查询语言( x q u e r y ) 作为数据查询语石2 - “纠:氟巩盯1 。 x m l 对异构数据集成的推动有着极为重要的意义。 但是由于x m l 的嵌套特性( n e s t s t r u c t u r e ) 使得x m l 在解决结构异构的问题 上存在较大困难。另外,x m l 所使用数据标签的灵活多样性,使得x m l 无法 解决集成中出现的语义异构的问题。 浙江工业大学硕士学位论文 当前,越来越多的异构数据集成系统( 包括结构化以及半结构化数据源) ,都 是通过先将异构数据源转换为x m l 格式,然后进行x m l 的集成实现的。已有 的x m l 数据集成系统:t u k w i l a 胁1 ,e n o s y s 2 引,x q u a r ef u s i o n ( 3 ) o e m ( o b j e c te x c h a n g em o d e l ) 口列 o e m 是一种由斯坦福大学数据库团队提出的简单的、自描述型的对象模型, 使用带标签的有向图来描述半结构化数据。图中结点表示对象,标签传递对象之 间关系的语义信息,叶子对象表示原子对象有相应的值关联,其它对象为复合对 象。应用o e m 的代表性集成系统有t s i m m i s n 引,l o r e 刘。 ( 4 ) o i m ( o b j e c ti n t e g r a t i o nm o d e l ) 心妇对象模型 o i m 是v e r s a t i l e 系统的公共数据模型。一个o i m 对象o 是一个带根连通 有向图,表示成o ( r ,v ,e ) ,有向图中的每个结点表示对象,边表示对象与其 它成员间的关系;根结点r 是一个聚集对象,它是引用类型的,v 是该聚集对象 及其所有成员对象的集合,e 是对象与其成员之间关系的集合。o i m 对象模型将 元数据附在数据上,便于集成来自各个异构数据源的异构数据。采用o i m 数据 模型的集成系统有东南大学研发的通用异构数据源集成系统原型v e r s a t i l e 。 此外,一些特定异构数据集成系统也会有自己特定数据模型,如p e g a s u s 的 公共数据模型为i r i s d 引,包括三个部分:对象、类型和函数;v i e w s y s t e m 的公共 数据模型为v o d a k 汹1 ,它由四个部分组成:实例、类型、类和方法;m i n d 的 公共数据模型为对象的o d m g 9 3 。m 1 ;d o m s 的c d m 为f r o o m ,面向对象的数 据模型由于采用高层模型语言,因此与其它数据模型的相互转化比较困难。 2 1 2 异构数据集成的主要方法 目前,异构数据集成所采用的方法基本可以分为两类:物化方法 ( m a t e r i a l i z e d ,也称数据仓库法) 和虚拟视图法( v i r t u a lv i e w ,也称模式集成法) 。 物化方法:又称为数据仓库法,该方法需要建立一个存储数据的仓库,将来 自多个数据源的数据副本都存储在单一的数据库中,然后由e t l ( e x t r a c t , t r a n s f o r m ,l o a d ) 工具定期从数据源过滤数据,然后装载到数掘仓库,供用户查询。 从数据源拷贝数据时,一般需要以某种方式对其进行转化,以使所有的数据都符 合数据参考的模式。在数据仓库集成的结构中,来自各个信息源的数据被提取后 组成一个全局模式,然后存储在数据仓库罩。这种方法的优点是既可用于信息集 1 2 浙江工业大学硕士学位论文 成,又可用于决策支持查询。该方法存在的问题是,当信息源的数据发生变化时, 数据仓库中的数据也要做相应的修改。因此,这种间接访问方式的最大缺点是数 据更新不及时,实时性差,数据重复存储,冗余度大。这种方法通常需要一些新 的技术,如有效数据加载和增量更新维护等。数据仓库法主要适合于对数据实时 性要求低,而查询速度快的数据集成系统中。采用数据仓库法进行数据集成的数 据源主要为关系数据库,该方法的组织结构如图2 - 1 所示: 数据源l数据源2 图2 1数据仓库法的组织结构图 输出 数据源n 虚拟视图法:该方法使用了与数据仓库法完全不同的结构。数据仍保存在各 数据源上,集成系统仅提供一个虚拟的集成视图( 即全局模式) 和对该集成视图查 询的处理机制。它将各数据源的局部模式集成为一个全局模式。全局模式描述了 数据共享的结构、语义和操作等。系统能自动地将用户对全局模式的查询请求转 1 3 浙江工业大学硕士学位论文 换成对各异构数据源的查询。在这种方法中,集成的是各数据源的局部模式,而 共享的数据仍然物理存放于局部本地数据源中,由各自的数据库管理系统进行管 理,这样数据源具有高度的自治性。它依赖于两类软件组件:包装器( w r a p p e r s ) 和中间件( m e d i a t o r s ) 。包装器包装数据源,把底层的数据对象转换为统一的数据 模型;在某种程度上,中间件是信息源中数据的一个视图,中间件中并没有数据, 用户可以对中间件进行查询,对于每一个用户的查询模式需要一个中间件。中间 件从包装器或其他中间件获取信息,通过集成不同数据源信息,并解决它们之间 的冲突来提炼信息,然后把信息提供给用户或者其他的中间件。由于该方法不需 要重复存储大量数据,并能保证查询到最新的数据,因此比较适合于高度自治、 集成数量多、更新变化快的异构信息源集成。目前,虚拟视图法包括两种不同的 实现方法:联邦数据库法和m e d i a t o r w r a p p e r 方法。 联邦数据库是最简单的一种异构数据集成方式,在这种方式中,各个数据源 是相互独立的,但通过数据源之间的数据交换格式进行一对一映射,这种映射可 以让数据源a 使用数据源b 理解的术语来访问b 的数据源。不同的数据源之间 使用数据转换接口( 网关或调用接口) 来实现数据互访,这样一个数据源就可以访 问任何其它数据源的信息。但是,如果有n 个异构数据源需要互连,那么我们 就要去构造n 牛( n 1 ) 个映射接口程序来支持这n 个异构数据源之间的互相访问。 显而易见,这种方法的优点是容易实现,尤其是在集成的数据源种类和个数限定 的情况下,而缺点则是工作量极大,扩展性差。我们以四个数据源为例( 共需1 2 组映射接口程序) ,给出联邦数据库方法的组织结构图,如图2 2 所示: 图2 - 2 联邦数据库组织结构 m e d i a t o r w r a p p e r 方法一般由一个中间件( m e d i a t o r ) 和多个包装器( w r a p p e r s ) 1 4 浙江工业大学硕士学位论文 组成,每个数据源对应一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论