(计算机软件与理论专业论文)基于WII的数据集成技术及其应用.pdf_第1页
(计算机软件与理论专业论文)基于WII的数据集成技术及其应用.pdf_第2页
(计算机软件与理论专业论文)基于WII的数据集成技术及其应用.pdf_第3页
(计算机软件与理论专业论文)基于WII的数据集成技术及其应用.pdf_第4页
(计算机软件与理论专业论文)基于WII的数据集成技术及其应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于WII的数据集成技术及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于wi i 的数据集成技术及其应用 专业名称:计算机软件理论 申请者姓名:李飞 导师姓名:聂瑞华教授 近些年来,由于因特网的迅猛发展,网络环境和分布式系统r 益普及,为企 业、政府、机关、学校提升信息化层次提供了良好的条件和机遇。它们纷纷开始 进行信息系统的建设。诸如办公自动化、综合教务管理、人力资源等应用系统纷 纷上马。 随着信息化进程的推进,原来的信息应用系统逐渐暴露了其弊端。这些系统 往往被分散在各个网络节点中,建立在不同操作系统、不同平台之上,管理方式 各异。他们之间往往是相互独立的,形成了一个个信息孤岛,阻碍了信息化建设 的进程。随着信息越来越多,为各类人员提供集成的信息服务和“以用户为中心” 的理念已成为信息化建设的趋势。 本文以校园数字化建设为背景,对数字校园建设中的数据集成提出研究,从 信息的核心层一数据层着手,旨在解决信息孤岛问题,达到信息的有效集成。 本文首先介绍了数据集成中的关键技术:联邦技术、复制技术、数据缓存技 术、w e b s e r v i c e 技术、基于x m l 的数据交换等,并比较了现有数据集成方案, 分析其优缺点。在此基础上,提出了结合查询驱动和数据驱动、面向主题的w i i 联邦数据集成模型。基于w i i 的数据集成借鉴了联邦数据库模式、中间件集成 模式和数据仓库集成模式的优点,以w i i 中间件为核心、以共享数据库为基础 进行数据的集成。在以w l i 为中心的星型数据集成模式下,数据的抽取、存储、 封装、同步等屏蔽了底层异构的业务数据源,为共享数据的有效集成提供了保证, 华南师范大学“十一五”“2 1 1t 程”公,t 服务平台建设项日 i 1 w i i 数据集成平台为上层用户提供其感兴趣的信息,有效完成的共享数据的集 成,很好的解决了信息孤岛问题。最后本文描述并实现了基于该框架的应用场景, 通过建立联邦系统、抽取共享数据信息、建立统一数据视图、设置统一数据访问 等实现了数据集成。 关键字:w i i ;联邦系统;共享数据库;数据访问 i i r e s e a r c h & a p p lic a t10 n o fd a t ain t e g r a t lo n a b s t r a c t b a s e d0 nw | l m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :l if e i s u p e r v i s o r :n i er u i h u a w i t hr a p i dd e v e l o p m e n to fi n t e m e ti nt h e s e y e a r s ,n e te n v i r o n m e n ta n d d i s t r i b u t i n gs y s t e ma r ew i d e l ys p r e a d e dw h i c hp r o v i d ee n t e r p r i s e s ,g o v e r n m e n t , i n s t i t u t i o n sa n ds c h o o l s g o o d c o n d t i o n sa n do p p o r t u n i t i e st o u p g r a d e t h e i r i n f o r m a t i o n i z a t i o n i n f o r m a t i o ns y s t e m sh a v eb e e nb u i l ti nt h e s eo r g a n i z a t i o n s ,s u c h a so f f i c e - b u s i n e s sa u t o m a t i o n ,c o m p r e h e n s i v ee d u c a t i o n a la d m i n i s t r a t i o na sw e l la s h u m a nr e s o u r c e ss y s t e m s f a u l t si nf o r m e rd a t aa p p l i c a t i o ns y s t e m sh a v eb e e nr e v e a l e di nt h ep r o c e s so f i n f o r m a t i o n i z a t i o n s i n c et h e s es y s t m sa r es e p e r a t e di nv a r i o u sn e tj o i n t s ,b a s e do n d i f f e r e n to p e r a t i n gs y s t e m sa n dp l a t f o r m sw i t hd i f f e r e n tm a n a g e m e n tm a n n e r s ,t h e y a r ei n d e p e n d e n tf r o me a c ho t h e r t h e s ei s o l a t e di n f o r m a t i o ni s l a n d sh a v eb e c o m e o b s t a c l e si ni n f o r m a t i o n a l i z a t i o np r o c e s s w i t hi n c r e a s eo fi n f o r m a t i o n ,o f f e r i n g d i f f e r e n tk i n d so f p e o p l ei n t e g r a t e di n f o r m a t i o ns e r v i c ea n dt h ec o n c e p to f u s e r - o r i e n t e dh a v et u r n e dt ob et h et r e n di nt h ep r o c e s so fi n f o r m a t i o n a l i z a t i o n b a s e do nc a m p u si n f o r m a t i o n a l i z a t i o n ,t h i st h e s i sa i m sa t r e s e a r c h i n gd a t a i n t e g r a t i o ni nc o m p u s - d i g i t i z a t i o n s t a r t i n gf r o mt h ec o r el e v e lo fi n f o r m a t i o n d a t a l e v e l ,t h ea u t h o ro ft h i st h e s i st r i e s t os o l v et h ep r o b l e mo fi s o l a t e di n f o r m a t i o n i s l a n d s ,s oa st oa c h i e v ee f f i c i e n ti n f o r m a t i o ni n t e g r a t i o n a tt h ev e r yb e g i n n i n go ft h i st h e s i s ab r i e fi n t r o d u c t i o no fk e yt e c h n i q u e si ni n f o r m a t i o n i n t e g r a t i o n s u c ha sf e d e r a l t e c h n i q u e ,c o p yt e c h n i q u e ,d a t ac a c h et e c h n i q u e , i i i w e b s e r v i c et e c h n i q u ea sw e l la sd a t ae x c h a n g eb a s e do nx m l ab r i e fc o m p a r i o s o n i sa l s om a d ea tt h eb e g i n n i n gp a r tt oa n a l y s es t r o n gp o i n t sa n dw e a kp o i n t so fe x i s t i n g d a t ai n t e g r a t i o ns y s t e m s t h e nt h ea u t o rr a i s e sh i sw i if e d e r a ld a t ai n t e g r a t i o nm o d e l w h i c hf a c e st h et h e m ea n dc o m b i n e si n q u i r a t i o nd r i v e ra n dd a t ad r i v e r w l id a t a i n t e g r a t i o nu s e sf e d e r a ld a t a b a s em o d e l ,m i d d l e w a r em o d e l ,d a t a b l ei n t e g r a t i o n m o d e lf o rr e f e r e n c ea n da b s o r b st h e i rs r t o n gp o i n t s w i t hw i im i d d l e w a r ea si t sc o r e , w l if e d e r a ld a t ai n t e g r a t i o nm o d e li n t e g r a t e sd a t ab a s e do n as h a r e dd a t a b a s e i nt h i s m o d e l ,d r a w i n gd a t a ,s t o r i n gd a t aa n do t h e rp r o c e s s e sh a v es h i e l d e do f f d a t as o u r c e f r o md i f f e r e n td e e ps t r u c t u r e s ,s oa st og u a r a n t e ea ne f f i c i e n ts h a r e dd a t ai n t e g r a t i o n w l id a t ai n t e g r a t i o np l a t f o r mp r o v i d e su p p e rl e v e lu s e r sd a t at h e ya r ei n t e r e s t e di n , a c h i e v e se f f i c i e n ts h a r e dd a t ai n t e g r a t i o ns o a st os l o v et h ep r o b l e mo fi s o l a t e d i n f o r m a t i o ni s l a n d s a tt h ee n dp a r to ft h i st h e s i s ,a p p l i e dc i r c u m s t a n c e sb a s e do nt h i sf r a m ea l e d e s c r i b e da n da c h i e v e d d a t ai n t e g r a t i o ni sa c h i e v e dt h r o u g hb u i l d i n gf e d e r a ls y s t e m s , d r a w i n gs h a r e dd a t a ,b u i l d i n gu pu n i f i e dd a t av i e w , i n s t a l l i n gu n i f i e dd a t av i s i t i n g k e yw o r d s : w i i ;f e d e r a ls y s t e m ;s h a r e dd a t a b a s e ;d a t aa c c e s s 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到此声明的法律结果由本人承担。 - 4 - 论文作者签名:砖、砝、馏义作有爱稻:夕r 犀、 - _ l j , 日期:o o 吕年莎月2 ( j 日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:莎一_ 旨 e t 期:硼略年5 月2 0 1 日 新繇放群 日期:b 镌年j ,月出日 基于w l l 的数据集成技术及应用 1 1 课题研究背景 第一章绪论 随着计算机、通信和网络技术的快速发展,整个社会的信息化、数字化进程 大大加快。在r 益激烈的竞争和挑战下,企业只有加快自身信息化建设进程才能 更好的适应当今的信息化时代。 在此背景下,围绕数字化,各个部门都加强了自身建设,促使企业不仅要加 强各部门内部的管理,而且也越来越注重部门之间、企业之间的协同工作,以达 到部门内部、部门之间、以及企业之间信息交换的便捷、安全和业务流程的互连、 互通。另外,随着知识工程、数据挖掘技术的完善和企业对智能决策的潜在需求, 促使企业的信息化和数字化开始向着知识管理、决策支持和信息门户的方向发展 i 】 o 信息化、数字化不仅给企业带来了市场和机遇,也同时带来了很大的挑战。 目前企业信息系统的运行环境往往是封闭的,这为企业信息的共享带来了很大的 障碍。大部分企业在其信息管理系统建设初期未进行统一规划,数据模式只是为 了满足眼前的自身目标而量身定制,这使得在不同时期、不同环境下采用了不同 硬件平台、不同操作系统以及不同数据库技术构建起来的业务系统( 如f i r ,e i s , e r p ,c r m ,o a 等) ,形成了一个个的“信息孤岛“( i s o l a t e di n f o r m a t i o ni s l a n d ) 比1 。 “信息孤岛 的存在阻碍了企业信息化、数字化的进程和数据的有效共 享。消除“信息孤岛”的办法有两种:一种是废除已有的异构系统,按照统一标 准整体的重建各业务系统;一种是通过系统集成,整合异构的各系统。对待不同 的系统,企业可采取不同的方案:旧的、运行良好的系统,可采用整合方案,把 应用系统整合到一起;新的或落后的系统,可按照统一标准新建或重建系统。不 过从长远来说,统一规划的重建或新建业务系统,不是最好的方案。因为随着业 务的扩展,先前的统一规划未必适应新的发展需求,先前的新业务系统也会变为 如今的旧系统。因此如何将各个应用系统的有效信息集成到一起实现数据信息的 真正共享,完成系统之间数据层次的互操作成为急需解决的问题1 。 数据集成h 1 的目的就是提供一个统一的查询接口,屏蔽底层数据源的不同, 攘十w l l 的数据集成技术及心用 使得用户不必再考虑底层数据模型不同、位置不同等问题,能够通过一个统一的 查询界面实现对网络上异构数据源的灵活访问。用户只需指定想要得到的数据要 求,而不必关注数据的抽取,数据的合成等问题。集成系统自动提供模式转换与 集成、全局查询处理等功能,将从多数据源取得的数据以统一的方式提供给用户。 这样就使得对多数据源的操作就像操作一个数据源一样简单。其中的关键技术是 如何以一种统一的数据模式描述各数据源中的数据,屏蔽它们的平台、数据结构 等异构性,实现数据的无缝集成。 1 2 数据集成概念网 数据集成需要集成各类的d b m s 、电子邮件、h t m l 文档、普通文档等结构化 和非结构化的信息。要集成这些数据源,其关键技术就是如何屏蔽数据的平台、 系统环境、内部结构等方面的异构性,把他们进行无缝连接,对他们实现统一使 用。集成化信息要求提供各管理活动层平滑的信息流动,允许多数据库间的信息 自动交换与共享,保证信息系统数据源动态数据的请求。 而传统的数据库集成方法已经远远不能适应人们获取数据的需求,它们在 动态的添加或删除数据源方面、支持异构数据源之间的互操作性 ( i n t e r o p e r a b i l i t y ) 方面及如何模型化源数据内容和用户查询方面存在着许多 的不足,因此,本文提出了一种基于w l i 的数据集成模式,它继承了一般数据库 集成中间件的特点,并在传统的中间件的基础上结合共享数据中心集成自治的数 据源,使用户感觉到所查询的数据都具有单一的模式且存储在单个数据源中。数 据源集成系统最重要的特点就是为用户提供一个统一的访问界面,使用户能够将 注意力集中在要查询的内容上,而不是如何去得到数据的方法上。 1 3 数据集成解决的主要问题 异构数据源集成主要涉及到如下几个问题哺1 : 1 ) 异构性 这是数据集成面临的最主要的问题。主要包括系统异构和数据异构。系统异 构是指计算机体系结构不同,操作系统不同。数据异构主要是模式的异构。数据 存储模式包括关系模式、对象模式、) ( m l 文档树型模式等。其中在主流的关系模 2 基于w i ! 的数据集成技术及应用 式中,数据也存在着差异。 2 ) 完整性 异构数据源数据集成的目的就是要通过对数据源进行无缝连接,为用户提供 一个统一和透明的访问接口。因此,实现数据集成需要在数据源内及数据源问两 个方面来完成数据完整性和约束完整性。数据完整性是指完整的数据提取,一般 比较容易实现。约束完整性的约束是指数据与数据之间的关联关系,是唯一表征 数据间逻辑的特征。保证约束完整性是良好的数据发布和交换的前提,可以方便 数据处理过程,提高效率。 3 ) 权限控制 构建多个异构数据源之问的数据集成时,根据集成需求的不同,选择的集成 数据源不同,同时还有可能需要限定某个数据源内的共享内容,因此需要某种机 制根据不同的集成任务,制定数据集成范围定义,进行权限控制。 4 ) 灵活性 作为数据与中间件的结合体,面对复杂多变的集成环境需要具备可移植性、 可伸缩性、互操作性及部署灵活性。可移植性是指支持各种软硬件环境,不受环 境限制,具备良好的通用性和可移植性。可伸缩性是指异构数据源集成中间件必 须建立在灵活可伸缩基础上,能够适应数据源的灵活多变。互操作性是指通过一 套简单的a p i 或用户界面将应用与底层环节相分离。实现各种硬件环境、各操作 系统平台上的互操作性。部署灵活性是指支持轻量快速部署。 1 4 国内外研究现状 从数据集成的实现方案上来看,无论是在学术界还是产业界,都已经有了一 些研究成果。 学术界内,国外开展信息集成的研究较早,开发出了一些比较著名的信息集 成原型系统。在国内,近几年信息集成的研究在高校和科研机构才逐渐成为研究 热点,也出现了一些成形的原型系统陋3 。 ( 1 ) i n f o b u s 9 3 i n f o b u s ( i n f o r m a t i o nb u s ) 是斯坦福大学开发的数字图书馆项目的研究成 果之一。i n f o b u s 定义了一个统一的a p i ,它可以用任何j a v a 类、b e a n 、a p p l e t 荩十w l l 的数据集成技术及心用 和其他应用程序来实现和其他基于i n f o b u s 的a p p l e t 通信。i n f o b u s 使用了一 种标准协议,使得大量不同类别的数据可以直接在a p p l e t 之间共享。i n f o b u s 的 编码迅速、直接,并且只需要很少指令。组成i n f o b u 应用程序的元件可以分为以 下三类: 数据提供者。用于回答数据消费者元件提出的请求。 数据消费者。用于监听新输入的数据。 数据控制者。i n f o b u s 的流量控制,管理和重定向数据提供者之间的数据流。 i n f o b u s 类似于硬件总线,多个数据消费者可以使用同一个数据提供者发出 的数据,并且一个数据消费者可以很容易地从多个数据提供者取得数据。实际上, 一个数据请求可能引起多个响应,因而可能同时产生多个对话,其体系结构如图 1 1 所示: i n t e r f a c el| l i 伦l 镟e 0 厅司 ff尸 l p r o g y i i p m t x y 。 l 哑炬竺幽曰曰 i i 由由由, 图1 ii n f o b u s 体系结构图 i n f o b u s 采用了基于c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h it e c t u r e ) 的体系结构,支持用户界而( i n t e r f a c e ) 、信息源c i n f o r m a t i o ns o u r c e ,i s ) 和 信息处理服务( i n f o r m a t i o np r o c e s s i n gs e r v i c e ,i p s ) 的即插即用。 ( 2 ) t s i m m i s l o r e n o 1 1 1 t s i m m i s ( t h es t a n f o r d - 1 1 3 m 池啷o fm u l t i p l ei n f o r m a t i o ns o u r c e s ) l o r e 是斯坦 福大学与i b m 联合开发的一个信息集成系统,其目的是为异构信息源( 包括结构 化和半结构化的) 的快速集成开发所需工具。已采用了包装器技术和中间件技术。 4 基于w i i 的数据集成技术及应用 其中l o r e 系统已进入商业化运作中。 ( 3 ) i n f o s l e u t h 嘲 i n f o s l e u t h 是m c c ( m i c r o e l e c t r o n i c sa n dc o m p u t e rt e c h n o l o g y c o r p o r a t i o n ) 的一项科研项目,采用了多a g e n t 的体系结构。该体系结构由一组 可以互相通信的a g e n t 构成,每一个a g e n t 负责系统某一方面的功能,a g e n t 之 间可以通过k q m l ( k n o w l e d g eq u e r ym a n i p u l a t i o nt a n g u a g e ) 进行通信。 ( 4 ) p a n o r a m a s 1 们 p a n o r a m a 系统是华中科技大学研制的一个能集成多种数据库系统、文件系 统以及w e b 数据源的扩展型多数据库信息集成系统。已使用基于x m l 的集成数据 模型( x i d m ) 作为其公共数据模型,提供了x i d m 模型与关系模型、而向对象模型、 h t m l ) ( m l 文档以及半结构化数据之间的映射。使用p a n o s q l 语言作为p a n o r a m a 系统的杳询语言,该语言对s q l 进行了一定的扩展,以支持全局模式的定义、全 局模式与局部模式的映射以及全局模式的操作。该系统提供了一种多自治域的层 次互操作模型,在局域范围内,使用c p r b a 作为基础通信平台,屏蔽了环境的分 布性和异构性;在广域范围内,使用x m l 和s o a p 构建p a n o r a m a 系统的w e b 扩展, 用于将远程数据源集成到p a n o r a m a ,以w e bs e r v i c e s 的方式向远程用户提供 p a n o r a m a 系统的服务。 在产业界,由于近些年来各企事业单位对于信息集成的需求十分旺盛,国内 外各大软件开发公司及信息集成公司纷纷推出了自己的信息集成中间件产品以 及企业级信息集成解决方案。 ( 1 ) b e al i q u i dd a t a n 2 1 l i q u i dd a t a 是b e a 公司开发的数据集成平台,是一个基于x m l 的实时 数据集成解决方案,和b e aw e b l o g i ci n t e g r a t i o n ( w l i ) 结合,可提供完整的 企业应用集成方案( 如图1 2 ) 皋十w l l 的数据集成技术及心用 黼f 妇捌嘲嘴,* 懈邮如摊, 盎甜静t 盔孵甜螂 。l l 0 ”t l 勰i l 影;荔锈缪爹謦嬲刺瓣雾i 誓2 缈鹚; 琵,笏。氖。竺。絮曼,爱,誓髦雾? 虢舅;慧疹i 霉i l i q u i dd a t af 。rw = b l o g h ; | 话严茹嚣。一器;铝麓曩 埘亭 轴釜一瞪z :。:。象。黧,镌 葚戮, 。 2琶鼍。氇; 蕊;。一m m 。m “吱, ;,彝 囊i ,凇l 俐蒜秘蝴:搦; 一1 1 了下, 。e 瓣嚣e7 :鼎狻;墨黔l 蹴淼j 嚆鬻耋 i ,荆嬲赫:一蝴 瓣* ,黼鬻, 图1 2b e aw e b l o g i c 数据集成平台 l i q u i dd a t a 为各种操作系统中的数据提供了实时和安全访问方式,而无 需修改现有的系统和应用。l i q u i dd a t a 采用可视化工具描述异构环境下分布数 据的访问逻辑,具有很好的可重用性和灵活性。对于开发人员,l i q u i dd a t a 提 供了简单的、类似s q l 的标准接口x q u e r y 。另一方而,l i q u i dd a t a 能够按需 集成共享数据,如分布在多个操作系统和数据源的客户资料,按照应用和用户的 需要进行裁剪。 ( 2 ) 东方通t o n g i n t e g r a t o r m 1 t o n g i n t e g r a t o r 提供一个应用集成框架,框架基于消息传输和处理。这个 集成框架对系统之间发送消息的过程进行了抽象。同时也提供了一些已经构建好 的组件框架,可以用于快速集成应用系统( 通过使用简单的配置文件而不是编写 实际代码) 。应用框架包含适配器、组件间传递数据格式称为数据对象、控制器 等几个方面。 t o n g i n t e g r a t o r 可以实现从一个系统采集数据,对数据进行加工处理,将 需要的数据提交给另一个系统使用;同时支持不同地域中的应用系统的集成;支 持多种数据格式( 如普通文件、x m l 、s w i f t ) ,并能够提供数据格式转换功能; 提供数据压缩、数据加密和签名、数据填充、数据格式翻译消息过滤等强有力的 数据加工处理能力;支持事务功能:提供故障恢复能力;提供标准的系统集成适 配器和应用集成适配器的开发框架,提供方便易用的配置工具,使用j a v a 代码 6 基于w l l 的数据集成技术及应用 实现,具有很好的平台可移植性( 如图1 3 所示) 。 图1 3t o n g i n t e g r a t o r 应川总体结构 东方通科技是我国开发的中间件技术产品。提供了拥有完全自主知识产权的 以中间件为基础的信息集成解决方案,包括数据集成、业务集成和应用集成。其 中,中间件产品t o n g i n t e g r a t o r 基于j a v a 的构件式集成开发环境,适用于包 含多数据源、多应用及多中间件环境的应用集成。该产品发布于2 0 0 3 年,为国 家8 6 3 计划项目。 综上所述,在迫切的市场需求的拉动下,对于信息集成原型的研究和产品 的开发都呈现越来越热的趋势。这些信息集成系统侧重于信息集成不同的层面和 方面,一定程度上解决了企事业单位信息共享困难的问题。 但是信息集成是一项很艰巨的工作,信息量的增加和信息源的多样性结合 在一起,提供面向用户的信息服务工作变得非常复杂。上述信息集成系统仍然存 在各种各样的问题,信息集成的解决方案还不够成熟。尤其是在企业级应用上, 仍然存在操作复杂、性能低下、可用性不强等问题,对于各企事业单位信息集成 的需求还远远不能达到。此外,层出不穷的新的技术也给信息集成带来了源源不 断的挑战。在信息集成领域,仍然需要更加深入的研究,提出更加优化的方案。 1 5 本研究的主要内容及创新点 本课题来源于华南师范大学数字校园建设。依据我校信息化建设实际,从我 校实际情况出发,特别是根据我校信息资源缺乏统一管理、资源整合深度不够、 7 皋于w l l 的数据集成技术及应用 信息资源缺乏统一标准等问题,本研究提出从信息核心层一数据层丌始整合,从 “数字校园”的实际应用出发,建立一个基于w l i 的数据集成架构。 “基于w l i 的数据集成技术”是一种信息集成框架,是实现数字化校园的重 要部分。由于历史的原因,各个集成对象,也就是已经建立的信息系统,他们的 设计思想不同,解决方案各异,表现为这些信息系统所依赖的数据库在采用的数 据库产品、数据模式结构、信息标准等方而差异性很大,以往数据集成只是实现 了数据的统一管理、统一配置,对数据的统一访问没有在数据层面做出很好地解 决。各个应用系统在设计时只考虑为本系统用户提供服务,缺少信息的沟通。对 于信息集成过程中异构数据到信息的转化、信息的统一管理和表达成为信息是否 能够被有效集成的关键。 本课题着重围绕数据集成中的数据的整理和表达进行了深入的研究,针对一 些典型的异构信息提出了解决方案。主要的研究内容有: 1 ) 简单回顾了传统集成方法,阐述了数据集成的关键技术。 2 ) 在比较了数据驱动、模型驱动、中间件等数据集成实现模式后,提出 了基于w i i 的联邦数据集成方案,并对数据联邦、数据抽取、数据同 步等做了详细的探讨。 3 ) 针对其中“数据模式异构 这一复杂问题,本文进行了共享数据库完 成数据统一视图的探索,并对主题数据库的功能做了新的尝试。 4 ) 结合数据集成层次结构,本文讨论了借助w e b s e r v i c e 实现数据集成的 有效表达,这种屏蔽底层数据的集成方案在以往数据集成方案中不曾体 现,数据集成方案中的数据访问为用户提供数据信息的w e b 服务。 本课题的创新点有: ( 1 ) 基于w i i 的星型数据集成设计与实现。结合数据驱动和模型驱动,用 w i i 中间件实现异构数据的联邦,并建立面向对象的数据查询服务。 ( 2 ) 共享数据中心的设计为用户提供统一数据视图,实现信息的跨系统共 享。 ( 3 ) 在数据集成中将数据信息封装为w e b 服务,真正体现数字校园面向服 务的设计思想。 8 基于w l l 的数据集成技术及心用 1 6 本文的组织结构 第一章绪论。简单介绍本文的研究背景,提出了本文的研究课题一解 决信息孤岛的信息不共享问题。介绍了解决信息孤岛的主要技术一数据集成的基 本概念及其解决的主要问题。接着研究了国内外数据集成研究的现状及主要成 果。最后,介绍了本文的主要内容及创新点。 第二章本研究的技术理论基础。介绍了异构数据的集成方法,联邦技术、 复制技术、数据缓存技术、w e b s e r v i c e 技术、x m l 交换标准等。为后续数据集成 方案的实现打下基础。联邦技术是实现联邦系统的关键技术,数据复制、数据缓 存在数据抽取、同步中有重要作用,w e b s e r v i c e 为数据封装提供了技术支持, x m l 是共享数据与业务数据通信的基础。 第三章数据集成方案选择。比较了几种常见的数据集成方案,分析其优缺 点。提出了适合我校的基于w i i 的星型数据集成模型。 第四章基于w l i 数据集成框架设计。介绍了数据集成过程中的数据标准, 数据集成流程、数据联邦对象等。为数据集成提供了基础。共享数据库为全局建 立统一数据视图,数据访问使得上层应用有效的访问共享数据信息。 第五章基于w i i 数据集成实现与应用。介绍了联邦系统的实现共享数据库 提供统一数据视图,共享数据信息的访问等。给出数据集成的一个应用场景。 第六章对全文进行总结,并指出下一阶段的研究课题。 最后是参考文献和致谢部分。 1 7 本章小结 本章简单介绍本文的研究背景,提出了本文的研究课题解决信息孤岛的 信息不共享问题。介绍了解决信息孤岛的主要技术一数据集成的基本概念及其解 决的主要问题。接着研究了国内外数据集成研究的现状及主要成果。最后,介绍 了本文的主要内容及创新点。 9 挂于w i i 的数据集成技术及j e 心用 第二章本研究的技术理论基础 2 1 异构数据集成的方法 异构数据源数据集成的目的是为应用提供统一的访问支持。因此集成后的数 据必须保证一定的完整性包括数据完整性和约束完整性。数据集成还必须考虑语 义冲突问题,信息资源之间存在的语义区别可能引起各种矛盾。此外,数据访问 权限、异构数据源数据的逻辑关系、数据集成范围等问题都需要加以考虑。 异构数据集成方法主要有以下三种瞄1 : 1 ) 数据迁移和转换 为了集成不同类型的数据,必须将一些非传统的数据类型( 如类 与对象) 转化成新的数据类型。许多关系数据库提供了类似的数据移 植功能,即抽取、转换和加载工具。 2 ) 传统的模式集成 模式集成是指将各个数据库中的信息在逻辑上用同样的概念模 式鄙视以形成一个统一的异构数据库,达到数据共享的目的。数据库 的集成一般可以分为以下两步进行:第一步将各个异构的局部数据库 通过翻译器映射成局部集成模式;第二步是用集成器将多个局部集成 模式集成为一个统一的全局概念模式,第二步可细分为预集成、比较、 同化、合并和重构等四个步骤。 传统的模式集成手段可分为有全局模式和无全局模式( 即联邦数 据库系统) 两种。在有全局模式的集成中,每个参与集成的数据库有 自身的局部概念集成模式,用户可以通过建立在局部概念模式的局部 外模式访问本地库。在所有局部概念的基础上建立了全局概念模式, 用户通过建立在全局模式概念模式上的全局外模式访问集成系统中 的其他数据库。联邦系统大体上可以分为两层:下层由各个局部数据 库系统组成:上层是一系列定义在某个或某几个局部模式上的外试 图。实现方法由数据库转换法和模式转化法。 3 ) 使用中间件技术 该方法并不需要改变原始数据的存储和管理方式。中间位于异构 1 0 基于w l l 的数据集成技术及其应用 数据库系统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据 库系统,向上为访问集成数据的应用提供统一的数据模式和数据访问 的通用接口。各数据库仍然完成各自的任务。中间间则主要为异构数 据源提供一个高层次的检索服务。目前主要有通用的s q la p i 、通用 网关、通用协议、基于组件技术的一致数据访问接口等方法。这些方 法通用性强,支持多种数据源,可以对所有的文件系统( 关系数据库 和非关系数据库) 进行转换。 2 2 联邦技术 联邦技术能够统一地访问以任何格式( 结构化的和非结构化的) 存储的任 何数字信息。它的主要特征如下口铂: ( 1 ) 透明性。如果联邦系统是透明的,则它对用户掩盖了底层数据源的差异、 特质和实现。用户看到的是一个统一的接口,而无需知道数据存储位置( 位置透 明) ,无需知道数据源支持何种语言或编程接口( 调用透明) :如果使用s q l , 无需知道数据源支持何种s o l ( 语言透明) 。 ( 2 ) 异构性。异构性指各数据源之间的差异程度。数据源异构体现在许多方面: 它们可能运行在不同的硬件上,可能使用不同的网络协议,可能存储在不同的 数据库中,甚至有可能存储在存储结构不同的文件中,如平面结构和网状结构。 利用联邦技术,可以将这些差异无缝整合。 ( 3 ) 底层联邦数据源的自治。当数据源引入联邦体时,不会影响现有数据源 的本地操作。 此外,还有一些特征,如联邦技术的可扩展性、高级功能、开放性和优化性 能。在联邦数据库中,可以把任意多个数据库实例配置成联邦服务器。而联邦服 务器是数据集成的关键。它由4 部分组成:包装器、全局数据字典、强大的s q l 优 化器和标准数据库。一般把具有联邦服务器的实例数据库看成“联邦者”,而把 其它联邦数据库系统中的实例数据库看成“被联邦者”。“联邦者”系统对远程 系统“被联邦者”中的表进行操作。远程表在“联邦者数据库中作为虚拟表出 现。客户机应用程序可以对“联邦者”数据库中的虚拟表执行操作,但真正的持 久性存储位于远程数据库中。 基于w i i 的数据集成技术及j e 应用 联邦技术主要解决一下问题n 引: 分布式数据操作 异构数据复制 空间地理应用 分布式数据仓库 联邦技术能够统一的访问以任何形式( 结构化和非结构化) 存储的任何数字 信息。其结构如图2 1 所示: 图2 1 数据联邦结构图 图2 1 显示了联邦数据库的体系结构。联邦服务器通过包装器( w r a p p e r ) 的软件模块与数据源进行通信。一个包装其对应一类数据源。对关系数据库数据 源而言,包装器通过安装在信息集成平台的该数据库的客户端预期交互。对非关 系型数据源,包装器直接进行数据访问。包装器从信息集成服务器接受数据访问 指令,进而转换为数据源所支持的s q l ,通过数据源的客户端提交执行,然后将 结果返回给信息集成服务器处理。 除包装器外,信息集成服务器还有三个核心部分n6 1 。信息集成服务器维护一 个全局的数据字典,其中保存需要在信息集成平台被访问的相关描述,包括数据 源的配置信息、数据源表的结构、字段数据类型、相应的所以,以及数据量数据 分布的统计信息。信息集成服务器带有一个强大的s q l 优化器,他对输入的s q l 请求进行分解,根据全局数据字典中的信息,选择完成s q l 的分布式处理的最低 成本的方案。然后通过调度包装器进行执行,并对过程中的结果进行处理,返回 最终结果集。 1 2 基于w l l 的数据集成技术及应用 信息集成服务器带有一个标准的数据库系统,用于管理全局数据字典。分布 式数据源告诉缓存也保存在此数据库中,另外该数据库也可以成为最终的集中式 数据存储的数据库。 2 3 复制技术 数据复制n 町是在由两个或者多个数据库系统构成的一个分布式数据库环境 中拷贝数据的过程。它基于“出版一订阅”模型,由出版、发布和订阅3 种服务 器构成。发布服务器包含待复制的数据所在数据库,该服务器负责将要出版的数 据的所有变化发送到分布服务器中。分布服务器负责从发布服务器中接收复制的 数据,然后在该服务器上的分发数据库中存储这些变化,最后按照指定的时间间 隔推向相应的订阅服务器。订阅服务器是数据复制的目的地,负责接受复制的数 据。 简单的说,复制技术就是在由两个或多个数据库系统构成的一个分布式数据 库环境中拷贝数据的过程。它是整个分布式计算解决方案的一个重要组成部分。 复制技术也存在同步复制和异步复制的问题n7 i 。同步复制时,复制数据在任 何时间、任何复制节点均保持一致。如果复制环境中的任何一个节点的复制数据 发生了更新操作,这种变化会立刻反映到其他所有的复制节点。这种技术适用于 那些对于实时性要求较高的商业应用中。 异步复制时,所有复制节点的数据在一定的时间内同步。如果复制环境中的 其中一个节点的复制数据发生了更新操作,这种改变将在不同的事务中被传播和 应用到其他所有复制节点。这些不同的事务间可以有时间间隔。复制节点之间的 数据临时是不同步的,但传播最终将保证所有复制节点的数据一致。 复制往往不是一次性的批量操作,需要周期性的获取数据源的增量变化信 息,并将其送到目的地,在复制过程中存在对数据的部分处理能力。在大多数情 况下,复制不干预现有的应用,对系统的影响不大。复制过程不仅能完成同构数 据之间的复制,也能完成异构数据的复制,如图2 2 所示是基于d b 2 的数据复制 过程1 4 1 : 基于w i i 的数据集成技术及l e 心用 图2 2d b 2 数据复制 复制可以分为两个部分:c a p t u r e 用于获取数据源数据的增量,对d b 2 数据 源而言,使通过读取同志信息获取;a p p l y 的过程是将数据源的增量应用到数据 目标,如果数据目标为非d b 2 的数据库,则通过联邦技术现将数据目标联邦到联 邦数据库上,即可完成数据复制的操作。 如果数据源是非d b 2 的数据库,则数据复制中a p p l y 与上述相同,差别在于 获取数据增量要经过中间的转化。 2 4 数据缓存技术 数据缓存一个临时的数据存储,它可以是联邦服务器上的一个部分,它通过 存储杯底的一个结果集来拷贝实现。缓存仅是一个存储,它包含远程数据源的拷 贝,这个数据源一般由联邦服务器统一管理。这样数据缓存就成为两个集成模式 之间的关键连接部分,模式之间也可以相互支持。 数据缓存功能在企业信息集成中起到重要的作用。数据缓存可大大降低对数 据源的处理能力及网络的压力,通过s o l 的动态优化技术最大限度的实现缓存信 息的重用,提高s o l 查询处理的效率。缓存生成时,物化的查询表是缓存的基本 形式,查询的结果村在其中以备将来使用。 2 5w e b s e r v i c e 技术 w e bs e r v i c e 主要是为了使原来各孤立的站点之间的信息能够相互通信、共 享而提出的一种接口。w e bs e r v i c e 所使用的是i n t e m e t 上统一、开放的标准, 如h 1 v r p 、x m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论