已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)基于互联网的异构数据源集成的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 及其相关技术的飞速发展,企业信息化的要求越 来越迫切,其中一个很重要的方面就是企业数据的管理。如何获取 异构环境中的有用数据并加以综合利用,即构建异构数据集成系统, 成为一个引起广泛关注的研究领域。本文在综合分析目前异构数据 集成理论和方法的基础上,着重研究了系统实现中关键问题。 论文首先提出异构数据集成模型。模型的抽取过程采用的是一 种由用户的需要和期望驱动的集成方法。当数据源“插入”系统时 并不立刻抽取数据,而只是在元数据库中存储数据源的描述信息。 同时,它集成了所有可以提供j d b c o d b c 接口的数据库以及未来可 以提供j o l a p 接口的数据仓库、各种普通使用文件系统和w e b 数据。 接着,设计并实现了异构数据库系统和文件系统数据集成模块, 并提供了一个统一的数据访问接口,极大地提高了系统的集成能力。 然后,在提出的关于w e b 数据集成的3 点研究假设前提下,探 讨了基于规则树的w r a p p e r 生成流程。它包括预处理、生成h t m l 树、 生成模式树、获取映射规则、生成规则树、修复规则树和执行 w r a p p e r 。考虑到w e b 站点经常发生变化,研究了w r a p p e r 维护的流 程。它包括识别数据特征、定义语义块和修复规则树。通过对试验 数据的分析,证明该方法合适w e b 数据的抽取。 最后,对异构数据集成系统实现中的研究开发工作进行了总结, 并阐述了将来进一步的研究工作。 关键词数据集成,w 曲数据,异构数据源 a b s t r a c t w i mt l l er 印i dd e v e l o p m e mo f 。m t e m e t ,i tb e c o m e sr n o r ea n dm o r e u 玛e mf o rm ee n t e r p r i s e st ob eo fi i l f o m l a t i o n ;o n ep a r t i c u l a ri r i l p o r t a n t a s p e c t 王s 出em a n a g e m e m o fb u s i n e s s 胁aw i d e l ya t t e n t i o nh a sb e e n i i l d u c e do nh o wt og e tu s e 向ld a :t a 疳o md i f r e r e n t - s t n l c t u r e de i i v i r o 衄e n l 锄dt os y n t h e s i z et i l 锄a l l di l s em e i l l n 锄e l ym ec o n s t n l c t i o no f d a t a 硫e 孕a t i o nf o rh e t e r o g e n e o u sd a t a t 1 1 em e s i s ,o nm eb a s i so fm e s y m h e s i z e da n a l y s e so nc u r r e n tt 1 1 e 矾e s a n dm e m o d sf o ri i l t e g r a t e h e t e r o g e n e o u sd 2 妇,i l i g h j i g h t sm es 0 1 u t i o nt ot i l ec m c i a lp m b l e m s i nt h e s y s t e r i l t h et l l e s i sf i r s t 西v e sm e 洫t e g r a t i o nm o d e lo fh e t e r o g e n e o u sda _ 饥 t h ee x 昀c t i o np r o c e s si s 嘶v e nb ye x p e c 协t i o n 粕dr e q u i r e m e mo f u s e r s t 0i i l t e 孕a t ed a t a w h e ns o u r c e 胁i si n s e r t e di i l t 0t i l es y s t e m ,o i l l yt l e d a t as o u r c ed e s c r i p t i o ns t o r e dmm em e t a d a t ad a t a b a s ei si l l s e r t e d ,n o t t h er e a ls o u r c ed a t a a tt h es 锄et i m e ,m em o d e li m e 掣a t e sa 1 1m e d a t a b a s e s 、v i t l l 肛) b c o d b ci i l _ t e 商毗e ,如t u r ed a 船w a r e h o 哪ew i 也 j o l a p 砥晌c e ,f i l es y s t e mo f a l lk i i l da n dd a t a 腼mw e bp a g e s s u c c e s s i v e l y nd e s i 盟s 觚dr e a l 蕊dt 1 1 ei m e 鲫i o nm o l do f d i 虢r e m s n l l c t l l r e dd a y 协b a s es y s t e ma 1 1 d f i l e 夥s t e m ,p r o v i d i n g a c o m m o nd a t aa c c e s si m e r f 犯e ,g r e a t l yi m p r o v e dm ei n t e 擎a t i o na b i l 姆 o f m es y s t e m t h e n ,b a s e do nt 1 1 r e er e s e a r c hh y p o t i l e s e so nw e bd a t ai r i t e g r a t i o n , t l l em e s i sp r e s e n t s 吐l eg e n e r a t i o np r o c e s so fm l e 缸e e ,w t l i c hc o n t a i r i s 缸n c t i o 嬲l 船p r e p r o c e s s m & p r o d u c i n g 骶池t r e e ,p r o d u c 访gm o d e l 们e ,a c q u i 矗n gm a p p 试gr u l e s ,p r o d u c 协gm l e 恤e ,m a i n 诅i i l i n gm l e 骶e a 1 1 d 眦p l e m e m i n gw i a p p e r d r u et ot 1 1 e 舶q u e mc h a n g e so fw 曲p a g e s , t i l ep a p e ra d v o c 砒e sap r o c e s st om a i n t a i nw h p p e r w i l i c hc o n t a i n s f h n c t b r l sg u c h 嬲d i s c e m i n gd a t af e a :七i 】r e ,d e f m m gs e m a n t i cb i o c ka i l d r e p a i r i n gm l et f e e i th a s b e e nv e r i 靠e db yt e s td a t am a tt h i sm e t h o di sf i t f b rw e bd a l ae x t r a c t i o n i nm ee n d 。t h em e s i sc o n c l u d e st h er e s e a r c ho nm er e a l i z a t i o no f h e t e r o g e n e o u s 如t ai n t e 擎a t i o ns y s t e m ,a n de x p l i c 啦s l e 娥rw o r k o n i t m t h e 胁r e k e yw o i t d s d a t am t e 黟a t i o n ,w 曲d a t a ,h e t e m g e n e o u sd a t a s o u r c e 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南 大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本 研究所作的贡献均已在论文中作了明确的说明。 作者签名:盘暨堑日期:兰旦l 年上月_ 兰旦- 日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根 据国家或湖南省有关部门规定送交学位论文。 作者签名:导师签名 硕士学位论文 第一章绪论 1 1 课题研究背景 第一章绪论 在当今时代,企业信息化的要求越来越迫切,其中一个很重要的方面就是 企业数据的管理,按照“进去的是垃圾,出来的也是垃圾”原理,为了提高 决策的准确性和高效性,就要求所管理的数据必须全面、高质量地反映企业的 实际情况。数据的全面性就要求异构数据集成系统不仅能集成多个不同数据库 系统中的数据,还能集成更多的并非由d b 惦管理的,而是分布在各类文件系统 中的数据。数据的准确性则是要求获得的数据是一致的、正确的和可靠的“一。 然而现实中,企业所拥有的是过去遗留的异构系统,它们不仅数据错综复杂、 结构各异,而且在现存系统中数据问题较多,容易造成“脏数据”。这些都严 重的影响了决策的正确性,制约了企业生存和进一步的发展。 同时,随着i n t e r n e t 及其相关技术的飞速发展,w e b 正在逐渐成为全球的 自主分布式计算环境。目前,独立的各个企业或组织的应用程序需要转变为w e b 应用,诸如数字图书馆、电子商务、企业的门户等等。因此,大多w e b 站点都 具有丰富的数据资源。然而,由于w e b 上的数据绝大多数是通过h t 札语言来显 示的,而h t 甩语言的特点是任何组织或个人可以很随意地在w e b 上发布内容多 样、形式各异的信息,结果w e b 上的数据处于杂乱无序的状态,数据集成性非 常差嘲。面对如此内容庞杂,动态变化的w e b 信息资源,人们很可能身陷信息 的海洋而无所适从。 因此,异构数据集成系统受到越来越多人的重视,这一方面的研究已经成 为又一热点。异构数据集成系统为企业解决多平台、多结构数据的集成问题提 供了一条解决途径。通过这样一个集成系统,可以把企业内部和外部的各种相 关数据资源进行整合,为企业的信息资源规划提供了可能,从而搭建起企业的 信息平台。 本课题研究开发的基于数据仓库的通用e t l a 工具就是在这种背景下产生 的。该工具针对应用需求,抽取、转换、集成网络上的各种异构异地的数据源 数据,形成中心数据库,该中心数据库中存有一些基础表,这些表是作为决策 支持的基础。其中的异种数据源是指不同的数据库如o r a c l e 、s q ls e r v e r 、 s y b a s e 、d b 2 等和e x c e l 、d b f 、) 【m l 、t x t 、l o g 等数据文件。用户使用本工具 定制他们所需要的基础表的结构,系统能搜索存在于网络上的各种异种数据源 中的相关的数据,并将其提取、转换到本地数据库的目标表中,以用于决策支 持系统。 硕士学位论文第一章绪论 1 2 基本概念 在深入研究异构数据集成系统之前,先探讨几个概念,这些概念是整个异 构数据集成系统的基础。 ( 1 ) 异构数据 异构数据是一个极为丰富的概念,它不仅指不同的数据库系统之间数据是 异构的,例如:0 r a c l e 和s q ls e r v e r 数据库“1 ;而且包括不同结构的数据之间 的异构,特别是结构化数据和半结构化数据或者非结构化数据之间的异构,例 如:结构化的d b 2 数据库数据和非结构化的w e b 数据。 ( 2 ) 数据集成 数据集成是对各种异构数据提供统一的表示、存储和管理,这些功能在异 构数据集成系统中实现。数据集成通过对异构数据集成系统进行统一操作,屏 蔽了各种异构数据之间的差异嘲。因此,集成后的异构数据对用户而言是统一 的和无差异的。 ( 3 ) w 曲数据特征 异构数据集成中对w e b 数据源集成是非常困难的,这是由w e b 数据的特点 造成的。传统数据库的数据是按照一定的数据模型组织、描述和存储,具有较 小的冗余度、较高的数据独立性和易扩展性,并且可以为各种用户共享。但是, 再e b 数据不具有这些特定阅。 首先,w e b 数据不是由任何一个部门或者组织所控制的,它来源于各种组 织或者个人,因而没有固定的数据模型。有时表示同一语义所使用的数据类型 有可能互不相同。 其次,w e b 数据的组织也是任意的。它只要能够在w e b 上展现并满足用户 需求就可以了。因此它是面向显示的,对于数据内容的理解则是由用户自己去 完成的“4 。 最后,w e b 数据的内容和表现形式是动态变化的。这一特点大大增加了w e b 应用的开发难度。 1 3 国内外研究现状 异构数据集成系统的研究涉及多种计算机技术,如分布式对象技术、x m l 、 面向对象技术等。目前,学术界在这一方面的研究工作主要集中在以下几个方 面。 2 硕士学位论文 第一章绪论 1 3 1 异构数据集成的体系结构 异构数据集成的体系结构经历了如下三个发展阶段: ( 1 ) 单个的联邦系统 单个的联邦系统将所有数据源统一到一个单一的集成系统中。这个方法比 较简单,集成系统有统一的数据模式,不用考虑分布式数据的转换和统一。但 是,也存在一系列问题:构造这样一个集中式的系统需要很长的开发时间,要 求高性能的主机设备,实现代价较高;系统的扩展和维护会涉及到整个系统, 而且一个集成系统无法共享另一个集成系统模块”。 ( 2 ) 基于组件的分布式集成系统 基于组件的分布式集成系统用分布式的对象模型。例如:利用微软分布式 组件对象模型( d c o m ) 、c o r b a 或s u n 的r m i 构建集成系统。这种方法避免了单 个联邦系统带来的开发代价大,代码难以重用的问题,利用网络计算环境可以 有效地实现复杂的大规模集成。但是,d c o m 、c o r b a 或跚i 要求服务客户端与 系统提供的服务本身之间必须进行紧密耦合,即要求一个同类基本结构。这样 的系统往往十分脆弱,如果一端的执行机制发生变化,那么另一端便会崩溃圆。 v e r s a t i l e 是由东南大学开发的一个基于c o r b a 的可扩展的异构数据源集 成系统原型。它对s q ls e r v e r 、v e r s a r i t 、超文本数据进行包装和集成。缺点 是如果服务器应用程序的接口发生更改,那么客户端便会崩溃”。 ( 3 ) 基于w e bs e r v i c e s 的集成系统 基于w e bs e r v i c e s 的集成系统是在w e bs e r v i c e s 的框架下,使用一组w e b s e r v i c e s 协议,构建集成系统。它对每一个数据源都刨建一个w e bs e r v i c e s , 然后向服务中心注册。当要创建一个新的集成应用时,集成端首先向注册中心 发送查找请求收集并选择合适的数据源,然后通过网络协议从这些数据源中获 取数据嘲。这个方法克服了上述两种方法的缺陷,具有完好封装、松散耦合、 规范协议和高度可集成能力等特征。 1 3 2 b 数据集成 建立w e b 数据集成系统的方法可以分为:数据仓库方法和 w r a p p e r m e d i a t o r 方法。 在数据仓库的方法中,各种异构数据源的数据按照需要的全局模式从各种 数据源中抽取并转换,存储在数据仓库中。用户查询就是对数据仓库中的数据 进行查询”1 。 目i i 茸,比较流行的方法是w r a p p e r 肺e d i a t o r 的方法”。该方法并不是将 硕士学位论文 第一章绪论 各种数据源的数据集中存放,而是通过w r a p p e r m e d i a t o r 这种体系结构来满足 上层对数据的需求。这种方法核心“5 1 是通过中介模式将各个数据源的数据集成 起来,而数据仍然存储在局部的数据源中。它是通过w r a p p e r 对数据源的数据 进行转换使之符合中介模式。这样很好的解决了数据仓库方法中存在的数据更 新的问题,但是,由于各个数据源的w r a p p e r 需要分别建立,因此,w e b 数据 源的w r a p p e r 建立又成为了又一难点。近年来,如果快速高效地为w e b 数据源 建立w r a p p e r 成为了研究热点。 ( 1 ) w r a p p e r 的生成 w r a p p e r 的生成方法可以分为三类“”:w r a p p e r 程序语言方法、机器学习的 方法、受指导的交互式w r a p p e r 生成方法。 w r a p p e r 程序语言方法中,w r a p p e r 是用手工的方法编写程序来实现的。 t s i 删i s “”中,它的抽取过程是基于过程化的程序,所以,抽取结果过分依赖与 文档的结构。 机器学习的方法是通过机器学习的方式来生成w r a p p e r 。该方法需要学习 大量的w e b 页面中正例和反例。s t a l k e r “”是基于标记的h t 儿页面得到s k i p t o 序列模式的抽取规则。s o f t m e a l y “”采用有限状态自动机来表示抽取规则。 k u s l i n e r i c k 等是基于预定义的抽取器建立了鲁棒的w r a p p e r ,他们的可视化 支持工具w i e n 能够接受用户提供的一组例子以及用户标记的信息。 面向指导的交互式w r a p p e r 生成方法是采用一种和用户进行交互的方式来 完成w r a p p e r 的生成。w 4 f 乜1 使用类似s q l 的查询语言h e l 来建立w r a p p e r ,部 分查询可以使用可视化的抽取向导来生成,而整个查询需要用手工编写。因此, w 4 f 需要用户对于h e l 和h t 地都很熟悉。x w r a p 僻1 使用程序化的规则体系并提 供了有限的模式定义表达能力。l i x t o o ”提供了可视化的方式生成w r a p p e r ,用 户可以通过浏览的方式来标记文档。 ( 2 ) w r a p p e r 的维护 肝a p p e r 自诞生之日起就面临维护的问题。目前对于这个问题相关的研究 还不是很多。 k u s h j 】1 e r i c k 嗌1 提出1 r r a p p e r 维护中的一个子问题w r a p p e r 验证。根据已知 的正确结果来分析抽取结果并判断其正确性,从而达到验证的目的。文献 2 4 , 通过回归测试及一个给定的阙值来检测页面的变化。一旦发现页面变化则通知 设计人员,再由设计人员从新的格式中重新学习获得新的w r a p p e r 。 k n o b l o c k 瞄1 等人对页面的微小h t m l 标识变化给出一种w r a p p e r 修复的方 法。首先提出了w r a p p e r 的生命周期的概念,以及如何确保正确可靠地抽取数 据。他们通过机器学习得到所要抽取字段地数据模式的统计分布。w r a p p e r 就 4 硕士学位论文第一章绪论 可以通过比较返回数据模式和统计分布的模式来验证。当发现有显著不同时, 系统就可以发出通知或者可以自动调用修复程序。 c h i d l o v s k i i 饰提出了基于上下文的自动修复w r a p p e r 方法。在修复的过程 中,采用了一个分类机制,将语法特征和内容特征作为分类的标准。对多页面 实行多种分类和多遍扫描最终得出结论。该方法是建立在微小变化的假设前提 下,因此比前面提出的方法有优势。 1 3 3 目前异构数据集成研究中存在的主要问题 尽管目前已经提出了很多异构数据集成的方法,但是仍然没有形成一个统 一的标准。现有的研究仍然存在许多不足之处,主要表现在: ( 1 ) 现有的集成方法对异构数据源的动态可变化性支持不够,因此造成 这些集成系统的适应性差,只要任何一个数据源稍微有变化就会引起整个集成 程序的失效“同。同时,系统中增加或者删除数据源过程很复杂,而这个情况在 异构数据集成中是极为普遍的现象。 ( 2 )目前的许多集成方案溉“删易用性差,集成规则的正则表达式复杂 难懂,集成模型采用一些很特殊的数据结构。这样使得集成工作只能由一些非 常熟悉系统的专业人士完成。 ( 3 ) 信息集成的方法缺乏目的性,一般的系统是为集成而集成,难以和 用户的真正需求联系起来,这样使得集成系统很不适合后续的开发。 ( 4 ) 文献 6 4 0 4 2 中所采用的异构数据集成方案为“虚拟法”。这种 方法的缺陷是要构造并且维护全局模式,当数据源有一点变化的时候,全局模 式都要做较大的改变,因此维护工作量相当大。 ( 5 ) 利用数据仓库的方法建立系统虽然比较简单,但是,由于所需要集 成的数据是海量的、不断变化的。如果用户需要这些实时的数据,那么对数据 仓库进行即时更新会影响到系统的可用性和效率,因此,数据的更新问题是该 方法最大的弊病。 ( 6 ) 上述文献中,对w r a p p e r 的生成和维护研究成果并不多。应用 w r a p p e r 程序语言方法生成的i r r a p p e r 总体来说对于用户的计算机技能要求较 高。使用机器学习的方法的主要弊端在于w r a p p e r 的表达能力有限,而且无论 是在w r a p p e r 的生成和维护中需要大量的例子页面。文献 2 6 所提出的来的基 于上下文的自动修复w r a p p e r 的方法它只能针对新页面中数据项的排列未发生 改变的情况。但是,现实中对网页的修改常常是修改数据项的排列方式和顺序。 可以看出,目前对于w r a p p e r 的生成和维护至今仍然没有一个行之有效的方案, 其主要原因在于w e b 数据是一个非结构化的数据”。 硕士学位论文第一章绪论 1 4 本文研究内容和目标 1 4 1 本文研究内容和目标 本文旨在结合研究开发的基于数据仓库的通用e t l a 工具,改进现有异构数 据源集成方法上的缺陷。 ( 1 ) 针对易用性差和自适应差的问题,我们简化异构数据源包装器生成 过程,实现数据源的“即插即用”。新的数据源加入时,只要向服务中心申请注 册成功就可以“插入”该系统,成为系统有效的数据源。若是需要删除或者修 改某个已经注册的数据源只需在界面简单操作即可,而无需修改系统程序。 ( 2 ) 在对w e b 数据集成的研究中,受聪f 嘧“等方法的启发,采用基于舰 则树的生成方法,使数据抽取更快捷、方便、正确。而规则树中类似b + 树的链 表结构有利于对网页微小变化的修改。在包装器的维护中引入语义块的概念, 从而提高维护的有效性。 ( 3 ) 建立s q l 引擎,它有效地屏蔽各种数据源在访问中的差异,可以用 统一的方式获取数据。 ( 4 ) 集成目前普遍使用的各种类型的异构数据源。其中包括各种数据库 系统数据( 如:0 r a c l e 、s q ls e r v e r 、s y b a s e 、d b 2 、a c c e s s 等) 、文件系统数 据( 如:e x c e l 、文本文件等) 和w e b 数据。 ( 5 ) 针对信息集成中的缺乏目的性问题,采用一种由用户的需要和期望 驱动的集成方法。它根据用户需求而对源数据收集选择,使经过包装的数据源 可以方便地接入不用的信息集成应用之中。 1 4 2 研究方法 在综合分析研究目前异构数据集成理论和方法的基础上,本文分析了基于 数据仓库的通用e t l a 工具的结构和特点。详细讨论异构数据集成模型的结构和 工作流程。其次,分别研究了异构数据库、文件系统以及w e b 数据集成的具体 设计和实现。我们将此模型实施于上述的基于数据仓库的通用e t l a 工具中,验 证了模型的适用性。 1 5 论文结构安排 针对研究工作,论文将如下安排各章: 第一章提出基于互联网异构数据源集成的研究意义,讨论了目前国内外对 6 硕士学位论文第一章绪论 该课题的研究现状。在此基础上,提出了本文的研究内容和目标,并制订了研 究思路。 第二章在分析基于数据仓库的通用e t l a 工具的总体设计基础上,讨论了异 构数据集成模型的结构、工作流程,并对模型中元数据的实际问题加以分析。 第三章探讨了异构数据库集成的设计与实现,并对异构的数据库系统建立 了s q l 引擎,用以屏蔽异构数据源的访问差异。 第四章研究了异构文件系统集成的设计与实现。 第五章讨论了w e b 数据集成的设计于实现,提出了基于规则树的w r a p p e r 生成方法,并给出了w r a p p e r 维护的设计,其中引入了语义块的概念。 第六章总结了本文所做的研究工作,提出了今后的改进设想。 7 硕士学位论文 第二章异构数据集成的总体结构设计 第二章异构数据集成的总体结构设计 异构数据集成系统就是将各式各样不同的数据源集成起来。目前数据大多分 布在各种不同的数据库系统、网络环境下各种结构不同、分布场所各异的文件系 统、大量丰富的w e b 页面之中。本章首先讨论了自行开发的基于数据仓库的通用 e t l a 工具系统框架,在此基础上研究了其中异构数据集成模型的总体结构、工 作流程,并对模型中元数据的实际问题加以分析。 2 1 元数据技术 元数据是指“关于数据的数据”,是描述数据仓库内数据的结构和简历方法 的数据。可将其按用途不同分为三类:技术元数据( t e c h n i c a lm e t a d a t a ) 、业 务元数据( b u s i n e s sm e t a d a t a ) 和操作元数据( o p e r a t i o n a lm e t a d a t a ) 凹一。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库用 的数据。它描述了数据源系统、数据转换、数据抽取工作流程、数据加载策略等 以目标数据库的定义、用户访问权限、数据历史记录等。 业务元数据从商业业务的角度描述了数据仓库中的数据。它包括:业务主题 的描述、查询。元数据为访问数据仓库提供了一个信息目录,这个目录全面描述 了数据仓库中部有些什么数据,这些数据又是怎样得到的,以及怎么访问这些数 据。它是数据仓库运行和维护的中心,数据仓库服务器利用它来存储和更新数据, 用户通过它来了解和访问数据。 操作元数据描述了目标信息表中数据粒度、创建耳标表和索引信息、更新时 间、用户记录等。 数据仓库中元数据主要作用有以下五个方面: ( 1 ) 记录数据源到数据仓库表的映射转换过程。 ( 2 ) 记录数据抽取、转换和装载过程的信息。 ( 3 ) 记录数据更新、转存等操作的有关信息。 ( 4 ) 帮助业务人员正确识别数据仓库中的数据。 ( 5 ) 帮助技术人员更好地实施数据仓库,了解数据的来龙去脉;帮助用户 对数据进行高效的查询,从而获取需要的数据。 硕士学位论文第二章异构数据集成的总体结构设计 2 2e t l a 系统总体设计 2 2 1e t l a 系统目标 在企业的管理中,管理者总是希望能随时随地访问到任何他们需要的企业信 息,这就需要一个系统能容纳各种格式的内部和外部数据,例如企业的经营数据、 历史数据、现行业数据以及来自i n t e r n e t 服务商提供的数据。通过盯l a 工具, 可以集成企业中来源不同、结构各异的数据,是建立企业数据仓库的重要环节。 目前我们开发的e t l a 工具帮助企业解决以下问题: ( 1 ) 解决数据分散的问题 企业的数据主要有四个方面的来源:客户信息、生产系统数据、财务数据、 其它相关数据。可见企业中大量数据分散在不同系统中。如果只对某个系统的数 据进行分析,用以作为企业决策支持的依据,显然有信息不完全、分析不准确的 缺点。e t l a 可以根据企业决策的需求,将决策分析用的数据集中在一起。 ( 2 ) 解决数据不清洁问题 由于企业属于国有老企业,数据格式五花八门,企业内部有许多不同的系统, 其中数据也不一致,同时,有些数据也可能是不真实。另外,企业中原有系统中 的数据都是面向业务的,而不是面对决策的。盯l a 工具可以将数据转换为决策 分析所需要的类型。通过对分散数据的集中、清洗和转换,最终生成“干净的”、 一致的、全面的和面向决策的数据,方便用户分析与查询。 ( 3 ) 方便企业各部门构建数据集市 数据仓库是面对整个企业的数据应用,而对各部门的信息应用则要构建数据 集市。e t l a 工具可以按照部门从数据仓库中抽取,并进行加工处理数据。 2 2 2e t l a 系统框架 图2 一l 表示了e t l a 系统框架。系统基于w i n d o w s 平台,网络通信构筑在 w i n s o c k 2 o 基础上,同时采用元数据技术使数据从抽取、转换到转载都在其监 控之中,并对每一步进行舰范。 设计管理器提供一个与用户交互的图形化的映射环境。用户利用它可以定义 从数据源到目标表的映射关系、转换处理流程等。通过它能将用户设计过程中各 个对象的逻辑定义存储在元数据库中。 元数据库管理器是系统中一个重要的组件。它存储了e t l a 用户设计信息、 系统运行处理的相关定义、管理信息等。通过它可以方便地将用户需求和e t l a 9 硕士学位论文 第二章异构数据集成的总体结构设计 的运行流程结合起来。同时,数据的抽取、转换和转载以及其他应用都要参考系 统的元数据。 数据抽取是通过开发的接口获取源数据。现在数据源的种类繁多,我们将其 分为3 大类:数据库系统数据、文件系统数据、w e b 数据。在对这三种数据源中 任何一类抽取数据时,系统会调用相应的包装嚣。数据源的抽取方式和抽取内容 数据都由系统中的元数据控制。 图2 一le t l 系统框架 数据转换是通过用户定义的映射规则和系统定义的转换规则将源数据转换 为用户需要的目标数据。它主要包括对数据汇总、变化数据结构等复杂过程。这 样源数据将按照业务需求转换为目标数据。 数据加载是将经过转换的数据加载到目标数据库中,实现数据的批量导入。 管理和控制是让管理员基于事件和时间进行调度、运行、监测e t l a 的作业 过程。同时,通过对错误信息分析,从失败中恢复和调节作业流程。 盯l a 的系统框架虽然可以分为数据抽取、数据转换、数据加载三个部分, 但是其运行是一个完整、反复的操作过程。这三个阶段是相互关联,在元数据的 调度下,通过传送参数不断运行。 1 0 硕士学位论文 第二章异构数据集或的总体结构设计 2 2 3e t l a 系统运行环境 系统的运行环境包括硬件环境和软件环境。 ( 1 ) 网络环境 围2 2 网络结构示意图 图2 2 是系统的网络结构示意图。e t l a 系统在企业0 a 内部网运行,并且和 i n t e r n e t 紧密相连。该内部网环境中主要包括三类计算机:第一类是安装在企 业信息中心的服务器,该服务器中存放了整个企业经过轻度汇总的当前经营数据 以及根据企业需要汇总的历史数据;第二类是安装在企业各级生产部门的服务 器,它存储了当前企业生产数据;第三类是企业各级管理机构中安装的终端。 ( 2 ) 硬件环境 信息中心数据库服务器:h pp cs e r v e rl h 6 0 0 0 ( 8 0 g 硬盘,5 1 2 m 内存,8 0 0 m h z p i i ix e r oc p u ) :生产系统数据服务器:c o 唧a qp c ( 1 6 0 g 硬盘,l g 内存,2 g h z p 4c p u ) :p c 客户端:普通p c ; ( 3 ) 软件环境 服务器端:w i n d o w s 2 0 0 0 中文版s p 3 ,o r a c l e 9 i 中文版;客户端:w i n d 0 w s 操作系统,i e 洌览器。 硕士学位论文第二章异构数据集成的总体结构设计 2 3 异构数据集成模型的设计与实现 在基于数据仓库的通用e t l a 工具的三个主要组成部分中,异构数据集成对 于系统的设计和实现具有至关重要的作用。它主要负责在系统中元数据的控制 下,根据用户需求将来自异构环境中的结构各异的数据转换为存储在数据仓库准 备区中结构统一的可用数据。e t l a 系统的数据转换、装载都是在此基础上进行。 本文将详细讨论e t l a 系统中异构数据集成的总体结构,以及其中各组件的具体 设计与实现。 各种 文件 系统 数据 各种数 据库系 统数据 w e b 数据 文件 系统 数据 包装 器 数据 库系 统数 据包 装器 w e b 数据 包装 器 数据 抽取 数据仓库 准备区 元数 据库 设嚣数h 搜索数据源 据库7 i 一“” 图2 3 异构敷据集成模型结构 异构数据集成模型是e t l a 工具中关键模型之一,结构如图2 3 所示。异构 数据源主要包括三类:各种数据库系统数据、各种文件系统数据、w e b 数据。对 于不同类型的数据源需要使用不同的包装器抽取数据。针对这三种异构数据源的 抽取过程将在以后备章节详细讨论。 硕十学位论文 第二章异构数据集成的总体结构设计 2 3 1 异构数据源的加入 当有新的数据源加入系统之中时,首先进入异构数据源登记页面提供所需信 息。由于这三种不同的数据源需要信息的各不相同,因此,系统提供了三种不同 的数据源登记方式。每个数据源的登记方式将在以后各个章节中具体讨论。当用 户需要删除或者修改某个已经登记的数据源时,可以在系统的可视化界面中进行 操作。 如果用户向服务中心注册成功,那么该数据源就可以“插入”系统之中,成 为有效的数据源。此时,系统只是将该数据源的必要标识信息即用户所填写的登 记信息存储在系统的元数据库之中,并不是将该数据源中的数据通过对应的包装 器转换到数据仓库准备区。系统只有在数据仓库用户需要该数据源的某些数据 时,才实时抽取该数据。通过这样一种方式,可以有效地减少数据仓库准备区中 的数据冗余。 2 3 2 异构数据抽取 对于注册成功的数据源,系统将分配一个能唯一标识该数据源的i d 号。当 用户根据需求抽取某个数据源时,要求提供该数据源的i d 号。此时,系统将根 据i d 号查找到该数据源的相应信息,调用其包装器程序,抽取用户需要的数据。 2 3 3 数据仓库准备区 数据仓库准备区中的数据是根据用户需求从各个异构数据源抽取的源数据, 但是所存储的数据格式已经规范统一。接下来的数据转换、装载都是直接对数据 仓库准备区的源数据进行操作。 设置数据仓库准备区主要目的是减少对数据源的影响。由于在数据转换中经 常要对源数据进行轻度汇总,这时需要知道整张源表甚至与之相关的源表的内 容,并在此基础上进行运算。如果这些转换工作在数据源端进行,那么会修改数 据源端的数据,使得e t l a 系统对数据源系统依赖过强。因此,实现中,我们将 所需的源数据抽取、存储在数据仓库准备区中,并在此进行表关联等各种转换。 其次,作为数据源的系统一般都是企业的实时系统,其运行负荷已经很重。 如果再实时的从数据源中抽取数据,那么必将使数据源系统性能降低。因此,一 般选用数据源系统资源相对空闲时将数据抽取到数据仓库准备区中。 硕士学位论文 第二章异构数据集成的总体结构设计 2 3 4 搜索数据源 用户在建立目标表后,需要对数据源进行搜索,查找出与目标表相关联的源 表。我们采用两种搜索方法,一种是根据目标表的字段进行同名同义搜索,另一 种是依据目标字段的同义词来搜索数据源。因此,用户对所建立的目标表的字段 需要定义一些同义词 在搜索这些数据源时,会依据所建立的同义词库对元数据库中的数据源的信 息进行匹配搜索。同时在搜索时,设立了一定的匹配等级。如果,一个目标表中 多个字段和一个源表匹配那么就设置该源表的匹配度高,在与用户的交互界面中 它会排在让用户首选的位置。否则,则为匹配度低。通过这样的设置可以有效的 帮助用户快速定位到所需要的数据源。 2 4 异构数据集成模型的工作流程 异构数据集成系统采用的是由用户需要和期望驱动的工作方式,即只有当数 据仓库用户需要生成某个目标表时,系统才对所登记的数据源进行搜索,确定需 要抽取的数据源中的数据,最后连接该数据源调用相应的包装器程序将源数据导 入数据仓库准备区中。具体流程如图2 4 所示,主要有以下4 个步骤组成。 ( 1 ) 用户根据需求定义目标表的结构。通过图形化方式,用户填入目标表 的字段名、字段类型、主键等信息,自动在中心数据库中生成该目标表。同时以 树形结构方式显示该目标表。 ( 2 ) 系统根据字段名、表名以及用户输入的同义词,对数据源信息表进行 搜索,并且依据匹配程度对数据源进行排序,同时返回给用户选择。 ( 3 ) 与用户交互生成目标表的字段和数据源的映射规则。 ( 4 ) 读取抽取规则中数据源的信息,确定所需要抽取的源数据,并调用与 之对应的包装器程序将用户最终所需要的源数据导入数据仓库准备区中。 这种由用户的需要和期望驱动的异构数据集成方法,可以有效的避免目前大 部分集成系统中出现的为集成而集成的缺陷。它的信息集成具有很强的且的性, 将用户的需求和集成系统很好的联系起来,使得集成系统适合做后续开发。 1 4 硕士学位论文第二章异构数据集成的总体结构设计 n 图2 4 异构数据集成模型的工作流程 2 5 异构数据集成模型中元数据的实现 从前面对异构数据集成模型结构的讨论中可以看出,异构数据集成的每一步 都将生成元数据。同时,也正是通过这些元数据用户可以掌握数据的历史情况, 如数据从哪里来,流通时间多长,更新频率是多大,数据元素的含义是什么,对 它已经进行了哪些计算、转换和筛选等等嘲。这些对于一个异构数据集成十分重 要。具体说来,该模型中元数据包括5 个组件 硕士学位论文 第二章异构数据集成的总体结构设计 2 5 1 元数据的结构和获取方式 ( 1 ) 环境状况组件 环境状况组件主要是用于监控网络和数据源的状况。它包括:网络状态、各 种数据源状态、最佳抽取时间。网络状态和各种数据源状态的数据可以通过定时 对网络状况和数据源状况探测自动获取。通过对这两组数据的历史记录分析可以 生成最佳抽取时间。当然这个最佳抽取时间只是依惯例的最佳时间。工作流运行 的时间则是综合当时的网络、源数据状态和最佳抽取时间分析的最后结果。这个 组件可以使数据抽取能在网络和数据源系统最轻闲的时间运行,提高了各种资源 的利用率,同时也保证了工作流的效率。 ( 2 ) 基本组件 在数据仓库中元数据的基本构件和其它元数据最大的区别在于它是具有版 本标识的数据。具有版本标识的数据在很长的一段时间内可以跟踪数据的变化情 况。基本构件主要是对源数据的特征进行描述,它包括:可以提供源数据的数据 库名、数据库编号、这些数据库的表、表的编号、表中的属性、属性的编号、以 及可以提供源数据的文件系统的文件类型、分隔符、转换为数据库系统中目标表 的表名等。数据库系统的元数据是由程序搜索获得,它首先需要每个源数据库的 管理人员登记本数据库的基本信息,依据这些信息通过对数据库的操作可以获得 数据库系统的元数据。其中,编号规则是数据库编号为2 位数,表的编号前两位 是该数据库的编号最后是3 位随机数,表中属性编号由5 位该属性所在表的编号和 3 位随机数组成的。这种编号方式既可以避免数据源的名字冲突也保证依据任何 一个编号可以知道它归属于哪个表或者哪个数据库。而文件系统的数据则极为不 规范,首先需要对它进行规范化,再将其元数据信息手工录入。 ( 3 ) 数据状态组件 数据状态组件用于标识数据仓库中的数据是“活性”的还是“惰性”的。由 于数据仓库中的数据都是基于共享设计的,因而当我们将数据仓库中的数据作为 源数据进行抽取和清洗时,其中的某些数据可能包括一些误导信息,因而对于这 些表就需要数据状态字段的它进行控制。 ( 4 ) 存取模式组件 存取模式组件是用于确定异构的源数据什么时候将什么数据迁移到数据仓 库中。它包括:存取数据的类型、总数以及频率等。在并行环境下,它可以确定 如何物理的分离数据。这样可以极大的提高数据传送的效率。 ( 5 ) 抽取日志组件 抽取日志组件记录了对数据仓库中的数据进行的每次操作的时间、操作方 t 6 硕七学位论文第二章异构数据集或的总体结构设计 式、操作过程以及结果。这些信息对于数据仓库的维护非常有用,拥有这些信息 可以对抽取和清洗的每一步进行监控。 2 5 2 元数据的使用 模型中元数据除了支持在不变情况下工作流的定义,更重要的是当数据源、 需求等发生改变后,能动态的获得元数据并且可以快速有效定义工作流。 数据源变化在现实中是一个十分普遍的现象。用户常常会根据自己的需要增 加几个表,若干字段,甚至一个系统。当用户增加一个系统时,则会进行登记注 册,这才能成为可以利用的数据源。同时基本组件就会依据用户的登记信息连接 新增的数据来获取这个系统的元数据。假如新增加的系统和已有的字段冲突,基 本组件的编号方式则可以有效的避免了这种冲突。否则,基本组件可以读取已经 修改的数据源的数据字典,进行对比,加入用户修改的表或者字段并且打上时间 戳。由于有了时间戳基本组件也就具有了版本标识,从而实现元数据的版本跟踪。 用户对于数据仓库的需求也是不断改变的,或者会修改数据的粒度,或者增 加一个维等等。面对用户需求的不断变化,可以依据抽取日志查询到需要修改的 映射规则。若是修改数据的粒度则修改对应的映射规则即可。若是增加维,则是 在映射规则中增加对于维的抽取规则。 2 6 本章小结 本章首先讨论了e t l a 系统的总体结构,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届新疆维吾尔自治区兵团地区十校联考化学高二第一学期期末达标检测试题含答案
- 2025年天津教师职称考试(化学)(高中)全真模拟试题及答案
- 2025安全生产标准化安全教育试题及答案
- 2025年眼科应急预案相关知识考试题及答案
- 2025年安全生产标准化评审培训试卷含答案
- 安全远程面试题目及答案
- 全国百强名校2026届高一化学第一学期期末监测试题含解析
- 护理助理面试题库及答案
- 人才考核面试题及答案
- 区商务局面试题及答案
- GB 4806.7-2023食品安全国家标准食品接触用塑料材料及制品
- 沪科版七年级上册初一数学全册教案(教学设计)
- 美宜佳加盟合同范本
- 财务管理专业职业生涯规划书
- 反假货币测评考试题库(含答案)
- 管片生产冬季施工方案
- 2023年甘肃二造《建设工程造价管理基础知识》知识点必练100题(含详解)
- 2022浙江卷高考真题读后续写+课件 【知识精讲+高效课堂】高三英语写作专项
- 非煤矿山建设项目管理办法
- 乡村治理-课件
- 探索脑2 当代神经科学课件
评论
0/150
提交评论