(系统工程专业论文)科研成果多维分析中ETL系统的设计与开发.pdf_第1页
(系统工程专业论文)科研成果多维分析中ETL系统的设计与开发.pdf_第2页
(系统工程专业论文)科研成果多维分析中ETL系统的设计与开发.pdf_第3页
(系统工程专业论文)科研成果多维分析中ETL系统的设计与开发.pdf_第4页
(系统工程专业论文)科研成果多维分析中ETL系统的设计与开发.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(系统工程专业论文)科研成果多维分析中ETL系统的设计与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科研成果多维分析中e t l 系统的设计与鹿用 摘要 以国家自然科学基金为主、各行业和地方科学基金为辅的基金体系的成立,对稳定 我国基础研究力量,推动科学事业的发展起到了重大作用。为了发挥基金项目的作用, 制定科技发展目标,基金管理决策者经常要对一些科研成果进行统计分析,包括成果质 量、成果结构、基金投入与产出、科研单位科研情况比较分析等等。因此需要结合数据 仓库和o l a p 技术构建科研成果多维分析系统。这些o l t p 历史数据大多分散且异构, 需要进行整合,期望可以从中获得更多有用的信息。然而,当前所使用的e t l 工具虽 然在性能上提供了很好的解决方案,但是在普及时因其通用性和造价却碰到了不少困 难。人们逐渐意识到自主研发适合自己业务的e t l 系统的重要性。 为解决分析工作的数据抽取问题,本文构建了科研多维分析中e t l 系统。该系统 具有良好的扩展性,有好的用户界面,创新性的改进了传统e t l 系统的架构,使数据 可以批量加载,提高了效率,减轻了o l t p 系统的负担,而且,该系统把所有跟数据抽 取有关的数据以元数据的形式保存在元数据库中,使抽取程序灵活的适应具体业务逻辑 的变化,不会因为具体的业务改变抽取程序,并且实现了数据仓库增量数据的添加。 本文首先分析数据仓库和e t l 的概念,指出了构建e t l 系统的必要性。接着对该 系统的整体框架进行了改进和设计,并在该框架下提出了元数据控制的e t l 系统的解 决方案,讨论了数据追加的实现方法。最后,介绍了该系统在“科研成果多维分析系统” 的数据仓库工程中得到的项目实践。 关键词:e t l ;数据仓库;元数据;数据追加 大连理工大学硕士学位论文 e t l s y s t e mi ns c i e n t i f i cr e s e a r c hp r o d u c t sm u l t i d i m e n s i o n a la n a l y s i s d e s i g na n di m p l e m e n t a t i o n a b s t r a c t n a t u r a ls d e n c ef o u n d a t i o ns y s t e me s t a b l i s h e dm a i n l yb yn a t i o n a ln a t u r a ls c i e n c e f o u n d a t i o n o f c h i n a ( n s f c ) a n d o t h e r g o v e r n m e n t d e p a r t m e n t s h a s p l a y e da l l i m p o r t a n t r o l e i nc h i n e s eb a s i cr e s e a r c hp r o m o t i o na n ds c i e n c ed e v e l o p m e n t i no r d e rt om a k et h eb e s tu s e o ff o u n d a t i o n ,f o u n d a t i o nd e c i s i o n - m a k i n gm a n a g e r sa l w a y sn e e dt oa n a l y z et h es c i e n t i f i c r e s e a r c hp r o d u c t s ,i n c l u d i n gp r o d u c tq u a l i t ya n ds t r u c t u r e , f u n di n v e s t m e n ta n do u t p u t , a s w e l la ss c i e n t i f i cr e s e a r c hi n s t i t u t i o n sc o m p a r i s o n h o w e v e rc u r r e n te t lt o o l sa l t h o u g hh a v e p r o v i d et h ev e r yg o o ds o l u t i o ni nt h ep e r f o r m a n c e w h e np o p u l a r i z a t i o n , b e c a u s eo ft l l e i r h i 曲l yp r i c ea n dt h ev e r s a t i l i t y , t h e s et o o l sh a v ea c t u a l l yd u m p e di n t om a n yd i m c u l t i e s p e o p l eg r a d u a l l yr e a l i z e st h ei m p o r t a n c ea n dt h eu r g e n c yt oi n d e p e n d e n t l yr e s e a r c ha n d d e v e l o pt h ee t l t o o lt om e e tt h e i rn e e d s t or e s o l v ea n a l y s i sd a t ae x t r a c t i o np r o b l e m ,t h i sp a p e re s t a b l i s he t ls y s t e mi np r o d u c t s m u l t i d i m e n s i o n a la n a l y s i s ,w h i c hi s g o o d a t e x p a n s i b i l i t y , e f f i c i e n c y , a n dr e d u c eo l a p s y s t e m sb u r d e n i ta l s os a v e sa l lr e l a t e dd a t aa sm e t a d a t ai n t om e t ad a t a b a s e ,a d a p ts p e c i a l l o g i cc h a n g e si ne x t r a c t i n gp r o c e d u r e s a n dt h a tw o n tc h a n g ee v e nt h eo p e r a t i o nc h a n g e d a n d i ta c h i e v e sa d d i n gi n c r e m e n td a t at od a t aw a r e h o u s e t h ep a p e ra n a l y z e sd a t aw a r e h o u s ea n de t l t sf u n c t i o na tf i r s t p o i n t so u tt h en e e d st o e s t a b l i s ha ne t ls y s t e m d e s i g na n di m p r o v i n go ni t sf r a m ei nt h ef o l l o w i n gc h a p t e r a n d t h e nb r i n gf o r w a r dt h ee t ls y s t e m sr e s o l v es c h e m eu n d e rt h i sf r a m e w o r k a tl a s t c a r r y i n g o u tp r o j e c to f t h i ss y s t e mi np r o d u c t sm u l t i d i m e n s i o n a la n a l y s i ss y s t e mi si n t r o d u c e d k e yw o r d s :e t l ;d a t aw a r e h o u s e m e t ad a t a ;i n c r e m e n td a t a 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理l 。大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者躲抓巷 导师签名 谚出 1 d 。矗年1 月1 日 科研成果多维分析中日儿系统的设计与应用 1 绪论 1 。1 问题的提出 自国家自然科学基金为主、各行业和地方科学基金为辅的基金体系成立以来,基金 制度逐步完善,对稳定我国的基础研究力量,推动科学事业的发展起到了重大作用。自 然科学基金以资助科学家投身于自然科学基础研究活动为主要目的,围绕科学前沿和国 家战略需求,支持科学家创造性的研究工作,为国民经济、社会发展和国家安全打下坚 实的科学基础。自然科学基金的评审工作的目的是为实现自然科学基金这一科学资源公 平合理的分配使用。自然科学基金是否合理地使用,或者说评审工作的效果如何,要通 过一系列的评估手段证实资助的科学研究是否实现了其上述根本的目的【”。自然科学基 金成果的有效管理是正确评估的前提和基础。 通过自然科学基金成果的有效管理,政府可以对自然科学基金的投资效果做出正确 的评估,确定进一步投资政策;自然科学基金委可以调整、制定出更加合理的资助方案、 格局和方向;科技界可以共享自然科学基金资助的研究成果和知识资源,使他们的科研 工作事半功倍【2 】。自然科学基金委成果管理的内容包括六方面:成果的收集与登记,成 果的分类与集成,成果的评估与鉴定,成果的展示和宣传,科学基金成果的传播与共享, 成果的标注与知识产权。成果管理工作作为科学基金资助项目中后期管理的一个重要方 面越来越被基金管理者们所重视。多年来,自然科学基金管理部门一直在管理实践中探 索成果管理的有效方法,并做了一些有益的尝试。但对科研成果的管理至今没有形成一 套系统的管理体系【3 】。成果管理工作一直停留在手工或半手工状态。 由于我国基础研究工作不断发展,对自然科学基金资助项目的资助力度逐渐加大, 项目研究中所产生的成果数据随着基金项目的增多急剧增长,面对着数据的海洋,如何 提高工作效率,将成果数据转化成可提供决策的有用信息,成了基金管理工作者探求的 问题。 成果管理的大部分工作在于对成果数据的内部管理,成果数据管理包括操作型处理 和分析型处理( 或信息型处理) 。操作型处理直接对数据进行操作,面向的是事务处理, 侧重于简单的计算和对记录的插入、删除、修改等操作类型,如成果数据的采集、登记、 分类、查询、统计等;分析型处理经常需要从多个角度统计访问大量的历史数据,用于 管理人员的决策分析,如对科研单位的评价,科技成果的质量、科技立项的导向、人才 分布的平衡、科技经费的投入方向及数量的控制等等。这些分析结果大多以报表和图形 的方式展现,是将信息加工成知识的过程。但是,这些数据数以万计,且时间跨度长, 大连理工大学硕士学位论文 涉及的角度较多,成果管理分析工作十分困难,耗费大量的人力物力。近年来,一些成 果管理机构相继建立了较为简单的“科技成果信息管理系统”,这种管理信息系统主要 面向业务处理,虽然响应时间短、支持大量用户同时在线操作,但远不能满足成果分析 时的需求,这就需要建立数据分析型系统来辅助管理者寻求新数据分析,来满足更高层 次的决策需求。 由于传统的数据库技术已经不能用来完成对决策者的支持,就需要在数据库的基础 上产生适应决策分析的数据环境数据仓库。著名的数据仓库学家w h i l l n o n 在其著 作( ( b u i l d i n gt h ed a t aw a r e h o u e ) ) 一书中给予如下描述:数据仓库是一个用户管理决策 支持的面向主题的、集成的、相对稳定的、反映历史变化的数据集合【4 】。 依托于国家自然科学基金资助项目“成果采集与展示系统研究”以及“成果采集与 后评估系统研究”,本文研究了在建立数据仓库的过程中,改进传统数据e t l 工具架 构并集成增量数据抽取功能的数据抽取系统,很好的实现了o l t p 数据向o l a p 数据转 化的功能,提高了数据抽取效率,保证了数据仓库的数据质量。本系统是数据仓库技术 在国家基础科学研究领域中新的尝试。 1 2e t l 在数据仓库模型建设中的地位和作用 e t l ( d a t ae x t r a c t i o n ,t r a n s f o r m a t i o na n dl o a d i n g ) 可以实现异构多数据源的数据集 成,它是数据仓库、数据挖掘以及商业智能等技术的基石【5 1 。e t l 的概念模型如图1 1 所示。e t l 的功能包括:数据的抽取、转换和装载。数据的抽取是从不同的网络、不同 的操作平台、不同的数据库及数据格式、不同的应用中抽取数据;数据的转换是指数据 转化( 包括数据的合并、汇总、过滤和转换等) ,数据的重新格式化和计算、关键数据 的重新构建和数据总结与定位;数据的加载是指跨网络、操作平台,将数据加载到目标 数据库中【0 1 。 科研成果多维分析中e t l 系统的设计与应用 舁心多数据潭 簟船抽取 d “i o x t r a c t i o n 葺i h t m l t 日 葺门 图1 1 数据e t l 概念模型 f i g 1 1 d a t ae t lf u n c t i o nm o d e l 鼬q 精撼摩 由于实际的数据应用环境非常复杂,它们可能分布在不同的地理位置上,使用不同 的数据组织形式和操作系统平台,加上应用不同所造成的数据不一致性问题,因此,在 普通的应用环境中很难将这些高度分布的数据集中起来充分利用。e t l 工具则可在构建 数据仓库进行数据转移的过程中,将位于不同操作系统平台、不同数据组织形式中的数 据按照一定的规则,集中在一个数据仓库中,从而保证数据仓库中数据的完全一致性, 达到充分利用各种数据源的目的【7 】。e t l 提供了一种从源到目标系统转换数据的方法, 在数据仓库建设的作用主要体现以下几个方面: ( 1 ) 解决数据的分散问题。在传统的数据仓库中,针对不同的时期数据,不同的业 务数据,不同结构的数据,数据是分散在不同的服务器上,形成分散的“信息孤岛”, 这就对集团获得下属单位数据而进行数据分析时造成麻烦。企业无法得到全局的分析来 获取企业积累下来的大量有价值的信息,无法在日益严酷的市场竞争中,得出经营管理 策略,为企业加强竞争优势,使得管理滞后。同时,分散的数据,不能实现有效的共享, 业务信息不能通过计算机实现有效流通,不仅自动化管理过程割裂,同时,也往往为企 业做很多冗余工作,降低工作效率。作为面向整个企业的数据信息应用的,业务生产数 据产生业务明细数据的数据仓库,由于它们的组织方式是面向业务应用而不是面向管 理,虽然包含着大量对决策非常有价值的信息,但是会导致从中抽取有价值信息的难度 非常大。为了用户分析和查询的需要,这些信息一般是设计成多维模型结构,通过e t l 过程把分散的数据进行集中,清洗,转换成清洁,一致,全面的面向决策的数据【引。 ( 2 ) 解决数据质量不高的问题。解决数据仓库中的数据质量问题需要技术手段,也 需要管理手段,还需要决策层给予充分的支持,从而在技术与业务互动中逐步解决数据 质量问题。数据质量问题的表现形式非常丰富。典型的有数据遗漏、数据错误、多义字 段、矛盾值、违背业务规则、主键重复、无法关联、没有意义的默认值、滥用缩写词、 大连理工大学硕士学位论文 惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的计量单位和不同的编码 等。那么数据质量问题是如何产生的呢? 尽管该问题的出现与过多的系统和数据库有关, 但数千个文件和数据库中不受控制的数据冗余以及数百个系统中不受控制的程序冗余 才是真正原因。业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化。 业务数据库缺乏统一的定义与规划,导致数据的定义存在歧义【9 ,1 0 1 。为了确保数据的质 量,必须建立集中管理和控制的e t l 平台,因为这样就能够在转换过程中执行统一的 问题清理策略,提高访问数据库速度 1 1 , 1 2 , 1 3 】。 1 3e t l 国内外研究概况及系统开发意义 1 3 1 e t l 主要研究领域及概况 数据e t l 主型1 4 】在数据仓库、数据库中的知识发现和总体数据质量管理这三个领 域应用。 数据e t l 是构建数据仓库的第一步,难点在于多源数据清沈、沉淀。对海量数据 而言,人工处理不现实,故自动化数据清沈受到工业界的广泛关注。为了保证数据质量, 需要定义和判断错误类型;查找并标示错误实例;修改没有发现的错误。由于这些问题 比较凌乱而显得难以采用通用的方法进行处理,大多数研究工作都针对特定领域的数据 集,或者是对不同性质的异常数据进行的通用处理。目前国内外关于数据清洗领域的研 究非常活跃,主要涉及以下几个方面【l5 】:研究高效的数据异常检测算法以避免扫描整个 庞大的数据集;在自动化异常检测和清洗处理间增加人工判断处理以提高处理精度;数 据清洗时对海量数据集进行并行处理:如何消除合并后数据集中的重复数据;建立一个 通用的领域无关的数据清洗框架;关于模式集成问题。 已有研究为数据e t l 积累了丰富的脏数据处理经验,提出了诸多数据清洗算法:脏 数据预处理、排序邻居方法、优先排队算法、多次遍历数据清理方法、增量数据清理、 采用领域知识进行清理、采用数据库管理系统的集成数据清理算法等。这些算法大多可 运应到数据e t l 的数据清洗过程中,极大地简化了数据e t l 软件的实现,提升了最终 软件的服务质量。 另一方面,数据仓库的发展则不断给数据e t l 研究提供新课题。过去由于数据清 洗与问题域的相关性很强,通用的数据清洗可能受到很大的限制,因此数据清洗方面的 研究大都是针对具体应用、具体领域开展的,数据清洗框架的通用性很少有入关注。然 而,数据仓库不断拓宽数据e t l 应用领域,通用的清理方案必将受到越来越多的重视。 在将多源数据导入数据仓库的过程中,数据e t l 需要处理的是海量数据集。因此,增 科研成果多维分析中e t l 系统的设计与应用 量式的数据抽取,清洗时增量式的数据异常检测、数据转换算法是必需的,而且对于算 法的效率提出了愈来愈高的要求。 将数据从各种业务处理系统导入数据仓库是一个复杂的系统工程,数据e t l 在此 面临两个主要的挑战:异构数据源的集成问题和脏数据的检测与解决。虽然数据e t l 作为数据仓库的预处理部分已经进入实用阶段,但这两个问题至今并没有得到很好的解 决,成为业界研究的持续热点。异构数据源集成问题,即数据集成,主要处理多数据源 的异构问题。待集成数据源的异构性分为四个层次:系统、语法、结构和语义【1 6 1 。系统 级异构指不同的主机、操作系统和网络;语法级异构是指数据类型、格式的差异;结构 级异构是指数据结构、接口和模式上的不同;语义级异构则是指在一定领域内专用的词 汇意义的共享和交流。 脏数据的检测与解决,即“数据清洗”,用来有效的清除脏数据、保证数据质量。 对于创建数据仓库及其后续工作,如数据挖掘等,需要保证数据的正确性( c o n e c t n e s s ) 、 一致性( c o n s i s t e n c y ) 、完整性( c o m p l e t e s s ) 和可靠性( r e l i a b i l i 劬1 1 7 1 ,而目前的现存管理 系统中的数据存在很多问题,容易造成脏数据,其原因有:滥用缩写词、惯用语、数据输 入错误、数据中的内嵌控制信息、重复记录、丢失值、拼写变化、不同的计量单位和过 时的编码等( 1 引。事实上,数据e t l 需要解决的这两个问题并不存在十分清晰的划分边 界,一般认为“数据集成”是“目的”,而“数据清洗”则是实现集成的主要手段,它 们往往交织在一起,相互渗透,例如,为了实现e a i 中跨应用共享数据,必须将多个数 据源中的数据相融合( 集成) ,其核心步骤是对数据源进行清洗,以实现集成后的语义一 致。因此离开集成谈清洗没有意义,而没有清洗的集成则是“生产垃圾”。 数据e t l 是数据仓库、数据挖掘以及商业智能等技术的基石,为实际应用中决策 与预测提供了基本的素材,因而存在着广阔的发展空间。由于现实需求的强劲推动,数 据e t l 逐渐成为当前信息技术最为活跃的研究领域之- - 1 9 1 ,呈现出通用化、高效化、 智能化三大发展趋势。 数据是进行任何事务的前提,e t l 的目的正是提供综合且高品质的数据,因此它必 然成为各类实际应用的基础,为众多的高层信息系统提供服务。具备良好的通用性是未 来数据e t l 软件占领市场的必要条件,这就要求它支持尽可能多的d b m s 、文件系统 和数据采集、处理系统;能够跨网络、跨平台使用;具备良好的可扩展性,对于新的应 用能够以较小的代价,通过预定的a p i 或标准化语言接口编程实现互联。 数据e t l 针对的是海量数据,效率极为重要,未来的e t l 工具将是高效化的数据 集成工具它必须具备高度的可伸缩性,不但能运行在昂贵的主机系统上,还能应用到工 作站或p c 机上。f 未来的e t l 将具备高度的智能,专家系统、机器学习、神经网络、 大连理工大学硕士学位论文 a i 技术等领域的成果将在此处得到广泛应用擞据源管理,e t l 规则定制、数据质量保 证等工作都将由机器智能来完成。 1 ,3 2 本系统开发的意义 目前市场上主流的e t l 工具主要分为两类,即便各个e t l 开发商的产品己经非常 成熟了,但是在使用时仍然存在问题。一类是专业的e t l 厂商的产品,这类产品一般 具有较完善的体系结构,产品的功能强大、复杂、全面、性能稳定,但是这类产品价格 昂贵让许多用户望而却步。而且,很多用户在功能的需求上,只需要使用其中- , b 部分 的功能,这让用户为其他多余的功能模块买单似乎显得有点浪费。同时,这类产品不容 易与其它数据仓库解决方案整合,只能作为独立产品使用。这类产品的典型代表有: d a t a i n t e g r a t o r ,d a t a s t a g e ,i n f o r m a t i c a 等。另一类是整体数据仓库方案供应商,随着一 些成熟的数据仓库产品一起发行,而不是作为一个独立的e t l 产品。这类产品一般对 自己厂商相关产品有很好的支持并能发挥出最大效率,但对其它厂商产品的支持有限, 可扩展性、开放性和兼容性较差,对数据源的支持有限。这类产品的典型代表有:o r a c l e w a r e h o u s e b u i l d e r ,i b mw a r e h o u s em a n a g e r ,m i e r o s o f td t s 等。比如就o r a c l e 来说, 如果购买了它的e t l 工具o w m ,那么至少需要有o r a c l e 8 1 7 ,最好有9 i 版本的数据 库。这样对于中小型用户来说,对于这捆绑消费产品,若要实现数据转移,价格是他们 不得不考虑的问题。因此,对于特定用户,开发适合自己使用需求的e t l 工具显得尤 其重要了。2 0 0 2 年1 2 月,数据仓库之路网站( w w w d w w a y c o r n ) 对i n f o r m a t i c a ,o r a c l e w a r e h o u s eb u i l d e r ,s a g e n t 进行了综合评估数据整合工具评测报告1 o 。评测要 素主要包括:工具支持的操作系统平台,支持的数据源,转换功能,管理与调度,可集 成性,原数据管理,价格与产品服务等七大方面进行了综合评估【2 0 】。从报告中可以看出 这几类e t l 工具各有所长,也都在某些方面存在一定的局限性。数据抽取过程是一个 与实际应用密切相关的部分,其复杂性使得不可嵌入用户编成的e t l 工具往往不能满 足要求。因此,实际的数据仓库实施过程中往往不一定使用e t l 工具【2 “。在数据仓库 的架构中,究竟是选用商家的e t l 工具,还是通过编程来实现,是诸多方面的因素制 约的。下面对市场开发的e t l 工具和用户自己编成实现开发的e t l 工具做一下比较, 如表1 - 1 所示: 6 一 科研成果多维分析中e t l 系统的设计与应用 表1 1e t l 两种选择的比较 t a b 1 1t w oc h o i c e so f e t lc o m p a r e e t l 工具 编程实现 减少开发时间和开发难度不需要购买工具的花销 较好的通用性不需要额外的培训费用 优点降低维护工作量及难度维护性好,易于扩展 与应用结合紧密,更好满足需求 针对本项目,专业针对性强 工具使用的相关培训费用需要大量的时间编码、测试,及相关工作也 需要专业软件人员才能使用许编码无法实现所有需要的功能和性能 产品价格昂贵 功能有限,更多的是满足特定项目需求 缺点 集成性差 有平台兼容问题 要写脚本才能实现 开发人员选择自己熟悉的语言手工编写e t l ,其最大的特点就是灵活性【2 2 1 。用户根 据自己的需求开发出友好的用户界面,省去不必要的功能,优化代码,使得更贴近实际 需求。可以使用自动的单元测试工具来保证e t l 过程的正确性进而提高e t l 过程乃至 整个数据仓库项目的交付质量。并且可以花费相对低廉的价格获得更贴近企业需求的产 品。本文正是在这样的背景下,对数据库中的概念和技术进行了研究,并且把元数据这 个日益流行的技术运用到了该系统,设计和研发出了一个数据抽取和转换的系统,具有 良好的数据处理功能【2 3 1 。 1 4 本课题研究工作及思路 随着基金科学基金资助项目的增多,项目研究中所产生的成果数据浩若烟海,使用 传统的事物驱动型数据库很难对这些数据进行灵活的、多角度的探测分析和预测。 依托于国家自然科学基金资助项目“成果采集与展示系统研究”以及“成果采集与 后评估系统研究”,针对国家自然科学基金资助项目成果管理中存在的实际问题,本文 在建立数据仓库的过程中,构建了科研多维分析中e t l 系统,其中改进了传统数据e t l 工具架构并且集成了增量数据抽取功能,对数据进行了高质量高效率的抽取转换。 全文共分五章,文章整体结构以及各章节内容如下: 第一章,提出课题研究的价值,并对相关技术研究现状进行阐述。 第二章,对数据仓库以及e t l 的概念和关系等背景知识进行了阐述。 大连理工大学硕士学位论文 第三、四章,与传统e t l 工具对比后,对多维分析中e t l 系统设计目的以及功能 的描述,并且给出了e t l 系统改进后的架构。在此框架下,通过分析基金委数据的特 点,对系统各个功能模块进行了分析和设计,并且详细介绍了系统的关键核心技术的实 现。 第五章,结合基金委项目,以管理学部为例,给出了项目工程的实施过程。 科研成果多维分析中e t l 系统的设计与应用 2 数据仓库技术及e t l 简介 2 1数据仓库的发展历程 在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自 动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理 系统。在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的 市场竞争力。然而,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的 压力,将大量的历史业务数据长时间联机保存用于分析显然是过于奢侈了。因此,联机 事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境 中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从 而,联机事务处理成为整个8 0 年代直到9 0 年代初数据库应用的主流。 然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们 便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身 业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。因为,管理 人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数 据库只保留了当前的业务处理信息,缺乏觉得分析所需要的大量历史信息。在努力寻求 问题的解决方案过程中,人们发现利用传统的数据库技术来处理这种广泛分布的异构数 据效率很低。显然,单靠联机事物处理( o l t p ) 系统已经难以满足市场的需求,也难以给 企业带来竞争优势。为满足管理人员的决策分析要求,就需要在数据库的基础上产生适 应决策分析的数据环境一数据仓库( d a t aw a r e h o u s e ) 。数据仓库是数据分析和决策支持 系统( d e c i s i o n s u p p o r t i n g s y s t e m ,d s s ) 在当代使用计算机管理大量数据的环境下引申出 来的技术。事务处理环境不适宜d s s 应用的原因主要有以下五条: ( 1 ) 事务处理和分析处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时 间短:在分析处理环境中,用户的行为模式与此完全不同,某个d s s 应用程序可能需 要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在 同一个环境中运行显然是不适当的。 ( 2 ) 数据集成问题 d s s 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数 据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而 大连理j 【大学硕+ 学位论文 非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、 数据不一致问题、外部数据和非结构化数据。 ( 3 ) 数据动态集成问题 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化 将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期( 例 如2 4 小时1 进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能 力。 ( 4 ) 历时数据问题 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的 保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。 但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为 依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。d s s 对数据在空间和 时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。 ( 5 ) 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些细节数据进 行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备 这种综合能力,根据规范化理论,这种综合还往往因为是种数据冗余而加以限制。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数 据相分离。必须把分析型数据从事务处理环境中提取出来,按照d s s 处理的需要进行 重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而 出现的一种数据存储和组织技术。它的主要任务是对企业的海量数据进行各类分析,能 够集成各种异构数据源并能满足企业管理者对数据查询的快速响应,而且把事务型处理 和分析型处理相分离,其最终目的是为企业的管理者提供决策的支持信息【2 4 1 。 2 2 数据仓库的概念和特征 数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w h i n m o n 在其著作 :b u l l d i n gt h ed a t aw a r e h o u s e ) ) 一书中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个 面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n o n - v o l a t i l e ) 、反映历史 变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两 个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业 科研成果多维分析中f r l 系统的设计与应用 现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主 题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下几个特点: 面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据 仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数 据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 集成的 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立, 并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基 础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓 库内的信息是关于整个企业的一致的全局信息。 相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数 据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数 据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但 修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含 历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个 阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 2 3 数据仓库的体系结构 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据 仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其 业务经营的决策,信息才能发挥作用,信息才有意义f 2 3 】。而把信息加以整理归纳和重组, 并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看, 数据仓库建设是一个工程,是一个过程。整个数据仓库系统是一个包含四个层次的体系 结构【2 5 】,具体由下图表示: 大连理工大学硕+ 学位论文 数据源 数据仓库 3 u 日日日 数据集市 0 甸 一”| 一l 巨i 矿 图2 1 数据仓库体系结构图 f i g 2 1 f r a m e w o r ko f d a t aw a r e h o u s es y s t e m 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信 息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文档数据。外部信息包 括各类法律法规、市场信息和竞争对手的信息等等。 数据的存储与管理 是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库 的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。 要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手 分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。 数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数 据集市1 。 o l a p 服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次 的分析,并发现趋势。其具体实现可以分为:r o l a p ( r e l a t i o n a lo n l i n ea n a l y t i c a l 百y 日曰日d 科研成果多维分析中e t l 系统的设计与麻用 p r o r o c e s s i n g ) 、m o l a p ( m u l t i d i m e n s i o n a lo n l i n ea n a l y t i c a lp r o c e s s i n g ) 和h o l a p 基本数 据存放于r d b m s 之中,聚合数据存放于多维数据库中。 前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数 据仓库或数据集市的应用开发工具。其中数据分析工具主要针对o l a p 服务器,报表工 具、数据挖掘工具主要针对数据仓库。 2 4 e t l 概念 e t l l 2 6 ( e x t r a c t - t r a n s f o r m l o a d 的缩写,即数据抽取、转换、装载的过程) 作为 b i d w ( b u s i n e s si n t e l l i g e n c e ) 的核心和灵魂,能够按照统一的规则集成并提高数据的价 值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。 如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么e t l 就是 建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而e t l 规则设 计和实施则是工作量最大的,约占整个项目的6 0 一8 0 ,这是国内外从众多实践中得 到的普遍共识【2 7 l 。 e t l 是数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、清洗( c l e a n i n g ) 、装载( l o a d ) 的过程。 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按 照预先定义好的数据仓库模型,将数据加载到数据仓库中去。信息是现代企业的重要资 源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间 来构建联机事务处理o l t p 的业务系统和办公自动化系统,用来记录事务处理的各种相 关数据。据统计,数据量每扣3 年时间就会成倍增长,这些数据蕴含着巨大的商业价值, 而企业所关注的通常只占在总数据量的2 州左右。因此,企业仍然没有最大化地利 用己经存在的数据资源,以致浪费了更多的时间和资金,也失去制定关键商业决策的最 佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,己经成了提 高其核心竞争力的主要瓶颈,而e t l 则是主要的一个技术手段。 2 4 1 数据抽取 数据抽取是从数据源获取符合需要的数据的过程,是数据仓库成功的关键。数据抽 取过程会过滤掉数据仓库中不需要的源数据字段,并进行格式和类型转换。在抽取过程 中,数据会被格式化,并分发给需要从操作环境中得到数据的资源。元数据的工作是定 义和解释数据资源和数据标准【2 钔。因此,在操作数据上执行的抽取过程应该用元数据中 定义的标准数据格式处理数据。数据抽取有如下特性: 多种来源 大连理:l :大学硕十学位论文 很少有这样的一种数据仓库,不需要从多种来源中抽取数据。在多数情况下,必须 从多个系统中提取数据,利用多种平台上的多个数据存储来创建的。如某银行的经营分 析系统所涉及的业务系统几乎含盖其所有的系统,综合业务系统,信用卡系统,信贷管 理系统,国际结算系统等等。 抽取模式 在数据仓库创建过程中一般有两种抽取的模式: 1 、增量式装载 增量式装载仅仅记录那些自上次装载以后发生的变化或者新增的数据。通常会根据 源系统中的时间或某种指示标识来识别那些己经被改变的记录( 如新增,修改,删除) 提 取出来。 2 、全量更新 有时,在数据源中改变了记录,而未留下任何的识别标志,这时,我们需要获取相 关的事实时,就需要提取整个表。 压缩解压 当打算长距离传送大量数据时,数据压缩是提取流程中的重要功能。利用压缩功能 可以节约1 3 到1 2 甚至更多的传输时间。 加密与解密 当打算长距离传送大量数据时,数据的传输安全也是提取流程中的重要功能。在传 输前,对数据或数据文件进行适当的加密,是非常有必要的。 2 4 2 数据转换 数据转换( t r a n s f o r m ) 按照数据仓库的数据结构,对源系统每个记录进行转换,转换 以后就可写入数据仓库。数据的转换过程不仅仅是数据格式的改变,还意味着要准备运 行数据,转换其结构和内容,以便集成到数据仓库中去。在数据转换过程中主要包含如 下过程: 集成 集成是当数据从o l a p 系统或其他系统移入数据仓库时,取得一致性的过程。集成 包括生成代理键,将各种键从一个系统映射到另一个系统,并将代码映射到完全描述, 还包括负责维护转换过程中的主键检查。 渐变维度维护 跟踪维表列在一段时间的变化,同时提供对数据最新版本的直接访问。识别己经改 变的值和创建代理键是一个棘手的问题。不同的维度策略,e t l 的处理过程是不一样的。 科研成果多维分析中e t l 系统的设计与应用 参照完整性检查 是指某个表中的数据与另外一个表的数据相匹配。参照完整性检查可以在数据库层 面上管理,但这样做会降低灵活性。所以,作为转换处理的一部分,它只是不允许装载 数据。 反规范化和规范化 在表格中有意识的引入一定的数据冗余以改进性能被称为反规范化。反规范化是查 询效率与数据冗余的折中。规范化数据将导致数据库中产生更多的表,这些表的结构优 化了数据变更性能,但是在有些情况却大大降低了数据查询效率。在这种情况下,通过 引进额外的列或额外的表将有助于提高数据查询能力。关系必须是规范化的,即每一个 分量必须是不可分的数据项。但是这只是最基本的规范化。并非所有这样规范化的关系 都能很

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论