




已阅读5页,还剩74页未读, 继续免费阅读
(管理科学与工程专业论文)数据仓库在统计行业的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 统计信息是了解国情国力、指导国民经济和社会发展的信息主 体,是国民经济核算的中心,是科学决策和宏观管理的重要基础。我 国的统计事业近年来得到了长足的发展,统计改革有了突破性进展, 统计信息化建设取得了丰硕成果,统计服务水平也有了显著的提高, 人们对统计的认识也迸一步加强。但我国的统计工作也面临进一步的 改革。一方面经济体制和经济增长方式的逐步转变,对统计工作提出 了更新更高的要求;另方面,计算机和通讯技术的迅速发展带来了 信息产业化革命,新的信息技术已经并正在引起统计方法、数据处理, 信息管理和服务技术的重大变革。 目前,国外统计行业已经采用先进的、成熟的数据仓库技术。数 据仓库是信息技术领域的新概念,是近迅速发展起来的一种信息存储 及管理技术。它存储大量的、决策分析所必需的、历史的、分散的各 种数据,经过处理将这些资料和数据转换成集中统一、随时可用的信 息。它能方便地提供统计业务人员和各级领导进行随机查询和任意地 分析处理;它具有在任何时间、就任何业务、回答任何问题地能力。 本文以数据仓库理论、技术和行业应用为线索,以青岛市统计局 决策支持系统的成功实施为实践背景,系统地探讨了数据仓库技术在 统计行业中的应用。 关键词:统计决策支持系统,数据仓库,联机分析处理 a b s t r a c t a b s t r a c t t h es t a t i s t i c a li n f o r m a t i o ni st h em a i nb o d yt oh e l pp e o p l et ok n o w t h ec o u n t r ya n dg u i d et h e d e v e l o p m e n to fn a t i o n a le c o n o m ya n dt h e s o c i e t y , a tt h es a m et i m e ,i ti sa l s ot h ec e n t e ro ft h en a t i o n a le c o n o m i c b u d g e t a n dt h e i m p o r t a n t f o u n d a t i o no ft h es c i e n t i f i c d e c i s i o na n d m a c r o m a n a g e m e n t t h es t a t i s t i ch a v eb e e nd e v e l o p i n gf o rm a n yy e a r s , t h es t a t i s t i c a li n n o v a t i o nh a v ea l s ob e e ne v o l v i n g ,t h es e r v i c el e v e lh a v e b e e nr a i s e d r e m a r k a b l y , m o r e o v e r , p e o p l e u n d e r s t a n dt h es t a t i s t i c p r o f u n d l y b u tt h es t a t i s t i cf a c et h ef a r t h e ri n n o v a t i o n f o rt h ec h a n g eo f t h ee c o n o m i cm a n u f a c t u r ea n dt h em e t h o do f i n c r e a s i n ge c o n o m i c ,t h e r e h a v eb e e nt h en e w d e m a n d ;o n t h eo t h e rh a n d ,t h er a p i d l y d e v e l o p m e n t o f t h ec o m p u t e ra n dc o m m u n i c a t i o nb r i n g st h ei n f o r m a t i o n a li n n o v a t i o n t h e m a g n i t u d ec h a n g eo f t h ed a t at r a n s a c ta n di n f o r m a t i o nm a n a g e m e n ta n d s e r v i c et e c h n o l o g yh a v eb e e nm a d e b y t h en e wi n f o r m a t i o n a lt e c h n o l o g y a tp r e s e n t ,t h en a t i o n a ls t a t i s t i ch a v ea d o p tt h ea d v a n c e da n dt h e m a t u r e d a t a w a r e h o u s e i n gt e c h n o l o g y t h e d a t a w a r e h o u s ei san e w c o n c e p ti nt h ei tf i e l d ,w h i c hi sat e c h n o l o g y t os t o r a g ea n dm a n a g et h e i n f o r m a t i o n t h ed a t a w a r e h o u s es t o r a g eal o to fh i s t o r ya n dd i s p e r s ed a t a , w h i c hc a nb et r a n s f o r m e di n t oc o n c e n t r a t e d ,u n i f o r m ,u s a b l ea ta n yt i m e i n f o r m a t i o n a tt h es a m et i m e ,t h ed a t a w a r e h o u s ec a np r o v i d et h ea d - h o c q u e r ya n da n a l y s ef o rt h es t a t i s t i c a lw o r k e ra n dm a n a g e r , a n d i ta l s oh a s t h ea b i l i t yt oa n s w e rt h ea n yq u e s t i o na b o u ta n yo p e r a t i o n a ta n yt i m e t h ea r t i c l es e l e c t st h e d a t aw a r e h o u s et h e o r y , t e c h n o l o g ya n d a b s t r a c t i n d u s t r ya p p l i c a t i o n a sac l u e ,t h es u c c e s s f u l i m p l e m e n to fq i n g d a o n a t i o n a ls t a t i s t i cd e p a r t m e n ta st h ep r a c t i c eb a c k g r o u n d ,a n dd i s c u s s e st h e a p p l i c a t i o no f d a t a w a r e h o u s et e c h n o l o g yi ns t a t i s t i ci n d u s t r yi nd e t a i l s k e y w o r d s :t h es t a t i s t i c a ld e c i s i o ns u p p o r ts y s t e m ,d a t a w a r e h o u s e ,t h e o n - l i n ea n a l y t i cp r o c e s s 独创性说明 y s b 5 8 7 7 本人声明,所呈交的学位论文是我个人在导师指导下进 行的研究工作以及取得的研究成果。尽本人所知,除了文中 特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得北京交通大学或其 他教学机构的学位或证书而使用过的教材。与我一起工作的 同志对本研究所做的任何贡献已在论文中作了明确的说明 并表示了谢意。 本人签名蔫彳本人签名:釜! 日期:幽年土月二妇 束经传j 、i 纷p j 叫憋 勿金文公布 引言 引言 随着通信技术的日益发展,尤其是互联网络的出现和迅速发展, 一个全球性的信息社会f 在逐渐形成。信息化已成为世界各国关注的 焦点。与信息化相关的技术应用和产业发展,成为一个国家发达、地 区经济、技术实力的重要标志,同时也是进一步形成和扩充这种实力 的新的增长点。 在信息化建设的大潮中,青岛市统计局作为山东省统计信息网的 中心节点,信息化建设走在全省的前列,先后购入先进的网络设备及 多台小型机和服务器,目前已建成高速局域网络,基础设施达到较高 水平,具备很强的网络交换能力和应用服务能力。但是,由于种种原 因网络的应用范围还不够广、应用层次还不够高,特别是缺少一套与 提高统计工作效能密切相关的,集统计信息加工、统计信息存贮管理、 统计分析、统计预测、信息发布于一身的集成性应用系统,这种现状 严重制约了统计信息网综合能力的发挥。因此,为充分发挥前期投资 效益,开发一套通用的、基于网络和数据库技术的,以科学、规范的 统计指标体系和统计分类标准体系为基础的,反映统计工作规范流程 的统计业务综合处理集成应用系统,已是统计信息化建设的当务之 急。 青岛市统计局现有系统存在的明显问题是缺乏套充分利用现 代化信息技术,集统计报表处理、统计信息加工、统计信息存贮管理、 统计分析、统计预测、信息发布于一身的高集成度的应用系统的支持, 从而导致统计资料分散,数据格式千变万化,统计信息处理与管理手 段落后,难以保证统计数据处理和管理的准确性、一致性、完整性、 可比性、共享性,最终信息资源得不到有效的开发利用,统计资源浪 费现象严重。 目前,国外统计行业已经采用先进的、成熟的数据仓库技术。数 据仓库是信息技术领域的新概念,是最近迅速发展起来的一种信息存 北京交通大学硕士学位论文 储及管理技术。它存储大量的、决策分析所必需的、历史的、分散的 各种数据,经过处理将这些资料和数据转换成集中统一、随时可用的 信息。它能方便地提供统计业务人员和各级领导进行随机查询和任意 地分析处理;它具有在任何时间、就任何业务、回答任何问题地能力; 利用数据仓库前端数据挖掘工具,并结合相关地统计算法,统计业务 人员还可以建立各种统计调查、统计分析和统计预测模型,以分析国 民经济、工农业产值、人口等领域的现状及发展变化趋势和方向。因 此将数据仓库技术应用到统计决策支持系统中去,将会对青岛市统计 局的统计事业发展产生巨大的推动作用。 数据仓库理论基础 1 数据仓库理论基础 1 1 数据仓库概述 1 1 1 数据仓库的定义 目前,大家公认的数据仓库创始人w hi n m o n 在他所著建立数 据仓库一书中对数据仓库所下的定义:数据仓库就是面向主题的、 集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策 制定过程。数据仓库中的数据面向主题与传统的数据库面向应用相对 应。主题是一个在较高层次将数据归类的标准,每一个主题对应一个 宏观的分析领域。数据仓库的集成特性是指在数据进入数据仓库之 前,必须进行数据加工和集成,这是建立数据仓库的关键步骤,首先 要统原始数据中的矛盾之处,还要将原始数据结构做一个从面向应 用向面向主题的转变,数据仓库的稳定性是指数据仓库反映的是历史 数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进 入数据仓库后是很少修改或根本不修改的;数据仓库是不同时间的数 据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需 要,而且数据仓库中的数据都要标明该数据的历史时期。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是 最新的、专有的,而是来源于其它数据库,它要建立在一个较全面和 完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据 库在企业的信息环境中承担的是日常操作性的任务,数据仓库是数据 库技术的一种新的应用,到目前为止,数据仓库还是用数据库管理系 统来管理其中的数据。 这里解释一下目前对数据仓库某些认识上的误区。对数据仓库最 大的误解就是,有些人把它当成一个现成的可以直接买来使用的产 品。事实上,数据仓库和数据库不同,它不是现成的软件或硬件产品。 比较确切地说,数据仓库是一种解决方案,是对原始的操作数据进行 北京交通大学硕士学位论文 各种处理并转换成有用信息的处理过程,用户可以通过分析这些信 息,从而作出策略性的决策。 因此,在很多场合的,我们也把数据仓库系统称为“决策支持系 统”。由于这些原因,数据仓库的用户不是类似银行柜员的终端操作 人员,而是针对各个业务部门的用户和有关决策人员。因此,数据仓 库的用户比传统的o l t p ( 联机事务处理:o n 一1 i n et r a n s a c t i o n p r o c e s s i n g ) 用户少的多。 1 1 。2 数据仓库与数据集市 数据集市( d a t am a r t ) 也是当前非常重要的一个术语。一种比 较常见的误解是认为它与数据仓库的差别只是数据量的大小而已。事 实上,数据仓库是企业级的,能为整个企业各个部门的运行提供决策 支持手段;而数据集市是部门级的,一般只能为某个局部范围内的管 理人员服务。有些供应商也称之为“部门级数据仓库”( d e p a r t m e n t a l d a t aw a r e h o u s e ) 。 数据集市有两种,即独立的数据集市( i n d e p e n d e n td a t am a r t ) 和从属的数据集市( d e p e n d e n td a t am a r t ) 。从图卜l 可以清楚的看 到数据仓库、从属数据集市与独立数据集市之间的关系。 图l l 左边表示的是企业数据仓库的逻辑结构。可以看出,其中 的数据来自各信息系统,把它们的操作数据按照企业数据仓库物理模 型结构的定义转换过来。采用这种中央数据仓库的做法,可以保证现 实世界的一致性。图i - i 中间表示的是从属数据集市的逻辑结构。所 谓从属,是指它的数据直接来自于中央数据仓库。显然,这种结构仍 能保持数据的一致性。一般情况下,为那些访问数据仓库十分频繁的 关键业务部门建立从属的数据集市,这样可以很好的提高查询的反应 速度。另外一个原因是:在设计数据仓库的逻辑模型时,为了保证结 构清楚,降低数据冗余度,一般都按第三个范式( 3 n f :t h i r d n o r m a l f o r m ) 来设计。但在物理实现时,出于性能方面的考虑,常常要作非 正规处理,使得中央数据库的复杂性增加,不易维护,数据冗余大。 4 数据仓库理论基础 因此,当中央数据仓库十分庞大时,一般不对中央数据仓库作非正规 处理。而是建立一个从属数据集市,对它作非正规处理,这样即能提 高响应速度,又能保证个系统的易维护性,其代价是增加了对数据集 市的投资。 图1 - 1 右边描述了独立数据集市的逻辑结构,它的数据直接来源 于各信息系统。许多企业在计划实施数据仓库时,往往出于投资方面 的考虑,最后建成的就是这种结构的独立数据集市,用来解决个别部 门比较迫切的决策问题。从这个意义上讲,它和企业数据仓库除了在 数据量大小和服务对象上有所区别外,逻辑结构并无多大区别,也许 这是把数据集市称为部门数据仓库的主要原因。关键问题在于:随着 需求的增加,数据量也会迅速增加,系统规模将迅速扩大,是把原来 的独立数据集市扩展成为图卜1 中左边的企业数据仓库呢? 还是为各 部门分别建立独立的数据集市。形成如图卜2 所示的复杂系统 储蓄 信用 画画画画画画咧型鲤 函邑邑曲幽酋幽酋鹫 图1 - 1 :数据仓库与两种数据集市之间的关系 北京交通大学硕士学位论文 在图卜2 的结构中,i t 部门必须设计多个数据转换程序,把各种 信息系统的操作数据转换到每个数据集市中,以便保持数据的一致 性。显然,这种策略将使整个系统变得非常复杂难于维护,在投资方 面更是得不偿失,因为硬件系统的投资成比例增加,软件方面的投资 和维护方面的投资则成指数级增加。 存储信用卡 市场部画 塞曲 生产系统 幽卜2 :复杂的数据集市系统 既然这种分布式的独立的数据集市结构有诸多问题,为什么还有 一些企业仍在这样做呢? 其原因就是硬件平台或者数据库在扩展方 面限制太多,并行处理能力不够,无法处理大量的数据,最后只能形 成这神“不得已而为之”的局面。这个问题的解决,只能等到大规模 并行处理技术发展到一定程度才能克服这个困难。 1 1 3 数据仓库系统的结构 数据仓库系统( d w s ) 由数据仓库、仓库管理和分析工具三部 分组成,其结构形式如图卜3 所示。 1 源数据:数据仓库的数据来自多个数据源,包括企业内部数据( 生 产、技术、财务、设备、销售等) 、市场调查与分析及各种文档 6 数据仓库理论基础 之类的外部数据。 2 仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然 后确定从源数据到数据仓库的数据抽取、清理和转换过程,最 后划分维度及确定数据仓库的物理存储结构。元数据是数据仓库 的核心,它用于存储数据模型和定义数据结构、转换规则、仓库 结构、控制信息等。仓库管理包括对数据的安全、归档、备份、 维护、恢复等工作,这些工作需要利用数据库管理系统( d b m s ) 的功能。 3 分析工具:用于完成实际决策问题所需要的各种查询检索工具、 多维数据的0 l a p 分析工具、数据挖掘d m 工具等,以实现决策支 持系统的各种要求。 l 数据仓库l 用户查询 r 关系数据目- 卜一 l 环昔数据 抽取,转换, c s 数据文件ll l 当前数据 i 元数据 l o l a p i ,。+ 厂、 i l 兰兰一 i i 历史数据 i l 数据建模 d m i i i 源数据仓库管理 数据仓库分析工具 图卜3 :数据仓库系统结构图 数据仓库应用是一个典型的c s 结构,其客户端的工作包括客户 交互、格式化查询及结果和报表生成等。服务器端完成各种辅助的s o l 查询、复杂的计算和各类综合功能等。目前,普遍采用的形式是三层 结构,即在客户与服务之间增加一个多维数据分析服务器。o l a p 服务 器能加强和规范决策支持的服务工作,集中和简化原客户端和d w 服 7 北京交通大学硕士学位论文 务器的部分工作,降低系统数据传输量,因此工作效率更高。 1 1 4 数据仓库查询系统 数据仓库和信息系统不同,它保存的是历史数据,一般不做修改, 因此用户针对数据仓库的使用主要是查询。数据仓库的查询和信息系 统的查询有很大的区别。 信息系统的查询一般都很简单,通常不会使用表联接操作( t a b l e j o i n ) ,每次返回的数据量很小,这类问题的特点是“知道自己要什 么”,例如根据银行账号查余额。这里操作是基于索引进行的,如账 号可以作为储蓄系统的索引。由于这些特点,数据库大小对信息系统 性能影响不大。 数据仓库系统的查询通常都非常复杂,主要有两种查询方式:一 种以报表为主,从数据库中产生各种形式的业务报表,这种查询是预 先规划好的( p r e d e f i n e dq u e r y ) ;另一种则是随机的、动态的查询 ( a d h o cq u e r y ) ,对查询的结果也是不能预料的。 数据仓库中的查询由于其复杂性,一般会经常使用多表的联接、 累计、分类、排序等操作,这些大都要对整个表进行搜索。每次查询 返回的数据量一般很大,对于a d h o c 查询而言,经常需要根据上次 查询的结果进行进一步的搜索,这个过程常称为“数据开采”或称为 “数据挖掘”。 根据这些特点,数据库大小对于数据仓库系统的性能影响很大。 当数据仓库投入使用后,各业务部门的要求会越来越多,使用数据仓 库中数据量的平均增长速度很快,因此,设计数据仓库时,系统的可 扩展能力是必须考虑的重要因素之一。 系统的并行能力是另一个要考虑的重要因素。因为查询的复杂 性,每个查询将占用很多的系统资源,如果并行处理能力不强,多个 用户同时发出交易请求时,响应时间可能长得不可容忍。 数据仓库理论基础 1 2 数据仓库的建模 数据模型是数据仓库研究的核心问题。虽然最近人们在数据仓库 方面开展了大量的研究工作,但主要还集中在实体化视图设计、存储 和维护、o l a p 操作的有效算法登记等方面,而对数据模型的研究还很 不够,多数研究工作都以关系数据模型和关系数据库为基础。研究表 明,关系数据模型不能有效地表示数据仓库的数据结构和语义,也难 以有效地支持o l a p 标准指出,o l a p 操作具有多维性特征。因此,多 维数据模型引起了人们的注意。最近几年,人们提出了几种多维数据 模型。这些数据模型把数据集合视为多维空间中的点集,把数据集合 的属性分为维和度量两类。维属性用来描述度量属性,是多维空问的 维度。度量属性的值用来进行分析处理,是多维空间中的点。这些数 据模型虽然具有多维特点,但是它们有的不能表示维层次结构,有的 只能表达简单的维层次结构( 即只有一条路径的层次结构) ,最好的 模型也只能表示满足具有代数格特征的维层次结构。在实际应用领域 中,很多数据集合的维具有复杂层次结构,并不具有代数格的特征。 1 2 1 星型模型 星型模型是一种有一点向外辐射的建模范例,中间有一单一对象 沿半径向外连接到多个对象。星型模型反映了最终用户对商务查询的 看法:销售事实、赔偿、付款和货物的托运都用一维或多维描述( 按 月、产品、地理位置) 。星型模型中心的对象称为“事实表”,与之相 连的对象称为“维表”。对事实表的查询就是获取指向维表的指针表, 当对事实表的查询与对维表的查询结合在一起时,就可以检索大量的 信息。通过联合,维表可以对查找标准细剖和聚集。 一个简单的逻辑星型模型由一个事实表和若干个维表组成。复杂 的星型模式包含数百个事实表和维表。事实表包含基本的商业措施, 可以由成千上万行组成。维表包含可用于s q l 查找标准的商业属性, 般比较小。下面简单介绍在星型模式中能够改善查询性能的一些技 北京交通大学硕士学位论文 术,当然,这些技术要和大型表联合在一起使用。 1 定义已有事实表中的聚集或新的聚集表。例如,详细销售情况和 地区销售情况可存在于同一事实表中,用个聚集指示器陈列区分出 不同的行。另外,也可以创建一个地区销售情况聚集表。 2 分割事实表,使大多数查询只访问一部分。 3 创建独立的事实表。 4 创建唯一的数字索引或其它技术,用于改善集成性能。 图卜4 给出一个在数据仓库经常采用的星型模型的例子。 大多数数据仓库都采用“星型模型”来表示多维概念模型。数据库 中包括一张“事实表”,对于每维都有张“维表”。“事实表”中 的每条元组都包含有指向各个“维表”的外健和一些相应的测量数据。 “维表”中记录的是有关一维的属性。 图1 4 :星型模型举例 从图卜4 中可以看出,事实表中的每一元组包含一些指针( 是外 1 0 数据仓库理论基础 健,主健在其它表中) ,每个指针指向一张维表,这就构成了数据库 的多维联系。相应每条元组中多维外键限定数字测量值。在每张维表 中除包含每一维的主键外,还有说明该维的一些其它属性字段。维表 记录了维的层次关系。 在数据仓库模型中执行查询的分析过程,需要花大量时间在相关 各表中寻找数据。星型模型是数据仓库的复杂查询,可以直接通过各 维的层次比较、上钻、下钻等操作完成。 在数据仓库中除了“维表”和“事实表”的数据外,它还应当包 含一些已预处理的综合数据。预处理的综合数据的组织可以有两种组 织形式,预处理的综合数据可以通过创建一些“概括表”进行存储, 以提高查询数据的速度。 1 2 2 雪花模型 雪花模型是对星型模型的扩展,每一个点都沿半径向外连接到多 个点( 见图卜5 ) 。雪花模型对星型的维表迸一步标准化,它的优点是 通过最大限度的减少数据存储量以及把较小的标准化表( 而不是大的 非标准化表) 联合在一起来改善查询性能。由于采取了标准化及维的 较低的粒度,雪花模型增加了应用程序的灵活性。但雪花模型也增加 了用户必须处理的表的数量,增加了某些查询的复杂性。一些新的工 具使用户避开了物理数据库模式,在概念层上操作,这些工具将用户 查询映射到物理模式中。在安装这些工具时,用户需要用d b a 进行一 次映射。图卜6 给出了另一个雪花模型的具体例子。 雪花模型要对星型模型的维表作进一步层次化,原有的各维表可 能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是: 通过最大限度的减少数据存储量以及联合较小的维表来改善查询性 能。 北京交通大学硕士学位论文 时间维 图卜5 雪花模型举例 图卜6 雪花犁樽犁举例 1 2 数据仓库理论基础 1 2 3 混合模型 混合模型是星型模型和雪花模型的一种折衷模式,其中星型模型 由事实表和标准化的维表组成,雪花模型的所有维表都进行了标准 化。在混合模型中,只有最大的维表才进行标准化,这些表一般包含 一列列完全标准化的( 重复的) 数据。 1 2 4 多维数据模型 在本节中我们讨论一个具有复杂维层次结构的数据集合。在多维 数据模型中,一部分数据是数字测量值( 如销售量、投资额、收入等) , 它们是依赖于一组“维”的,这些维提供了测量值上下文关系,例如 销售量与城市、产品名称和销售的时间有关,这些相关的维唯一决定 了销售量这个测量值,因此,多维数据视图就是在这样一些由层次的 多维构成的多维空间中存放数字测量值的。图l 一7 中的小格内存储的 数据可以假设为商品的销售量。 城市 果汁 矿泉水 n g 牛奶 匮 香烟 啤 曲 白稻 商品、城市、日期维 工业国家年 iil 类别省 月 iil 商品市 日 图卜7 数据仓库概念模型示意图 现有的多维数据模型在表达复杂数据结构方面还不完善,需要加 北京交通大学硕士学位论文 以改进。除此之外,现有的多维数据模型所支持的o l a p 操作也各有 不足,没有一个模型能够支持完整的o l a p 操作集合。 1 3 数据仓库数据的导入( e t l ) 其实数据仓库是一个由传统系统、不兼容数据源、数据库与应用 所共同构成的复杂数据集合,各个部分之间不能彼此交流。从这个层 面看:目前运行的应用系统是花费了很大精力和财力构建的、不可替 代的系统,特别是系统的数据。丽新建的数据仓库目的就是要通过数 据分析来辅助自己决策,恰恰这些数据的来源、格式不一样,导致了 系统实施、数据整合的难度。此时就有了一些问题,比如数据一致性 与集成化问题,为了能够从所有传统环境与平台中采集数据,对其进 行高效的转换,就需要通过e t l 过程。通常,数据源分布在各个子系 统和节点中,利用e t l 将各业务系统上的数据,通过自动化f t p 或手 动控制传至u u n i x 或n t 服务器上,进行抽取、清洗和转化处理,然后 加载到数据仓库。因为现有业务数据源多,保证数据的一致性,真正 理解数据的业务含义,跨越多平台、多系统整合数据,最大可能提高 数据的质量,迎合业务需求不断变化的特性,是e t l 技术处理的关键。 e t l 方案对整个数据仓库的重要性可与血液与人体的作用相提并论, 一个有效的e t l 处理将是系统成功的首要因素。e t l 包括数据抽取 ( e x t r a c t ) 、数据传输、转换与清洗( t r a n s f o r m ) 、数据加载、调度 ( l o a d ) ,毋庸置言,e t l 系统将贯穿整个数据仓库建设的全过程。如 卜8 图所示: 匦) 图卜8e t l 系统贯穿整个数据仓库建设的全过程 1 4 竭圈 数据仓库理论基础 1 3 1 数据抽取 抽取主要是针对各个业务系统及不同网点的分散数据,充分理解 数据定义后,规划需要的数据源及数据定义,制定可操作的数据源, 制定增量抽取的定义。确定如何抽取或查询源数据并非易事,因为它 往往存储在多个地方可能是一个r d m s 、一个文本文件、个e x c e l 文 件、一个d b f 文件或其他类型文件,连接时可以通过标准的连接工具 比如o d b c 或f t p 等。从设计的角度讲最好忽视一些连接问题,把主 要精力集中在源数据如何映射目标数据上。这里提醒一点在数据抽取 分析时需要对业务深刻理解,不能简单的了解。比如我想取一个数据, 在源系统中多个表都有,而你选择了一个。在当时不会有什么问题, 但随着后续工作的开展和分析就会出现意想不到的结果。所以从哪一 个表取不是随便的。在实施中,它的步骤如下: 1 、建立系统的连接: 2 、读取数据提取规则参数表,确定提取的源表; 3 、根据源表、提取规则、最后一次提取的时间戳或流水号生成提取 动态s o l 语句; 4 、查询出的数据根据输出文件拆分规则生成相应的文件( 包含汇总 记录) ,如果当天数据已全部生成,生成汇总记录文件; 5 、将生成的文件转移到公共文件夹中( 报表系统获取数据目录) , 同时复制一份到备份文件夹。 这时抽取就将源系统数据文件通过数据传输,放到了自己的e t l 服务器中。 1 3 2 数据传输 数据传输是通过网络负责把远程的数据文件f t p 到本地目录下。 在实施中,它的步骤如下: 北京交通大学硕士学位论文 1 、初始化参数表,如间隔时间、远程数据文件的存放位置、本地数 据文件存放路径,并连接到远程主机上; 2 、取远程数据文件列表,将其取至本地; 3 、根据远程数据文件列表,生成取数据文件的脚本运行此脚本; 4 、完成取数据操作后,生成取回数据的列表,根据# u i 表生产删除 远程数据文件的脚本,运行此脚本: 5 、将取回的数据文件移到指定文件央中; 6 、继续监控。 1 l3 3 数据转换和清洗 转换主要是针对数据仓库建立的模型,通过一系列的转换将数据 从业务模型导入到分析模型。该过程通过内建的库函数、自定义脚本 或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清 楚的监控数据转换的状态。数据转换是真正将源数据变为目标数据的 关键环节,它包括数据格式转换、数据类型转换、数据汇总计算、数 据拼接等等。但这些工作可以在不同的过程中处理,具体操作视情况 而定,比如可以在数据抽取时转换,可以在数据加载时转换。 清洗主要是针对系统的各个环节可能出现的数据二义性、重复、 不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先 剔除出来,根据实际情况调整相应的清洗操作。对数据文件进行处理, 读入一个文件可能会被分配到三个文件当中。异常数据文件是在清洗 过程中发现不合乎规则的记录。合法数据文件是没有违反规则的数 据,异常数据文件跟合法数据文件的和应该是输入文件。初次汇总文 件是经过初步汇总的文件,该汇总过程只依赖于输入文件内部,不能 跟外部其它文件关联。在实施中,它的步骤如下: 1 、初始化参数表,如间隔时间、本地文件路径等,程序启动时或配 置参数更改时( 定时判断配置参数更改标志位) 加载各类参数配置表; 数据仓库理论基础 2 、程序实时扫描源数据文件夹,如有新文件出现,根据文件名,选 择相应处理模块; 3 、根据对应文件的清洗规则对数据文件进行行扫描,异常数据 未知 参数、无尾汇总记录、文件格式错误( 包含整个文件、行记录) 生 成异常数据文件,合法数据生成合法数据文件; 4 、在进行数据的行扫描时,同时调用转换、汇总模块,生成汇总数 据; 5 、程序根据生成的不同数据文件,同时生成汇总数据,同源数据的 汇总文件进行对比,如出现不一致,提供系统预警。 1 3 4 数据加载入库 数据加载主要是将经过转换和清洗的数据加载到数据仓库里面, 即入库,可以通过数据文件直接装载或直连数据库的方式来进行数据 装载,可以充分体现高效性。数据加载有两个部分,个是把合法数 据文件装入回滚表中,该装入过程没有汇总部分;另一个是把初次汇 总表加载到临时汇总表,根据不同类型的数据,可能会有二次汇总。 当到临时汇总表的数据完毕以后,再把临时中间表的数据装入到中间 表中。在实施中,它的步骤如下: l 、读取汇总数据文件、无需进行汇总的源数据文件或需换天后汇总 的源数据文件,调用数据文件对应操作配置表,加载到相应数据表( 中 间表或回滚表) 中; 2 、读取需进行实时汇总的合法数据文件,调用数据文件对应操作配 置表,对数据库进行更新操作; 3 、程序根据生成的不同数据文件,同时生成汇总数据,同先前步骤 的汇总文件进行对比,如出现不一致,提供系统预警。 请大家务必理解,e t l 除了上述介绍的功能外,它还有许多优点。 比如调度、监控、元数据管理等。 北京交通大学硕士学位论文 1 3 5 统一调度 统一调度是e t l 中较为重要的功能。它不但可以将源数据加载到 数据仓库中,而且还可以更新数据集市,更重要的是还可以更新o l a p s e r v e r 和挖掘模型数据。它在整个商务智能方案中扮演着总指挥、 总调度的角色。过程如下: 图卜9 :e t l 总调度 以o r a c l e 的调度为例:o r a c l e 的j o b 功能对e t l 的调度控制方式 有两种: 自动方式:由o r a c l e 每天定时或准实时启动后台程序,自动完成数 据仓库e t l 处理流程。 手动方式:用户可以通过前台监控平台,对单个目标或批量目标进行 手工调度。 分成三层实现整个e t l 处理流程的: 首先通过o r a c l e 的j o b 队列方式实现任务分配、并行处理、得到任 务清单等工作,实现定时处理和准实时处理的过程; 在j o b 队列中执行数据处理的j o b 工作时,通过向后台的w o r k f l o w 服务器提交相应目标的数据处理流程; 在w o r k f l o w 服务器运行数据处理过程中目标清洗、转换、汇总过程 j 茸 母 团 固嗡园 数据仓库理论基础 是通过调用o w b 生成雕3 p a c k a g e 实现的。 1 3 6 监控 主要是监控e t l 的整个过程,通过扫描e t l 各模块的日志中的关 键值,如记录时间等信息与当前的状态作比较,如果超过某一个值, 则认为该模块运行可能出现问题,应告警。 在实施中,它的步骤如下: 1 、初始化每一个模块的正常规则或异常规则 2 、周期性扫描每一个模块的日志文件,提取最后记录日志的关键信 息跟初始化规则对比,如果异常,则告警;否则继续监控。 1 3 7 元数据管理 元数据管理的主要功能是元数据的管理,跟踪元数据的来源和去 向等。面对目前各个子系统复杂的数据结构,建立数据仓库,要清楚 了解每个元数据的含义,并且需要在数据仓库、数据库设计工具 e r w i n 、前端展现工具c o g n o si m p r o m p t u 等之间共享元数据信息, 并且在未来进行元数据的分析,减少调整数据结构对整个系统的影 响。一个复杂数据仓库系统中元数据维护的工作量是相当大的。目前 主要是针对每一个模块的配置文件可视化更改和日志的浏览。在实施 中,它的步骤如下: 1 、初始化参数表,并连接到d w 上; 2 、读入各模块的配置表; 3 、把可更改的参数显示于屏幕上,供修改; 4 、把修改后的数据写回配置表或文件当中。 北京交通火学硕士学位论文 1 4 数据仓库中的元数据管理 元数据通常定义为“关于数据的数据”。在数据库中,元数据是对 数据库各对象的描述;在关系数据库中,这种描述就是对表、列、数 据库、视图和其它对象的定义。从广义上讲,元数据代表定义数据仓 库对象的任何东西无论是一个表、个列、一个查询、一个商业 规则,或者是数据仓库内部的转移。元数据的这种广义上的定义,可 以完成对数据库内部所有有意义的对象的定义。 理解这些定义对于数据仓库开发的各方面是必不可少的,从开发 数据抽取程序( 从为数据仓库存放数据的源数据库中抽取) 到对多个 数据仓库中的数据进行转换的过程。同时对这些定义的理解有利于把 数据按通用的格式存储的数据仓库中。 一般情况下元数据对数据仓库以下对象和内容进行描述和定义: i 、数据仓库服务器、数据库、表、名称和概括的位置与描述; 2 、用于自动分解的规则和商业维的层次,如产品、市场、账目图等 描述: 3 、用于查看、修改、分配惯用的概括、计算及其它用户分析的个人、 工作组和企业的安全性描述; 4 、原始资料和转换的描述; 5 、名信息的描述; 6 、概括算法的描述; 7 、主体域定位的描述; 8 、访问模式的描述: 9 、根据仓库表的相互映射的描述: 1 0 、合并标准的描述: 1 1 、最终用户为更专业的数据标题和事实定义的习惯名称和别 数据仓库理论基础 名: 1 2 、最终用户定义的惯用计算规则 1 3 、数据仓库的表和属性的局部定义 1 4 、表和列及其特征的物理定义 1 5 、抽取历史数据定义; 1 6 、业主n 务员的定义: 1 7 、引用表和编码数据的定义 1 8 、数据质量的定义; 1 9 、计量单位的定义。 元数据在数据仓库中还可以包含有助于以下任务的构件:运作资 源的标识、属性到属性的简单映射、属性转换、物理特征的转换、编 码和引用表的转换、修改关键字、使用的缺省值、缺省原因、从多个 运作源数据库中进行选择的逻辑关系、使用的算法公式及改名等。 表卜1 是元数据元素的一个范例。它表示一个实体( 或文件记录、 表) 的元数据通常包含对实体和信息的正式商业定义。 实体名称: 可选名称: 客户 顾客,账户 定义:客户就是从公司中至少购买 创建日期: 上次更新日期 关键字: 更新周期: 归档同期: 数据服务员: 数据业主: 访问模式: 一次商品或服务的人或企业 1 9 9 2 年1 月1 5 日 1 9 9 5 年4 月5 日 客户标识,客户定位 每月抽取 6 个月后归档 高建秋 张英雄 上次访问日期为1 9 9 5 年5 月3 0 日 表卜1 :元数据元素的一个范例 2 1 北京交通大学硕士学位论文 表卜2 是属性元数据的一个范例。属性还包括转换所需的物理特 征信息,属性( 或列、域) 元数据也包含商业定义、同义词表、关于 创建时的历史信息、与数据仓库有关的参数( 如转移和转换信息) 。 属性名称 可选名称 定义: 创建日期: 上次更新日期 关键字指示: 数据来源: 转移转换信息: 概括推导算法: 缺省值: 多个运作资源: 客户名 账户名,顾客名 客户名是个人或企业所用的 正式名称 1 9 9 2 年3 月3 0 日 】9 9 5 年4 月5 日 无 汇票入口系统,客户文件属 性是账户名 从2 0 字符至3 5 字符 无 无 无 表卜2 :属性元数据的一个范例 元数据在数据仓库的重要性可以用下面的两个具体的例子进行说 明。例如,图书馆中的卡片目录指出了图书馆内书的内容和位置,元 数据与此非常相似,它能够指出数据仓库内各种信息的位置和含义。 又如存储商品的大型货物仓库,要买东西的客户必须从仓库目录表上 才能知道当前有什么商品,目录单提供所购商品的分类号及其价格, 然后进行选择。一般来说,仓库管理人员接到一个含有商品分类号的 订单后,就可实现销售活动,首先,到仓库的各个地方挑选出订单上 的商品,然后,归并到一起交给客户。另外,在给仓库上货时,应按 目录号进行分类,然后存储到仓库中适当的地方。在以上过程中,商 品的分类号和名称对于仓库的所有服务人员来说都是非常重要的。 数据仓库中的元数据必须像上述的卡片目录和仓库目录表一样含 有它所管理对象的目录。最终用户像客户一样,他们通过目录经过选 择来确定所需的信息,要完成该过程,必须知道信息在仓库中的位置。 因此,元数据必须包含对所管理信息进行分类的功能( 如卡片目录或 数据仓库理论基础 录或仓库目录) ,这些功能必须包括以下几个方而: 1 、必须用作方位图,用于指示信息在仓库中的位置,该图对于以下 几种人或程序来说是非常重要的:想要了解仓库内容的人,把数据仓 库用作信息存储的商业应用程序;管理仓库数据的人,必须编写仓库 查询软件和查询与报表工具软件的开发人员。通常,目录表就是数掘 仓库数据库的模式,由于大多数数据仓库使用关系数据库管理系统 ( r d b m s ) ,所以该模式包括多种条目的定义,如表、列、视图、索引、 强制因素、查询、存储过程、触发器、策略和数据库等; 2 、理想情况下,数据仓库的目录必须具有对每个条目的两种定义一 一数据仓库技术需要的定义( 如表名、表的业主、表的类型、列名、 数据类型和默认值) 和商业用户所需的定义。商业定义倾向于通用的 商业术语和定义,它不受限于技术领域的界限( 如长度限制、使用空 间的无效性、字母数字字符等) ; 3 、必须提供一个能够从一种信息推导出另一种信息的规划蓝图,概 括就是这种推导方式的一个范例。过去十年的历史数据可以根据分析 的需要按年、月、季度进行概括,要对运作数据和历史数掘增加时间 属性,必须按目录表从元数据定义的时间域中获取、向输入的数据中 增加其它属性也必须由适当的元数据进行描述。 4 、它必须为从运作的商业应用程序中抽取数据并存入仓库的抽取过 程提供一个方案。抽取程序员应弄清输入数据的结构和存储数据的目 标数据库的结构,进行格式转换,提供缺省值,或取舍信息。 5 、它必须存储建立在仓库中的商业规则。商业规则是由单位建立的 用于解决数据不致性和实现商业政策的行为准则。不一致的和不兼 容的数据在存储到数据仓库之前必须从运作的资源中进行“净化”, 这时可以使用商业规则。 6 、它必须存储访问控制和安全性规则,确保安全型管理。访问控制 和安全性依赖于元数据附带的权限。 7 、元数据必须随时跟踪修改过程。通常,一个公司多年来所收集数 北京交通火学硕士学位论文 据的结构会发生变化,从1 9 8 5 年一1 9 9 0 年收集的客户数据与从1 9 9 1 年一1 9 9 5 年收集的数据在结构上可能是不同的,主要是因为支持订货 处理的数据库和应用系统发生了变化。例如,当两个公司合并时,两 个单位的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 篮球三角战术课件
- 团队项目分工与任务协作管理模板
- 关于金融从业资格考试及答案解析
- 白天变黑夜250字9篇
- 重庆市西北狼教育联盟2026届高三上学期开学学情诊断政治试卷(含答案)
- 湖南省衡阳市一中2026届高三第一次月考数学试卷(含答案)
- 广东省广州市第四中学2025-2026学年高一上学期入学摸底考试数学试卷(含部分答案)
- 2024-2025学年江西省九江市九江一中高二(下)期末数学试卷(含答案)
- 焚烧残渣利用-洞察及研究
- 农业生产资料采购与使用协议条款规定
- 2023年经济法基础第四章税法概述及货物和劳务税法律制度课件讲义
- 摩托训练考试题及答案
- 蚊虫消杀培训课件
- 秋季行车安全课件
- 贝尔面瘫个案护理
- 急性主动脉综合征非外科强化治疗中国专家共识解读 2
- 检测机构强制性标准规范执行措施
- 2025年驻村帮扶培训课件
- 产品生命周期管理制度
- 煤气设施检查管理制度
- 信息认证管理制度
评论
0/150
提交评论