(计算机应用技术专业论文)基于ods的数据仓库技术在高校信息管理中的应用.pdf_第1页
(计算机应用技术专业论文)基于ods的数据仓库技术在高校信息管理中的应用.pdf_第2页
(计算机应用技术专业论文)基于ods的数据仓库技术在高校信息管理中的应用.pdf_第3页
(计算机应用技术专业论文)基于ods的数据仓库技术在高校信息管理中的应用.pdf_第4页
(计算机应用技术专业论文)基于ods的数据仓库技术在高校信息管理中的应用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)基于ods的数据仓库技术在高校信息管理中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着高校管理信息化进程的不断发展,在不同的信息系统中积累了大量宝贵的 历史数据,为了充分发掘这些数据的价值,应建立数据仓库系统,以满足不同层次 信息用户的决策分析需要。本文着重讨论了在o d s 基础上数据仓库的设计与实现。 在对数据仓库技术深入研究的基础上,本文设计并实现了一个高校信息管理数 据仓库系统。系统采用了三层体系结构:d b o d s d w ,即业务数据库层( d b 层) 操 作数据存储层( o d s 层) 数据仓库层( d w 层) 。o d s 是介于各个不同管理信息系统d b 和d w 之间的一种数据存储技术,保存面向主题的、当前的或接近当前的细节数据。 o d s 弥补了数据仓库在处理实时数据的处理效率不高的不足,以及解决了各个管理 信息系统数据不一致化的问题。 目前对数据仓库的实时更新普遍采用视图维护更新方式,视图的自维护和致 性维护是数据仓库更新的重要问题。本文在多版本控制法的基础上作进一步改进, 提出了一种后生成版本控制法来对实视图进行更新和维护,从而达到o d s 中数据的 实时更新和维护,同时本文也探讨了基于工作流的数据仓库更新技术。 关键词:数据仓库,操作数据存储,实时更新,视图维护,工作流 a b s t r a c t w i t ht h e a p p l i c a t i o n o fh i g he d u c a t i o n i n f o r m a t i o n m a n a g e m e n ts y s t e m ,l a r g e a m o u n to f h i s t o r y d a t u m a c c u m u l a t e d p e o p l ep u s h m o r ea n dm o r ed e m a n d s o n d e c i s i o n m a k i n gb a s e do nh i s t o r yd a t u m t h e s eb r a n d - n e wd e m a n d s ,c o m p a n i e dw i t ht h e d e v e l o p m e n to fd a t aw a r e h o u s et e c h n i q u e ,m a k ei tn e c e s s a r yt ob u i l daw a r e h o u s eo n h i g he d u c a t i o ni n f o r m a t i o nm a n a g e m e n ts y s t e m b ea w a r eo ft h en e c e s s i t ya n df e a s i b i l i t yo ft h ed a t aw a r e h o u s et e c h n i q u e w eh a v e d e s i g n e da n di m p l e m e n t e d ad a t aw a r e h o u s eo f h i g he d u c a t i o ni n f o r m a t i o nm a n a g e m e n t s y s t e m ,t h es y s t e mi sc o m p r i s e do fd a t a b a s e ,o p e r a t i o n a ld a t as t o r ea n dd a t aw a r e h o u s e o p e r a t i o n a ld a t as t o r ei s ad a t as t o r a g et e c h n i q u ew h i c hi sb e t w e e nd a t a b a s ea n d d a t a w a r e h o u s e ,w h i c h i sa n a r c h i t e c t u r a lc o n s t r u c tt h a ti s s u b ie c t o r i e n t e d ,i n t e g r a t e d ,v o l a t i l e ,c u r r e n tv a l u e d ,a n dc o n t a i n sd e t a i l e dc o r p o r a t ed a t a o d sc a n r e c o v e rt h es h o r t c o m i n gt h ed wi sh a r et od e a lw i t hr e a l t i m ed a t a w eo f t e ns t o r et h ed a t ai nt h ew a r e h o u s ea sm a t e r i a l i z e dv i e wt os p e e d u pq u e r y p r o c e s s i n go nl a r g ea m o u n to f d a t a t h e s ev i e w sn e e dt ob em a i n t a i n e di nr e s p o n dt o u p d a t e i nt h es o u r c ed a t a t h i s p a p e r h a s b r o u g h t o u ta a f t e r c r e a t i n g v e r s i o n n o l o c k i n gb a s e do n am u l t i v e r s i o n n o l o c k i n gf o rt h em a i n t e n a n c eo ft h e0 d s m a t e r i a l i z e dv i e w s ia l s od i s c u s sas t r a t e g yb a s e do nw o r k f l o wt om e e tw a r e h o u s e u p d a t i n g + k e yw o r d s :d a t aw a r e h o u s e ,o p e r a t i o n a ld a t a s t o r e ,r e a l t i m e u p d a t i n g ,v i e w m a i n t e n a n c e w o r k f l o w y a n g g u o x i a ( c o m p u t e ra p p l i c a t i o nt e c h n i q u e ) d i r e c t e db yp r o f w a n gc u ir u 声明 本人郑重声明:此处所提交的硕士学位论文基于o d s 的数据仓库技术在高校 信息管理中的应用是本人在华北电力大学攻读硕士学位期间,在导师指导下进 行的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力 大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:扬国整日期:垫互:。垫 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:捣! 訇煎导师签名:垂驻 e l期:型。左翌日期: 竺竖:s :2 互 华北电力人学硕士学位论文 第一章绪论 1 1 课题背景及国内外研究现状 现代社会已经进入信息社会,信息对每个人和每个单位来说都是极其重要的, 而如何从大量的信息中发现有用的知识更为重要。随着我国加入w t o ,教育逐步走 向国际化,教育的竞争会愈来愈激烈,高等教育的竞争更为激烈。竞争不仅发生在 教学、科研、生源、师资、设备等层而上,同时也发生在高等学校管理水平的层面 上。如何通过构建一个容量大、数据全、易提取、可分析的数据仓库系统,把学校 不同部门、不同系列、不同平台上的大量数据进行整合,从大量复杂的数据中提取 出有用的宏观管理和微观管理方面的决策数据,从而生成一个高效率的信息化管理 体系,为管理者和决策者提供更准确、更科学的决策依据,这已经成为高等学校提 高管理水平的迫切需要和必然趋势。 从日前情况来看,我国高校运用计算机进行数据信息管理已经非常普遍,校内 各个部门都建立起自己的数据库管理系统并存储了大量数据信息,是学校日常管 理、运作的一笔极其重要、极其丰富的管理资源。但这些分散的数据资源并没有得 到充分利用,更不能从大量复杂的数掘中提取出有用的宏观管理和微观管理方面的 决策数据。而国外的高等院校已经开始构建和实簏学校的数据仓库系统,并在某些 方面已经有了较成熟的技术与产:品。国内的高等院校在这方面才刚起步,只有少数 学校在进行这方面的深度丌发研究。 1 2 研究和开发本课题的必要性及其主要内容 一、必要性 从我国高校实际情况看,现在很多大学在校学生人数都已超过万人,甚至十儿 办,教职工人数也是几千或上万,各类数据同积月累,己形成拥有庞大数据的各类 数据库。高校一般都建有学籍管理、学生成绩、人事管理、教务管理、教师教学科 研管理、工资管理、医疗管理、图书管理等数据库系统。这些传统的部门数据库管 理系统并不能充分有效地利用数据信息和进行管理决策支持,原因主要有:第一, 部门数据库管理系统是面向单一业务操作设计的,无论是查询、统计,还是报表, 处理方式都只是对指定的数据进行简单的数据处理,并没有相应的决策支持系统剥 所采集的数据信息进行分析:第二,部门数据库管理系统所存储的大量数据也是封 闭式地专供本部门单一业务服务的,共享性很低,其他部门基本上不能对这些数据 所包含的内在信息进行简易有效的提取。利用数据仓库技术来弥补现有学校数据库 管理系统的不足,把已经存在的大量数据集成到数据仓库中,使各个部门简便易行 华北电力人学硕士学位论文 地从中提取有用信息,减少数据信息采集过程中的重复劳动,切实提高管理效率, 有效地帮助各个部门和学校在管理和发展上做出正确的决策咨询和决策支持,以提 高学校管理决策的科学性。所以,建立高校的数据仓库系统是可行的、必要的。 二、主要内容 随着高校信息管理系统的运行,在不同的信息系统中积累了大量宝贵的历史数 据,为了充分利用这些数据,应建立数据仓库,以满足人们的决策分析需要。本文 着重讨论了数据仓库的设计与实现。在对数据仓库技术的深入研究的基础上,设计 并实现了一个高校信息管理数据仓库系统。系统采用业务数据库( d b ) 操作数据 存储库( o d s ) 数据仓库( d w ) 三层体系结构。o d s 是介于d b $ i d w 之间的一种数据存 储技术,保存面向主题的、当前的或接近当前的细节数据。它弥补了数据仓库在处 理实时数据的处理效率不高的不足,以及解决了各个管理信息系统数据不一致化的 问题。 目前对数据仓库的实时更新普遍采用视图维护更新方式,视图的自维护和致 性维护是数据仓库更新的重要问题。文中介绍了一种后生成版本控制法更新和维护 实视图,从而达n o d s 中数据的实时更新和维护。同时本文也探讨了基于工作流的 数据仓库更新技术。 1 3 数据仓库及o d s 技术概述 数据仓库是将分析决策所需的大量数据从企业日常运行环境中分离出来的, 把分散的、难以访问的业务数据转换成集成统一、随时可用的信息而建立的一利,数 据库存储环境。它使用户能够方便地提取所需的数据,同时又不干扰业务数据库的 一常运行。 数据仓库技术的目标是将操作型数据和分析型数据分离开来。传统的数据库系 统由于主要用于企业的日常事务处理工作,通常关心响应时间,数据的安全性和先 整性,数据库中存放的数据大体符合操作型数据的特点。数据仓库是为适应数据分 析处理要求而产生的,存放的数掘是分析型数据,具有面向主题,集成的,不可更 新,随时间不断变化等四个特点。 数据仓库概念的提出,不但为有效地支持企业经营管理决策提供了一个全局一一 致的数据环境,也为历史数据,综合数据的处理提出了一种行之有效的解决方法。 它明确地提出了数据处理的两种不同类型:操作型数据和分析型数据,并将两者在 实现中区分开来,建立起d b d w 两层体系结构。 然而在很多情况下,d b d w 的两层体系结构并不能涵盖企业所有的数据处理要 求。因为企业的数据处理虽然可以比较粗略地划分成操作型和分析型两部分,但是 这两种处理类型之间并不是泾渭分明的。实际的数据处理往往是多层次的,这种信 2 华北电力大学硕士学位论文 息处理的多层次要求导致了一种新的数据环境一o d s ( 操作数据存储) 的建立,在 d b d w 两层体系结构的基础上再增加一个新的层次为o d s ,从而形成d b o d s d w 的三 层体系结构。 o d s 作为一个中间层次,一方面,它包含企业全局一致的、细节的、当前或接 近当前的数据,可以进行全局联机操作型处理;另一方面,它又是一种面向主题的、 集成的数据环境,且数据量较小,适合于辅助企业完成日常决策的数据分析处理。 华北电力人学硕士学位论文 2 1 数据仓库 2 1 1 数据仓库的由来 第二章数据仓库技术 随着企业计算机应用的不断深入,企业已经积累了大量的业务数据,企业内的 各级人员都希望能够快速、交互并方便有效地从这些大量杂乱无章的数据中获取有 意义的信息,决策者希望能够利用现有的数据指导企业决策和发掘企业的竞争优 势。对于以上需求,现有的信息管理系统中的数据分析工具很难给出答案,即传统 的数据库应用系统并不能很好地支持决策,因为它是面向业务操作设计的,只能简 化具体操作人员的劳动强度,但不能对这些数据所包含的内在信息进行提取。数据 仓库技术应运而生,2 0 世纪8 0 年代中期,w i l l i a m h i n m o n 提出“数据仓库” 1 , 数据仓库能把己经广泛收集到的数据集成到数据仓库中,以从业务数据中提取有用 的信息,帮助人们在业务管理和发展上做出即时正确的判断。 数据仓库适应决策支持系统的需要而产生的,所以应该能支持决策过程的全部 工作内容,完整的数据仓库应包括3 个方面的技术内容:数据仓库计算、联机分析处 理技术和数据挖掘。 2 1 2 数据仓库的概念及特征 数据仓库 1 是一个而向主题的,集成的,时变的,非易失的数据集合。与其 他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数 据的整合、加工和分析的过程。 数据仓库具有以下几个特征: 1 ) 数据仓库是面向主题的 主题是1 个抽象的概念,是在较高层次上将企业信息系统中的数据综合,归类 并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所涉及的 分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个 完整,一致的描述,能完整,统一地刻画各个分析对象所涉及的企业的各项数据, 以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言,是指按 照主题进行数据组织的方式具有更高的数据抽象级别。当采用关系数据库技术来实 现数据仓库时,数据仓库的数据最终也表现为关系,因此,要把握主题和面向主题 的概念,需要将它们提高到一个更高的抽象层次上来理解,也就是要特别强调概念 的逻辑意义。 4 华北电力大学硕士学位论文 传统的面向应用进行数据组织方式的特点如下: 第一,面向应用进行数据组织,是指对企业中相关的组织,部门等进行详细调 查,收集数据库的基础数据及其处理过程。 第二,面向应用的数据组织,应反映一个企业内数据的动态特征,即它要表达 企业各部门内的数据流动情况以及部门间的数据输入输出关系。 第三,这种数据组织方式生成的各项数据库模式与企业中实际的业务处理流程 中所涉及的文档有很好的对应关系,这种对应关系使得数据库模式具有很强的操作 性。 第四,面向应用的数据组织方式并没有体现数据与数据处理的分离,实际中的 数据库建设由于偏重于对联机事务处理的支持,而将数据应用逻辑与数据在一定程 度上又重新捆绑在一起了,造成的后果是:本来是描述同一客观实体的数据由于与 不同的应用逻辑捆绑在一起而变得不统一,使得本来是个完整的客观实体的数据 分散在不同的数据库模式中。 总的来说,面向应用来进行企业数据的组织,其抽象程度还不够高,没有完全 实现数据与应用的分离,但这种方式能较好地将数据库模式和企业的现实业务活动 对应起来,从而具有很好的操作性,便于将企业原来的各项业务从手工处理方式向 计算机处理方式的转变。 按照面向主题的方式,数据的组织应该分为两个步骤:抽取主题以及确定每个 主题所应包含的数据内容。主题的抽取应该是按照分析的要求来确定的。在关系型 数据库中,每个主题在数据仓库中都是由一组关系表实现的,也就是说,主题的实 现依然是基于关系数据库的。在具体实现中,一个主题可以划分为多个表,主题只 是个逻辑的概念。但是数据仓库中的数据不再是业务处理的流水帐,而是经过了 一定程度的综合。 基于1 个主题的所有表都含有一个称为公共码键的属性作为基主码的一部 分。公共码键将各个表统一联系起来,体现它们是属于一个主题的,根据数据被关 心的程度不同,可以将同一主题的不同表分别存储在不同的介质中。总结起来,面 向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,即主题 域,主题域应该具有: 独立性:这一主题可以和其他的主题域有交叉部分,但它必须具有独立内 涵,即要求有明确的界限,规定某项数据是否属于该主题。 完备性:要求任何一个对该主题的分析要求,可以在这一主题中找到所要求 的一切内容。或许有人担心,要求主题的完备性会使得主题包含有过多的数据项而 显得过于庞大,但因为主题只是一个逻辑上的概念,实现时如果主题的数据项多 华北电力大学硕士学位论文 了,可以采取各种划分策略来化大为小。 主题是一个在较高层次上对数据的抽象,这使得面向主题的数据组织可以独立 于数据的处理逻辑,因而可以在这种数据环境上方便地开发新的分析型应用。同 时,这种独立性也是建设企业全局数据库所要求的,所以面向主题不仅是适用于分 析型数据环境的数据组织方式,并且是适用于建设企业全局数据库的数据组织方 式。 2 ) 数据仓库的数据是集成的 数掘仓库的数据是从原有的分散的数据库数据中抽取来的。第一,数据仓库的 每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地 方,且来源于不同的系统的数据都和不同的应用逻辑捆绑在一起;第二,数据仓库 中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前, 必然要经过统一与综合,这一步是数据仓库建设中最关键,最复杂的一步,所要完 成的工作有: 要统一源数据中所有矛盾之处。如字段的同名异义,异名同义,单位不统一, 字长不一致等。 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成 的。 3 ) 数据仓库的数据是不可更新的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段历史数据的内 容,不同时点的数据库快照的集合,以及基于这些快照进行统计,综合和重组的导 出数据,而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到数 掘仓库中,由于数据仓库中的数据量往往很大,所以就对数据查询提出了更高的要 求,它要求采用各种复杂的索引技术:同时由于数据仓库面向的是企业的高层管理 者,他们会对数据查询的界面友好性和数据表示提出更高的要求。 4 ) 数据仓库的数据是随时间不断变化的 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进 行分析处理时不进行数据更新操作,但并不是说,在从数据集成输入数据仓库开始 到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。数据 仓库的数据是随时间不断变化的。 数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉 o l t p 数据库中变化的数据,追加到数据仓库中去,也就是要不断地生o l t p 数据库的 6 华j 匕电力大学硕士学位论文 快照,经统一集成后增加到数据仓库中去;但对于每次的数据库快照确实是不再变 化的,捕捉到新的变化数据,只不过又生成了一个数据库的快照增加进去,而不会 对原来的数据库快照进行修改。 数据仓库随时间变化不断删去旧的数据内容,但是数据仓库中的数据时限要 远远跃于操作型环境中的数据时限。 数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如数 据经常按时间段进行综合,或隔一定的时间进行抽样等。这些数据要随着时间的变 化不断地进行重新综合。因此,数据仓库数据的码键都包含时间项,以标明数据的 历史时期。 2 1 3 数据库与数据仓库的比较 传统的数据库是单一的数据资源,即以数据库为中心,进行联机事务处理 ( o l t p ,o nl i n et r a n s a c t i 0 1 1p r o c e s s i n g ) ,数据库技术的根本任务还仅限于及 时、安全地将当前的任务所产生的数据记录保存下来,以及对现有的数据进行查询 和修改等数据处理工作。随着计算机技术的不断发展,网络计算开始向广度和深度 两个不同的方向拓展,人们对以往计算机的简单数据操作提出了更高的要求,希望 计算机能够更多的参与数据分析与决策的制定等领域,新兴的软件技术一联机分析 处理( o l a p ,o nl i r ea n a l y t i c a tp r o c e s s i n g ) 就是专门设计用于支持这种复杂的 数据分析操作的。由于o l t p 禾;o l a p 的性能特性不同,为了提高分析和决策的效率和 有效性,必须把分析型数据从事务处理环境中提取出来,按照决策支持系统( d s s ) 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种 新的分析处理环境而出现的一种数据存储和i 组织技术。 数据仓库与数据库的不同如表2 1 所示: 华北电力大学硕士学位论文 特性 o l t po l a p 特征操作处理信息处理 面向事务分析 用户办事员、d b a 、数据库专人知识工人( 经理、分析员) 功能日常操作长期信息需求,决策 d b 设计基于e r ,面向应用星型雪花,面向主题 数据当前的,确保最新历史的,跨时间维护 汇总原始的,高度详细汇总的,统一的 视图详细,一般关系汇总的,多维的 工作单位短的,简单事务复杂查询 存取读写大多为读 关注数据进入信息输出 操作主关键字上索引散列大量扫描 表2 1o l t p 系统和o l a p 系统的比较 2 2 数据仓库的实现技术 2 2 1 数据仓库的系统框架 数据仓库是从多个内容相关,物理和逻辑上都相互独立的数据源中提取的面 向主题的数据集合。从数据库技术的角度看,数据仓库提供了多数据源上的一个统 一的数据平台。典型的数据仓库系统结构如图2 1 : 华北电力大学硕士学位论文 图2 1 数据仓库的体系结构 整个数据仓库系统由查询工具,实视图管理部件,数据仓库,集成转换部件组 成,其中数据仓库包括实视图和元数据。实视图是由其它数据源中的数据导出。集 成部件根据元数据中的有关定义,完成数据源中数据到实视图的变换,并负责获取 源数据修改内容。查询处理实现对源数据的查询。实视图管理部件负责实现数据共 享,安全保密,实视图的维护和元数据的管理等工作。仓库管理员要对实视图管理 部件、集成部件和查询处理部件进行维护,定义并管理数据仓库中的数据。查询工 具提供查询语言及可视化查询界面。以上几个部分互相协调,确保系统能快速,正 确地提供用户所关心的数据。 2 2 2 数据仓库的数据组织 在数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。数据仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表 示细节程度越低,综合程度越高。级别的划分是根据粒度进行的。典型的数据仓库 的数据组织结构如图2 2 所示: 华北电力大学顶士学位论文 2 3 数据仓库的关键技术 幽22 数据仓厍的数据组鍪l 结构 高度综台缎 轻度综合级 与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。 由于数据仓库的这神工程性,因而在技术上可以根据它的工作过程分为 2 :数据 仓库的设计的技术咨询、数据的抽取、存储和管理以及数据的表现四个方面。为此, 我们将分别讨论每一个环节。 ( 1 ) 数据仓库的设计技术咨询 数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数据 仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数据仓库提供哪 些郝门使用? 不同的部门怎样发挥数据仓库的决策效益? 数据仓库需要存放哪些 数据? 这些数据以什么样的结构存放? 数据从哪里装载? 装载的频率多少为合 适? 需要购置哪些数据管理的产品和工具来建立数据仓库等等。这些问题依赖于 特定的数据仓库系统,属于技术咨询的范畴。 ( 2 ) 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它 需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质 中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和 监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步, 因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数 据仓库中信息的有效性则至关重要。 ( 3 ) 存储与管理 1 0 华北电力大学硕士学位论文 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它 有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么 产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量 比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关 系数据库系统能够担当此任。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户 访问系统的特点是短小丽密集;对于一个多处理机系统来说,能够将用户的请求进 行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统的特点 是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。此时系统 需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将玖请求并行 处理。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数 据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上, 针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排 序和采样等诸多部分。 数据仓库的第四个问题是支持多维分析的查询模式,为此,人们提出了多维数 据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统, 它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方 可访问。采用多维数据库实现的联机分析应用我们称之为m o l a p 。多维数据库在 针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理及 大舰模数据管理扩展性,因此难以承担大型数据仓库应用。关系数据库菪采用“星 型模式”来组织数据就能很好地解决多维分析的问题,星型模式是数据库设计中数 据表之间的一种关联形式,它的巧妙之处在于能够找到一个固定的算法,将用户的多 维查询请求转换成针对浚数据模式的标准s q l 语句,而且该语句是最优化的,采用 关系数据库实现的联机分析应用称为r o l a p 。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩充 的并行关系数据库将是数据仓库的核心。 f 4 ) 数据的表现 数据表现是数据仓库的门面。主要集中在多维分析、数理统计和数据挖掘方 面。多维分析是数据仓库的重要表现形式,由于m o l a p 系统是专用的,因此,关于 多维分析领域的工具和产品大多是r o l a p i 具。在实际的应用中,客户需要通过对 数据的统计来验证他们对某些事物的假设,以进行决策。而数据挖掘强调的不仅仅 华北电力大学硕士学位论文 是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规 律。 2 4 数据仓库技术应用现状 当今世界充满了剧烈竞争,正确及时的决策是企业生存和发展的最重要环节。 现在,愈来愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益,至关重 要的是,必须利用计算机和网络技术、数据仓库技术,深层次地挖掘、分析当前和 历史的业务数据,以及相关环境的相关数据,自动快速获取其中有用的决策信息, 为企业提供快速、准确和方便的决策支持。通过对企业生产和计划的完成情况及相 关环境数据进行多角度多层次的分析,以使企业的决策者及时掌握企业的运行情况 和发展趋势,并对制定生产计划和长远规划提供理论指导,提高企业的管理水平和 竞争优势。 2 4 1 数据仓库在客户服务方面的应用 客户关系管理( c r m ) 是一个判断、获取、保持和增加可获利客户的过程。数据 仓库与c r m 有着难以割舍的密切关系,从某种意义上说,数据仓库是c r m 的灵魂。c r m 的很多工作都是以数据仓库为基础展开的。利用数据仓库,企业可以制定准确的市 场策略与促销活动。c r m 充分利用数据仓库的分析结果制定市场策略、产生市场机 会,并通过销售和服务等部门与客户交流,从而提高企业的利润。 数据仓库在c r m 中有以下三方面的作用:客户行为分析、重点客户发现和市场 性能评估。 客户行为可以划分为两个方面:整体行为分析和群体行为分析。根据客户行为 的不同可以将他们划分为不同的群体,各个群体有着明显的行为特征。通过行为分 组,c r m 用户可以更好地理解客户,发现群体客户的行为规律。基于这些理解和规 律,市场专家可以制定相应的市场策略,同时还可以针对不同客户组进行交叉分 析,帮助c r m 用户发现客户群体间的变化规律。 重点客户发现的目标是找出对企业具有重要意义的客户,这些重点客户主要包 括以下几类:潜在客户( 有价值的新客户) 、交叉销售( 同一客户有更多的消费需 求) 、增量销售( 更多地使用同一种产品或服务) 、客户保持( 保持客户的忠诚度) 。 性能评估,根据客户行为分析,企业可以准确地制定市场策略和策划市场活 动。然而,这些市场活动能否达到预定的目标是改进市场策略和评价客户行为分组 性i i i i 重要指标。因此,c r m 系统必须对行为分析和市场策略进行评估。同样,重 点客户发现过程也需要对其性能进行分析,然后在此基础上修改重点客户发现过 程。这些性能评估都是以客户所提供的市场反馈为基础。 华北电力大学硕士学位论文 一 2 4 2 数据仓库在营销领域的应用 市场信息数据仓库有一个新的挑战:保持用户。这需要找到一种方法,运用收 集到的数据来预测用户未来的购买行为,这就是数据库营销法的所在。数据库营销 就是把数据库采掘与预测模型以及台式显示工具结合起来,以帮助市场营销人员对 客户行为作深入的洞察分析。最终的目标是预测用户的忠诚度,也就是哪些用户对 该品牌依然衷情,哪些用户甘愿转向其他。如果能够预测到这些行为,就能够有更 大的机会来留住客户。减少用户的转向,保持原有的用户市场比开发许多市场要廉 价得多,尤其是在电信和无线通信领域更是如此。电信和家电领域的管制撤销意味 着用户有了更多的选择,用户的多种选择对于公司来说又意味着用户流失的风险和 更高的市场营销费用。 南加利福尼亚石油公司利用它的大型机和d b 2 数据库,并完善了它现有的数据 分析工具来聚焦它的营销目标。在过去两年里,该公司使用数据采掘技术来预测用 户行为,使其直接营销费用节省了大约4 0 万美元。使用数据库营销技术、市场部能 够详细描述最可能继续合作的用户群。运用s a s 来推测哪些用户需要石油,便可集 中注意力于这些用户,给予他们最优厚的夏冬季差价。然后,建立一个模型用来分 析每一位用户把最可能的客户选出,于是就把市场注意力转向他们。 2 4 3 数据仓库在证券业的应用 数据仓库技术在证券业的应用十分广泛,它可处理客户分析、帐户分析、证券 交易数据分析、非资金交易分析等多个业界关心的主题,这是证券业扩大经营、防 范风险的预警行动。 证券公司利用客户行为分析系统数掘仓库技术将所有客户的操作记录进行归 类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数 据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、客户的盈亏情 况、公司的利润分布等进行统计和分析。从而获得以往一直想获得但却无法获驳的 关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后,就 有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的 贴心服务。 1 9 9 9 年4 月,深圳国信证券的数据仓库系统( 由s y b a s e 公司提供解决方案) 一期工程完成,该项首期技资近2 0 0 万元数据仓库系统建设的出发点是为当前公 司的决策者提供快速有效的各种报表和分析方式,提高公司的市场反应速度和竞争 力水平。该系统包括了客户分析、账户分析、证券汇总分析、资金交易分析、非资 金交易分析等多个业界关心的主题。公司用户可以通过固定灵活报表、多维分析等 多种形式实现多个层面的数据访问,数据访问的手段包括访问授权的内n w e b 站 华北电力大学硕士学位论文 点、通过自动e m a i l 邮件转发、直c “e n t s e r y e r 连接等多种方式。该系统的完成 是国内开放平台数据仓库系统建设的个成功案例。 2 4 4 数据仓库在银行领域的应用 随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金融 模式逐渐形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、 发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性,如何防范银 行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。 9 0 年代出现的数据仓库、o l a i ( 联机分析) 、数据采掘、多媒体、高带宽网络 技术,使银行的科学管理有了一个新的技术支持。利用数据仓库的强大功能,银行 可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场 竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定 基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人 员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投 资、信贷j x l 险。 光大银行商务智能应用系统 3 ,采用菲奈特软件智能化系统。信息的即时展 玑避免了可能出现的商机延误;分析的多维性和立体性使管理决策者不仅能把握整 体的运作情况,也能窥视到个体的分布状态;查询粒度的精细化使操作人员能够对 有疑点的数据进行下钻查询,甚至可以精确某个交易,某个客户;报表处理的简单 化和科学化,节省了高昂的人力物力;更重要的是,数据统计的准确化和分析角度 的科学化,保证了对管理者决策指引的科学化。 2 4 5 数据仓库在税务领域的应用 增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干 扰,足税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其问找 到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数 据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税 者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述, 找出普遍规律,谋求因势利导的税务征稽策略:三是对不向行业、产品和市场应收 税款进行预测,制定最有效的征收计划。 数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分 析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其 实际纳税金额进行对比,从而查出可能的偷漏税者。 广东省国税局近日采用广州菲奈特软件公司商业智能系统平台 4 ,该系统应 华北电力大学硕士学位论文 用数据仓库、o l a p 分析和数据挖掘等技术,实现税收宏观分析、税收收入分析、税 收征管分析、出口退税分析、专用发票分析、纳税人分析、纳税人审计分析等功能。 它可以对经济和税收综合数据进行科学分析,研究经济与税收增长的弹性、发展的 均衡性等数量关系,揭示税收收入和税收负担等重大指标的长期增长趋势、波动规 律、发展速度、地区分布、行业分布、所有制分布和月度时序特征;运用对比分析 方法揭示事物之间的关系、强度及均衡性;对税收收入、出口及出口退税等重大税 收指标进行精确监控和科学预测;根据纳税人的生产经营情况和纳税情况对其申报 的真实性进行量化评测和科学分类。 24 6 数据仓库在保险业的应用 随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足 保险行业日益增长的各种查询、统计、报表以及分析的需求如何提高防范和化解经 营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势, 甚至如何利用这些数据来设计保险企业的发展宏图,在激烈的竞争中赢得先机是保 险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难 题。数据仓库技术、联机分析处理技术的日趋成熟和i n t e r n e t 的普及加速了决策支 持的实用化过程。 菲奈特与深圳华安保险公司合作联合开发财产险主业务系统( s p s ) 和保险决策 支持系统( i d s s ) 是金融业决策支持系统在华南地区的首例商业应用,也是数据仓 库在保险业的成功应用。该系统是以数据仓库( d a t aw a r e h o u s e ) 技术为基础,联 机分析处理( o l a p ) 和数据挖掘( d a t am i n i ) 工具为手段的整套可操作、可实施 的整体解决方案,适用于u n i x 和w i n d o w sn t 平台,可以使用s q ls e r v e r 、p l a t i n u m 、 s y b a s el q 、l n f o r m i xm e t a c u b e 等o l a p i 眼务器,可连接多个业务系统的异构数据源 ( 如:i n f o r m i x 、o r a c l e 、d b a s y b a s e 、s q ls e r v e r ) ,并同时提供c l i e a t s e r v e r 与w e b 两个操作版本。该系统充分利用了数据仓库的先进技术以及联机分析处理机 制对数据的多维动态查询、分析和钻取功能,建成了保险决策支持系统。该系统能 进步挖掘保险公司现有的各种数据的潜力,提供了关键业务指标分析、业绩分 析、财务分析、市场分析、重要险种分析、重大事件分析、即席分析、风险评估、 业务预测、风险告警和风险预测等功能,为保险公司领导层及时掌握经营管理的真 实动态,做出科学决策提供多方位、多层次、多视觉的信息服务和重要的数据依据。 2 5 目前相关的数据仓库解决方案 s y h a s e 的w a r e h o u s es t u d i o 是一个针对数据仓库应用的集成化的解决方案, 包括:设计组件( w a r e h o u s ea r c h i t e c t ) 、元数据管理软件( w a r e h o u s e c o n t r o l c e n t e r ) 和一个可选的用于集成的组件( p o w e rs t a g e ) 数据管理软件 1 5 华北电力大学硕士学位论文 ( a d a p t i v es e r v e r i o ) 和提供一些具有可视化功能的分析软件 c o g n o s ,b r i o ,m i c r os t r a t e g y 和e n g l i s hw i z a r d ) 。 c a 与1 9 9 9 年收购了p l a t i n u mt e c h n o l o g y ,得到了完整的数据仓库解决方 嘉包括e r w i n 数据仓库设计工具i n f o p u m p 数据转换与抽取工具i n f o b e a c o n r o l a p 服务器、f o r e s t & t r e e s 前端展示工具、p r o v i s i o n 系统监视与作用调度工具和 d e c i s i o n b a s e 元数据管理工具等。 i b m 提供了一套基于可视数据仓库的解决方案,包括:v i s u a l w a r e h o u s e ( v w ) 、 e s s h a s e d b 2 0 l a p s e r v e r 和i b m d b 2 u d b 以及来自第三方的前端展示工具( 如 b u s i n e s s o b j e c t s 的b o ,l o t u s 的a p p r o a c h ,c o g n o s 的i m p r o m p t u ,i b m 的q u e r y m a n a g e m e n tf a c i l i t y ) 。 o r a c l e 数据仓库包含了一整套的产品和服务,覆盖了数据仓库定义,设计和实 施的整个过程。o r a c t e9 i 数据仓库核心。o r a c l ew a r e h o u s e8 u i l d e r 为数据仓库 解决方案提供完整、集成的实施框架。功能包括:数据建模、数据抽取、数据转移 和装载、聚合、元数据的管理等。o r a c l ed i s c o v e r e r 是最终用户查询、报告、深 入、旋转和w e b 公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们做 出基于充分信息的决策。o r a c l ee x p r e s s 产品系列是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论