




已阅读5页,还剩71页未读, 继续免费阅读
(计算机软件与理论专业论文)数据仓库开发探索以及在社保领域的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 伴随着神奇的“啤酒搭着尿布卖”的故事,数据仓库走进了中国人的视野。“啤 酒搭着尿布卖”是一个经典的关于数据挖掘的故事,它告诉人们可以利用手中没有规 律的数据,找出物与人之间的规律。这个故事曾经给中国企业带来了极大的惊奇与震 撼。 数据仓库技术从诞生到现在,在理沦研究上已经有了较大的进展,围绕数据仓库 解决方案的软件产品如雨后春笋般出现,数据仓库技术已经被应用到了银行、保险、 零售等竞争比较激烈的行业。国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立。社保不 是一个以营利为目的行业,但是社保相关政策的制定需要有科学的依据,而不能只靠 经验或者猜测。因此在社保行业中仍然需要建立数据仓库系统,数据仓库系统的构建 在社保开发领域有着广阔的扩展空间。 数据仓库系统的构建是一个漫长的过程,不是一朝一夕就能够建好,同时,数据 仓库系统的构建需要付出较高的代价,这是我们在现阶段还不能达到的,所以本课题 最终的目标定位是初步建立社保业务分析型数据仓库结构以及业务分析模型。 本课题在跟踪国外先进技术的基础上,对数据仓库系统的开发方法进行了深入的 研究。构建数据仓库系统主要包括三个部分:数据仓库的构建、e t l 的设计和前端展 现的实现。针对这三个主要方面,深入探讨了各个部分的设计开发及其实现。结合社 保业务分析支持系统的开发过程作为具体的实施方案,设计和开发了一个基于数据仓 库技术的数据仓库系统。 本文详细介绍了建立社保行业的数据仓库系统的全过程,包括系统分析,系统设 计,再到系统实现,最后对整个系统进行测试。对分析阶段的介绍,主要包括体系结 构、方案的设计、各种工具的选择等方面。设计阶段的介绍,主要包括对如何进行数 据抽取的设计、数据仓库逻辑结构的设计、粒度的划分、o l a p 模型的设计以及系统安 全的设计。实现阶段主要包括程序的组织、u n i v e r s e 对象的设计以及报表的制作效果 等等。 关键字:数据仓库、联机分析、数据挖掘、星型模型、数据抽取 a b s t r a c t w i t ht h es t o r yo f s e l ld i a p e rw h e n s e l l i n gb e e r ,d a t aw a r e h o u s i n gw a sa c k n o w l e d g e d b y c h i n e s e p e o p l e t h es t o r yo f s e l ld i a p e rw h e ns e l l i n gb e e r i sac l a s s i cs t o r ya b o u td a t a m i n i n g ,i t t e l l su st h a tw ec a nu t i l i z et h o s er u l e l e s sd a t aw h i c hw eh a dt o f i n dr e g u l a r b e t w e e nt h i n g sa n d p e o p l e t h i ss t o r y o n c eb r o u g t ht r e m e n d o u ss u r p r i s ea n dc o n v u l s e w h e nt h ec o n c e p to fd a t aw a r e h o u s i n g a p p e a r e d ,i tw a sa p p l i e dt ot h o s ei n d u s t yw h o s e d a t ad e a l i n gi sd e n s ea n dw h i c hi st r a d i t i n a li n d u r s ys u c ha sf i n a n c e ,t e l e c o m e ,i n s u r a n c ea n d s oo n ,m o s t l a r g e s c a l e d a t a w a r e h o u s i n gs y s t e m o fo v e r s e a sc o u n t r i e sw h e r eb u i l e d b e t w e e n1 9 9 6 y e a r a n d1 9 9 7 y e a r i n o r d e rt od r a wc o r r e l a t i v e p o l i c i e s o fs o c i a l i n s u r a n c e ,w en e e ds c i e n t i f i cr e f e r e n c e ,n o tj u s td e p e n d i n go no u re x p e r i e n c eo rs u r m i s e s o w en e e dt ob u i l dd a t aw a r e h o u s e i n gs y s t e mi ni n d u r s r yo fs o c i a li n s u r a n c e b u i l d i n gd a t a w a r e h o u s e i n gs y s t e mi ni n d u r s r yo f s o c i a li n s u r a n c eh a se x p a n s i v ee x t e n d e dr o o m t h ep r o c e s so fb u i l d i n dd a t aw a r e h o u s e i n gs y s t e mi se n d l e s s ,t h et i m ei tn e e d si sn o t o n ed a yo rt w od a y , a tt h es a m et i m e ,t h ee x p e n s eo f b u i l d i n gd a t aw a r e h o u s e i n gs y s t e mi s h e a v y , w ec a l ln o tc o s ts oh e a v yt a xa tp r e s e n t s o o u rf i n a lg l o a lo ft h i st a s ki st ob u i l d p r e l i m i n a r i l ym o d e lo fs o c i a l i n s u r a n c eo p e r a n c e a n a l y s i ss u p p o r t i n gs y s t e ma n dd a t a w a r e h o u s i n g b u i l d i n g d a t a w a r e h o u s i n gs y s t e m i n c l u d e st h r e e p a r t s :b u i l d i n g d a t a w a r e h o u s e ,d e s i g n i n ge t l a n df r o n te n de x h i b i t i n g m yp a p e ri n t r o d u c e st h ew h o l e p r o c e s s o f b u i l d i n gt h ed a t aw a r e h o u s i n gs y s t e mo fi n d u s t r yo f s o c i a li n s u r a n c ei nd e t a i l i n c l u d i n g a n a l y z i n gs y s t e m ,a n dd e s i g n i n gs y s t e ma n d s oo n k e y w o r d s :d a t aw a r e h o u s i n g ,0 l 皑d a t a m i n i n g , s t a rm o d e l ,e t l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 签名:至塑日期:a 。f 年f 月步日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:至芝| 亘导师 日期: 电子利技大学硕士学位论文:数据仓库开发探索以及在社保领域的应_ i = 【j 1 1 课题背景 第一章引言 当今世界,所有行业都面临激烈的竞争环境,及时做出正确决策是企业生存与发 展的重要环节。随着竞争越来越激烈,利润的降低使得很多企业必须从粗放经营转变 到集约经营。经营决策需要尽可能多的定量分析,而不是似是而非的定性分析;经营 决策还需要尽可能快的速度,所有这些都需要技术上的支持。 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处 理、决策分析等各种数据处理工作。数据处理主要的划分为两大类:操作型处理和分 析型处理( 或信息型处理) 。操作型处理也叫事务处理,是指对数据库联机的日常操 作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响 应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访 问大量的历史数据。而传统数据库系统优于企业的日常事务处理工作,而难于实现对 数据分析处理要求,无法满足数据处理多样化的要求。 e r p 、c r m 、o a 等信息系统的广泛应用以及互联网的蓬勃发展,使得企业数据 量激增,人们希望获得更高层次的数据分析处理能力。现在,大多数企业并不缺少数 据,而是苦恼于海量数据以及数据的不一致性;随着数据量的增加,数据变得越来越 难以访问、管理。如何把已有的海量数据转换成更有价值的商用信息,以便用于决策 支持呢? 数据仓库被广泛认为是最好的解决方案之一。 数据仓库是一种能够帮助企业迅速地完成信息采集、分析的先进技术,是在数据 库基础上发展而来的。它通常有三个部分:数据仓库( d a t aw a r e h o u s i n g ) 、联机分 析处理( 0 l a p ) 及数据挖掘( d a t am i n i n g ) ,它们之问具有极强的互补关系,数据仓库 是企业进行数据分析的基础,它的主要工作是将数据库中的原始数据进行归纳整理, 聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类分析工具,一类 是做分析型工作的0 l a p ,另一类是做预测型工作的数据挖掘。数据挖掘概念的提出, 是希望发现像“啤酒和尿布”这样具有关联性的规律。 建立数据仓库的目的,是把企业的内部数据和外部数据进行有效集成,为企业众 多的决策、分析人员所用。内部数据,是指通过企业业务系统收集到的数据,这些数 据可能分布在不同的数据库和网络中,正在为不同的部门服务。比如对一个制造业用 户来说,可能有财务数据、市场数据、销售数据、人事数据以及设备检修数据分布在 不同的部门。如果这些数据是相对独立的,则不利于企业进行全面分析。外部数据, 是指企业通过网络收集来的相关信息。数据仓库,就是要对这些数据进行结构重组, 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应刚 并且充分考虑今后的扩展性与外部数据的接口,使得企业数据资源实现更大的价值。 现在企业纷纷转向数据仓库解决方案,以利用企业自身应用软件如e r p 、c r m 等等 数据库中的海量信息。实际上,据i d c 的调查:北美的企业中,3 9 9 的公司已经应用 了数据仓库解决方案,i 0 9 的公司也计划在1 年内实施数据仓库解决方案;在所调查 的大型企业中,这一比例更高,将近2 3 的企业已经在使用或者计划实施数据仓库解 决方案。 但是,由于目前中国在基础数据的积累方面存在不足,导致数据仓库技术的应用 没能推广开来。目前数据仓库技术的发展还未成熟,仍处于积累阶段。 1 2 课题任务 本课题来源于银海股份有限公司,建立数据仓库系统是是为了帮助我们对各地社 保业务系统的在线数据进行收集、归纳、量化,并提供多种数据分析工具,辅助社保 行业领导人进行科学的分析,为社保相关政策的制定提供科学依据。社会保险业务系 统的信息化建设工作已开展多年,积累的业务数据是相当丰富的,所以社保行业已经 完全有必要也有能力建立数据仓库系统。但是在目前国内数据仓库技术的发展还未成 熟,仍处于积累阶段,而且数据仓库系统的建立是一个逐步发展的漫长的过程,所以 开发出适合社保行业使用的业务分析模型是本课题的主要方向。 本课题的主要目标是:初步建立社保业务分析型数据仓库结构以及业务分析模 型,满足用户对宏观数据分析的需要,为用户制定和调整各项政策提供支持。 1 3 内容组织 本文从数据仓库系统的基本概念入手,对构建数据仓库系统的基本技术做了简单 的介绍,并在此基础上主要分析社保行业基于数据仓库的应用系统一社保业务分析支 持系统的分析、设计、实现和测试过程。全文共由六章组成,每章的主要内容如下: 第一章引言 对课题研究背景、课题研究任务以及论文的内容组织作了一个整体性介绍。 第二章相关技术基础 介绍数据仓库技术基础、联机分析,数据挖掘等基础概念,重点介绍了数据仓库 系统的构建技术。 第三章社保业务分析支持系统的分析 对社保业务分析支持系统的建设背景、设计的目标、设计的原则、系统体系结构、 方案的设计、各种工具,包括后台数据库的选择、e t l 工具、前端展现工具、数据建 模工具的选择依据进行了详细地介绍,最后再对系统的主要功能需求进行了描述,简 2 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 单介绍系统划分的八个主题。 第四章社保业务分析支持系统的设计 主要介绍了社保业务分析支持系统的设计过程,包括数据抽取的设计,即以对数 据抽取的原则进行定义,o l a p 模型的设计,即单位参保情况分析主题和单位变更情况 分析主题为例,采用星型模型的方法对维表和事实表进行设计,同时还介绍了数据仓 库逻辑结构的设计以及系统安全的设计。 第五章社保业务分析支持系统的实现 主要介绍了本系统是如何实现的,包括程序的组织、u n i v e r s e 对象以及报表的制 作效果等等。 第六章社保业务分析支持系统的测试 主要介绍了对系统进行测试的环境,以及需要进行测试的内容等。 第七章全文总结 主要介绍三个方面的内容,一个是系统开发过程中所取得的成果;一个是系统需 要改进的地方;还有一个就是对数据仓库系统未来发展的展望以及在社保领域的应 用。 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 第二章相关技术基础 2 。1 从数据库到数据仓库 2 1 1 数据仓库 数据仓库( d a t a w a r e h o u s e ) 是将从多个数据源收集的信息,按照单一的模式进 行存储,并通常将这些信息驻留在单个站点。数据仓库通过数据清理、数据变换、数 据集成、数据装入和定期数据刷新来构造其内容。数据仓库收集了整个组织的主题信 息,因此,它是企业范围的数据存储。宽松地讲,数据仓库是一个数据库,组织可以 将它与组织机构的操作数据库分别进行维护。数据仓库系统允许将各种应用系统集成 在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。 按照w h i n m o n 这位数据仓库系统构造方面的权威设计师的说法,“数据仓库是 一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。 这个简短而又全面的定义指出了表明数据仓库主要特征的四个关键词:面向主题的、 集成的、时变的、非易失的,将数据仓库与其他数据存储系统( 如关系数据库系统、 事务处理系统和文件系统) 区别开来。 面向主题的( s u b j e c t o r i e n t e d ) :传统的操作型系统是围绕公司的应用进行组 织的。对一个保险公司来说,应用问题可能是汽车保险、健康保险、人寿保险与意外 伤亡保险。而公司的主要主题范围可能是顾客、保险单、保险费与索赔。数据仓库就 是围绕这些主题进行数据的组织。数据仓库关注决策者的数据建模与分析,而不是集 中于组织机构的日常操作和事务处理。因此,数据仓库排除对决策无用的数据,提供 特定主题的简明视图。 集成的( i n t e g r a t e d ) :在数据仓库的所有特性之中,这是最重要的。 应用问题的设计人员历经多年制定出来的不同的设计决策有很多很多种不同的 表示方法,没有什么应用在编码、命名习惯、实际属性、属性度量等方面是一致的, 各个应用问题设计员自由地做出他或她自己的设计决策。当数据进入数据仓库时,要 采用某种方法来消除应用问题中的许多不一致性。例如,考虑关于“性别”的编码, 在数据仓库中是编码为m f 还是i o 并不重要,重要的是,无论什么原始应用问题, 无论数据仓库如何进行编码,在数据仓库中应该一致地进行编码。如果应用数据编码 g x y ,当其进入数据仓库时就要进行转换。对所有的应用设计问题都要考虑同样 的一致性处理,比如命名习惯、键码结构、属性度量以及数据特点等。 时变的( t i m e v a r i a n t ) :数据存储从历史的角度( 例如过去5 1 0 年) 提供信息。 数据仓库中的关键结构,隐式或显式地包含时间元素。数据仓库中的数据随时问变化 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 的特性表现在以下几个方面: 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系 统的时间期限一般是60 “90 天,而数据仓库中数据的时间期限通常是5 、lo 年。 操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同 样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某时刻生成的复杂的 快照。 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数 据仓库的键码结构总是包含某时间元素。 非易失的( n o n v o l a t i l e ) :数据仓库总是物理地分离存放数据;这些数据源于操 作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机 制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。 概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物 理实现,并存放企业战略决策所需信息。数据仓库也常常被看作种体系结构,通过 将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和 决策。 2 1 2 数据仓库系统 数据仓库和数据仓库系统的关系如下图2 1 所示。数据仓库系统是一个信息提供 平台,它从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为 用户提供各种手段从数据中获取信息和知识。 从功能结构划分,数据仓库系统至少应该包含数据获取、数据存储和管理、数据 访问三个关键部分。数据仓库系统的建设绝非一蹴而就,一个成功的数据仓库系统如 同一个与企业共同成长、发展和变化的有机体,它的发展和变化只有在企业本身停止 发展和变化的时候才会停止。所以成功的数据仓库系统除了需要选择正确的技术、设 计合理的结构之外还要配置适当的人力和物力资源以及制定切合实际的规划。 电子利技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 图2 1数据仓库和数据仓厍系统 作为决策支持系统( d e c i s i o n m a k i n gs u p p o r ts y s t e m ,简称d s s ) ,数据仓库系 统包括: 数据仓库技术; 联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) ; 数据挖掘技术( d a t am i n i n g ,简称d m ) ; 数据仓库系统的功能层次模型如下图2 2 所示。 图2 2数据仓库系统的功能层次模型 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 2 1 3 操作数据库与数据仓库的比较 操作数据库系统的主要任务是联机事务处理0 l t p ,数据仓库在数据分析和决策方 面为用户提供服务,这种系统称为联机分析处理0 l a p 。 操作( 业务) 系统特性 i ) 事务处理性能是第一位的 2 ) 支持f 1 常的业务 3 )事务驱动 4 )数据是当前的并在不断变化 5 )存储详细数据( 每一个事件或事务) 6 ) 面向应用 7 )针对快速预定义的事务优化设计 8 )可预见的使用模式 9 )支持办事人员或行政人员 数据仓库( 分析) 系统特性 1 )支持长远的业务战略决策 2 )分析驱动 3 )数据是历史的 4 )数据是静态的,除数据刷新外 5 )数据反映某个时间点或一段时间 6 ) 数据是汇总的 7 )面向主题 8 )优化是针对查询两不是更新 9 1支持管理人员和执行主管人员 2 2 数据仓库中的数据组织 一个典型的数据仓库的数据组织结构如图2 3 n 示。图2 3 表明,在数据仓库中数 据存在着不同的细节级:早期细节级( 通常是备用的、批量的存储) 、当前细节级、轻 度综合数据级( 数据集市) 以及高度综合数据级。数据是由操作型环境导入数据仓库 的。相当数量的数据转换通常发生在由操作型级别向数据仓库级别传输过程中。一旦 数据过期,就由当前细节级进入早期细节级。综合后的数据由当前细节级进入轻度综 合数据级,然后由轻度综合数据级进入高度综合数据级。由此可见,数据仓库中存在 着不同的综合级别,一般称之为“粒度”。粒度越大,表示细节程度越低,综合程度 越高。 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 2 2 1 元数据 图2 3 数据仓库的数据组织结构 数据仓库中还有一种重要的数据一元数据( m e t a d a t a ) 。元数据是“关于数据的 数据”,如在传统数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有 两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所 有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和 终端用户的多维商业模型前端工具之间建立映射,此种元数据称之为d s s 元数据,常 用来开发更先进的决策支持工具。元数据在数据仓库的上层,典型的,元数据记录: 数据仓库的元数据 数据加入数据仓库时的转换 抽取数据的历史记录 数据模型 数据模型和数据仓库的关系 d s s 分析员所使用的数据结构 2 2 2 粒度 粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保 存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越 低,粒度级就越大。数据的粒度一直是设计的主要问题。在早期建立的操作型系统中, 粒度是用于访问授权的。当详细的数据被更新时,几乎总是把它存放在最低粒度级上。 但在数据仓库环境中,对粒度不作假设。在数据仓库环境中粒度之所以是主要的设计 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所 能回答的查询类型。在数据仓库中的数据量大小与查询的详细程度2 _ n 要作出权衡。 2 3 数据仓库系统的主要技术 2 3 1 数据的抽取 数据的抽取是数据进入仓库的入口。在数据仓库解决方案中,数据抽取是系统建 设的基础和核心,必须保证有高质量、完整的数据模型和数据,数据分析和挖掘的结 果才具有管理的价值,否则没有任何意义。由于数据仓库是一个独立的数据环境,它 需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中 导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控 等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数 据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败列数据仓库中 信息的有效性则至关重要。 e t l ( e x t r a c t 、t r a n s f o r m 、l o a d 的缩写) 所完成的工作主要包括三方面:首先, 在数据仓库和业务系统之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据 仓库;其次,用户的分析和应用也能反映出最新的业务动态,虽然e t l 在数据仓库 架构的三部分中技术含量并不算高,但其涉及到大量的业务逻辑和异构环境,因此在 一般的数据仓库项目中e t l 部分往往也是牵扯精力最多的;第三,如果从整体角度 来看,e t l 主要作用在于屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和 应用提供了统一的数据接口,这也是构建数据仓库最重要的意义所在。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些是躲 不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具。 这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。 但数据抽取工具支持的数据种类是有限的:同时数据抽取过程涉及数据的转换,它是 一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户编程的抽取工具往往不 能满足要求。因此,实际的数据仓库实施过程中往往不定使用抽取工具。整个抽取 过程能否因工具的使用而纳入有效的管理、调度和维护则更为重要。 2 。3 2 数据的存储 数据仓库系统与普通的查询和报表系统之间最明显的区别在于与业务处理系统相 独立的数据存储。数据仓库一般基于关系型数据库,采用星型模型,雪花模型或非规 范化模型进行数据结构设计。 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 夺星型模型 用来管理数据仓库中载入某个实体的大量数据的设计结构被称为“星型模型”。 图2 ,4 给出星型连接的一个简单例子。“订单”位于星型模型的中央。它是被大量载 入数据的实体。在其周围分别是“产品”、“客户”、“供应商”和“发货”实体。 这些实体仅仅会产生不大的数据量。星型模型中央的“订单”被称作是“事实表”, 而其周围的其他实体一“产品”、“客户”、“供应商”和“发货”则被称为“维表”。 事实表包含了“订单”独有的标识数据,也包含了订单本身的独有数据。事实表还包 含了指向其周围的表一维表的外键。如果非外键的信息经常被事实表使用,那么星型 模型内的非外键信息将会伴随外键的关系共同存在。例如,如果“产品”的描述将被 “订单”处理过程经常用到的话,那么这个描述将会与产品号一起存储在事实表中。 订单 o r d e r 埘 嚣v e 謇n d o r 麓t d 卜 o r d e rd a t a 勰 o 咖r d e r 血虹 醐州盼出 ak 制咀 曲衄 、憾n d 甜d a 雄| 、 - 枷_ 嘲钟瑚 嗍d 出 ,酬艟, 制砒兰i d o u s t n o 峨竹如b 枷锄睁酣 一t p r o d u c t 歉 制砒i n m 脚d _ 埔 椭 l舅州- i 峨畦 酬d 嘲f m 嘲,d a t a 图2 4 星型模型不例 创建和使用星型模型的好处是可以为决策支持系统的处理优化数据。通过数据预 连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据,这正是数 据仓库所需要的。应该注意,如果不是在决策支持系统数据仓库环境中使用星型模型, 则会有很多的缺点。在决策支持系统数据仓库环境以外,常有数据更新,而且数据关 系的管理要在秒的一级上进行。在这种情况下星型模型在创建和维护上就是很麻烦的 数据结构。但是由于数据仓库是一个装载一访问环境,它包括很多历史数据,且有大 量的数据要管理,因此,星型模型的数据结构是十分理想的。 夺雪花模型 雪花模型是星型模型的变种,不同的是将某些维表规范化。 2 3 3 数据的表现 数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中在多维分 析、数理统计和数据挖掘方面。 多维分析是数据仓库的重要表现形式,由于m o l a p 系统是专用的,因此,关于多 o 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 维分析领域的工具和产品大多是r o l a p 工具。数理统计原本与数据仓库没有直接的联 系,但在实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设, 以进行决策。 与数理统计相似,数据挖掘与数据仓库也没有直接的联系。而且这个概念在现实 中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动 地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人,但在实现上却有很大 的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找 出数据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人 来判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能够 获得可观的效益。 夺联机分析 联机分析处理( o l a p ) 是一种高度交互式的过程,信息分析专家可以即时进行反 复分析,迅速获得所需结果。联机分析处理是对存储在多维数据库( m d d ) 或关系型 数据库( r d b m s ) 中的数据进行分析、处理的过程。这种分析可以是多维在线分析处 理、关系型联机分析处理,也可以是混台联机分析处理。 根据o l a p 委员会的定义,联机分析处理( o n l i n e a n a l y t i c a lp r o c e s s i n g ,简称o l a p ) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能 够真正为用户所理解的、并真实反映企业维度特性的信息进行快速、一致、交互地存 取,从而获得对数据的更深入了解的一类软件技术。它的技术核心是“维”这个概念, 因此0 l a p 也可以说是多维数据分析工具的集合。有些历史的企业将会积累下大量的 来自外部或内部的数据,在进行o l a p 分析时,要先将这些数据批量装入数据仓库。 此外,业务系统也会不断产生新的数据,并需要增量装入数据仓库。 数据仓库建立之后,即可以利用o l a p 复杂的查询能力、数据对比、数据抽取和 报表来进行探测式数据分析了。之所以称其为探测式数据分析,是因为用户在选择相 关数据后,通过切片、切块、上钻、下钻、旋转等操作,可以在不同的粒度上对数据 进行分析尝试,得到不同形式的知识和结果。 在多维数据结构中,按二维选择数据,称为切片( s l i c e ) ,按三维选择数据称为 切块( d i c e ) 。如在“城市、产品、时问”三维立方体中进行切块和切片,可得到各 城市、各产品的销售情况。在数据结构树中,用户选择展开同一级数据的详细信息, 称为下钻( d r i l l d o w n ) ,选择更高一级的数据详细信息以及数据视图,称为上钻 ( d r i l l u p ) 。钻取的深度与维所划分的层次相对应。旋转( r o t a t e ) 贝1 可以通过旋转得到 不同视图的数据。 夺数据挖掘 数据挖掘是按照一定的规则对数据库和数据仓库中已有的数据进行信息开采、挖 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 掘和分析,从中识另和抽取隐含的模式和有趣知识,并利用它们为决策者提供决策依 据。由于数据挖掘的价值在于扫描数据仓库或建立非常复杂的查询,数据和文本挖掘 工具必须提供很高的吞吐量,并拥有并行处理功能,而且可以支持多种采集技术。数 据挖掘工具应该拥有良好的扩展功能,并且能够支持将来可能遇到的各种数据( 或文 档) 和计算环境。 数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预 测型( p r e d i c t i v e ) 模式和描述型( d e s c r i p t i v e ) 模式。预测型模式是可以根据数据项 的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结 果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据 分组。描述型模式不能直接用于预测。在实际应用中,根据模式的实际作用,细分为 分类模式、回归模式、时间序列模式、聚类模式、关联模式和序列模式6 种。其中包 含的具体算法有货篮分析( m a r k e t a n a l y s i s ) 、聚类检测( c l u s t e r i n gd e t e c t i o n ) 、神经 网络( n e u r a ln e t w o r k s ) 、决策树方法( d e c i s i o nt r e e s ) 、遗传算法( g e n e t i c a n a l y s i s ) 、 连接分析( l i n k a n a l y s i s ) 、基于范例的推理( c a s e b a s e d r e a s o n i n g ) 和粗集( r o t l 【g h s e t ) 以及各种统计模型。 数据挖掘与o l a p 的区别和联系是:o l a p 侧重于与用户的交互、快速的响应速 度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信 息,尽管允许用户指导这一过程。o l a p 的分析结果可以给数据挖掘提供分析信息作 为挖掘的依据,数据挖掘可以拓展o l a p 分析的深度,可以发现o l a p 所不能发现的 更为复杂、细致的信息。 2 4 数据仓库系统的目标 借助数据仓库,企业能够从海量信息中探究寻数据与数据之间的关系。这种关系, 一般显示数据组之间相似或相反的行为或变化。企业决策者,则有可能从这些发掘出 来的关系彳寻到启示;而这种启示又很可能使得决策者赢得竞争优势。例如,在开展促 销活动的时候,电信运营商可以利用数据仓库找到需要特定服务的目标用户( 例如有 可能成为无线局域网用户的顾客) ,有针对性地对其进行宣传;这比传统方式采用的 地毯式广告轰炸要高明得多。要知道,在午餐的时候收到一个不请自来的广告电话, 宣传的却是跟自己毫无关系的服务,这会让很多人感到厌烦。 数据仓库的重要用途之一,就是生成报表。与传统的交互式数据库系统不同,数 据仓库的使用者一般不可能更改数据,这使得利用数据仓库产生报表的时候可以“随 心所欲”,不用担心破坏了数据的完整性。数据仓库还有个明显的优势是,它的表 都是为了快速响应而特别优化的。查询很多行的信息,往往也只是需要几分钟而已。 如果你的职务要求你经常处理海量信息,数据仓库也许是你最好的报表工具。通过查 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 询工具,你可以把数据仓库挖掘的信息导入到你的个人电脑中。数据本地化存储之后, 你可以将其改造成你喜欢的格式。或者,你可以把查询结果导入到其它软件之中,例 如e x c e l ,以进行进一步加工。 2 5 数据仓库系统的应用 针对不同层次的用户,数据仓库可以开发如下几种应用: 即席查询系统( a dh o cq u e r y ) 这是应用最普遍的种查询,可以让用户随时获取所希望的数据。它能够提供从 多个角度的灵活查询,适合于业务分析人员。 联机分析处理系统( o l a p ) 能够提供灵活丰富的多维分析与查询环境,可以从不同角度去分析企业的运作情 况,并对未来进行预测,主要适合企业中层领导以及业务分析人员。 领导信息系统( e x e c u t i v ei n f o r m a t i o ns y s t e m ) 这是为那些不太熟悉计算机技术的领导人员设计的,需要以简单的图形界面来提 供访问数据仓库能力。它能够提供易于定制的决策分析环境,主要适合企业高层决策 者使用。 业务流程重整( b u s i n e s sp r o c e s sr e e n g i n e e r i n g ) 这是指利用数据仓库技术,改善企业业务流程中的某些工作,也是数据仓库的重 要作用之一,著名的例子就是“尿布与啤酒”。 当然,一个完整的数据仓库系统,应该是综合了企业内部数据与外部数据,并可 以提供以上诸多应用功能的系统。 2 6 数据仓库系统的构建 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这 些特点决定了数据仓库的系统设计不能采用同开发传统的o l t p 数据库一样的设计方 法。 数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解 到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求, 更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较 合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完善整 个系统。但是,数据仓库的设计开发又不同予一般意义上的原型法,数据仓库的设计 是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它着眼于有 效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策 分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系 电子科技大学硕士学位论文:数据仓库开发探索咀及在社保领域的应用 统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此, 在数据仓库的开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切 协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。 数据仓库的设计大体上可以分为以下几个步骤:概念模型设计;技术准备工作; 逻辑模型设计;物理模型设计:数据仓库生成;数据仓库运行与维护。 夺概念模型设计 进行概念模型设计所要完成的工作是: 1 ) 界定系统边界 2 ) 确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模 型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合, 所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的 数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如 何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据 字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认 识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向 应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具 体技术条件的限制。 j 晃定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细 而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的 开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计 的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 三确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较明 确的描述,描述的内容包括: 主题域的公共码键: 4 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的匝崩 主题域之间的联系: 充分代表主题的属性组。 夺技术准备工作 这一阶段的工作包括:技术评估,技术环境准备。 这一阶段的成果是:技术评估报告、软硬件配置方案、系统( 软、硬件) 总体设计 方案。管理数据仓库的技术要求与管理操作型环境中的数据与处理的技术要求区别很 大,两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型 数据分离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术要求上 的差异是一个重要原因。 j 技术评估 进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步 里确定的性能指标包括: 管理大数据量数据的能力; 进行灵活数据存取的能力; 根据数据模型重组数据的能力; 透明的数据发送和接收能力: 周期性成批装载数据的能力; 可设定完成时间的作业管理能力。 三技术环境准备 一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该 怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相 关的问题: 预期在数据仓库上分析处理的数据量有多大? 如何减少或减轻竞争性存取程序的冲突? 数据仓库的数据量有多大? 进出数据仓库的数据通信量有多大? 等等。 根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束 时各项技术准备工作应已就绪,可以装载数据了。这些配备有: 直接存取设备( d a s d ) : 网络; 管理直接存取设备( d a s d ) 的操作系统; 进出数据仓库的界面( 主要是数据查询和分析工具) : 管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的d b m s 产品不能满足管理数据仓库需要的,还应考虑自己或软件集成商开发有关模块等等。 电子科技大学硕士学位论文:数据仓库开发探索以及在社保领域的应用 夺逻辑模型设计 在这步里进行的工作主要有: 分析主题域,确定当前要装载的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式定义; 记录系统定义 逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相 关内容记录在数据仓库的元数据中,包括: 适当的粒度划分; 合理的数据分割策略; 适当的表划分; 定义合适的数据来源等。 1 分析主题域 在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法 是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐 步完成的。所以,我们必须对概念模型设计步骤中确定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国川味火锅行业市场调查研究及投资战略咨询报告
- 江苏新能源汽车特色小镇行业市场深度调查评估及投资方向研究报告
- 中国教育用平板趋势预测分析及投资规划研究建议报告
- 地产培训计划课件
- 干果批发行业深度研究分析报告(2024-2030版)
- 2025-2030年中国塑料皮证项目投资可行性研究分析报告
- 夏令营服务合同
- 2025年中国桌面操作系统行业市场调研分析及投资战略咨询报告
- 仓储管理服务合同
- 银行培训课件实例
- 低压配电系统维护与管理方案
- 事业单位聘用临时工劳动合同模板2025年
- 设备安装与调试作业指导书
- 学前儿童科学教育活动指导-002-国开机考复习资料
- 数字与图像处理-终结性考核-国开(SC)-参考资料
- 再生障碍性贫血诊断与治疗中国指南(2024年版)解读
- 《旅游概论》考试复习题库(附答案)
- 内蒙古呼和浩特市(2024年-2025年小学五年级语文)人教版综合练习(下学期)试卷及答案
- 2024年基金应知应会考试试题
- 康复进修汇报
- 建设工程项目成本管理制度
评论
0/150
提交评论