(计算机应用技术专业论文)保险代理数据仓库系统的设计与实现(1).pdf_第1页
(计算机应用技术专业论文)保险代理数据仓库系统的设计与实现(1).pdf_第2页
(计算机应用技术专业论文)保险代理数据仓库系统的设计与实现(1).pdf_第3页
(计算机应用技术专业论文)保险代理数据仓库系统的设计与实现(1).pdf_第4页
(计算机应用技术专业论文)保险代理数据仓库系统的设计与实现(1).pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库技术是在数据模型、数据库和应用开发等技术不断进步的 基础上发展起来的,其目的主要是对巨量数据进行分析处理进而提供决 策支持。本质上,数据仓库是一个使用其自身数据库管理系统的数据库 应用,要真正实现数据仓库还有许多技术问题有待解决。数据仓库技术 不仅被许多研究人员看作是数据库系统一个正要研究的课题,而且被诸 多企业界人士看作是信息管理和决策支持的最佳技术。在信息与商业大 发展的环境下,数据仓库技术有着广阔的前景和巨大的潜力。 本文是保险代理数据仓库系统的设计和实现,文章首先简要介绍了 保险代理行业的特点和现状。接着介绍了数据仓库的定义、特点、体系 结构和与数据仓库相关的技术以及现在市场上的常用数据仓库解决方 案。通过对保险代理业务系统的分析和对保险代理行业的需求分析,确 定了保险代理数据仓库项目的需求。接下来是本文研究的重点:保险代 理数据仓库模型的设计,主要研究数据仓库概念模型和逻辑模型的设 计。在数据仓库的实现中主要研究了异种数据源中数据的抽取、转换和 载入的方法和策略。最后总结了在实施数据仓库建设中的经验和教训, 并提出了进一步的工作。 关键词保险代理数据仓库概念模型逻辑模型e t l 1 1 i 硕十学位论文 a b s t r a c t d a t aw a r e h o u s et e c l l n o l 0 2 yi sd e v e l o p e dw i t ht h et e c h n i q u e so fd a t a m o d e l ,d a t a b a s ea n da p d l i c a t i o nd e v e l o p m e n l t h em a i na i mi st op r o v i d e d e c i s i o ns u p p o nb ya 1 1 a l y z i n ga n dp r o c e s s i n gi i l l i o nd a 协i ns u b s t a n c e ,d a t a w a r e h o u s ei sad a 上a b a s ea p p l i c a t i o nw h i c hu s ei t s e i fd b m s 1 nd e e d i m 口l e m e n t i n gd a t aw a r e h o u s es t i l l e x i s tm a n yt e c h n i c “p r o b l e m s d a t a w a r e h o u s et e c m o l o g yi sn o to n l vr e g a r d e da sa ni m p o r t a j l tr e s e a r c hg u b i e c t o fd a _ t a b a s es v s t e mb ym a n vr e s e a r c h e r sb u ta l s oa st l l ep r i m et e c l l i q u eo f i n f o n n a t i o nm a n a g e m e n ta n dd e c i s i o ns u p p o r tb yag o o dm a l l ye n t e r p r i s e p e o p i e u n d e rm ec i r c u m s t a n c eo f 霉丁e a td e v e l o p m e n to f m f b r 工n a t i o na n d b u s i n e s s ,d a t aw a r e h o u s et e c h n o l o 窄h a se x p a n s i v ef b r e 殍0 u n d a n dg r e a t p o t e 埘a 1 t h i sp a :p e ri sb a s e do nm ed e s i 譬日a 1 1 dm er e s e a r c ho fd a t aw a r e h o u s e b a s e do nt h e 试蛐a n c ea g e n c yb u s m e s ss y s t e m ,f h s t l y ,i ti s s i r n p l y i n t r o d u c e dt h ec h a r a c t e ra n dm ec u r r e n ts i t u a t i o no ft 圭l ei n s u r a n c ea g e n c y s e c o n d l y w ei 咖d u c e st h ed e 蠡n i t i o n ,c h a r a c t e f s y s t e ms 拄u c t u r eo ft h e d a t aw a r e h o u s ea i 试也et e c h i l o l o g i e sr e l e v a n tt ot h ed 【a t aw a r e h o u s e a n d 也e c o m m o nd a t aw a m 抽u s es o l u i o ni nc u n e n tm a r k e t w eg e tt 1 1 ed e m a n do f 也ed a t aw a r e h o u s ep r o j e c tb a s e do nm ei n s u r a i l c ea 譬e n c y ,a c c o r d i n gt om e a n a l y s i so fm ei r 】s u r a n c ea g e n c yb u s i n e s ss y s t e ma n dt h ed e m a n do ft h e i n s u r a n c ea g e n c yc o m p a n i e s t h e ni ti sf b c u s e do nm ed e s i 母1o fm ed a _ t a w a r e h o u s em o d e l ,m a i n l yd i s c u s s e d 也ed e s i p 皿o f 也ec o n c e p tm o d e la n dm e l o g i c a lm o d e l d u r i n g t 1 1 ep e 订o do f b u i l d m g m ed a t aw a r e h o u s e ,w e m a i n l y r e s e a r c h e s 也em e t k ,do f 廿1 ee x a c t i o n t r a n s f b n t la n dl o a do ft h ed a t ai n d i f ! e b r e n tk m do fd a t ar e s o u r c e s a tl a s t ,i ts u m m a r i z e st 1 1 er e s e a r c hr e s u l t s a n d 口u t s 王o r w a r dt h e 矗i | e u r ew o 出 k e y w o r d s :m s u r a i l c ea g e n c y l o g i c a lm o d e l d a t aw a r e h o u s e c o n c e p t m o d e l e t l 硕士学位论文 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获 得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的 同志对本研究所作的贡献均己在在论文中作了明确的说明。 作者签名: 、盔淫日期:望壁年车月望日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的 全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校 可根据国家或湖南省有关部门规定送交学位论文。 作者签名: 导师签名一避日期:力衅里月坦日 1 1 硕士学垃论文第章绪论 1 1 研究背景和意义 第一章绪论 今天的人类社会随着计算机技术的飞速发展己经迈入了信息时代,但是海量的、 不一致的信息容易使人们无从下手,因此如何帮助人们组织信息、获取信息、利用 信息是信息时代的一个重要阔题。传统的数据库技术是以单一的数据资源,即数据 库为中心,进行从事务处理、批处理到决策分析等各种类型的数据处理工作。然而, 不同类型的数据处理有着其不同的处理特点,以单一的数据组织方式进行组织的数 据库并不能反映这种差异,满足不了数据处理多样化的要求。近年来,随着计算机 应用,特别是数据库应用的广泛普及,人们对数据处理的这种多层次特点有了更清 晰的认识。总结起来,当前的数据处理可以大致地划分为两大类:搡作型处理和分 析型处理( 或信息型处理) 。操作型处理也叫事务处理,是指对数据库联机的日常操 作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的。人 们关心的是响应时间,数据的安全性和完整性。分析型处理则用于管理人员的决策 分析。例如,决策支持系统( d s s ) 和多维分析等,经常要访问大量的历史数据。两 者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。这种分离,划清 了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为 中心的数据环境发展为一种新环境:体系化环境。数据仓库就是在这种对决策分析 需求的推动下产生的,同时它对数据库理论提出了新的挑战,所以对它的研究兼具 理论和应用价值。 利用数据仓库可以将企业在运营过程中产牛的操作数据转化成有用的商业智 能,在本质上满足用户的信息需求,如客户服务、客户维持、销售预测、预算、质 量管理和雇员管理等。此外,数据仓库系统还能在其他领域起到帮助作用,这些显 著的优势使之在很短的时间内就从理论发展成为了数据仓库体系。许多著名的数据 库厂商纷纷推出了自己的数据仓库产品,但只有为数不多的几个小公司在数据仓库 产品上倾注了大量的努力工作。所以虽然商业数据仓库产品和相关工具发展很快, 但其性能却相对而言有很大限制,与理想的数据仓库功能还有很大距离。究其原因 是这些数据仓库产品仍然使用了事务处理系统的方法,只是在已有的数据库产品基 硕士学位论文第晕绪论 础上提供一些工具软件,如数据导入、维的定义干u 查询分析,满足最基本的数据仓 库构建需求。这就迫切要求数据库研究人员尽快研究适合于数据仓库的数据模型、 查询分析语言,以及研究如何提高使用性能等。 数据仓库与事务处理系统在数据内容、数据量、性能要求和访问工具等方面都 存在着本质区别,所以原先针对事务处理系统的研究结果和方法需要修改或重新研 究,而且许多新的研究问题又涌现出来。这些问题的解决为数据仓库最大限度的发 挥其功能提供了可能。 我们在参加深圳市保网信息技术有限公司开发的保险代理符理信息系统的数据 仓库设计项目中,不仅深切地感受到了数据仓库功能的强大,也同时看到了目前数 据仓库使用存在的限制和不足,这也坚定了我们以数据仓库为研究课题的决心。 1 2 数据仓库简介 伴随着神奇的“啤酒搭着尿布卖”的故事( 1 ,数据仓库走进了中国人的视野。 “啤酒搭着尿布卖”是一个经典的关于数据挖掘的故事,它告诉人们可以利用手中 没有规律的数据,找出物与入之间的规律。这个蔽事曾经给中国企业带来了极大的 惊奇与艘撼。提及数据仓库,人们难免会想到仅有字之差的数据库,那么,数据 仓库和我们经常提到的数据库究竟有哪些区别? 1 2 1 回顾数据库的历史 在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业 务自动化的问题。如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事 务处理系统。在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而 获得强大的市场竞争力。在8 0 年代末,北京工鞠银行率先推出了全市个人储蓄通存 通兑业务,广大市民便将先前就近存于不同银行的存款一并取出而存入了i :商银行。 这便是通过联机事务处理系统而获得市场优势的案例。其次。当时单位容量的联机 存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间 联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据, 系统积累下的历史业务数据往往被转储到脱机的环境扎此外,在计算机应用的早 2 硕士学位论文第章绪论 期,还没有积累大量的历史数据可供统计与分析。从i m ,联机枣务处理成为整个8 0 年代直到9 0 年代初数据库应用的丰流。 然而,应用在不断地进步,当联机币务处理系统戍用到一定阶段的时候,企业 家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要 对其自身业务的运作以及整个市场相关行业的态势进 j :分析,从而做出有利的决燕。 同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获 得市场竞争的优势,就需要在决策卜下功犬+ 例如在q k 务密集地区增设自助网点、 推出有针对性( 如:某类职业圈、菜年龄段) 的储蓄服务计划。这些决策需要对大量 的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析, 我们把它动:之为联机分析处理。如果说传统联机枣务处王单强调的是更新数据库 向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。 因此,著名的数据仓库专家r a l p hk i m b a j l 写道:“我们花了2 0 多年的时间将数据 放入数据库,如今是该将它们拿出来的时候了”3 。” 事实上,将大量的业务数据应用于分析和统计原本是。个非常简单和自然的想 法。似在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:第一, 所有联机事务处理强调的是数据更新处理性能刘系统的可靠性,并不关心数据查询 的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难 以做到两全:第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问, 而且还有大量的历史数据处于脱机状态,形同虚设;第二= ,业务数据的模式是针对 事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业 务上的分析和统计。于是,有入感口义:2 0 年前查询不到数据是因为数据太少了,而 今天查询不到数据是因为数据太多了。纠对这一问题,人们专门为业务的统计分析 建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱 机的历史业务数据中得到:它是一个联机的系统,专门为分析统计和决策支持应用 服务,通过它可满足决策支持和联机分析应用所要求的“切。这个数据中心就叫做 数据仓库。如果需要给数据仓库。个定义的话,挪么可以把它看作一个作为决策支 持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题 就是从数据库中获取信息。 1 2 2 数据仓库与数据库的关系 当初人们选择关系数据库是为了方便地获得信息。而现今数据仓库所要提供的 硕十学位论文第章绪论 就正是当年关系数据痒受所倡导的。 现今的关系数据库过多地关注于事务处弹能力的提高,i m 数据仓库剐关系数据 庠的联机分析能力又提出了更高的要求,采用昔通关系型数据库作为数据仓库在功 能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库的区别 不仅仅是应用的方法和目的卜的,同时也涉及到产品午i j 配置”j 。 今天的数据库就好比当年的层次数据席和网状数据踔,它们面向事务处理:而 今天的数据仓库就好比是当年的关系数据库,它针列联机分析。数据仓库系统是在 数据库基础上发展而来的,它通常有二个部分:数据仓库( d a t aw a r e h o u s i n g ) 、联 机分析处理( 0 l a p ) 及数掇挖掘( d a t am i n i n g ) ,它们之问具有极强的互补关系,数据 仓库是企业进行数据分析的摹础,它的丰要工作是将数据库中的原始数据进行归纳 整删,聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类分析:i 具,一一类是做分析型工作的o l a p ,另一类是做预测型工作的数据挖掘。数据挖掘 概念的提出,是希望发现像“啤酒和尿布”这样具有关联性的规律。 1 2 3 在国内的应用 数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为2 0 世纪末到2 1 世纪初数据库市场的一个新的增长点。 但由于目前我国在基础数据的积累方面存在不足,导致数据仓库技术的应用没 能推广开来。目前数据仓库技术的发展还未成熟,仍处j 二积累阶段。 目前在数据仓库的应用推广过程中的最大问题,就是这种技术如何被多数人所 接受。要解决这个阃题,首先就是要使数据挖掘技术与现有商业技术二者之间更好 的结合。目前市场上已有多种适用解决所有商业模式的通用数据挖掘系统,但是只 有那些非常熟悉数据挖掘技术的人才能够理解和使用它们,普通用户应用这些技术 来解决自己的商业问题还有一定地难度。 前些年,国内已经有不少的用户在企业业务处理、企业财务管理,以及某些应 用上有了原始数据的积累”“,若把这些现成的东西插上决策分析的翅膀,必可使得 当今的企业如虎添翼。据了解,美国包括i b m 在内的一些企业,于几年以前就开始 关注数据仓库这一领域,虽然经历了无数次的失牧,但结果证明,它们的路走得是 对的。这一点,从近几年开始的“数据仓痒热”中也可看出来:厂商无论大小,产 品无论多少,都围绕数据仓库这一热门技术进行企业重构,计划f 一步的行销策略。 国内目前的情况应该是正在培育数据仓库市场,也就是说,今天的工作在为明天馓 硕士学位论文 第一章绪论 准备。 我们也急切地盼掣着:数据仓库应用能够深入到各行各业为企业带来真正的 利益为数据库领域带来一个美好的春天。 1 3 保险代理行业概述 1 3 1 保险代理概述 保险公司为了在激烈的市场竞争中广泛开展业务,常采用代理人、经纪人等中 介人形式,拓展市场。其中保险经纪人在欧洲国家及美国等地区极为发达,而在日 本、新加坡、我国及我国的台湾地区,保险代理人却极为活跃。保险代理人因其所 代理的业务广泛,所占份额甚巨,已成为保险市场不可忽视的力量。那么什么是保 险代理及保险代理人呢? 所谓保险代理就是指根据保险人的委托,向保险人收取代理 手续费,并在保险人授权范围内代为保险人办理保险业务的行为;保险代理人则 是从事这些代理活动的单位或个人。由此可见,从事保险代理活动的可以是经济组 织,也可以是个人。因此保险代理是民事委托代理的一种,具有委托代理的一般特 征,表现在被代理人与代理人必须具有双方达成的代理协议,代理权是委托人委托 授权而形成的,代理行为所设定的权力、义务应由被代理人享有和履行,由此产生 的责任也应由被代理人承担。 现在从事保险代理活动的主要是专业保险代理公司,保险代理公司只有经保险 人的授权,并在授权范围内进行代理业务。一旦超出授权范围,除非保险人事后追 认,否则,所产牛的行为后果或损失由代理人自行承担。因此,保险代理人必须在 一定的授权范围下从事保险代理活动,明确自身的业务范围,以防止无效代理的发 生。 一般情况下,保险代理公司在经过保险公司利保监会授权后,可以代理销售保 险单;代理收取保险费;进行保险和风险管理咨询服务;代理保险人进行损失的勘 察和理赔等业务。 硕十擘经论文 第串翡论 1 3 ,2 保险代理行业现状 我国的保险中介较其他发达国家起步较晚,在国内保险意识还尚未完全深入人 心。在最近几年内,随着国民经济的高速发展保险观念正在发牛着翻天覆地的变 化,住房、养老、人身保险、财产保险等各保险险种已经得到广泛的认可,保险市 场不断扩大,保险中介行业也随着兴起。保险中介行业与保险公司关系如图卜1 。 图卜1 保险中介与保险公司、保险监管部门关系图 我国的保险代理制度在保险铋业初期就已建立,随着保险业的逐步发展壮大与 规范,我国的专业和蓑业保险代理公司也积累了一定的经验,特别是个人保险代理 市场,近年来发展速度相当迅速,从目前趋势看,保险代理公司已成为我国保险业 充满活力和不可缺少的主力军。 对于保险代理模式的选择,从近期看,我国应主要采用隶属于保险公司的专用 代理人形式。这是因为我国现有的保险代理人员素质不高,保险代理制度还很不健 全。如佣金制度的规定等都与市场原则偏离、对保险代理人员的培训和管理也缺乏 经验。而采用专用代理人形式,方面保险公司可以依据行业特点,协助保险代理 人员建立糖应的规章制度,共对其进行指导毂管理另一方面保险公司可凭借技术 和人才优势,加强对代理人员的培训,提高其业务素质。 硕士学位论文第j 章绪论 从长远看,代理公司形式的独立代理人是我国保险代理人员的发展方向。其一, 独立代理人具有独立的法律地位,与保险人之间仅存在委托代理关系,它可以接受 几家保险公司的委托,从这个角度来说,更能考虑被保险人的利益,兼有保险经纪 人的特点,与国际通行的保险代理人员相吻合。随着我国保险市场的不断完善,采 用这种代理形式更有利保险业的良性发展。其二,代碑公司形式的独立保险代理人, 具有业务索质高,技术力量强,机构和制度健全等优点,易于保险丰管部门监管, 便于明确责任归屑,同时也利于代理公司加强内部书弹。 目前,我国保险市场还处于初期发展阶段,这是因为我国还是一个发展中国家, 有相当多的一部分人的保险意识淡薄并且保险业仍然属于新兴产业。但回顾自1 9 7 9 年以来,我国保险代理人发展所经历的三个阶段。可以看出代理公司在我国保险市 场的生命力。并且随着社会主义市场经济体制改革的逐步推进,我国的保险代理行 业必将得到发展与壮大。 硕+ 学位论文第一章数据仓阼概述 第二章数据仓库概述 2 1 从数据库到数据仓库 信息技术的不断推广和应用,将企业带入了一个信息爆炸的时代。每日、每时、 每刻都有潮水般的信息出现在管理者的面前,等待书;理者去处理、去使用。这些管 理信息的处理类型主要有事务型处理和信息型处理两大类”“。事务型处理,也就是 通常所说的业务操作处理。这种操作处理主要是对管理信息进行日常的操作,对信 息进行查询和修改,目的是满足组织特定的日常管理需要。这这类处理中,管理者 关心的是信息能否得到快速的处理,信息的安全性能否得到保证、信息的完整憔是 否会遭到破坏。信息型处理则是指对信息作进一步的分析,为管理人员的决策提供 支持。例如,为决策支持系统和管理信息系统等提供信息分析的支持。这种类型的 信息处理在现代企业中应用的越来越广泛,越来越引起管理人员的重视。特别是在 保险、金融行业表现得最为突出u “。“。管理信息的信息型处理,必须访问大量的 历史数据才能完成。而不象事务型处理那样,只对当前的信息感兴趣。因此,在信 息型处理中,产生了与操作型处理所采用的传统数据库有很大差异的数据环境要求。 传统数据库在联机事务处理( o l t p ) 中获得了较大的成功,但是对管理人员的 决策分析要求却无法满足。比如在保险代理业务系统中,我们可以了解最近3 个月 的保险单销售情况,但我们无法根据历史数据分析未来3 个月哪种保险险种销售最 好。为了满足管理人员的决策分析需要,在数据库基础上产生了能够满足决策分析 所需要的数据环境,即数据仓库( dw ,d a t aw a r e h o u s e ) 。 数据仓库的兴起实际上是数据管理的一聍回归,是螺旋式的上升”“。今天的数 据库就好比原来的层次数据库和网型数据库,它们面向事务处理:今天的数据仓库 就好比是原来的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必 再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联杌分析领域 的发展和探索。 从厂商的角度看,经过长期发展,联机事务处理系统的市场至9 0 年代中期出现 饱和迹象,其增长速度明显减慢。这导致各大数据库商的传统业务增长面临严峻 挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产 硕十学位论文第? 章数据仓球概述 品创造了巨大的市场,它成为2 0 世纪末到2 1 世纪初数据库市场的个新的增长点。 因此,数据仓库这个词儿打开始便伴随着轰轰烈烈的市场炒作。对于广大用户来 说,只有从自身应用需求出发,破除技术和概念的神秘性,奉行“拿来主义”,避虚 就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益p 1 j 。 总之,数据仓库并非是一个仅仅存储数据的简单信息库,否则它将与传统数据 库没有什么两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加 在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并 能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”l i “。如果 说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中 的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数 据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。 2 2 数据仓库的概念 数据库产品当初就是以“企业数据库”的概念来实现的,企业的所有数据都按 条目以统一的数据格式保存,并被所有程序和所有用户共享,因此,i b m 公司在8 0 年代首先提出“信息仓库”的概念,其含义是指一种从实际系统中提炼,并专门为 支持信息处理而设计的数据库。 随着时间的推移,“数据仓库”这一术语逐渐为世人所接受。简单地说,数据仓 库就是独立于系统之外的数据管理中心,提供集成化的、历史性的数据以利于企业 决策,即数据仓库管理和存储着企业在分析、决策过程中所需要的较长时间的历史 数据。 数据仓库是一门仍在不断完善的学科,其定义也不尽统一,主要有如下几种: 1 大家所公认的数据仓库之父w h i n m o n 博士在建立数据仓库( b u i l d i n gt h e d a t aw a r e h o u s e “。) 一书中提出了“数据仓库”的概念,随后又给出了更为精确 的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不 可修改的数据集合。 2 i n f o r m i x 公司的观点“”。: 数据仓库是把分布在企业网络中不同信息岛上的商业数据集成到一起,存储在 个单一的集成关系型数据库中。利用这种集成信息,可方便用户对信息的访问, 更可使决策人员对一段时间内的数据进行分析,研究事物发展趋势。 硕士学位论文 第一章数据仓席概进 3 s s c 公司的观点。: 数据仓库是种可扩展的结构化数据环境,用于分析不再变化的数据,这些数 据来自于企业的各种应用,经过逻辑上和物理上的转换后,能够保持很长时间,具 有简单的事务表现形式以及快速分析汇总功能。 4 s a s 软件研究所的观点“: 数据仓库是一种管理技术,旨在通过通常、合理、全面的信息管理,达到有效 的快速决策。 综上所述,我们可以认为数据仓库更多的是一种钙理技术。它将企业网络分布 的商业数据集成到一起,为决策者提供各种类型的数据分析,对企业领导者起到决 策支持的作用,为决策支持系统提供了一个新的途径。 2 3 数据仓库的特征 数据仓库是在数据库的基础之上发展而形成的,除了具有传统数据库的共享性、 完整性、数据独立性之外,还具有如下的特征: ( 1 ) 面向主题。主题是在较高的层次上将企业信息系统中的数据综合、归类 后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及 的分析对象,是针对某一决策问题而设置的。面向丰题的数据组织方式,就是在较 高层次上对所要分析的数据对象一个完整、统和一致的描述,能完整及统一她刻 画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。 ( 2 ) 集成性。是指数据仓库中的信息不是从各个业务处理系统中简单抽取出 来的,而是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个企业的 一致的全局信息。 ( 3 ) 稳定性。是指一旦某个数据进入数据仓库以后,一般情况下将被长期保 留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。 ( 4 ) 历史性。数据仓库包含历史数据,是指数据仓库内的信息并不只是关于 企业当时或某一黠点的信息,丽是系统记录了企业从过去某一时点( 如开始应用数据 仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未 来趋势做出定量分析和预测。 表2 1 插述了传统数据库与数据仓库的区别。 硕十学位论文 第璋数据仓库概逑 表2 1 传统数据库与数据仓库区别表 传统数据库数据仓库 数据内容与生产相关的细节数据与决策支持相关的综合信息 数据模型关系的、层次结构的或索引的关系的多维的 访问方式经常是随机的读写操作经常是只读操作 负载程度事务处理量大,但操作的数据查询量小,但每次查询操作的数 量比较小据量大 事务输出量一般很少可能非常大 操作需求事先可能知道事先不知道 更新频度非常频繁几乎不更新 数据新鲜度实时存取当前最新数据只保存过去数据 操作过程面向应用的事务驱动面向分析的分析驱动 从上面的概念来看,数据仓库似乎是一个静态的概念,因此,有人可能会把数 据仓库简单地理解为仅仅是一个大型的数据存储机制。这种理解是不对的。事实 上,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决 策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳,并及时提供给相 应的管理决策人员,是数据仓库的根本任务。因此,数据仓库是一个工程的概念, 是一个动态的概念”“”1 。 数据仓库是一种管理技术,它将分布在企业网络中不同站点的商业数据集成到 一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。数据仓 库为决策支持系统开辟了一种新途径。随着数据仓库的广泛应用,基于数据仓库的 决策支持系统应运而生。数据仓库的使用分二大类: ( 1 )提高数据分析的速度和灵活性; ( 2 )为访问和综合大量数据提供集成基础; ( 3 )促进或再创造商业过程。利用数据仓库建立的应用系统,在激烈的市场 竞争中,为企业领导者的决策支持起到了明显的作用。这种应用系统是一种新形式 的决策支持系统。 2 4 数据仓库的体系结构 硕士学位论文 第璋数据仓库概迷 数据仓库是随着数据模型、数据库和应用开发等技术的不断进步而兴起的一门 新技术,它主要是提供对数据进行分析处理的决策支持功能。数据仓库不同于数据 库。数据库是一种通用的平台,用来箭理企业的数据:而数据仓库是在数据库的概 念下进行的再构造过程。与关系数据库不同,数据仓库并没有严格的数学理论基础, 它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过 程分为:数据的抽取、存储和管理、数据的表现以及数据仓库设计的技术咨询四个 方面。 数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按 辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层( 又 可分为轻度综合层和高度综合层) 。随着时间的推移,由时间控制机制将当前基本 数据层转化为历史数据层。可见数据仓库中的逻辑结构数据由三层到四层数据组成, 他们均由元数据( m e t ad a t a ) 组织而成。数据仓库中数据的物理存储形式有多维数 据库组织形式( 空间超立方体形式) 和基于关系数据库组织形式( 由关系型事实表 和维表组成) 。 数据仓库应用是一个典型的c s 结构“。其客户端的工作包括客户交互、 格式化查询及结果和报表生成等。服务器端完成各种辅助决策的s q l 查询、复杂的 计算和各类综合功能等。典型的数据仓库体系结构如图2 一l 。 叵叵 i 一1 。,一 堕圈 区互 图2 1 数据仓库体系结构图 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部 信息和外部信息。内部信息包括存放于企业操作型数据库中( 通常存放在r d b m s 中) 的各种业务数据和办公自动化( o a ) 系统包含的各类文档数据。外部信息包括各类 法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等; 硕士学位论文第:蕈数据仓库概述 数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础上, 对数据进行抽取、清理,并有效集成。”,按照丰题进行重新组织,最终确定数据仓 库的物理存储结构,同时组织存储数据仓库元数据( 具体包括数据仓库的数据字典、 记录系统定义、数据转换规则、数据加载频率以及业务规则等信息) 。按照数据的覆 盖范围,数据仓库存储可以分为企业级数据仓库“”“。和部门级数据仓库( 通常称为 “数据集市”,d a t am a r t ) 。数据仓库的管理包括数据的安全、归档、备份、维护、 恢复等工作。这些功能与目前的d b m s 基本一致。 o l a p 服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户 多角度、多层次的分析,发现数据趋势。其具体实现可以分为:r o l a p 、m o l a p 和h o l a p 。 r o l a p 基本数据和聚合数据均存放在r d b 懈之中:旧l a p 基本数据和聚合数据均存放 于多维数据库中;而h o l a p 是r o l a p 与m o l a p 的综合,基本数据存放于r d b m s 之中, 聚合数据存放于多维数据库中。 前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、 数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主 要针对o l a p 服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对0 l a p 服务器。 2 5 数据仓库技术 数据仓库存放的数据来源于其他数据库。数据仓库的建立并不是要取代数据库, 它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析。数据 仓库是数据库技术的一种新的应用。到目前为止,数据仓库还是置身于数据库管理 系统之下。 数据仓库是适应决策支持系统的需要而产牛的,所以人们希望数据仓库软件产 品能支持d s s 的全部过程,因此数据仓库技术就是解决支持决策全过程的技术”, 这种技术应包括: 从o l t p 系统数据源中取出决策所需数据,对源数据进行清理和整合。 按计划和规则进行数据仓库的装载和更新。 按支持决策的需要,以多种形式进行数据和信息的组织。 最丰富的决策数据分析处理能力。 灵活多样的结果展现方式。 硕士学位论文 第单数据仓库概述 为满足数据仓库处现的需要,应该具有一些技术特征。这些技术特征包括健壮 的语言接口、支持复合键码和变长数据,以及如下的魑能力: 1 管理大量数据。 数据仓库第一个也是最重要的技术需求就是能够销:理大量的数据,有许多管理 大量数据的方法,比如:通过寻址,通过索0 f ,通过数据的外延,通过有效的溢出 管理,等等。 2 高效地装入数据仓库。 能够高效地装入数据也是数据仓库的一个重要技术。有多种装入数据的方法: 通过一个语言按口次一条记录或者一起使用一个程序一次全都装入。另外索引也 要在装入数据的同时商效地装入。 3 数据仓库的元数据管理。 由于各种各样的原因,数据仓库中元数据比在传统操作型的数据库中更重要。 元数据之所以重要是由于与数据仓库相关的开发牛命周期是完全不同的,数据仓库 是在一种启发式的、反复的开发生命周期上运作的。数据仓库的用户应该能够对准 确和实时的元数据进行访问,才能更加有效地支持决策分析。 4 方便的索引和监视数据。 数据仓库技术不仅需要方便地支持新索引的创建和装入,面且要能高效地访问 这些索引。有多种高效访问索引的方法: 1 ) 位映像的方法。 2 ) 多级索引。 3 ) 将部分或全部索引装入内存。 4 ) 当被索引的数据的次序允许压缩时对索引项进行压缩。 5 ) 刨建选择索引或范围索引。 数据仓库的优势在于其灵活性和满足对数据的不可预测的访问。这就要求能够 对数据进行快速和方便的访问。数据仓库中的数据必须能方便和有效地检索,所以 设计者可和用多种方法使数据尽可能地灵活,例如利用双重粒度级和数据分割,但 这些技术定要支持方便的索引。一些常用的索引技术有:二级索引、稀疏索引、 动态索引、临时索引等等。相同地,数据仓库中的数据也应能随意被监视。 5 以压缩方式存储数据。 数据仓库的成功之处就在于能够管理大量的数据。达到这一目的的中心是数据 的压缩。当数据能够被压缩时。它便能存储在很小的空间中。这尤其与数据仓库的 环境有关,因为数据在插入到数据仓库中后,是很少被更新的。数据仓库中数据的 硕士学位论文第j 章数据仓库概述 稳定性减少了空间管理问题,这些问题是在更新紧密压缩的数据时发生的。压缩的 另个好处是程序员可以完全脱离给定的输入输出操作。当对数据访问时会有相 应的解压缩的问题。虽然解压缩需要一定的开销, u 这个开销不是i o 资源的开销, 而是c p u 的开销。 通常,在数据仓库环境中i o 资源比c p u 资源少得多,因此数据的解压缩并不是一 个主要的问题。 6 刷新数据仓库。 数据仓库建成后,注意力就从数据仓库的构造转向每天的操作。人们发现操作 和维护数据仓库的费用很高。数据仓库中,数据量的增长速度比任何人预计的都要 快,数据仓库的最终用户一d s s 分析人员对数据仓库的大量的、不可预测的应用在 管理数据仓库的服务器端引起了竞争,而与数据仓库有关的最大最不可预知的开销 是数据从传统数据环境到数据仓库定期刷新。 7 o l ”技术。 0 l a p 是( 0 n l i n ea n a l y t i c a lp r o c e s s 联机分析处理) 的缩写。o l a p 委 员会定义0 l a p 是使分析人员能够从多种角度、对从原始数据转化来的、真正为用户 所理解的信息进行分析,并能快速获取信息的软件技术。需要说明的是o l a p 操作 模式和0 l t p 不同:o l t p 需要同时处理大量事务,每个事务都比较小;而o l a p 是 一种大规模的查询,先查询再进行比较。所以,o l a p 占用大量的系统资源,提供多 角度不同程度的查询信息。为了实现数据仓库,需要相应的底层数据结构的支持。 数据仓库中存储的数据是面向决策、经过提炼的数据集,其存储方式各有特点。其 中有两种典型的存储结构:基于多维数据库的存储结构和基于关系型数据库的存储 结构,因而对于0 l a p 也就形成了基于多维数据库的o l a p ( m0 l a p ) 和基于关系型 数据库的o l a p ( r o l a p ) 模型,但无论怎样,o l a p 技术核心都是“维”的概念。 8 数据变换。 数据仓库实现过程中,数据变换是不可缺少的。当数据从业务系统或其他数据 源取出后,应该经过变换或“清洁”,才能将它加载到数据仓库中。数据变换目的有 两个:改进数据仓库中数据的质量和提高数据的可用性。数据变换包括简单变换、 清洁、集成和聚集等。需要注意的是在大多数据仓库实现中,要求进行所有类型的 数据变换,因此不要忽略数据变换的完整性控制。 实现数据变换时首先要选择使用何种方法来转换数据。其一是使用专用的数据 转换工具,另一种是通过手工编制程序来完成。 9 数据挖掘技术。 硕十学位论文第章数据仓库溉述 数据挖掘( d a t a m i n ,n g ) 一种比较公认的定义是:数据挖掘是从大型数据库的数 据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取 的知识表示为概念( c o n c e p t s ) 、规则( r u 】e s ) 、规律 r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等。这种定义把数据挖掘的对象定义为数据库。而更广义的说法是:数据挖掘意味 着在些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅 是数据库,也可以是文件系统或其它任何组织在一起的数据集合,例如互联网信息 资源最新的对象是数据仓库。数据挖掘的特点有心1 删: 1 ) 处理的数据规模十分巨大。 2 ) 查询一般是决策制定者( 用户) 提出的即时随机查询,往往不能形成精确 的查询要求。 3 ) 由于数据变化迅速可能很快过时,因此需要对动态数据做出快速反应,以 提供决策支持。 4 ) 主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。 数据挖掘的功能主要有: 1 )预测验证功能:预测验证功能指用数据库的若干己知字段预测或验证 其他未知字段值。预测方法有统计分析方法、关联规则和决策树预测方法、回归树 预测方法等。 2 )描述功能:描述功能是找到描述数据的可理解模式。方法包括以下几种: 数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、 路径发现等。 常用的数据挖掘方法有: 决策树方法,神经网络方法,概念树方法,遗传算怯,公式发现,统计分析方 法,模糊论方法等。 2 6 数据仓库解决方案介绍 i 酬、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 、和s a s 等有实力的公 司相继推出了自己的数据仓库解决方案,b 0 和b r i o 等专业软件公司也在前端在线 分析处理工具市场上占有一席之地。下面针对这些数据仓库解决方案的性能和特点 做分析和比较。 i b m 公司提供了套基于可视数据仓库的商业智能( b i ) 解决方案,包括:v i s u a l 硕十学位论文第薄数据仓库概述 w a r e h o u s e ( v w ) 、e s s b a s e d b 20 l a ps e r v e r5 0 、i b md b 2u d b ,以及来自第三方 的前端数据展现工具( 如b 0 ) 和数据挖掘工具( 如s a s ) 。其中,v w 是一个功能很 强的集成环境,既可用于数据仓库建模和元数据能珲,又可用于数据抽取、转换、 装载和调度。e s s b a s e d b 20 l a ps e r v e r 支持“维”的定义利数据装载。e s s b a s e d b 2 o l a ps e r v e r 不是r o l a p ( r e l a t i o n a lo l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论