(计算机应用技术专业论文)人寿保险业务统计系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)人寿保险业务统计系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)人寿保险业务统计系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)人寿保险业务统计系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)人寿保险业务统计系统的设计与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)人寿保险业务统计系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学专业学位硕士学位论文 摘要 数据仓库技术为决策分析提供了更好的支持,跳出了传统联机事务处理的范畴,是 数据处理的发展方向,并在各个行业都得到了很多的应用。 随着垄断格局的打破,为改善服务质量、提高市场竞争力,保险企业迫切地需要提 高企业内部的科学决策能力,增强在市场经营等方面的正确判断能力,必须充分利用已 经积累的大量的业务数据,构建数据仓库平台,挖掘其中蕴涵的信息,快速提取( 检索、 查询) 信息、制定市场策略,以便对市场机会做出及时灵活的反应,使企业在信息时代 的市场竞争中立于不败之地。 本文首先系统地介绍了数据仓库技术及数据分析技术,对构建数据仓库的各个方面 进行了阐述,包括数据仓库的体系结构、数据源的分析、数据仓库的建模技术以及 o l a p 统计分析方法等。由此,提出了平安人寿保险公司大连分公司基于数据仓库的业 务数据分析系统,重点介绍了该系统的数据抽取和数据分析两部分的设计、实现,最后 进行了前端展现。 通过对保险业务系统的数据仓库的应用,进一步探索了数据仓库的应用和实施,总 结了经验,明确了进一步实施数据仓库项目的方法和重点。 关键词:数据仓库;数据抽取;数据分析 人寿保险业务分析系统的设计与实现 d e s i g na n di m p l e m e n t a t i o no fl i f ei n s u r a n c ea n a l y s i ss y s t e m a b s t r a c t d a t aw a r e h o u s et e c h n o l o g yp r o v i d e ss u p p o r tf o rd e c i s i o na n a l y s i s i th a sb e e nb e y o n d t h es c o p eo f t h et r a n s a c t i o np r o c e s s i n ga n dh a sb e e no n eo f t h em a i nt r e n d so f d a t ap r o c e s s i n g d a t aw a r e h o u s eh a sb e e nw i d e l ya p p l i e di nm a n ye n t e r p r i s e s w i t ht h eb r o k e no fm o n o p o l i z a t i o n , t h ei n s u r a n c ee n t e r p r i s e se a g e r l yn e e dt oi n c r e a s e t h es c i e n t i f i cd e c i s i o na b i l i t y ,s t r e n g t h e nt h em a r k e to p e r a t i n gj u d g m e n tt oa m e l i o r a t ea n d i n c r e a s et h e i rm a r k e tc o m p e t i t i o na n dq u i c kr e s p o n s ea b i l i v i fa l le n t e r p r i s ew a n t st ok e e p i n v i n c i b l ei nt h eb r u t a lc o m p e t i t i o n ,i ts h o u l dm a k ef u uu s eo fi t sa c c u m u l a t e db u s i n e s sd a t a t ob u i l dd a t aw a r e h o u s ep l a t f o r m t h u s ,t h ee n t e r p r i s ec a na c q u i r eal o to fu s e f u li n f o r m a t i o n b e l l i n dt h em a s sd a t a u s i n gt h ei n f o r m a t i o n , i tc a na d j u s ti t sm a r k e ts t r a t e g yt oa d a p tt h e c h a n g i n ge n v i r o n m e n t 1 1 1 i sa r t i c l e 缸s ti n t r o d u c e sd a t aw a r e h o u s et e c h n o l o g ya n dd a t aa n a l y s i st e c h n o l o g y s y s t e m a t i c a l l y ,a n de x p a t i a t so nt h es y s t e ma r c h i t e c t u r e ,a n a l y s i so f d a t as o u r c e ,m o d e l i n go f d a t aw a r e h o u s ea n d0 l a pi m p l e m e n t a t i o ns t e p s t h e n ,t h ep a p e rd e s i g n st h es y s t e m a r c h i t e c t u r eo fd a t aa n a l y s i ss y s t e mo fd a l i a np i n g a ni n s u r a n c ec o m p a n yb a s e do nd a t a w a r e h o u s e ,i m p l e m e n t st h ed a t ae x t r a c t i o nm o d u l ea n dd a t aa n a l y s i sm o d u l e f i n a l l y ,t h e p a p e rv i e w st h ef o r e g r o u n do f d a t aw a r e h o u s e t h r o u g ha p p l y i n gd a t aw a r e h o u s et oi n s u r a n c eo p e r a t i o ns y s t e m , t h ep a p e ri n v e s t i g a t e s t h ea p p l i c a t i o na n di m p l e m e n t a t i o no ft h ed a t aw a r e h o u s e ,s l i m su pt h ee x p e r i e n c ea n dp u t f o r w a r dt h em e t h o do f b u i l d i n gd a t aw a r e h o u s e k e yw o r d s :d a t aw a r e h o u s e ;d a t am i n i n g ;d a t aa n a l ) r s i s 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:蛰:i 垒圣日期:竺曼! :p 数据仓库在人寿保险业务分析中的设计与实现 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者躲蛰:造玺 导师签名: :蕊叠益 年月臼 大连理工大学专业学位硕士学位论文 1 绪论 中国加入w t o 后,随着外资公司不断涌入中国保险市场,国内保险市场的竞争愈发 激烈起来。这种竞争是全方位的,既包括资本的竞争、市场的竞争,也包含人才的竞争、 技术的竞争。如果国内保险公司仍然采用粗放经营、粗略的数据分析、粗略的市场判断, 将无法与资本雄厚、管理先进、数据集中的外资保险公司进行竞争。如何充分发挥信息 技术在竞争中的支撑作用,一直是国内保险公司十分关注的重要课题。 1 1 选题依据及意义 近年来,随着信息化的发展和技术的进步,企业内部日常的业务应用生成了大量的 数据,但这些数据并没有产生应有的信息,因此,我们常常可以看到企业“数据爆炸、 知识贫乏”的窘迫局面。企业已经不满足于仅仅用计算机去处理每天所发生的事务数据, 而是需要信息能够支持决策的信息,去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承 担这一责任。传统数据库往往是以单一的数据资源( 以数据库为中心) 进行事务处理、 批处理等各种数据处理工作。它通常是对一个或一组记录的查询和修改,主要是为企业 特定的应用服务。而数据分析往往是在规模的、批量的计算作业,经常访问大量的历史 数据。具体地说,传统的数据库技术无法满足当前企业决策分析的原因主要有以下几点: ( 1 ) 事务处理和分析处理的对数据库的性能要求不同 在事务处理的系统中,数据的存取操作频率高,对数据库操作处理的时间短;在分 析处理系统中,某个应用程序计算可能需要连续几个小时,从而消耗大量的系统资源。 如果使用传统的数据库,业务操作将会因资源耗尽而无法执行。 ( 2 ) 数据集成问题 全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到 的结果越可靠。事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关 的当前数据,而对整个企业范围内的集成应用考虑很少。当前绝大多数企业内数据的真 正状况是分散而非集成的。造成这种分散的原因有多种,主要有:事务应用的分散、“蜘 蛛网”问题、数据不一致问题、外部数据和非结构化数据。 事务应用的分散:当前企业内部各事务处理应用间实际上几乎是独立的,有设计、 经济、历史地理等方面的原因造成。 “蜘蛛网”问题:“抽取程序”最终导致系统内的数据间形成了错综复杂的网状结构。 数据不一致问题:同一字段在不同的应用中有不同的数据类型;同一字段,不同名 称;同名字段,不同含义。 数据仓库在人寿保险业务分析中的设计与实现 外部数据和非结构化数据: 决策中经常用到外部数据,如权威刊物的统计数据、 业界技术报告等。这些数据通常是非结构化的数据。 ( 3 ) 历史数据 事务处理一般重要的是处理当前数据,在数据库中一般也是存储短期数据。但对于 决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。 没有历史数据的详细分析,是难以把握企业的发展趋势的。这对数据在空间和时间的广 度上都有了更高的要求,而事务处理环境难以满足这些要求。 ( 4 ) 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,决策分析支持并不对这些细 节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系 统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以 限制。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数 据相分离,必须把分析型数据从事务处理环境中提取出来,按照决策分析支持处理的需 要进行重新组织,建立单独的分析处理环境。数据仓库是为了构建这种新的分析处理环 境而出现的一种数据存储和组织技术。数据仓库汇总这些信息的基础,进而支持数据发 掘、多维数据分析等当今尖端技术和传统的查询及报表功能。 数据仓库的建立并不是要替代操作性事务处理的数据库,相反,它依赖于操作性数 据库,并以此为基础,建立一个综合的和完善的信息分析应用系统,用于支持高层决策 的分析。数据仓库是数据库技术的一种新模式,一般也是用关系数据库系统来管理其中 的数据。 1 1 1 选题的依据 近年来,保险产业作为一项新兴的金融产业在我国得到迅猛的发展,国内个人寿险 公司、保险中介机构不断成立,外资寿险公司也不断以合资股份公司的形式进入到中国 市场,参与竞争。可以说,中国保险市场进入了“春秋战国”时代。保险主体由一家保险 公司发展到大大小小七十余家保险公司。保险市场规模不断扩大,保险越来越深入到广 大人民群众的日常生活中去,购买商业保险的客户数量不断增加。从而保险公司产生了 越来越多的预测与决策支持的需求。一个寿险公司没有对公司业务的精细化、历史的分 析,就谈不上精算,更谈不上决策。 平安人寿大连分公司成立于1 9 9 4 年,在大连开展业务寿险业务1 1 年,年保费收入 1 6 亿元左右,累计客户近9 0 万人。公司的不断发展对公司的业务管理能力提出极高要 求,它要求公司的管理决策层能够及时了解公司业务的整体进展情况,某一基层营业单 大连理工大学专业学位硕士学位论文 位的开展情况,某一具体销售系列的销售情况,同时还需要通过对历史数据的对比和分 析来对照当前工作开展存在的问题,而这些管理要求只有通过信息化手段、利用信息化 技术才能加以实现。因此,平安人寿大连分公司直以来需要一个完整、统一的统计分 析信息平台,为各层级的管理层提供详尽、准确、有效的统计数据,以帮助公司的管理 层准确把握公司业务开展情况、市场发展动向,有效地应对市场竞争、提高公司竞争能 力。 平安人寿保险公司于1 9 9 7 年开发出新版支持业务处理的事务处理系统l b s ( 业务 管理、财务系统、理赔系统、人员管理、保单服务,分析统计) 。这是现在中国保险市 场上仅有的极少数的能在原运行的事物处理系统建立业务数据分析系统之一,但数据分 析部分的运行状况不尽如人意。主要原因在于对数据的基础工作比较粗,数据质量比较 差。为了更好的解决这个问题,准备采用面向决策层和基层管理层共用一个数据仓库, 用数据仓库工具进行主题开发。 1 1 2 研究意义 传统的联机事务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供 的功能却早有需求。因此,许多事务处理系统近年来陷入一个两难的境地:在现有系统 上增加有限的联机分析功能,包括复杂的报表和数据汇总操作,一方面严重影响了事务 处理联机性能,另一方面统计分析又因系统结构上的种种限制而不能充分体现。 在新一代的应用系统中,数据仓库在一开始便被纳入系统设计的考虑,联机分析应 用于普遍的事务处理系统之中。在数据管理上,联机事务处理和数据仓库在应用中相对 独立,联机事务处理系统本来更加简洁高效,同时分析统计也更为便利。面向行业的的 应用发展,将立足于数据仓库提供的丰富信息,更好地为业务决策服务。 1 2 国内外研究现状 1 9 9 1 年,i n m o n 出版了其有关数据仓库的第一本书( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) , 这本书说明为什么要建数据仓库、数据仓库能给你带来什么,并且提供了如何建设数据 仓库的指导性意见。 一个数据仓库通常是一个分散的数据存储,它适合于业务智能化和决策支持系统。 数据可能是以不同形式存储的,它并不影响联机业务处理( o l t p ) 系统的运作。数据仓库 通常是与解决企业不断改变的组织问题的全过程有关,围绕主题建立。数据仓库的结构 是由数据仓库应满足的应用决定的【1 j 。 2 0 世纪9 0 年代末,传统数据库管理系统的发展陷入低潮,残酷的市场竞争迫使全 世界的数据库供应商寻找新的技术和经济增长点,其中一个热点就是以数据仓库技术为 数据仓库在人寿保险业务分析中的设计与实现 核心的商业智能( b i ) 。数据仓库( d a t aw a r e h o u s e ) 是在数据库基础上发展而来的,它对企 业经营管理决策具有强大的支持和推动作用,特别是对保险公司这种数据密集型的企业 【2 】。 在欧美发达国家,随着数据仓库技术的发展和应用,越来越多的企业都采用了数据 仓库解决方案充当企业决策机构的智囊和参谋。在保险,银行、零售业。航空、铁路运 输、邮政等传统数据密集型行业的全球性大企业都己采用数据仓库作为决策支持。数据 仓库与i n t c r n e t 一样,正在成为最快的增长点。在国内,许多企业都已注意到了数据仓 库技术能带来的好处【3 j ,比如: ( 1 ) 提高市场竞争力,提升客户服务; ( 2 ) 提高资产质量,防范经营风险; ( 3 ) 提高管理水平,降低成本、提高效率。 我国的数据仓库市场启动较晚,主要由于当时我国的应用基础尚不完善及企业意识 不足。但随着我国信息化建设的逐渐完善和应用意识的提高,许多行业如保险、金融、 税务等逐步认识到数据仓库技术对干企业宏观发展所带来的巨大经济效益,纷纷建立起 数据仓库系统。o r a c l e 、i b m 、s y b a s e 、c a 及i n f o r m i x 等厂商也为我国提供大型数据 仓库解决方案。 与国外相比,国内的数据仓库市场还不成熟,主要的原因有以下几个方面: ( 1 ) 建设数据仓库的前提是要有大量的数据,特别是历史数据 4 1 。近几年来我国数 据库建设有了长足的发展,但与国外的发展程度相比仍相差很多。目前国外数据库己是 海量,而国内除了银行、保险等少数行业以外,数据积累都不够充分,数据库的规模也 不大,并且有的数据库建完以后常常没有钱维护,就变成了“死库”。 ( 2 ) 数据仓库应用主要是一个建立的过程,实践性非常强,而从国内( 包括外企) 的情况来看,真正能够完整实施数据仓库方案的人才严重匾乏,因此制约了国内数据仓 库市场的发展。 ( 3 ) 目前数据仓库工具没有国产的,由于东西文化差异,数据表现不符合国内客 户要求,必须重新定制开发应用界面,结果延长了建设周期。同时数据仓库产品价格居 高不下的原因也影响了其在国内的推广。 ( 4 ) 由于数据仓库技术体系的不成熟,无论在中国还是在世界其它国家,数据仓 库的应用都受到了一定制约【5 】。首先,数据仓库技术还没有达到数据库技术的成熟度和 易用性,目前市场上的数据仓库产品都是基于一个通用技术平台设计的,虽然能解决不 同用户的分析需求,但没有将特殊领域的商业逻辑与数据仓库技术集成,因而分析效果 不可能达到峰值。其次,数据仓库的应用有两大类,一类是做分析型工作的o l a p ,另 4 大连理工大学专业学位硕士学位论文 一类是做预测型工作的数据挖掘【酗。目前基于数据挖掘的算法层出不穷,还没有经历一 个大浪淘沙的沉淀,而数据库中的检索技术经过人们多年的摸索,己经形成几种固定成 熟的技术模式,这是数据仓库产品没有达到数据库产品实用性的另一个原因。所以目前 数据仓库技术的发展仍处于积累阶段。 保险领域随着商业保险公司业务系统的日趋完善和数据交换和处理中心的建立,如 何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化 解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势, 甚至如何利用这些数据来设计保险企业的发展宏图,在激烈的竞争中赢得先机是保险决 策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。数据仓 库技术的日趋成熟加速了决策支持的实用化过程。 1 3 本文工作 数据仓库技术、数据预处理、联机分析处理等技术目前均较为成熟,但是在国内的 应用多集中在报表展现上。针对保险行业,带有保险特色的深层次的应用还较少。本文 将运用数据仓库、o l a p 等技术,重点解决如何使用该技术构建寿险数据仓库系统。在 构建过程中,最主要解决以下三个问题:数据预处理、保险统计分析系统的设计、用 c o g n o s 系列产品实现o l a p 分析。设计的寿险数据仓库系统实现了数据仓库在保险行 业的成功应用,具体表现在: ( 1 ) 提出了符合平安人寿大连分公司管理需要的指标体系; ( 2 ) 构造了符合平安人寿大连分公司特点的数据仓库模型; ( 3 ) 建立了符合平安人寿大连分公司实际的数据仓库系统。 本文主要包括以下几个方面内容:第一章介绍了数据仓库技术在国内外的应用现 状,以及进行数据仓库技术研究的意义。第二章数据仓库的概念、目标、基本组成,数 据分析技术及其与数据仓库的关系。第三章分析平安人寿业务需求。第四章数据仓库系 统的设计,讨论构建数据仓库的方法、设计、开发和部署。构建模型维度建模的研究以 及本文采用的c o g n o s 数据仓库产品介绍。第五章保险业务分析的实现。利用c o g n o s 数据仓库产品实现平安人寿保险基于数据仓库系统的业务统计分析系统。 数据仓库在人寿保险业务分析中的设计与实现 2 数据仓库技术与应用概述 数据仓库是以关系数据库、并行处理与分布式处理技术,以及联机分析处理等技术 的发展为基础,为解决当前企业和组织中虽然拥有大量数据,但信息贫乏( 难以利用) 的现状而提出的,是一种对不同系统数据实现集成和共享的综合性解决方案【刀。 2 1 数据仓库的定义 数据仓库的定义:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的、集成的、稳定的、 包含历史数据的数据集合,它用于支持经营管理中的决策制定过程【8 1 。 对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策, 面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异 构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据 仓库中的数据一般不再修改。 数据仓库与传统数据库有很大区别,表2 1 是数据仓库与传统型数据库的比较 8 1 。 表2 1 数据仓库与传统数据库比较 t a b 2 1c o m p a r a t i o nb e t w e e nd a t aw a r e h o u s ea n dd a t a b a s e 2 1 1 数据仓库的特点 数据仓库的特点应着重表现为: ( 1 ) 面向主题。是指数据仓库内的信息是按主题进行组织的,为按主题进行决策 的过程提供信息例。传统的操作型系统是围绕公司的应用进行组织的。对一个保险公司 6 大连理工大学专业学位硕士学位论文 来说,应用问题是健康类保险、人寿类保险、投资类保险、分红类保险、意外伤亡保险。 而保险公司的主要主题范围可能是顾客、保险单、保险费、理赔、人员管理。 ( 2 ) 集成性。在数据仓库的所有特性之中,这是最重要的【9 】。应用问题的设计人 员历经多年制定出来的不同的设计决策有很多种不同的表示方法,没有什么应用在编 码、命名习惯、实际属性、属性度量等方面是致的,各个应用问题设计人员自由地做 出他或她自己的设计决策。当数据进入数据仓库时,要采用某种方法来消除应用问题中 的许多不一致性。例如,考虑关于“性别”的编码,在数据仓库中是编码为m f 还是i 0 并不重要,重要的是,无论什么原始应用问题,无论数据仓库如何进行编码,在数据仓 库中应该一致地进行编码。如果应用数据编码为x y ,当其进入数据仓库时就要进行 转换。对所有的应用设计问题都要考虑同样的一致性处理,比如命名习惯、键码结构、 属性度量以及数据特点等。 ( 3 ) 非易失的。操作型数据正规地是一次访问和处理一个记录。可以对操作型环 境中的数据进行更新。但数据仓库中的数据呈现出非常不同的特性。数据仓库的数据通 常是一起载入与访问的,但在数据仓库环境中并不进行一般意义上的数据更新。 ( 4 ) 包含历史数据的。是指数据仓库内的保险信息并不只是关于企业当时或某一 时点的信息,而是系统记录了保险企业从过去到现在的各个阶段的信息,通过这些信息, 可以对企业的发展历程和未来趋势做出定量分析和预测。 把信息加以整理归纳,并及时提供给相应的管理决策人员,是建设数据仓库的根本 任务。因此,数据仓库是一个工程的概念,是一个动态的概念【1 0 】。 利用数据仓库建立的应用系统,在激烈的市场竞争中,为企业领导者的决策支持起 到了明显的支持辅助作用。 2 1 2 数据仓库系统应用的基本作用 在一个企业中,企业的管理结构是多级的层次结构( 1 j 】: ( 1 ) 顶层为企业决策层; ( 2 ) 上层为商务智能、策略,为部门级; ( 3 ) 中层为日常管理、决定,为经理级: ( 4 ) 低层为明细管理,通常在上线的指导下运作; ( 5 ) 基层为日常事务处理、交易。 数据仓库为中、上层管理提供支持,填补了商务智能、管理与事务处理系统间的真 空,打破管理层存在的障碍。通过层次型的信息共享,并使信息更加流畅,突破不同体 制的封锁状态,极大地改善管理层次中自上而下或自上而下的信息交流。 数据仓库的应用基本目标是f 1 2 】:解决旧系统遗留问题;达到高度信息集成;利用 数据仓库在人寿保险业务分析中的设计与实现 新的平台和新的技术;从数据管理过渡到信息管理;提供一个平台和结构用以掌握历史 数据和当前数据;为商务智能及联机分析系统提供平台;在运用信息方面更具竞争性。 2 2 数据仓库的总体结构 数据仓库是建立在事务处理数据源系统之上的集成和分析处理系统,是管理信息系 统的“上层建筑”1 1 ”。 2 2 1 数据仓库的金字塔结构与层次 而数据仓库本身的结构也是由多层叠加的系统构成的,具有如下特点:具有叠加层 构造;每一层都起双重作用,从下一层吸取物质以组成自身,同时支撑它的上一层;每 一层都在它的支撑或基础上开发出来,并进一步演变成为其上层的基础;每一层都是它 底层的升华,并成为滋生其上层的温床,这样逐步达到其特定的高度和境界。 如图2 1 ,就是数据仓库的金字塔结构,充分体现了以上的特点i 引。在该图中,最 下层是支撑整个数据仓库的基础由它的数据源操作型事务处理系统组成。提取一转换一 加载( e t l ) 程序从操作型事务处理系统中提取需要的数据,进行相应的转换,并将其 传输到数据仓库的基础层( 事实维表) 中。经过大量的针对事实维表的总计,运算逐步 生成新的层面,这一层面由总计方阵系统构成并作为联机分析的基础。联机分析层主要 依托于总计管理方阵体系统。 2 2 2 数据仓库的设计结构 在认识到数据仓库的目标以后,就必须明确每一个数据仓库构件及其角色。数据仓 库的基本结构如图2 2 所示。 数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和 外部信息【1 4 1 。内部信息包括存放于企业操作型数据库e e ( i m 常存放在r d b m s 中) 的各种 业务数据和办公自动化( o a ) 系统包含的各类文档数据。外部信息包括各类法律法规、 市场信息、竞争对手的信息以及各类外部统计数据及各类文档等。 数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台 上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。其中有大型关 系数据库、对象数据库、桌面数据库、各种非格式化文件等,如何向数据仓库中加载这 些数量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题,这也是用户感 兴趣的问题。通常都通过数据抽取软件将数据源抽取到数据仓库中。 操作型数据源系统是获取事务的记录( 形式的) 操作型系统。要解决的主要是高性能 与可用性【l5 1 。源系统并不以数据仓库普遍采用的那种广泛和不可预期的方式进行数据查 8 大连理工大学专业学位硕士学位论文 询。源系统几乎不维护什么历史数据,如果有一个比较好的数据仓库,源系统完全可以 将重现旧内容方面的许多事情交给数据仓库来完成。源系统通常都是些普通而直截了当 的应用,只需进行少量的投入就可以与其他诸如产品、顾客、地理与日历等方面的公用 信息共享。企业应用一体化使数据仓库的设计变得容易。 图2 1 数据仓库金字塔结构和层次 f i g 2 1d a t aw a r e h o u s ep y r a m i ds t r u c t u r ea n dl a y e r 9 数据量 数据仓库在人寿保险业务分析中的设计与实现 用户 画画凰 用户多为管理人 员和决策者 图2 2 数据仓库的基本结构 f i g 2 2t h es t r u c t u r eo f d a t aw a r e h o u s e 1 0 大连理工大学专业学位硕士学位论文 数据的提取、转换、加载( e t l ) 是一组处理过程。它将从操作型数据源中取得数 据,加工后,存放数据仓库中。这是数据仓库取得数据的重要一步。处理包括以下几个 方面【16 】: ( 1 )访问源( 操作型数据源) 数据; ( 2 ) 多源选取; ( 3 ) 过滤,即从数据团中提取有用的数据子集; ( 4 )剖析,即从原始数据中折解出符合格式要求的数据: ( 5 )转换: ( 6 ) 格式化; ( 7 ) 标准化; ( 8 ) 计算; ( 9 )重组键; ( 1 0 ) 综合,即对自源系统的数据进行适当综合,使得粒度与数据仓库的粒度相 吻合; ( 1 1 ) 传输; ( 1 2 ) 加载。 数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对 数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理 存储结构,同时组织存储数据仓库元数据( 具体包括数据仓库的数据字典、一记录系统 定义、数据转换规则、数据加载频率以及业务规则等信息1 ) 。按照数据的覆盖范围, 数据仓库存储可以分为企业级数据仓库和部门级数据仓库( 通常称为“数据集市”,d a t a m a n l 。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能 与目前的d b m s 基本一致。 数据仓库层包括基本数据、元数据和实体化体方阵。基本数据被组织成一定的结构 和形式,如星型或雪花型结构,以利于快速连接、访问。它是由事实表为核心,并与一 系列与其相连的维表组成。元数据是说明基本数据的数据,即数据字典。实体化方阵是 由事实表和维表经过一系统的汇总、计算、链接后导出的的多个多维立方体1 8 】。 数据表示层直接面向用户,进行数据组织、报表撰写和其他分析型应用提供直接查 询操作的场所。 数据仓库环境中最后一个构件是数据存取工具。查询操作是使用数据仓库的全部目 标所在。数据存取工具可以简单到只是进行特定的查询,也可以复杂到进行数据挖掘或 者建模应用。 数据仓库在人寿保险业务分析中的设计与实现 2 3 数据仓库的建模技术 数据模型决定了数据仓库所能够进行的分析的类型、分析的细致程度、分析的效率 以及响应时间。另一方面,不同的模型会导致不同的存储空间以及数据更新策约并自接 影响着数据仓库项口的投资。所以说,数据仓库模型的好坏,决定了数据仓库项目的成 功与否【1 9 。 目前,主流的数据仓库建模技术分为两种【1 9 】:实体关系建模( e n t i t y r e l a t i o n s h i p m o d e l i n g ) 及维度建模( d i m e n s i o nm o d e l i n 9 1 2 3 1 实体关系建模 实体表示一个现实和抽象事物的集合,这些事物必须具有相同的属性。一个集合的 某个特定的元素称为这个实体的一个“实例”。 属性表示一类现实或抽象的事物的特征或者性质,属性和具体的实体相联系。 实体关系建模要应用到范式的理论,范式是数据库逻辑模型设计的基本理论。在数据仓 库的模型设计中,目前一般采用第三范式。 2 3 2 维度建模 实体关系建模通常用于针对企业所有数据创建一个复杂的模型。在数据仓库领域, 有一些公司也提倡在中央数据仓库的层次使用实体关系建模 2 0 1 。另一方面,维度建模针 对相对独立的业务创建有针对性的分析模型。例如,销售信息可以创建为一个模型,库 存可以创建为另一个模型,而客户账户也可以创建为另一个模型。每个模型捕获事实数 据表中的事实,以及事实在链接到事实数据表的维度表中的特性。由这些排列产生的结 构称为星型结构或雪花型结构。它们在数据仓库设计中很有效,因此成为数据仓库的典 型逻辑结构。 星型结构模式是一种多维的数据关系,由一个事实表( ( f a c tt a b l e ) 和一组维表 ( d i m e n s i o nt a b l e ) 组成。每个维表都有一个维作为主键,所有这些维组合成事实表的主 键,换言之,事实表主键的每个元素都是维表的外键。 事实表是数据仓库星型结构中最重要的表,它直接反映了数据仓库应用的主题 朋。 事实表的设计应从满足最终用户的要求和决策分析的基本需求出发,瞄准应用的主题, 纵观和兼顾操作型数据源的结构和特性,以多维分析的模式满足数据仓库这种大型数据 容量、大吞吐量、高速响应的特有环境。 事实表是数据仓库架构中的中央表,包含联系事实与维度表的数字度量值和键。事 实表包含描述业务( 如保险理赔事务或保单销售) 内特定事件的数据。事实表的非主属性 称为事实,它们一般都是数值或其他可以进行计算的数据。事实表应设计成简捷规范的 大连理工大学专业学位硕士学位论文 格式。说明项采用简短的标准代码,其目的是压缩数据的容量,减少记录的长度,同时 仍然能包含等价的数据内容。描述性的内容,应从事实表中剔除,放到维表当中。 事实表设计主要考虑的是选定与主题相关的度量。一般来讲,星型结构中的维度变 化对于事实表的粒度有着重要影响,比如,在一个有关销售的星型结构中引入一个新的 维度,可能会造成事实表的粒度向下一层发展。 “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层 次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个 维( d i m e n s i o n ) ,使用户能对不同维上的数据进行比较。因此o l a p 也可以说是多维数据 分析工具的集合。 维的几个基本概念如下: 维:人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维( 时 间维、机构维等) 。 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的各 个描述方面( 时间维:日期、月份、季度、年) 。 维的成员:维的一个取值。是数据项在某个维中位置的描述( “某年某月某日”是在 时间维上位置的描述) 。 多维数组:维和变量的组合表示。一个多维数组可以表示为: 维1 ,维2 ,维 n ,如 时间,机构,险种,保费 。 维度表用来描述事实表,它与事实表密切相关。事实表中多数属性与维表相关,多 数属性依赖于维度表。维度表包括通用的统计维度数据。如险种代码、部门代码、销售 渠道、险种类型、时间等。维度表是进入指标表的入口,丰富的维度属性可以提供丰 富的分析切割能力。维度给我们提供了使用数据仓库的接口。 2 3 3 实体关系建模与维度建模的关系 实体关系模型则多用在企业数据仓库建模中,符合第三范式的实体关系模型数据冗 余较小,但对于分析类的查询反映较慢。 维度建模数据量冗余较大,但是对于特定查询反应很快。在维度建模的数据仓库中, 做报表的速度虽然很快,但由于大量的预处理,其建模过程相对来说就比较慢。当业务 问题发生变化,原来的维不能满足要求时,需要增加新的维。 因此,维度建模比较适合于预先定义好的问题,如需要产生大量报表的场合,而不 适合于动态查询多,系统可扩展能力要求高或者数据量很大的场合,人寿保险业务统计 系统是采用了这种模型。 数据仓库在人寿保险业务分析中的设计与实现 2 4 数据预处理 来自业务系统的实时数据是企业数据仓库的最重要的数据来源。但是,在这些数据 进入数据仓库之前,必须经过清洗、抽取、转换、加载等多个工序的处理。通过这些处 理,一方面可以提高数据的质量( d a t aq u a l i t y ) 另一方面,将使数据从适应业务系统 ( o l t p ) 的数据模式转换为适应分析系统的数据模式。加载到中间表中的数据的质量直接 影响到数据仓库系统成功与否。 数据预处理主要包括数据抽取、数据清洗和转换、数据加载号( e t l ) 三个环节。这 部分工作是构建数据仓库的基石。一般占整个项目的5 0 的工作量。 2 4 1 元数据 元数据最本质,最抽象的定义是:关于数据的数据2 1 ,2 2 】。在数据仓库领域中,元数 据被定义为描述数据及其环境的数据。一般来说,它有两方面的用途。首先,元数据能 提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其 次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系 统以最有效的方式访问数据。元数据存储的工作是定义和解释数据资源和数据标准。本 文将数据抽取模型、抽取规则、数据库模式和映射规则通称为元数据。 2 4 2 数据抽取 数据抽取是数据集成系统的基础问题之一。这一问题可简单地描述为给定数据源s , 确定一个s 到数据库r 的映射m ,该映射用数据抽取模型、抽取规则和抽取算法去抽 取s 中的数据对象,用数据库模式、映射规则和组装算法将己抽取的数据对象组装到r 中田】。实现映射m 的计算机程序称为包装器。数据集成系统常用包装器生成工具生成 所需的包装器。由于数据源的多样性和复杂性,如何快速准确地为各种数据源建立包装 器是数据集成系统实现的关键 2 4 1 。 数据抽取有以下几条原则: ( 1 ) 要完整的保存业务的历史信息。 在中间库中保存业务数据的全部的历史变化。所以需要恢复业务员使信息及每一阶 段的变化信息。其内容包括,业务员信息,保单库信息,理赔信息、佣金信息,保全信 息,给付信息等等。 ( 2 ) 不丢失有效数据。保证不会遗漏有效的数据,能过滤错误及无用数据,使其 不影响分析的准确性。 ( 3 ) 利于高效率的多维数据分析。 ( 4 ) 适应数据分析需求的变化。 1 4 大连理工大学专业学位硕士学位论文 ( 5 ) 不影响实时操作业务的进行,在非工作时间进行数据抽取。 数据抽取一般采用如的方法: 数据抽取的技术和解决方案多种多样。常用的有以下几种: ( 1 ) 利用s q l p l u s 工具将源数据库中的数据导出到一个平面文件中,然后再利用 s q l * l o a d e r 工具将平面文件中的数据复制到目标数据库中; ( 2 ) 用o r a c l e 专有的导出( e x p o r t ) 和导a ( i m p o r t ) 工具将数据从源数据库复制到目标 数据库; ( 3 ) 应用快照( s n a p s h o t ) 技术以快照的形式将数据从源数据库直接复制到目标数据 库; ( 4 ) 使用第三方软件进行数据复制; ( 5 ) 使用用于数据复制的基于引擎的工具和代码生成工具; ( 6 ) 自主开发数据复制的程序。 2 4 3 数据清洗 在数据装入数据库之前,应该对数据进行有效性检查,否则会导致分析结果不正确, 影响决策支持。进行数据有效性检查的最好人员是源系统开发与维护人员,包括技术人 员和业务人员。如果数据不在给定的范围之内,就要采取纠正措施,简称为“数据清 洗”【2 5 1 。从严格意义上来讲,数据清洗也可以被看作是数据转换的一种形式。 数据源业务系统中的“脏”数据多种多样,基本可以分为不完整数据、噪音数据、不 一致数据三大类。 ( 1 ) 不完整数据 由于企业核心业务处理系统处于不断变化中,这些变动从系统架构的修改,版本的 更新,库表结构的变更一直到字段的增加与数据结构的变化。比如某个表中原来并没有 某个字段,后来为了提高统计效率,在该表中增加了这个字段并修改了相应的程序。就 算排除程序修改测试过程中产生不完整数据的可能性,系统原有数据该字段还是空值, 必须手工更新。但往往在手工更新过程中仍存在“漏网之鱼”,日积月累就出现了大批不 完整数据。 另外还有可能应上级机构要求,修改现有分类代码,造成原有数据失效。 此外,由于处理系统或数据库设计中控制不严或有b u g ,造成数据过滤机制在录入 时存在漏洞,比如使得不应为空的字段存在空值等。 还有存在某些无法分类的情况。比如某个类型数据不适合某个维度中的任何值,那 么必须给该字段一个特殊值,并在分析该维度时排除该类型数据,而不是任由该字段空 着。最后,由于网络或机器的不稳定,还可能在数据同步过程中发生数据丢失现象。 数据仓库在人寿保险业务分析中的设计与实现 以上原因都有可能产生不完整数据。对于此类数据,除了要在初始化之前组 织人员进行数据清理工作,还要在数据清洗程序中特别注明处理方法,或从别处取 得数据,相应后果是程序异常复杂,运行效率低下;或将此类数据重新归类,相应 后果是数据准确性下降。 ( 2 ) 噪音数据 有些噪音数据是在系统开发测试过程中产生的,并由于数量少或不起眼而一直没有 得到解决;有些是由于业务处理系统或数据库设计中控制不严或有b u g ,造成数据过滤 机制在录入时存在漏洞而产生的;有些是因为数据维护人员未能遵守规章制度,跳过数 据检查机制,直接修改数据库中数据造成的【2 6 】。还有更多的产生原因现在已不可考。 对于此类数据,除了组织人员进行数据清理工作外,还有就是在设计清洗程序时 增加数据控制部分,丢弃明显不可能的数据,只接受合理范围内的数据:在设计数据库 时增加各种限制,提早发现噪音数据。 ( 3 ) 不一致数据 数据不一致现象在保险核心业务处理系统中是最常见的。数据不一致可简单划分为 空间不一致与时间不一致。空间不一致指的是在同一套系统、同一个数据库结构、同一 个表结构中同一个字段在不同的地点时数值不相同。比如甲市股份数据库内长险险种信 息表中某个险种的某个字段值表示该险种是个险险种,而乙市同样位置该字段值表示该 险种是团险险种。产生这种情况的原因大概算是保险企业的特色了,可能在甲市该险种 因业务推动需要,暂由个险去做;而乙市团险力量较强,所以又由团险去做该险种。结 果是该险种算个险险种也对,算团险险种也对。 时间不一致指的是在同一套系统、同一个数据库结构、同一个表结构中同一个字段 在不同的时间时数值不相同。造成这种情况的根本原因是数据维护工作的不到位。由于 保险企业的特色,数据维护操作非常多。因为数据是增量抽取的,以前的数据改动无法 在系统中体现出来。同时数据维护人员往往并不使用数据维护工具或简易的数据维护工 具本身就存在漏洞,导致数据库中的源数据被改变且没有日志可查,加上数据库设计上 的缺陷,导致相应的操作没有体现在与该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论