(系统工程专业论文)人寿保险公司保险业务数据仓库设计与实现.pdf_第1页
(系统工程专业论文)人寿保险公司保险业务数据仓库设计与实现.pdf_第2页
(系统工程专业论文)人寿保险公司保险业务数据仓库设计与实现.pdf_第3页
(系统工程专业论文)人寿保险公司保险业务数据仓库设计与实现.pdf_第4页
(系统工程专业论文)人寿保险公司保险业务数据仓库设计与实现.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人寿保险公司保险业务数据仓库设计与实现 摘要 保险行业需要利用数据仓库技术提高信息化水平,通过数据仓库来管 理和运用好自己的数据,建立决策支持系统,从而增强企业的竞争力。保 险行业的原始业务数据频繁变更,不符合传统的数据仓库的理论,所以在 实现保险行业数据仓库的过程中有很多的困难。本文结合大连人寿保险公 司保险业务数据仓库项目来阐述针对目前存在问题的解决方法。 本文分析了数据仓库在保险行业的应用情况,剖析了大连人保险寿数 据仓库存在的问题,从而总结出大连人寿保险公司的数据仓库项目的需 求。通过运用查询优化技术、数据仓库索引技术、带中间库的三层结构和 数据仓库数据自动更新方案成功地建立了大连人寿保险业务数据仓库系 统。本文详细地介绍了以上技术的理论设计和实现方法。该系统达到了预 想的效果,在大连人寿保险公司运行良好。最后本文总结了在这个项目中 的经验和得失,对人寿保险企业数据仓库系统的未来发展提出了展望。 关键词:数据仓库中间库查询优化数据抽取数据更新索引技术 人寿保险公司保险业务数据仓库设计与实现 a b s t r a c t i n s u r a n c ec o m p a n i e sn e e di tt o i m p r o v et h et h e i ro r g a n i z a t i o n s p e r f o r m a n c e ,t o m a k e b e t t e ru s eo f t h ei r d a t a ,t oi m p l e m e n t d e c i s i o n s u p p o r ts y s t e m ( d s s ) ,t om a i n t a i nt h e i r c o m p a n y s c o m p e t i t i r ee d g e t h eo p e r a t i n gd a t ao fi n s u r a n c ei n d u s t r yi sv e r y d i f f e r e n tf r o mo t h e r s b e c a u s ei t sh i s t o r i e a ld a t a i sm o d i f i e d f r e q u e n t l y f o rt h ed a t ae n v i r o n m e n td o e sn o ta c c o r dt h et h e o r yo f d w ,b u i i d i n gt h ei n s u r a n c ed a t aw a r e h o u s i n gi sav e r yh a r dp r o j e c t t h i sp a p e ri n t r o d u c e st h em e a n st od e a lw i t ht h eq u e s t i o na n dc h i n a l i f ei n s u r a n c ec o m p a n yd a l j a nb r a n c hd a t aw a r e h o u s i n gp r o j e c t t h ed wa p p l i c a t i o n si ni n s u r a n c ec o m p a n i e s ,t h e q u e s t i o n si n d a li a nb r a n c hd wp r o j e c ta n dt h er e q u i r e m e n to ft h i s p r o j e c ta r e a n a l y z e di nt h ep a p e r b yu s i n gq u e r yo p t i m i z a t i o n ,d a t a b a s ei n d e x , m i d d l eb a s ea n da u t o m a t i cd a t au p d a t et e c h n i q u e ,t h ed wp r o j e c ti s v e r ys u c c e s s f u l t h ea c a d e m i cd e s i g n ,t h em e t h o do fi m p l e m e n ta n d t h ef u t u r eo fi n s u r a n c ei n d u s t r yd a t aw a r e h o u s i n ga r ei n t r o d u c e d k e y w o r d s :d a t aw a r e h o u s in g ,m id d i eb a s e q u e r yo p t i m i z a t i o n d a t a e x t r a c tin g d a t au p d a t e ,d a t a b a s ein d e x 人爵保险公司保险业务数据仓库设计与实现 1 1 数据仓库技术的发展 1 绪论 数据仓库( d a t aw a r e h o u s e 简称d w ) 是信息处理技术发展的必然产 物。在应用信息处理技术的早期,受计算机硬件和软件技术发展的限制, 这时信息处理技术重点在于:通过模仿人工流程来提高日常事务处理效 率:8 0 年代后,由于p c 机的大量应用和价格的不断下降,极大地推动了 信息处理技术的发展,许多企业都开始使用数据库系统开发自己的应用系 统,这些应用主要是为生产自动化、精简工作任务和高速采集数据服务, 所以绝大部分的数据库应用属于联机事务处理( o l t p ) 类型。这类应用的 特征是快速事务响应和频繁数据变化;同时用户可以通过网络来实现信息 资源共享。到了9 0 年代,随着企业数据处理的能力的提高,数据库技术 的发展也日趋完善,使用数据库的企业越来越依赖这种技术。企业内部许 多部门都积累了大量的原始数据,建立了各自的信息处理系统。但是从企 业整体来看,这些系统之间相互隔离,结构各异。当企业的高层管理人员 要从多个信息系统的大量数据( 历史的、现在的) 进行各种复杂的分析处 理,以支持决策时,却发现:企业管理层陷入了数据的海洋之中而无所适 从。如何从浩瀚的数据海洋中迅速、准确地提取企业经营管理的信息呢? 为了解决这个问题,研究者们进行了艰苦的尝试和努力,实践中,专 家们逐渐认识到了解决问题的关键:建立一个全局化、综合化的信息集成 和数据分析的信息系统。这种行之有效的机制称为数据仓库【lj 。数据仓库 的概念形成是以p r i s ms o l u t i o n s 公司副总裁w h i n m o n 在1 9 9 2 年出版的 建立数据仓库) ) ( b u i l d i n g d a t a w a r e h o u s e ) 为标志的。从目前的形势来看, 数据仓库技术已经紧跟i n t e m e t 而上,成为信息社会中获得企业竞争优势 的又一关键手段。美国m e t ag r o u p 市场调查机构的资料表明,幸福杂 志所列的全球2 0 0 0 家大公司中有9 0 将i n t e m e t 和数据仓库这两项技术 列入企业计划 2 0 。 人寿保险公司保险业务数据仓库设计与实现 1 2 数据仓库在保险行业的应用 进入8 0 年代后,计算机技术迅速发展,在保险行业中开始出现业务 计算机系统。随着商业保险公司的业务系统日趋完善,数据交换和处理中 心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析 和预测的需求;如何提高防范和化解经营风险的能力:如何有效利用这些 数据来实现经营管理的目标:如何利用这些数据来设计保险企业的发展宏 图,在激烈的竞争中赢得先机是保险企业在信息技术应用上的首要难题。 中国的保险业是一个高度竞争和极富风险的行业。对经济效益的追求 从依靠取得眼前利益,转向依靠正确的战略决策在中长期中取得最大利 益。决策的成功与否直接关系到整个企业的生死存亡。通过多年使用业务 计算机系统,保险公司都有大量历史数据,这些数据是公司最重要的财富。 要想使这些数据能产生出有用的信息,必须有一个适宜的分析手段,只有 数据仓库技术真正符合这一要求。数据仓库技术在发达国家的保险行业应 用的非常广泛了。我国保险业正在高速发展,随着中国加入w t o 实力雄厚 的外资保险公司已经涉足中国保险市场。这就要求我国保险公司必须加快 信息化建设脚步使自己立于不败之地。所以国内的很多保险公司已经或正 在积极地开发业务数据仓库系统来更加有效地进行管理决策分析。 1 3 大连人寿数据仓库存在的问题 保险业与其他行业差异很大:保险业务系统比银行的更复杂,原因是 保险业务数据变更非常频繁。传统的数据仓库理论认为数据仓库中数据是 稳定。在数据频繁变更的业务系统基础上建立数据仓库还存在许多需要解 决的问题。 之前,北京尚洋公司为大连人寿保险公司( 中国人寿保险公司大连分 公司,简称大连人寿) 开发过一个保单业务数据仓库。但是由于这个系统 存在许多缺陷,所以一直没发挥出应有的作用。我们和保险公司的信息技 术处的同志一起对这个系统进行研究分析,发现了两个最主要问题:一是 联机分析数据查询的准确性达不到保险公司业务部门要求。数据仓库的数 据不准确的原因是原始数据发生改变时,这种变化不能或不能及时地反映 给数据仓库使相应的联机数据视图得到及时地刷新;另一个是没能实现多 人寿保险公司保险业务数据仓库设计与实现 个业务数据库数据的集中,只能查询到营销业务的数据不能满足业务部门 的需求。 1 4 本文的内容及主要工作 为建立一个能满足大连入寿保险公司业务需求的数据仓库系统,必须 解决以上提出的问题。必须实现几个不同业务数据库的数据集中,可以自 动联机及时遗进行数据维护和的高效率地查询。目前人寿保险拥有的数据 仓库工具是l n f o r m i xm e t a c u b e ,虽然它有很强大的数据仓库管理功能但 是不能解决以上问题。国内外其他的数据仓库产品提供商的产品都是有很 强的针对性,也不能适应人寿保险公司的数据环境。所以决定自己来设计 实现一个能适用于人寿保险公司数据环境的数据仓库系统。即要充分利用 已经拥有的资源,又要通过编程解决了以上提出的问题。目前这个项目已 经完成了,系统运行良好,达到了预期效果。本文就是在这个项目的基础 上完成的。 为了能成功建立大连人寿保险公司保险业务数据仓库,首先分析了以 前的数据仓库项目失败的原因,分析了入寿保险公司的业务特征和业务流 程。总结出人寿保险公司的业务需求。在这基础上提出了人寿保险数据仓 库的理论设计,包括查询的优化技术、数据仓库索引技术、中间库结构和 数据更新方法等。以及详细论述人寿保险数据仓库系统各个模块的实现方 法。最后对入寿保险企业信息系统的发展提出了展望。 人寿保险公司保险业务数据仓库设计与实现 2 1 数据仓库系统 2 1 1 数据仓库的概念 2 数据仓库系统 w h i n m o n 在建立数据仓库中,对数据仓库的定义:数据仓库是 面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理 中决策的制定过程1 2 ”。 传统的数据库用于事务处理是指对数据库联机进行日常操作,为企业 提供特定的服务。数据仓库用于决策支持,也称分析型处理,用于决策分 析,它是建立决策支持系统的基础1 3 。操作型数据( d b 数据) 与分析型 数据( d w 数据) 之间的差别如表2 - 1 所示。 d b 的数据d w 的数据 细节的综合或提炼的 在存取时准确的代表过去的数据 可更新的不更新 操作需求事先知道操作需求事先不知道 事务驱动分析驱动 面向应用面向分析 一次操作数据量小一次操作的数据量大 支持日常操作支持决策需求 表2 - 1d b 数据和d w 数据的对比 2 1 2 数据仓库系统的数据 人寿保险公司保险业务数据仓库设计与实现 数据仓库是在原有关系型数据库的基础上发展形成的,但它的组织结 构形式不同于数据库系统。从原有的业务数据库中获得的基本数据和综合 数据被分成一些不同的层次( 1 e v e l ) 。一般的数据仓库的组成结构如图2 ,l 所示,包括当前基本数据( c u r r e n td e t a i l d a t a ) 、历史基本数据( o l d e rd e t a i l d a t a ) 、轻度综合数据( 1 i g h t l y s u m m a r i z e d d a t a ) ;高度综合数据( h i g h l y s u m m a r i z e dd a t a ) 和元数据( m e t ad a t a ) 。 图2 - 1 数据仓库系统数据示意图 高度综合数据层 轻度综合数据层 当前基本数据层 历史基本数据层 当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部 分,数据量大。随着时间的推移,当前基本数据转为历史基本数据,一般 被转存于介质中。轻度综合数据是从当前基本数据中提取出来的,设计这 层数据结构是会遇到“综合处理的时间段选择”,“综合数据包含哪些数据 属。| 生( a t t r i b u t e ) ”和“内容( c o n t e n t ) ”等问题。最高一层是高度综合数据层, 这一层的数据十分简练,是一种准决策数据。元数据在数据仓库中扮演了 重要的角色,它被用于以下几种用途:( 1 ) 定位数据仓库的目录作用;( 2 ) 数据从业务环境向数据仓库环境传送时数据仓库的目录内容:( 3 1 指导从 当前基本数据到轻度综合数据,轻度综合数据到高度综合数据的综合算法 的选择。 2 1 3 数据仓库系统的结构 一般的数据仓库系统e h 数据仓库( d w ) 、仓库管理和分析工具三个部 分组成川。其结构形式如图2 2 所示。 人寿保险公司保险业务数据仓库设计与实现 三兰兰兰卜 i 数据仓库l l 管理工具i 用户查词 、一一 i 综合数据l 工具 抽取、转 奂 il 型 装载 i 当前数据l c ,s 工具 ll 一一 元数据库o l a p 工具 l 历史数据i ll 数据建模 d m 工具 其他数据l 尸 工具 图2 2 数据仓库系统结构示意图 2 2 数据仓库的数据组织 2 2 1 多维表的数据组织 一、多维数据的概念q 1 、维:假定你是一个批发销售商,有一些因素影响你的销售,如商 品、时间、商店或流通渠道等。这里,商店、时间和产品都是维。维就是 相同类数据的集合,也可以理解为变量维。而每一个商店、每一段时间、 每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商店、 一个特定的时间、一个特定的商品组成。 2 、多维性:很容易理解一个二维表,如电子表格。对于三维立方体, 也很容易理解。o l a p 通常将三维立方体的数据进行切片,显示三维的某 一个平面,图形很容易在屏幕上显示出来。若再增加一维,则图形很难想 象,也不容易在屏幕上画出。若再增加一维,则很难想象,也不容易在屏 幕上画出来。要突破三维的障碍,就必须理解逻辑和物理的差异。 二、多维表模型 数据仓库是以多维表型的维表一事实表结构形式组织的,一般有三种 形式: 人寿保险公司保险业务数据仓库设计与实现 星型模型:大多数数据仓库都采用星型模型。星型模型由事实表 以及多个维表所组成。事实表用于存放大量关于企业的事实数据,通常都 很大,而且非规范化程度很高。例如,多个时期的数据可能会出现在同一 个表中。维表用于存放描述性数据,它是围绕事实表建立的较小的表。 图2 3 星型模型示意图 2 、雪花模型【5 】:雪花模型是对星型模型的扩展。雪花模型对星型模 型的维表进一步层次化,原来的各个维表可能被扩展为小的事实表,形成 局部的“层次”区域。它的优点是最大限度地减少数据储存量,以及把较 小的维表联合在一起来改善查询性能。雪花模型增加了用户必须处理的表 的数量,增加了某些查询的复杂性。但这种方式可以使系统更进一步专业 化和实用化,同时降低了系统的通用程度。前端工具将用户的需求转化为 雪花模型的物理模式,完成对数据的查询。 图2 - 4 雪花模型示意图 人寿保险公司保险业务数据仓库设计与实现 3 、星网模型【5 】:星网模型是将多个星型模型连接起来形成网状结构。 多个星型模型通过、相同的维,如时间维,连接多个事实表。 2 2 2 多维表的设计 多维表的设计都是从e r 模型开始的【1 5 。以下举例说明 、业务数据的e r 模型图 地区i 地区号u 柏反幺i n 商店 商店号 商店名 地址 城市 省 邮编 主曼耋l ,l 产品 产品类别p _ 一产品号 产品类名lm 1 产品名 图2 - 5e - r 模型示意图 二、e r 模型向多维表的转换步骤 1 、同类实体合并成一个维表; 2 、连接多个不同类型实体的实体构成事实表 3 、形成星型模型。 销售 销售日期 商店号 产品号 销售数量 出崔凿f 音 lm 存货 星期 商店号 产品号 人寿保险公司保险业务数据仓库设汁与实现 时间 时间键 时间说明 日期 星期 月 笠 图2 - g 转变后的星型模型示意图 2 3 数据仓库的关键技术 与关系数据库不同,数据仓库目前并没有严格的数学理论基础,它更 偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工 作过程分为:数据抽取、存储和管理核数据表现三个方面吼在此,将分 别讨论每一个环节。 2 3 1 数据抽取 数据抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数 据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、 脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、 复制、增量、转换、调度和监控等几个方面。 2 3 2 存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了 其对外部数据的表现形式。数据仓库遇到的第一个问题是对大量数据的存 储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移 而累积,只有关系数据库系统能够担当此任。数据仓库的第二个问题是针 人寿保险公司保险业务数据仓库设计与实现 对决策支持查询的优化。这个问题主要针对关系数据库而言,因为其他数 据管理环境连基本的通用查询能力还不完善。在技术上,针对决策支持的 优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采 样等诸多部分。由于数据仓库中各数据表的数据量往往极不均匀,普通查 询优化器所得出的最佳查询路径可能不是最优的。将普通关系数据库改造 成适合担当数据仓库的服务器有许多工作要做。 2 3 3 数据展现 数据展现是数据仓库的门面。主要集中在多维分析、数理统计和数据 挖掘方面。多维分析是数据仓库的重要表现形式,由于m o l a p 系统是专 用的,因此,关于多维分析领域的工具和产品大多是r o l a p 工具。这些 产品近两年来更加注重提供基于w e b 的前端联机分析界面,面不仅仅是 网上数据的发布。数理统计原本与数据仓库没有直接的联系,但在实际的 应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进 行决策。与数理统计相似,数据挖掘与数据仓库也没有直接联系。数据挖 掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并 发现蕴藏在数据之后的规律。这听起来虽然很吸引人,但在实现上却有很 大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并 不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许多毫 无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应用 中,有效地利用数理统计就已经能够获得可观的效益1 1 4 】f 2 3 1 1 25 1 。 1 0 人寿保险公司保险业务数据仓库设计与实现 3 人寿保险业务数据仓库项目分析 3 1 项目背景 为中国人寿保险公司大连分公司开发保险业务数据仓库之前,我们已 经与人寿保险公司合作完成了两个项目。第一个项目是“人寿保险公司业 务综合查询系统”;第二个项目是“人寿保险公司数据仓库项目评估”。这 两个项目都成功地完成了,这些前期工作为“人寿保险公司业务数据仓库” 项目打下了良好的基础。 人寿保险公司业务数据仓库系统要建立在保险单业务数据库系统的 基础上。通过建立数据仓库把业务数据库的数据集成到一个能满足决策需 求的数据分析平台上。从而将中国人寿保险公司大连分公司的企业信息化 建设提高到一个新的层次,这就是项目的目标。 3 2 人寿保险业务分析 3 2 1 现有保险业务流程分析 保险业务流程比较复杂,与银行等其他的金融服务行业有很大区别。 我们在中国人寿保险公司大连分公司经过几个月的调研对保险业务流程 有了比较详细的了解。对保险业务流程做如下分析:保险业务流程一般大 致可以分为“投保”、“核保”、“保全”、“批改”、“复效”、“挂失”、“转 入”、“收费”、“付费”、“理赔”和“合同终止”等大类。图3 1 是保险业 务的流程示意图。 人寿保险公司保险业务数据仓库设计与实现 图3 - 1 保险业务流程示意图 客户购买一个保险服务,保险公司要给客户一份保险单作为凭证。保 险公司的业务数据摩系统也同时要记录下这个客户的基本信息和所买保 险的内容。保险业务数据库里记录的信息基本上和客户手中的保险单内容 是一致的。产生一张保单的业务流程是:首先用户先要填写一张保险单, 包括的内容有“投保人”、“被保人”、“受益人”的基本信息和所要保的保 险项目:然后要交费,通过“核保”就可以生效了。一张保单的有效期有 长有短,长的可以是被保险入的一生时间,短的可以是一次几个小时的民 航飞行。 客户的保险在整个有效期内可能发生“保全”、“批改”、“复效”、“挂 失”、“转入”、“收费”、“付费”、“理赔”和“合同终止”等事件,于是保 险单的内容就必须进行相应的修改,对应的业务数据库里的数据信息也要 进行修改。保险业务数据库的实质就是一个保险单记录的数据库。数据库 数据的修改可以分成两种:一种是更新原来记录:另一种是增加新静记录。 曰久天长数据越来越多,形成一个数据量庞大的数据库。以上这些业务的 操作都是在各个分支公司( 如中山区分公司) 的窗口完成的。这些窗口使用 终端来运行前台程序通过网络来和计算机中心的数据库进行交互操作。这 些数据库操作可以抽象成添加记录、删除记录、修改记录和查询信息的简 单操作。业务数据库中的数据变化的菲常地频繁,这是保险业务的特点。 数据库每天都产生大量的修改信息,是数据仓库的实现的困难之处。 人寿保险公司保险业务数据仓库设计与实现 3 2 2 现有业务查询需求分析 保险公司的计算机中心数据库里记载着这些客户和保险业务的数据, 公司的各个管理部门都想从中得到自己需要的信息。比如人事部门需要知 道保险代理人的详细情况;财务部门需要知道代理人佣金的详细情况:保 险推广部门需要知道各个险种的销售情况;精算部门要使用业务数据库的 内容迸行精算;保险公司的高层管理者需要知道这个公司的整体经营情况 等等。要开发一个能让保险公司各个部门都有收益的数据仓库系统就必须 对这些部门分别进行调研,深入了解他们不同特点的需求。 在开发数据仓库之前,我们和保险公司合作已经开发了一套“营销业 务管理信息系统”,这套系统一共包括三个子系统( 7 j : l 、综合查询子系统:该子系统可以查询包括“保单”、“投保单”、“批 单”三类单据的各类信息,又可以查询包括“营销员”、“客户”、“投保人”、 “被保人”的各类信息、也可查询包括“展业险种”、“职业代码”等系统 信息。以下给出该功能模块下的各个子模块的功能名称。 ( 1 ) 报单基本信息查询; ( 2 ) 报单保全信息查询; ( 3 ) 理赔、撤单、退保和给付信息查询; ( 4 ) 收,付费信息查询; ( 5 ) 中国人寿公共信息查询; ( 6 ) 面向客户信息查询; ( 7 ) 未出单投保单查询; ( 8 ) 续期转帐结果查询。 2 、营销员查询子系统:该子系统以“营销员”为中心考察对象,除 可查询到营销员的自然信息外,还可继续查询与其相关的“客户”、“保 单”、“续期”、“佣金”、“业绩”、“团队信息”、“福利项目”等诸多信息。 以下给出该功能模块下的各个子模块的功能名称。 ( 1 ) 客户信息查询: ( 2 保单信息查询; ( 3 ) 续期信息查询; ( 4 ) 佣金信息查询; ( 5 ) 业绩信息查询: 人寿保险公司保险业务数据仓库设计与实现 ( 6 ) 团队信息查询: ( 7 ) 福利项目查询。 3 、统计排行分析子系统:该子系统可分别统计和排行“营销员个人 业务指标”、“团队业务指标”、“全辖业务指标”三个方面。以下给出该功 能模块下的各个子模块的功能名称。 ( 1 ) 营销员个人保费统计; ( 2 ) 营销员个人保费排行; ( 3 ) 团队保费统计: ( 4 ) 团队保费排行。 以上的查询,都上是在业务数据库上直接进行的。而且查询到的结果 也只是对o l t p 的业务数据简单运算,不可能满足业务部门多样的分析需 求。如果业务部门需要“某几个险种在一年的1 2 个月中各个分支公司的 业绩情况”,目前的o l p t 数据直接查询就无能为力了,而且类似的情况 是经常发生的。计算机部门的工作人员只好用手工编写复杂的s q l 语句 来进行查询,这样通常要几个小时甚至超过一天时间来运行,而且每次都 要重新编写s q l 程序。即不能很好的满足业务部门的需求也给计算机系 统带来很大的负荷,明显得影响正常业务处理的效率,遭到窗口业务人员 的投诉。保险公司的人员经过一段时间的考虑和研究后,意识到必须改变 目前的工作方式才能摆脱被动的工作局面。数据仓库技术是最合适的,因 为数据仓库能方便的提供快速的、多维度的查询和报表。从而避免经常自 己手工的编写效率很低的s q l 程序来进行统计分析。保险数据仓库是以 上“营销业务管理信息系统”的继承和发展。必须采用先进的数据仓库技 术来实现业务管理信息的查询分析。 3 3 数据环境分析 一、数据源【2 7 1 人寿保险公司大连分公司计算机业务系统包括三个业务数据库系统: “营销业务数据库”、“直销业务数据库”和“老业务数据库”。营销业务 是指个人的保险业务。直销业务是指团体的保险业务。老业务是指1 9 9 6 年以前保险公司没有使用计算机系统的业务数据,后来这些数据人工统一 录入到一个数据库中。其中营销业务数据库和直销业务数据库的库表结构 人寿保险公司保险业务数据仓库设计与实现 是一样的,但是其中用的字段和含义是不同的。老业务和其他两个数据库 的结构是完全不同。最终要求把这三个数据库的数据集成到一个数据仓库 中,一起分析。如图3 2 所示。 图3 2 三个数据库融合到一个数据仓库示意图 三个数据库是彼此独立的但是其中的信息又是有联系的。比如一个顾 客以前买过保险,有个人记录在老业务数据库中,后来又买了营销保险, 在营销数据库中又会有他个人信息记录。这对于o l t p 来说是很常见的, 但是对于o l a p 就是不允许的,所以在做客户关系分析时( c r m ) 必须把两 个信息还原成一个人。这就要求在数据抽取到数据仓库的过程中要识别客 户的信息,合并相关的数据。为了解决这个问题,我们为保险公司的每一 个顾客设定一个唯一的客户号。客户号是根据客户的身份证等个人信息自 动产生的。这样可以方便的把三个业务数据库的信息进行集中。 二、系统的软硬件环境 人寿保险公司统一使用i n f o r m i x 数据库系统软件。其中直销数据库和 营销数据库同在一台i b mr s 6 0 0 0 服务器上,老业务数据库在一台 h pu n i x 服务器上,也采用i n f o r m i x 数据库系统。几个不同的数据库服 务器是通过内部网络进行连接的。 三、数据量【2 8 】 营销业务数据库和直销业务数据库各自分别有1 3 0 多个表,其中有 4 0 几个表是主要的数据表,其他的是一些如字典表等辅助数据表。营销 业务数据库和直销业务数据库的数据量基本相同,最大的表都是近1 0 0 万 条记录。虽说数据的绝对数量不是十分大,但是因为分析查询的条件比较 复杂所以查询起来很慢。老业务数据库中最大的表是1 6 0 万条记录,主要 人寿保险公司保险业务数据仓库设计与实现 的表有1 3 个。如果通过数据库工具复制任意其中一个业务数据库所要的 时间都超过1 0 个小时。把三个业务数据库的数据集中到一起要花费的时 间大大超过一个晚上,所以这个步骤要能分成多个阶段做。 3 4 数据仓库的需求分析 对保险业务流程、业务查询需求和数据环境进行分析后,结合保险公 司信息技术部门提出的一些具体的意见和建议。把保险公司业务数据库系 统的需求和系统设计要求总结成以下五个方面。 一、实现数据集中要求: 数据仓库必须能容纳现有的三个业务数据库的数据,即包括营销业务 数据库、直销业务数据库和老业务数据库,并且要实现数据的集成。在数 据仓库之上的应用能同时查询出这三个业务数据库的信息,并且对用户是 透明的。 二、数据仓库要实现数据自动装载: 因为保险公司的数据量比较大,人工来进行数据装载不可行。要实现 数据的自动装载,就必须针对目前保险公司的数据环境来设计实现一个数 据自动装载的工具。这个装载工具必须能从不同的数据库把数据经过清洗 和转换后加载到数据仓库中。 三、数据仓库要实现数据自动更新: 数据更新是保险公司数据仓库的核心问题,要实现自动的更新就必须 设计一个合理的更新方案并且编写程序来实现。数据仓库更新一般有两种 方法一种是删除所有数据,再重新装载但是这种方法非常消耗系统资源, 数据仓库越大越消耗时间,所以大的系统很少采用。另一种是追加的方式, 这种方式消耗的系统资源要少得多。保险公司的保单业务数据仓库的数据 更新采用第二种方法。 四、数据仓库要有很好的查询效率: 数据仓库的效率是很重要的,终端用户对效率的要求很高,如果每 一次的查询都很费时间,最终就没有人愿意使用这个系统。 五、数据仓库涉及的主题: 人寿保险公司保险业务数掂仓库没计与实现 经过分析提炼,总结出如下8 个主题,将围绕这8 个主题来 设计数据仓库的数据结构。 l 、客户个人信息; 2 、代理人基本信息: 3 、收付费信息; 4 、新单保费信息; 5 、续期保费信息; 6 、理赔信息; 7 、保全信息: 8 、佣金信息。 其中,“客户个人信息”是指保险公司所有客户的个人资料和历史服 务的记录,这些资料对公司是很重要的,比如可以通过这些资料来分析什 么样的人喜欢什么样的保险产品,以及什么样的人出现赔付案件的概率大 等。“代理人基本信息”是指代理人的个人资料、职级关系和历史业绩。 “收付费信息”是指对保险收费来源和金额的信息以及付费金额和对象 的信息,对这个主题分析可以明确公司的收支情况,便于开源节流。“新 单保费信息”是分析最初保险费的信息。“续期保费信息”是在最初之后 继续交费的信息。“理赔信息”是记录理赔案件详细内容的,这个对保险 公司减少赔付费用有很大帮助。“保全信息”是记录保单修改的内容的。 “佣金信息”是记录代理人每个月佣金数量分布的情况。 以上是对人寿保险公司保单业务数据仓库系统进行的需求分析,数据 仓库的建立就要围绕着以上五个方面进行全面的考虑。 人寿保险公司保险业务数据仓库设计与实现 4 人寿保险业务数据仓库的关键技术设计 4 1 查询优化的研究 数据仓库的数据结构对决策分析过程的速度有很大影响,优化查询速 度应当从数据仓库的数据结构开始。我对公司的不同层次的管理人员的信 息要求进行分析后,发现可以把决策支持的数据查询分成两类:数据密集 型( d a t a - i n t e n s i v e ) 和数据选择型( d a t a - s e l e c t i v e ) f 2 9 】。它们各自的特点是: 数据密集型:意味着无论使用索引方法还是扫描全表的方法都必须 访问海量数据。 数据选择型:意味着经管只涉及不太多的记录,但是包含非常复杂 的选择规则。 表4 一l 决策层次与查询的类型 在研究中发现决策层次越商的管理者会越多的涉及数据密集型的决 策查询,相反层次越低的管理者则越多的涉及数据选择型,中间的管理者 则二者兼而有之。数据仓库的查询优化主要是针对这两种类型的查询。目 前有两种基本的技术可必有效的进行优化以上两种类型的查询,分割 ( p a r t i t i o n i n g ) 和聚合( a g g r e g a f i o n ) 。其中分割主要能有效的提高数据密集型 的查询的速度,而聚合主要是能有效的提高数据选择型的查询的速度。 分割是把大的数据库表按某种逻辑分割成相对较小的数据库表。因为 查询往往只是涉及数据库表中的一小部分的数据,所以可以减少系统要扫 描的数据总量。具体的分割方法有两种:水平分s j j ( h o r i z o n t a lp a r t i t i o n i n g ) 和垂直分害l j ( v e r t i c a lp a r t i t i o n i n g ) 。水平分割是比较容易理解的,就是把一 g 人寿保险公刘保险业务数据仓库设计与实现 张大的数据库表分成多个比较小的表。小数据表的数据集合是原数据表的 一个划分,所以不会产生很大的冗余。比如可以把一年的数据按月份分成 1 2 份。垂直分割是指把数据按不同的字段值来分组分割。但这种方法有 可能产生很大的冗余。目前关系数据库产品不提供这样的分割功能,这样 要求数据库管理员手工进行分割。分割成多个小表后,给查询程序的编制 带来一定的困难。使用元数据来记录数据仓库数据分割情况可以让数据仓 库的数据结构对于查询程序透明。 聚集是把要查询的指标量提前进行计算,产生一组包含指标计算值的 记录,这样就可以在查询时直接使用,不用重复计算了,减少系统要扫描 的数据量。这种方法的关键是确定聚集的指标量,因为不可能将数据仓库 的所有指标都进行聚集,如果那样做,数据仓库的数据装载和更新都要占 用很多宝贵的计算机资源,何况不是所有的聚集结果都能被经常查询。在 确定要聚集的指标前必须对决策人员最感兴趣的指标进行调研,最终确定 聚集的指标。聚集方法采用层次汇聚的形式。可以按时间、地点等数据仓 库的维的不同粒度( u n i t s ) 来进行。一般情况下,同一个维中的同粒度之间 有从属关系。比如时间维,最大粒度可以是年,其次是季度,再次是月, 最小可以是天。聚集的过程是从最小粒度开始,按维的属性把指标量运算 形成聚集记录再加载到数据仓库中。使用元数据来记录数据仓库数据的聚 集情况可以让数据结构对于查询程序透明,方便查询程序的编制。以下的 两个图说明多维数据结构的聚集拶j i 。 p r o d u c ts a l e s0 r g 图4 - 1 销售额细节数据表和相关实体 人寿保险公司保险业务数据仓库设计与实现 p r o d u c 图4 2 销售额聚集例子 针对遇到的具体实际问题可以把两种技术混合使用,从而达到全局优 化的目的。因为对于小粒度的数据查询一般都是数据密集型的,对于大粒 度的数据的查询一般都是数据选择型的。所以对于粒度较小的数据( 基本 数据) 可以进行分害优化;对于粒度较大的数据( 综合数据) 可以利用汇聚。 对于保险业务数据库来说,首先将装有业务数据的主表,按年进行水 平分割,因为一般查询不跨年。这样每一个数据库表都比较小了,可以大 大提高数据仓库的数据密集型查询的速度。然后在已经分割的细节数据的 基础上进行聚集。经调研确定保险公司频繁使用的数据指标主要是不同保 险种类、不同分支公司在不同时间段的保单数量和保单关联的保费金额, 这些是要进行查询比较分析的主要内容。将每年中各个时间段的细节数据 按不同的保险种类和分支公司将保单数量和保费金额运算之后,添入聚集 表中。这样提交的查询在聚集表中存在,就不需要选择运算细节数据了, 为以后的综合查询和o l a p 应用打好基础。 4 2 数据仓库索弓l 技术研究 索引技术为数据库的应用提供了快速获取数据的手段,所以关系数据 库的索引技术一直很受人们的重视。在数据仓库的应用中使用索引提高 o l a p 是很必要的,但是数据仓库同数据库从结构到应用都存在很大区 别,所以需要研究一下数据仓库索引技术的选择。在o l t p 系统中,由于 2 0 人寿保险公司保险业务数据仓库设计与实现 插入、删除和更新操作频繁,而索引会影响这些操作的效率,所以经常要 作一些权衡考虑,对索引的使用采取谨慎的态度。在数据仓库系统中由于 在日常中没有交互操作为使用索引提供了一个良好的数据环埘l 。 一、索引技术 目前数据库产品发展的索引技术主要有:b + 树索引,二进制位图索 引( b i t m a pi n d e x e s ) 和连接索引( j o i ni n d e x e s ) 。不同索引的实现方法、用途 等各有不同,各有优缺点,对应不同种类的查询应用。 b + 树索引:b + 树索引是一种动态平衡调节树,它引入了一种效率很 高的外查机制。目前这种技术对索引的一系列写操作中,可以不通过对索 引页面进行写封锁也能实现写的完整性。b + 树索引比较合适于字段值分 散且重复值少的字段如普通的数据库应用和决策支持系统的应用等。 二进制位图索弓 ( b i t m a pi n d e x e s ) :目前数据仓库和联机分析的不断发 展,使b i t m a p 索引一度兴起。b i t m a p 索引的基本思想是:利用一个二进 制的位来表示索引和数据库中的实际值。b i t m a p 索引适合于字段值有大 量重复的字段。当建立b i t m a p 索引时,一个二进制字段边建立起来代表 索引的不同的值,用二进制串中的1 的位置来表示不同的数据值。由此根 据索引二进制位中的l 的位置便可判断其值。下图是保存各人信息的数据 库表的b i t m a p 索引。性别、省份等字段是字段值有大量重复的字段,可 以考虑在上面建立b i t m a p 索引。下图为性别而建立的b i t m a p 索引值表。 身份证号码性别所在省其他属性 4 4 0 1 0 2 7 6 0 1 2 6 4 0 2女广东 2 4 5 1 5 2 7 6 0 1 2 6 4 0 3 男四川 4 4 0 1 0 2 3 4 7 6 2 6 4 0 1 男广东 4 1 0 2 7 3 3 3 2 1 2 6 4 0 4 女广东 性别为男性别为女 ol 10 1o o1 图4 3 位图索引示意图 b i t m a p 索引是一种可选的索引模式,它提供了许多重要的性能优点, 除了大大提高查询速度外,就是节省数据存储空间,特别适用于大规模的 入寿保险公司保险业务数据仓库设计与实现 数据查询但又对数据更新要求不高的数据仓库。而且,这种索引可以和 b + 树索引并行执行。 连接索引( j o i ni n d e x e s ) :复杂的o l a p 查询语句通常需要多个表的连 接,因此提高多表连接的性能是一个重要的问题。连接索引技术就应运而 生了。连接索引的实现技术可能有多种,但都有以下特点:连接索引可以 看作是预先计算的连接。连接索引包括这样的索引项,它的内容是满足连 接要求的表的元组标志( t i d ) ,因此连接本身就可以看作一个表,它的每 一元组包括所有要连接的表的元组标志( t i d ) 。 连接索引当在其相关的表载入数据或插入元组是都要求把满足连接 条件的索引建立起来。例如部门的表d e p t 和雇员表e m p ,连接条件是 “d e p t c i t y = e m p c i t y ”。部分元组图如下: d e p t 表: dt i dd i l o c i 可 l 1 5 5d a 0 3 广东 l 1 0 9d b 0 1 上海 et i dt r i o c i t y 8 8 7e 0 0 0 1 广东 8 1 2e 0 9 8 7上海 7 1 2e 0 9 8 9 上海 9 4 9e 8 8 7 9 广东 根据连接条件的连接索引表 dt i det i d 1 0 97 1 2 1 0 98 1 2 1 5 58 8 7 1 5 59 4 9 图4 - 4 连接索引示意图 连接索引能够在多个表中建立起来,连接索引将所有符合连接条件的 连接记录下来。另外,连接索引可以和b i t m a p 索引混合起来使用,即在 连接索引中使用b i t m a p 技术,利用b i t m a p 的性质,指出实际表的值。二 进制位图索引和连接索引都适用于多维分析数据应用。 人寿保险公司保险业务数据仓库设计与实现 二、利用索引对s t a rs c h e m a 模型优化 假设一个百货商店数据仓库采用星型模型,其关系如下图:销售记录 图4 - 5 星型模型关系图 s a l e ( t i m e _ k e y ,p r o d u c t _ k e y ,s t o r e _ k e y ,m o n e y _ s a l e s ,m o n e y _ c o s t ) 是f a c t 表,有7 0 0 条记录,其中t i m ek e y 表示连接到维表时间t i m e 的外键, p r o d u c tk e y 表示连接大批维表销售产品p r o d u c t 的外键,s t o r ek e y 表示连 接到维表分店s t o r e 的外键。维表时间t i m e ( t i m e _ k e y ,y e a r ,m o n t h ,q u a r t e r ) 是销售时间的具体描述,共7 0 0 条记录。维表销售的产品 p r o d u c t ( p r o d u c tk e y ,d e s c r i p t i o n ,一是销售产品的具体描述,共3 0 0 0 条 记录。维表分店s t o r e ( s t o r ek e y ,s t o r e n a m e ,c i t y ,) ,是销售分店的具 体描述,共3 0 0 条记录。 假设有这样的查询,计算第一季度西部地区的商店杂货部门的销售总 额和效益总额,建立如下的s q l 语句: s e l e c ts t o r e s a l e s _ d i s t r i c t ,t i m e q u a r t e r ,s u m ( s a l e s d o l a r _ s a l e s ) r e v e n u e , s u m ( m o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论