




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西安电子科技大学硕士学位论文基于数据仓库的决策支持系统的研究和应用姓名:高文闽申请学位级别:硕士专业:计算机系统结构指导教师:曾平20050101摘要建立在数据仓库之上的决策支持系统被认为是当前及未来企业管理的主流技术,只有将数据仓库、联机分析技术和数据挖掘技术相结合,与企业先进的管理决策方法相结合,才能使数据仓库在企业的经营管理决策中发挥巨大的作用。本文首先介绍了数据仓库和联机分析技术,并讨论了与其相关的概念及其技术;接着通过作者参与的一个保险公司的决策支持系统,详细讨论了决策支持系统的设计思想、体系结构、功能特征等;最后对数据挖掘的概念、常用算法、挖掘模型进行了介绍,并在保险公司的决策支持系统中进行了部分尝试。由于在具体实现过程中采用了软件分层思想,从而提高了系统的灵活性、开放性和可扩展性。关键词:数据仓库 联机分析处理 数据挖掘AbstractDecision Support System via data warehouse has been widely viewed as animportant aspect of future software technologies,especially in the fields of enterprisemanagementAs long as the data warehouse is incorporated with OLAP,data miningand advanced decision ways of enterprise,the data warehouse Can play an importantrole in administering enterpriseThis paper firstly introduces data warehouse andOLAP,and secondly discusses the related concept and technologyThe paper,then viaa decision support system of an insurance company the author is concerned with,illustrates the designing idea,system construction and function propertiesFinally thepaper introduces the concepts,general algorithms together、析m models in data miningand makes a partial attempt in this insurance decision support systemLayeredsoftware architecture and middleware development mode are both adopted togain better performance of the flexibility,openability and extensibilityKeyword:Data Warehouse OLAP Data Mining创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:弛关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在L年解密后适用本授权书。本人签名:蚕童f虱导师签名: 评日期:塑!三:!:12日期:2掣第一章绪论第1章绪论11论文背景信息技术的高速发展,将人类带入了知识经济时代。现在,越来越多的企业认识到,企业要想在竞争中取胜,获得更大的利益,必须利用新技术,深层次的挖掘、分析历史和当前的生产业务数据,以及相关环境的相关数据,对于未来市场走向作出准确的判断。数据仓库的出现和发展是计算机应用到一定阶段的必然产物。八、九十年代,随着数据库技术的广泛应用,企业信息系统产生了大量的数据。随着市场竞争的加剧,人们产生了利用现有的数据,进行分析和推理,从而为决策提供信息的想法。这样的需求导致了决策支持系统(DSS)的产生。最初的决策系统是建立在数据库系统基础上的。但随着数据量的增长和查询的复杂化,这种基于事务处理的数据库帮助决策支持时却产生了很大的困难。主要原因是传统数据库的处理方式和决策支持中的数据需求不相称,导致传统数据库无法支持决策支持活动。为了解决这些问题,人们进行了不断的探索和尝试,逐渐形成了数据仓库的思想。可以说,数据仓库主要是供决策支持用的。不同层次的管理人员均可利用数据仓库进行决策支持,提供自己工作的管理决策质量和效果。因此,在数据仓库的实际应用中,其用户有高层的企业决策者、中层的管理者和基层的业务处理者。如何合理搭建数据仓库,构造决策支持架构,就成为本课题的研究和开发对象。本文通过作者参与的一个保险公司的业务分析系统,对于基于数据仓库的决策支持系统进行了深入的研究,提出了一个行之有效的方案。12论文工作我们的决策支持系统(Decision Support System,DSS)是以数据仓库为基础的,其构成如下:DW+OLAP+DM一DSS。数据仓库(DW)、联机分析系统(OLAP)、数据挖掘(DM)是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和组织,OLAP集中于数据的分析,数据挖掘则致力于知识的自动发现。它们可以分别应用到信息系统的设计和实现中,以提高相应部分的处理能力。本文作者的任务是对数据仓库的搭建、OLAP工具及部分关键的数据挖掘算法进行研究,并提出了一个循序渐进的方案,具体工作如下:基丁数据仓库的决策支持系统的研究和戍用 查阅了大量有关数据仓库和数据挖掘方面的文献,认真深入地研究了数据仓库的原理和设计过程,学习了关键的数据挖掘算法; 学习并掌握了OLAP分析工具-COGNOS; 融合传统的数据库和0LAP技术,提出了一种新的基于数据集市的多层OLAP模型,并进行了详细的分析和应用; 完成了部分数据仓库的建立。 利用部分数据挖掘算法实现了数据仓库的挖掘。本人在论文撰写过程中主要的创新点是: 系统地研究了数据仓库建立的过程; 提出了基于数据集市的多层0LAP应用模型; 成功研发了保险公司的部分业务分析系统。13论文结构全文共分六章,侧重于搭建数据仓库、构建数据挖掘模型两个部分。第一章:绪论,概要介绍本文的写作背景、论文工作以及本文的结构安排。第二章:数据仓库与联机分析处理,对数据仓库和OLAP的基本概念和基础知识作一些简要介绍,使初学者对数据仓库技术以及建立数据仓库过程有一个大致的了解。第三章:搭建保险业务分析系统平台,以作者开发的保险业务分析系统的建立过程为基础,详细介绍建立数据仓库和OLAP模型的一般过程、方法和注意事项。第四章:数据挖掘知识介绍,对数据挖掘的基本概念和基础知识作一些简要介绍,使初学者对数据挖掘技术以及构建数据挖掘模型的过程有一个大致的了解。第五章:构建数据挖掘模型,以作者开发的保险业务分析系统数据挖掘的建立过程为基础,介绍构建数据挖掘模型的一般过程、方法和注意事项。第六章:结束语,对作者丌发的保险业务分析系统数据仓库作一个简要评价,并提出尚需解决的问题。第2章数据仓库与联机分析处理第2章数据仓库与联机分析处理211数据仓库概念21数据仓库定义数据仓库是体系结构设计环境的核心,是决策支持系统(DSS)处理的基础。WHInmon在(Building The Data Warwhouse)对数据仓库作了这样的定义:数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程【11。212数据仓库特点1面向主题的(subjectoriented)它是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准。它能够从宏观上对企业中的某一分析对象进行比较完整和统一的描述,并能够较为一致地刻画此分析对象所涉及的企业的各项数据,以及数据之间的联系。比如,保险公司的数据仓库所组织的主题可能为:客户、保费、赔款等。而按应用来组织可能为:汽车险、财产险等。2集成的(integrated)原始数据与适合DSS分析的数据之间差别甚大。原始数据在进入数据仓库之前,必须经过加工与集成。这一步是数据仓库建设中最复杂、最关键的部分。首先要统一原始数据中的矛盾之处,如字段的同名异义、异名同义、单位不同一、字长不一致等等。其次,数据仓库中的数据并非是源数据库中数据的简单重复存储,它应该是按照主题和分析要求进行了不同程度上的数据综合和计算,以有利于不同角度和详细级别上的分析需求。3时变的(timevariant)主要表现在以下几个方面:首先,数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是60-90天,而数据仓库中数据的时间期限通常是5-10年。其次,操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。最后,操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。基于数据仓库的决策支持系统的研究和应用4非易失的(nonvolatile)数据仓库中反映的是历史数据的内容,数据仓库不需要事务处理、恢复和并发控制机制,数据仓库里的数据不进行实时更新。通常,它只需要两种数据访问:定期的数据装入和数据访问。数据一经装载放进数据仓库中就具有了相对的稳定性,除非特别需要,其值一般不会被更新。21-3数据仓库与数据库系统的差异尽管数据库系统在事物处理方面的应用获得了巨大的成功,但它对分析处理的作用一直不能令人满意,尤其是当以业务处理为主的联机事物处理(OLTP)应用与以分析为主的DSS应用共存于同一个数据库系统时,两种类型的处理发生了明显的冲突。人们逐渐认识到,事务处理和分析处理具有极不相同的性质。两者之间的差异如表21所示。表21 数据库与数据仓库的差异数据库 数据仓库数据内容 当前值(存活最多六个月) 备份、综合、计算数据组织 面向应用操作(ER模型) 面向主题数据特性 动态(有日志) 相对稳定数据结构 复杂、易于操作 简单、易于分析存取频率 高(上千项等) 中、低存取结果 记录层的存取要求 以聚集方式的集合存取存取方式 反复的事物存取模式 定期的报告式的特定查询数据操作 更新 查询、无直接更新访问特点 高度重复操作 较多随机性响应时间 秒级 数秒到数分钟以上驱动方式 事件驱动;过程产生数据 数据驱动;数据支配过程规模 几个GB 可达IOOGB从表21可以看出,数据仓库系统和数据库系统是极不相同的。传统的数据库技术是以单一的数据资源,以数据库为中心的,进行从事务处理、批处理等各种类型的数据处理工作,注重的是事务处理的实时性和高效率。而数据仓库是针对分析处理的,数据仓库并不是改正过去数据库的缺点,而是为了适应分析处理环境而出现的一种新的数据存储和组织技术。第2章数据仓库与联机分析处理22数据仓库的结构221数据仓库的体系结构典型的数据仓库的体系结构如图21所示。数据仓库I旌测与维护数据源数据集市数据存储与管理i; ;l OLAP服务器 前端工具li l图21数据仓库体系结构图如图21所示,一个数据仓库系统应该包含以下部分: 数据源 数据存储与管理OLAP服务器 前端工具1数据源为数据仓库提供数据源,包括联机事务处理系统(OLTP)的数据库、数据文件等内部数据源和市场调查报告及各种文档资料的外部数据源。2数据存储与管理在确定数据仓库信息需求后,首先进行数据建模,然后对源数据进行抽取(Extraction)、净化(cleanse)、转换(Transformation)、加载(Load)过程,其功能是把数据从各种各样的存储设备中取出来,对数据进行检验和整理,并根据数据仓库的设计要求,对数据进行重新组织和加工,转换成数据仓库的数据库园囤囤6 基r数据仓库的决策支持系统的研究和应用结构和内部形式并加载到数据仓库的数据库中。除了主数据仓库,门性的数据集市,数据集市是为了各种特殊需要而设计的数据库。3OLAP服务器OLAP服务器负责将数据转化成多维视图或存入多维数据库,户提出的数据请求。4前端工具还存在许多部处理并响应用用于完成实际决策问题所需的各种查询检索工具、多维数据的联机分析(OLAP)工具、数据挖掘(DM)工具等,以实现决策支持系统的各种要求。222数据仓库的数据组织结构数据仓库是存储数据的一种组织方式,它从传统的数据库中获得原始数据,先按决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)。一个典型的数据仓库的数据组织结构如图22所示。图22数据仓库的数据组织结构高度汇总数据轻度汇总数据当前详细数据过去详细数据从图22可以看出,数据仓库中逻辑结构数据由4层数据组成,它们均由元数据(MetaData)组织而成。在数据仓库中的数据分为四个级别:第2章数据仓库与联机分析处理 7 早期细节级早期细节数据指存储过去的详细数据,它反映了真实的历史情况。这类数据随着时间的增加,数据量也变得很大,但使用频度低,一般存储在转换介质中(如磁带)。 当前细节级当前细节数据指最近时期的业务数据,它反映了当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转换为早期细节数据。轻度综合级轻度综合数据指从当前基本数据中提取出来,以较小的时间段(粒度)统计而形成的数据。这类数据较细节数据的数据量小的多。 高度综合级这一层的数据十分精练,是一种难决策的数据。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。上述不同的综合级别,一般称之为“粒度”。2221元数据数据是对事物的描述,数据仓库中的元数据是关于数据的数据。也正是因为有了元数据,才使得数据仓库的最终用户可以随心所欲地使用数据仓库,对数据仓库进行各种模式的探讨。元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。数据仓库的元数据主要包含两类数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源数据项的名称、属性及其在提取仓库中的转化;第二种元数据在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映射的,这种数据成为决策支持系统(DSS)元数据,它包括:1数据仓库中信息的种类、存储位置、存储格式;2信息之间的关系、信息和业务的关系、数据使用的业务规则:3数据模型4数据模型和数据仓库的关系基于数据仓库的决策支持系统的研究和应用2222粒度粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数扼的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度分为两种形式,第一种粒度是我们通常所说的粒度,是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。另一种特殊形式的粒度是样本数据库,样本数据库是以一定的采样率从细节档案数据或轻度综合数据中抽取的一个子集。与通常意义的粒度不同,样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别。以上这两种形式粒度的本质区别为:前者是时间段上信息的综合,后者是建立在不同时点上的粒度。在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。粒度过小会造成数据仓库中数据的大量堆积,当需要查询一些综合性的问题时,就必须从大量细节数据中综合并计算答案,效率会变得十分低下。粒度的提高有助于提高查询效率,但同时也会造成回答细节问题能力的降低。因此,在数据仓库中,一般将数据划分为多重粒度。不同粒度级别的数据用于不同类型的分析处理。2223分割分割是数据仓库中数据的第二个主要的设计问题。数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。在数据仓库中,围绕分割问题的焦点不是该不该分割而是如何去分割的问题。如果粒度和分割都做得很好的话,则数据仓库设计和实现的几乎所有其他问题都容易解决。但是,假如粒度处理不当并且分割也没有认真地设计与实现,这将使其他方面的设计难以真正实现。在数据仓库环境中,问题不是要不要对当前细节数据进行分割,而是怎样对当前细节数据进行分割。在选择数据分割标准时,一般需要考虑以下几个方面的因素:1数据量的大小。数据量的大小是决定是否进行数据分割和如何进行分割的主要因素,如果数据量较小,可以只用单一的标准将数据分割成数目较少的若干分片;如果数据量很大,就应该考虑采用多重标准的组合来较为细致的分割数据。第2章数据仓库与联机分析处理 92数据分析的对象。数据分割同数据分析处理的对象紧密联系,也即对于不同的主题,其数据分割所采用的标准就不同。例如,对于商品这样一个主题,因为人们经常对其进行分类分析或聚类分析,因此一般采用对商品进行分类来进行数据的分割。而对于供应商这样一个主题,则更常采用按照地理位置这样一个分割标准。3选择用以数据分割的标准应当易于实施。例如采用时间进行数据的分割往往是易于实现的。另外,按照业务部门进行数据分割也是易于实现的,因为同一业务的数据来自同业务部门,其源数据库系统是一样的,且位置相邻,易于保存和修改,并且可以在数据仓库获取数据的同时进行分割。4进行数据分割设计时,更重要的是要将数据分割标准与粒度的划分策略统一起来。例如,对于商品主题,其粒度划分可以按时间和商品类别来划分,那么在进行数据分割时,就应该对每一粒度层次上的数据都按时间和商品类别的组合标准来进行分割,以便对每个分片在时间和商品类别上进行再综合成为更高层次粒度的数据。2224数据集市数据仓库系统中另一个重要的组件是数据集市,原始数据从数据仓库流入到不同的部门中以支持这些部门的定制化使用,这些部门级别的数据库就称之为数据集市。数据集市相当于部门级数据仓库,是小型的、面向部门或工作组的,不同的数据集市可以按照业务的分类来组织数据。规模小、面向特定应用、面向部门是数据集市的显著特征。数据集市是数据仓库有效的和自然的补充。数据集市延伸决策支持到部门级环境中。数据仓库是提供粒状数据并且不同数据集市应用不同的方法来解释和构造这种粒状数据以满足部门决策的需要。对数据集市来说最适当的数据源是数据仓库。建设一个数据仓库是一个代价高、交付进度慢的大项目。许多企业为了节省成本,总是先从最关心的部分开始,先以最少的投资,完成企业的当前的需求,获取最快的汇报。数据集市就为企业提供了一条分析数据的廉价途径。23联机分析处理技术1993年,关系数据库之父EFCodd(Providing OLAP To User Analysts:A ITMandate)一文中第一次对OLAP做了明确定义。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大量数据库进基丁数据仓库的决策支持系统的研究昶I应用行的简单查询也不能满足用户分析的需求。用户的决策支持需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据分析的概念即OLAP。231定义及特性OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化过来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术pJ。其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。OLAP的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支持的支柱,也是OLAP的核心。多维结构中的维与一般意义上的物理维(如平面、立体)是有所区别的,它是超立方体和多立方体的数据结构。我们可以利用分析工具对多维数据结构进行切片、切块、向上钻取、向下钻取和旋转等处理得到所需的决策支持数据。随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据,而OLAP则侧重于数据仓库的数据分析,两者正好相辅相成。1993年,EFCODD规定了OLAP的十二条规则【11】:1OLAP模型必须提供多维概念视图;2透明性准则;3存取能力准则;4稳定的报表性能5智能化的客户N务器体系结构;6维的等价性和通用性;7动态稀疏数据矩阵处理8支持多用户;9支持非限定的交叉维操作;10能直接访问数据;1 1具有随机灵活的报表机制;12提供不受限制的维和聚集级别。第2章数据仓库与联机分析处理然而,EFCODD的十二条准则并没有得到广泛的承认,随着OLAP的发展,人们又提出了比较简洁的五条原则,就是所谓的FASMI(Fast Analysis ofSharedMultidimensional Information)1 1 21:1多维性(Multidimensional)多维性是OLAP的关键属性,是OLAP的灵魂。系统应能够提供对数据分析的多维视图和分析,包括对层次维和多重层次维的支持。2快速。生(FasOOLAP处理的数据量非常的庞大,并且根据各种不同的需求要进行很多计算。OLAP的速度应能够满足用户的要求。3共享性(Shared)能够提供数据共享机制,包括数据保密安全需求和并发性数据更新的控制。4可分析性(Analysis)能够处理与用户相关的商业逻辑和统计分析,能够随时解决用户的任何查询。通过分析详细数据和概括数据,提供业务所需要的汇总信息。5信息生(Information)OLAP的最终目的是提供信息,包括所有与用户应用相关的信息和所有数据,并且能够支持决策。232概念维是人们观察数据的特定角度。OLAP的显著特征是能提供数据的多维概念视图。数据的多维视图使最终用户能多角度、多侧面、多层次地考察数据库中的数据,从而深入地理解包含在数据中的信息及内涵。2321数据立方体,维,度量,层次数据立方体是根据数据的维的数目而组织的一组数据单元。维是立方体的一个结构属性,它是一个成员的列表。从数据的用户的角度来看,这些成员都具有相似的类型。维就是相同类数据的集合。维有自己固有的属性,如层次结构、排序、计算逻辑。这些属性对决策支持是非常有用的。度量是数据立方体的一个特殊的维,描述了数据立方体的延伸,通常是数值型的值。层次是变量的集合,层次描述了同样的维的不同的聚合程度,并且通过映射链接。12 基于数据仓库的决策支持系统的研究和应用2322多维数据结构1超立方结构(Hypercube):超立方结构指用三维或更多的维数来描述个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维)。2多立方结构(Multicube)即将超立方结构变为子立方结构。面向某一特定应用对维进行分割,它具有很强的灵活性,提高了数据(特别是稀疏数据)的分析效率。多立方结构灵活性大,但超立方结构更易于理解。终端用户更容易接近超立方结构,可以提高水平的报告和多维视图。但多维分析的MIS人员经常利用多立方结构,因为它具有良好的视图翻转性和灵活性。2323基本分析动作“多维分析指对以多维形式组织起来的数据采取切片、切块、旋转等动作,剖析数据。多维分析方式迎合了人们自然的思维模式,减少了混淆,在最大程度上降低了出现错误解释的可能性。 切片在多维立方体的某一维(或二维)选定成员的动作称为“切片。按照定义,数据进行“切片”以后,维数比“切片”以前少l(或2),它的最终结果应该由除“切片”所在平面两个维以外的其他维的成员数值所决定。维是观察数据的角度,那么“切片”的作用就是使得某些角度暂时被舍弃,在人们想象力受到限制的情况下,考察、分析多维数据时适当进行切片具有很强的现实意义和实用性。 切块在多维立方体的某个维度上选定某一区间的维成员的动作称为“切块”,即限制该维度的取值区间。显然,当这一区间只取一个维成员时,就得到一个切片。“切块”可以看成是在切片的基础上,进一步确定各个维成员的区间得到的片段体,也即多个切片叠加起来的。“切片”和“切块”的动作在OLAP中又称为“过滤”。其作用主要是用各种条件来限制用户的查询结果,数据进行适当过滤后,查询将返回较少的行,从而缩小访问范围,提高分析效率。 旋转即改变查询、分析结果的显示,比如交换行和列、构建复杂的多维报表等。“旋转”操作的主要目的是使最终的结果能够更直观地进行呈现,方便制作各类报表,让用户更容易理解和接受。第2章数据仓库与联机分析处理 钻取指在维度的多个层次类别之间相互转换,调整查看数据的不同详细程度。通常将“详细数据”到“汇总数据”称为“上钻”,反之称为“下钻”,这两种钻取是可以相互切换的。考察指标时可以从“年”下钻到“月”,反之也可以从“月”上钻到“年”。233 0LAP的体系结构OLAP是介于客户与数据仓库之间的数据分析处理系统,它需要对来自数据仓库的数据进行多维处理和分析,因此在系统的构造中常常采用三层客户N务器机构。图23为OLAP的三层客户服务器体系结构图。 习。一数据仓库J7 0LAP服务器 前端展现工具图23 OLAP三层客户服务器体系结构图第一层是数据仓库服务器,它实现与业务数据库系统的连接,完成企业级数据一致和数据共享的工作。第二层是OLAP服务器,它根据最终客户的请求实现分解成OLAP分析的各种分析动作,并使用数据仓库中的数据完成这些动作。第三层是前端的展现工具,用于将OLAP服务器处理得到的结果用直观的方式,如多维报表、饼图、柱状图、三维图形等展现给最终用户。这种三层体系结构的优点在于将应用逻辑(或业务逻辑)、图形用户接口GUI及数据库管理系统DBMS严格区分开。复杂的应用逻辑不是分布于网络上的众多PC机上,而是集中存放在OLAP服务器上,由服务器提供高效的数据存取,安排后台处理以及报表预处理。当系统需要修改功能或者增加功能时,可以只修改三层中的某些部分,而不需要向两层的客户服务器体系那样做整体的改动。234 0LAP的数据组织模式根据数据仓库中的数据结构以及在数据仓库中存储的物理组织方式的不同,可将OLAP分成以下几种结构:关系型OLAP(ROLAP)、多维OLAP(MOLAP)以及混合型OLAP(HOLAP)。ROLAP的底层数据库是关系型数据库。ROLAP将多维数据库的多维机构划分为两类表:一类是事实表,用来存储数据和维关键字:另一类是维表,即对每14 基于数据仓库的决策支持系统的研究和应用个维至少使用一个表来存放维的层次、成员类别等维的描述信息,且两者通过主键和外键联系起来。ROLAP的结构如图24所示。图24关系OLAP结构图客户从ROLAP结构图中可以看出,用户通过客户端工具提交多维分析请求给OLAP服务器,服务器响应请求,将分析结果经多维处理转化为多维视图返回给用户。在ROLAP结构中,数据预处理程度一般较低。ROLAP的主要特点是灵活性强,用户可以动态定义统计或计算方式。ROLAP的缺点是它对用户的分析请求处理时间要比MOLAP长。2342 MOLAPMOLAP利用一个专有的多维数据库来存储OLAP分析所需的数据,数据以多维方式存储,并以多维视图方式显示。MOLAP以多维数据仓库为核心,使用多维数据库管理系统来管理所需要的数据或者数据仓库。各OLTP数据库中的数据经提取、清洗、转换、综合等步骤后向多维数据仓库提交。这些数据在被存入多维数据库时,将根据它们所属于的维进行一系列的预处理操作(计算和合并),并把结果按一定的层次结构存入多维数据库中。多维数据仓库依靠“维来形成超立方体结构而产生旋转、切片或者切块、上钻、下钻等操作。用户通过客户端的应用软件的界面递交分析需求给OLAP服务器,再由OLAP服务器检索MDDB数据库以得到结果并返回给用户。MOLAP结构如图25所示。图25 MOLAP结构图第2章数据仓库与联机分析处理从MOLAP结构图可以看出,MOLAP将数据库服务器层与应用逻辑合二为一,数据库和数据仓库层负责数据存储、存取、及检验:应用逻辑层负责所有OLAP需求的执行,来自不同事务处理系统的数据通过一系列处理过程载入多维数据仓库。MOLAP结构的主要优点是,它能迅速地响应决策支持人员的分析请求并快速地将结果返回给用户,这得益于它独特的多维数据库结构以及存储在其中的预处理程度很高的数据(一般预处理度在85以上)。但是在MOLAP结构中,OLAP服务器主要是通过读预处理过的数据来完成分析操作,而这些预处理操作是预先定义好的,这就限制了MOLAP结构的灵活性。2343 ROLAP与ld0LAP的比较ROLAP中没有预计算的数据,因而数据冗余小。由于数据采取的是关系型格式,而不是多维格式,因此进行数据分析需要时间较长。MOLAP是基于多维数据库而进行的分析,因此除了基础关系型数据库外,数据仓库必须承担额外的数据存储。然而,这些数据是压缩的,并采用位图索引,所需的存储空间要比原始的关系型数据库要少。就查询分析的效率而言,MOLAP要明显高于ROLAP。另外,ROLAP中为优化查询性能就必须设置索引。由于分析查询的复杂性,索引的选择和设置也同样会变成一个复杂的问题。同时索引的存在会影响数据更新时的速度,并占用一定的计算资源。相比之下,MOLAP中的多维数据采用的是位图索引,具有相对高效。由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,为此一个新的OLAP结构混合型OLAP(HOLAP)被提出,它结合了MOLAP和ROLAP的优点。对于常用的维度和维层次,HOLAP使用多维数据表来记录,对于用户不常用的维度和数据,HOLAP采用类似于RLOAP星型结构来存储。16 基丁数据仓库的决策支持系统的研究和应用图26 HOLAP ArchitectureHOLAP的多维数据表中的数据维度少于MOLAP中的多维数据表,数据存储量小于MOLAP,但是,HOLAP在数据存取速度上又低于MOLAP。HOLAP在主要的性能上介于MOLAP和ROLAP之间,其技术复杂度高于ROLAP和MOLAP。24星型结构和雪片结构1星型结构目前大部分数据仓库都采用“星型模型”来表示多维概念模型。星型模式是最流行的实现数据仓库的设计结构。星型模式是一种关系型数据库结构,它通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来执行典型的决策支持查询。星型模型通过降低需要从磁盘中读取的数据量来有助于提高查询性能。这是因为分析和查询比较小的维度表中的数据来获取维度关键字以便在中一tl,的事实表中索引,可以降低扫描的数据行。在星型模型的实现当中,以关系数据库实现的数据仓库中一般都包括一张事实表,对于每一维都有一张维表。在该模式的中间是事实表,周围是维度表。信息数据在事实表中维护,维度数据在维度表中维护。事实表包含了描述特定时间的数据,以及任何数据合计,例如每一个地区每月的销售情况。一般地,事实表中的数据是不允许修改的,新数据只是简单地增加进去。维度表包含了由于参考存储在事实表中数据的数据,是数据仓库中数据的分类信息,例如产品描述、客户姓名和地址、供应商信息等。把特征信息和特定的时间分开,可以通过减少在事实表中扫描的数据量提高查询性能。2雪花模型在实际的应用中,人们观察数据的角度是多层次的,也就是说数据的维往往不仅仅只有一个维层次。对于维内层次特别复杂的维,用张维表来描述会带来过多的冗余数据。为了避免冗余数据占用过大的空间,我们可以用多张表来描述第2章数据仓库与联机分析处理一个复杂维,这样在“星”的角上又出现了分支。这种扩展的星型模型被称为“雪花模型”。雪花模式是星型模式的一种扩展形式,在这种模式中,维度表存储了正规化的数据,这种结构通过减少磁盘读的数量而提高查询性能。维度表分解成与事实表直接关联的主维度表和与主维度表关联的次维度表,次维度表与事实表间接关联。它对星型模型维表进一步层次化,原有的维表可能被扩展为小的事实表,形成一些局部的“层次区域。雪花模式的优点在于,通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。25数据仓库建立的两技术条路线我们知道,企业对于数据处理的要求是多层次的。基层管理主要是操作管理。中层管理需要进行简单的分析,面向的是具体部门。高层管理的主要任务是进行企业发展的战略性决策支持,他具有很高的权限,并且可以从各个局部数据仓库、全局数据仓库中抽取数据。建立数据仓库也具有层次性,一种直观的建设方法是“自项向下。首先建立全局级的数据仓库,然后从全局级的数据仓库中为各个部门抽取必要的数据建立部门级别的数据仓库,这种方法对于维护全局数据的一致性非常有利。所有的数据在进入全局数据仓库后都进行了清洗和整理,而后才分发到各个局部数据仓库中,数据的一致性只需在全局数据仓库的入口处做工作。但是,在实际的工程中,企业现有的业务系统很多,并且在建设数据仓库之初,企业人员本身很难提出比较清晰的全面的需求。企业要一步建成一个全局级的大规模数据仓库,周期长,投资大,风险高。后来,通过人们的不断摸索,逐渐总结出了“自低向上的建设方法,即首先建立一个或少数几个数据集市,随着项目的发展再逐步推进,最后从各个数据集市中再次进行数据抽取建立全局数据仓库。26数据仓库的开发流程数据仓库不同于数据库,数据仓库有其自身的开发特点。创建一个数据仓库将有很多工作需要完成。如图27所示。开发数据仓库需要完成的工作包括:基于数据仓库的决策支持系统的研究和应用1数据仓库的规划。包括建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。图27数据仓库开发过程流程2选择实现数据仓库的软硬件资源。包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标如:可用性、装载、维护及查询性能等。3确定主题进行仓库结构设计。数据仓库是面向决策支持的,具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。4数据仓库的物理库设计。基于用户的需求,着眼于某个主题,开发数据仓库中数据的物理存储结构。5数据抽取、精练、分布。根据数据仓库的设计,实现从源数据抽取数据、清理数据、综合数据和装载数据。6数据仓库的OLAP访问。建立数据仓库的目的是要为决策支持系统服务,需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、CS工具及数据挖掘工具,通过分析工具实现决策支持需要。第3章搭建保险业务分析系统平台 19第3章搭建保险业务分析系统平台财险分析决策支持系统的主要功能是帮助财险行业中高层领导人员按照现代科学管理的原则、程序和方法,对保险企业的各项经济活动进行决策、计划、组织、指挥、监督和协调,从而以尽量少的劳动耗费,取得最佳经济效益。1保险业务管理保险业务管理是指对保险企业经营活动中的各险种的承保、理赔等环节的管理,以保险业务为基础,通过组织、指挥、协调和控制,以达到保险企业预期经营目标的一种主管能动行为。保险企业业务管理的目的在于通过对市场的调查,了解掌控市场对保险的需求与变化,分析各种风险,设计相应的险种,加强风险管理研究,发展保险经济补偿作用。从而促进保险企业业务管理技术和经营管理水平的提高,以实现保险企业经营的预期目标。2保险财务管理保险企业的财务管理就是对企业的财务活动进行组织、计划、指挥、调节和监督,它贯穿于企业经营活动的全过程。保险企业财务管理的内容包括:资金管理、财务收支管理、成本和费用管理、利润分配管理。保险企业财务管理在一定程度上综合反映企业的经营管理水平。“建立数据仓库不是一蹴而就的。相反,数据仓库只能一次一步地进行设计和载入数据,即它是进化性的,而非革命性的。突然建立一个数据仓库的费用、需要的资源和对环境的破坏,都表明数据仓库的建立要采用有序地反复和一次一步的方式。我们的保险业务分析系统就是基于以上数据仓库建设的原理,分两步建立的,即先建立部门级数据集市,而后建立企业级数据仓库。以下我们就以财险公司中业务比重最大的机动车险为例,结合第二章中介绍的数据仓库设计和创建过程等知识,来实际建立一个机动车保险信息分析系统。本人主要负责OLAP的建模、多维立方体的创建及最终的界面设计等工作。31数据仓库的建立由于保险公司的业务系统使用是Informix数据库,考虑到数据的兼容性问题,我们选用了Informix的数据仓库解决方案。311 Informix数据仓库解决方案1可伸缩性,具有并行处理能力的关系数据库系统(RDBMS)20 基丁-数据仓库的决策支持系统的研究和应用Informix是著名的关系数据库厂商,国内许多金融机构、电信运营商的主流数据库采用的就是Informix。Informix认为数据仓库的核心是关系数据库。数据仓库的一大特点在于其构建、维护和使用过程都处于不断的变化中,不断进行数据的转换、载入、计算、输出及刷新。随着数据量的增大,数据仓库的规模会越来越大,可能会达到TB级。因此,需要使用可伸缩的数据库服务器,在不影响现有数据可用性的前提下,允许增加计算机资源和用户。Informix的数据库技术一动态可伸缩体系结构(DSA),可以完成上面的目标。它建立在高性能的并行处理结构上,能够提供接近线性的可伸缩性。它还提供了数据库灵活的数据划分模式。在大型主机上的超大规模数据库(VLDB)的动态系统管理方面,DSA表现尤为出色。基于DSA的InformixOn Line DynamicServer为运行在单处理器和SMP硬件平台上的数据仓库应用提供了可伸缩性。它可以根据不同平台的特征提供对VLDB的支持。InformixOnLine ExtendedParallel Server(OnLine XPS)将DSA扩展到松散耦合或SN(Sharednothing)体系结构中(包括群集的SMP系统和MPP系统),这对管理数据仓库中的大容量数据来所变得日益重要。2数据模型数据模型是用来刻画数据形态的,是数据描述、存储的架构和基础。在数据进入数据仓库之前,首先从源数据库中选择相关的操作数据,然后将其按一定模型映射到数据仓库中。这一集成过程会涉及到一系列编码、命名及计算的转换规则,这些规则随时间和数据源的不同而不同。数据仓库采用何种数据模型是与用户的分析请求密不可分的。由于数据仓库是服务于数据分析的,尤其是多维数据分析,因此Informix提出了不同于以往ER模型的多维模型。3数据仓库管理软件数据仓库管理软件可以自动完成数据映射、抽取、转换和维护。4数据访问工具Informix提供了包括应用开发工具、联机分析处理(OLAP)工具、数据挖掘(Data Mining)工具和最终用户查询及报告工具在内的多种数据访问工具,以满足不同人员的使用数据仓库的不同需求。Informix提供的OLAP工具为MetaCube,它具有独特的查询优化机制,能够提供良好的查询性能,但对于权限的管理比较弱。故本系统采用的OLAP工具为Cognos。312系统运行环境硬件环境:第3章搭建保险业务分析系统平台数据仓库服务器:Unix小型机或服务器应用服务器:普通服务器前端:PC机网络:以太网软件环境:数据仓库服务器端:Informix IDS应用服务器端:Windows 2000,Cognos前端:Windows 98xp,IE50以上。313概念模型设计1界定系统边界保险公司的业务都是按照险种区分的,各险种又分承保、理赔两大块。决策者们关心的焦点就是每日、每月、每年的保额、保费、承保数量、赔款金额,以及结案率、赔付率等指标,所以数据仓库系统反映的分析目标应该集中在这些问题上。2确定主要的主题域及其内容根据对原有数据库系统的分析,考虑到保险公司经营决策者的分析要求,我们确定机动车数据仓库系统应该包含以下主题域:承保情况、理赔情况、报案情况。314逻辑模型设计根据前一步确定的主题域,分析机动车系统已有的数据源,定义数据仓库的记录系统,建立起数据仓库与业务系统分散的数据库之间的对应关系。考虑到车险分析系统的复杂性,我们将数据仓库的数据粒度详细到每一张保单。315物理模型设计将上面设计好的数据仓库的逻辑模型转换为在数据库中的物理表结构。316数据仓库数据抽取数据仓库数据抽取功能是指从保险业务系统中抽取业务数据,按照上面定义的物理模型对数据加以组织并存入数据仓库中,抽取工作分两步进行:1自编数据抽取程序,将业务系统中的历史数据进行清洗后装载入数据仓库系统。2定时对新增的数据执行追加操作,添加到数据仓库中。步骤如下:基于数据仓库的决策支持系统的研究和应用在业务系统的有关表上建Trigger,当有新数据写入或数据修改操作发生时,随时将发生的变化写入相关表中。编制增量抽取程序,通过系统调度在每日的晚上定时自动运行,将新增数据装载进入数据仓库。32数据访问和呈现在数据访问呈现层次,我们选用了Cognos多维分析工具。Cognos公司成立于1969年,总部位于加拿大的渥太华,公司在全球135个国家和地区拥有22000个客户,在商业智能技术方面居于全球比较领先的地位。321 Cognos产品介绍1Impromptu-一数据查询和即席报表生成工具Impromptu是企业级、交互式数据库查询和报表生成工具。该产品有如下特点: 信息管理员通过定义Catalog(信息目录)将数据库的数据结构按业务用户的需求和数据访问规则来展现,此类似于数据仓库的数据视图,使用户面对的不是后台复杂的数据结构和技术细节,而是自己熟悉的业务术语、数据结构。Catalog(信息目录)的建立为业务人员查询系统信息带来极大方便。 是一个面向最终用户的产品,但需要信息管理员的密切配合。由信息管理员定义信息目录,屏蔽后台复杂的数据结构,最终用户可对信息目录中的数据按自己的需求进行查询、重组、运算和汇总,快速、方便地生成即席报表,无需任何编程。系统提供了丰富的流控、计算、函数功能,也可使用所联数据库系统的计算和函数等。另外,用户还可根据需要自己定义函数; 具有良好的企业级安全管理机制。产品分管理员版和普通用户版。除继承数据库本身的安全管理特征外,还可按用户特征将用户分成不同的安全级别,不同级别的用户对应不同的信息访问权限。可安全控制到对具体某条记录、某个字段项或某个派生计算项的访问。整个安全性在企业内部可自顶向下的继承和全企业的覆盖。信息管理员可方便地进行监控和管理;第3章搭建保险业务分析系统平台 用户根据业务需求可制作一系列相互关联的报表,即报表之间能够互相钻取与查询,例如从汇总报表查询到详细报表。为用户定制报表模板(一种业务中常用的报表形式)的方式来批量生成同类格式的报表; 报表数据显示形式多种多样。可用表格,也可用图形,如直方图、饼图、曲线图、棒图等。且表、图可以同屏显示。报表还可以在Intemet网上发布。2PowerPlay一一在线分析处理(OLAP)工具PowerPlay以数据库、平面文件等作为多数据源,通过Transformer Server这一独立组件,按用户对其业务主题的理解,建立数据之间的相互关系(OLAP模型),生成多维立方体(PowerCube)-一分析数据源,用户可在此多维立方体中对数据进行多维在线分析,并可实现多维立方体之间、多维立方体与Imprompm报表之间的相互钻取(由Transformer生成多维立方体的算法是Cognos公司的专利技术)。该产品具有以下特点: 具有面向业务主题的在线分析处理模型设计器(Transformer Server); 通过鼠标拖拉即可实现任意地方的切片、旋转、钻取,具备真正的在线分析处理(OLAP)功能,用户界面友好; 在分析过程中可形成、输出OLAP报表,并可对其数据进行计算、编辑等操作,界面类似微软的Office,报表呈现方式多种多样,可表可图,也可把图和表放在同一屏幕显示,而且在对数据作分析时,数据与图形可同屏连动; 多维立方体有多种存储方式,可存入共享服务器上,可存入本地PC机上,还可存放到服务器端的数据库中,使多用户共享。其复制、备份以及恢复等维护和管理功能可由数据库系统来实现; “分析然后查询”(Analysisthen-Que巧TM)是Cognos公司的专利技术,它使多维立方体之间能够相互钻取;它也可从多维立方体钻取到Imprompm生成的报表;多维立方体可通过加密由Intemet网分发给相关用户; 支持大数据量的OLAP分析处理;Cubes生成以后,独立于原关系数据库,且对原数据有10:l的压缩,响应速度在同类产品中有比较明显的优势; 在PowerPlay中,管理员同样具有对Cube访问的控制能力。因此,用户对它访问的权限同样也十分重要。例如,部门领导限于查看其管辖部门内的详尽数据而只可查看其它部门的主要汇总数据,这时可将各个部门的数据作一定的限制和安全处理;再比如,根据用户的不同级别,允许上级拥有下级的所有数据访问权限而限制下级对上级的数据访问权限和24 基丁I数据仓库的决策支持系统的研究和应用数据访问范围。PowerPlay还具有定制用户类的管理模式,将同等级别和访问数据范围相同的用户归于一类。3Enterprise PowerPlay Server一一是PowerPlay企业级的服务器。由应用服务器和Web服务器组成。可在Intemet、广域网和局域网上发布Cubes并作为在线分析运行平台。Enterprise PowerPlay Server是在装有wWw服务器上管理和发布应用系统的Cubes,使得用户有以下三种方式访问Cubes,且响应速度依然以秒级或微秒级计算:(1)浏览器方式,在客户端无需安装任何产品,用户只用Netscape或IE浏览器并拥有其数据访问权限即可随意对Cubes作在线分析处理。(2)Windows方式,用户以此方式访问远程Cubes如同在本地操作一样。在客户端安装PowerPlay for Personal Server,用户可在本地创建和管理自己的Cubes。(3)Excel方式,对喜欢运用Microsoft Excel的用户,他们可以保留使用电子表格的习惯并以Excel访问本地或远程Cubes。4Transformer(WindowsNT和UNIX版)Transformer是PowerPlay中一个重要的组件,也是一个OLAP服务器。主要用来创建模型,帮助你组织数据,将不同数据源的数据整合到PowerCube当中,形成多维数据源。根据生成好的PowerCube,可创建各种报表,比较数据和发现业务发展趋势。它主要包括如下特点: 易于定制。从评估数据开始,然后决定如何组织它们,以有利于业务类型的分析为准;根据确定的源数据的位置读取数据;最后,通过Transformer创建PowerCube,以供用户进行浏览数据和报表制作分析。 灵活、操作简便。无论统计时间范围如何,你都能够通过定制模型来处理它。分析过去若干年的数据,或预测下一个周期的预算值。比较基于时间维度的缺省时间区间数据值,或设置对你非常重要的某时间周期内的运行汇总值;Transformer可以接受来自于Impromptu(iqd)文件、平面文件(fiat)、大多数电子表格文件数据,以及数据库应用系统的多种格式数据;自动进行汇率转换等。最后以压缩方式将数据整合到PowerCube中。 穿透钻取功能,通过Transformer,可以设置从Cube到Cube的钻取:也可设置钻取到其它的PowerPlay报表;可以为用户提供合适层次的数据展现。实现从一般的数据显示到特殊需求的数据显示;可以穿透钻取到已有的Impromptu报表,从而为PowerPlay报表显示最底层的信息。5Impromptu和PowerPlay支持的数据库类型第3章搭建保险业务分析系统平台Impromptu可通过数据库厂家的接口软件直接连接到Oracle(8i)、Sybase、DB2、Microsoft SQL Server、Informix等主流数据库,也可通过ODBC连接其他非主流数据库,比如dBASE,MS Access,Foxpro等:PowerPlay用以生成Cubes的文件形式不受限制,它包括木iqd(种Impromptu报表设计文件)、Ascii的乖CSV、Excel的宰xls、Lotus的宰wkl、dBASE表的乖dbf、逗号分隔的纯文本文件的宰txt等;PowerPlay支持三大主流OLAP Server产品:Oracle Express、Essbase OLAPServer和DB2 OLAP Server。6产品版本类型Impromptu和PowerPlay均有管理员版(Administrator)和普通用户版(Users)。管理员版是较高级别的版本,除了普通用户版本制作报表、编辑报表、访问报表和在线分析等功能之外,更重要的是它能进行用户管理、信息目录管理、数据安全管理以及限制用户对数据访问的权限和范围。它包含了普通用户版的所有功能。PowerPlay Enterprise Server Edition 65版主要为PowerPlay企业服务器,可在WWW服务器上发布应用系统的Cubes。使得用户可用Windows(PowerPlay forWindows 65)、Excel(PowerPlay for Excel 65)和Web(IE 30和Nescape浏览器)三种方式展现Cubes。7软件运行环境Impromptu和PowerPlay的管理员版(Administrator)和普通用户版(Users)运行于Microsoft Windows 95的PC机上,硬件基本要求是:486 66以上,磁盘最少空间60M,内存12M以上。也支持Windows NT操作系统。PowerPlay Enterprise Server 65版可安装Windows NT或以下UNIX平台上:Windows NT 40,磁盘最少空间25MHPUX 1020以上,磁盘最少空间21MSun Solaris 25以上,磁盘最少空间17MIBM AIX 41以上,磁盘最少空间23M8Cognos主要产品结构关系Cognos主要产品结构关系如图31所示。26 基于数据仓库的决策支持系统的研究和应用图31 Cognos主要产品结构关系发布第3章搭建保险业务分析系统平台 27图32为Powerplay Enterprise Server详细流程。图32 Powerplay Enterprise Server详细流程322信息目录(Catalog)Cognos的Improptu中最重要且最有特色的概念就是信息目录(catalog)【6】o信息目录是组织数据的主要工具。信息目录是把数据库中的数据按照用户的业务观点来组织,所有的报表都是建立在目录基础上的。用户使用信息目录去查询数据,不会直接接触数据库。一个信息目录是一个扩展名为CAT的文件,它含有用户从数据库访问检索数据所需的全部信息,在数据库同用户之间起到了视图的作用。信息目录本身并不含数据,而只是告诉Impromptu如何得到数据。信息目录中包括: 文件夹(Folders)一有意义的信息组,代表了一个或多个表的列。 列(Columns)一可以出现在一个或多个文件夹中的单独的数据元素。 计算(Calculations)-用于从当前数据中推算需要的值。 条件(Conditions)-用于过滤信息,只显示特定类型的信息。 提示(Prompts)-预定义的数据选取标准,用户可以把它放在他们创建的报表中。 其它成分一如元数据、逻辑数据库名、连接信息和用户类等。基丁数据仓库的决策支持系统的研究和应用相应的,机动车的信息目录我们设定为jdccat,企财险的信息目录我们设定为qcxcat,家财险的信息目录设定为jCXeat,会计分析的信息目录设定为kuaijcat,以此类推。323 0LAP模型设计OLAP模型设计的思路是分析问题中可能涉及的所有维度,针对每一个主题确定其需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构。在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。3231了解需求,找到主题域机动车业务的主要需求有: 承保分析:通过对被保险人、车辆种类、车损保额、三者限额等方面考察机动车承保情况。 批单分析:通过分析批单,了解加费、减费、退保等批改原因。 赔案分析:对不同公司、被保险人、车辆种类等保单的赔款情况进行分析;从不同保险责任、报立案时间、查勘性质等角度详细考察赔款情况;分析三者险财产、车辆、人员等不同赔偿对象的赔款情况;考察盗抢险的赔付情况及追回数量、追回金额: 出险分析:考察不同车辆类别、事故原因、事故类型、驾驶员年龄的出险情况;对伤亡人员不同费用类型、身份、伤亡形式的报损金额、赔款支出的分析;对换件项目和修理费用的分析。 赔付率:对会计年度赔付率的分析,包括会计年度已决赔付率、会计年度综合赔付率;对业务年度赔付率的分析,包括业务年度已决赔付率、业务年度综合赔付率;对责任期赔付率的分析,包括责任期已决赔付率、责任期综合赔付率。针对以上的需求分析,我们归纳出主题领域如下:承保分析、批单分析、赔案分析、出险分析、赔付率等五大模块。各大模块又从不同分析角度分为小模块,如赔案分析具体分为:理赔分析、赔案分析、三者赔案分析、赔案周期分析、拒赔分析、盗抢险分析等。3232几个主要主题的维度设计1承保主题维度设计其星型结构如图33所示。第3章搭建保险业务分析系统平台 29图33承保分析星型结构承保分析主题维度设计说明书如下:模型名称:承保分析模型模型功能:用于机动车承保情况的分析事实表:Chengbao Fact度量:保费、保额、安优、承保数量、车均保费=保费承保数量、车均保额=保额承保数量涉及维度:(1)时间维。用于分析不同时间的承保情况。元素:年、季、月、日(2)公司维。用于分析保险公司分支机构的承保情况。元素:总公司、省公司、市公司、县区公司。(3)被保险人维:用于分析保险客户的承保情况。元素:单位类别、被保险人名字。(4)承保批改维:分析批改情况。30 基于数据仓库的决策支持系统的研究和应用元素:承保批改、承保批改详细(5)车类别维:按车类别进行承保分析元素:车类别(几座)(6)车辆种类维:按车辆种类进行承保分析元素:车辆种类(轿车、货车型号)(7)国别维:按承保车辆的国别进行承保分析。元素:国产进口(8)保险期限维:按保险期限进行承保分析。元素:保险期限(9)使用性质维:按使用性质进行承保分析。元素:营业非营业(10)业务性质维:按业务性质进行承保分析。元素:自办代办(11)保单类别维:按保单类别进行承保分析。元素:普通暂保其它(12)上年公司维:对上年所保公司进行分析。元素:新保保险公司车损保额分析维度设计其维度层次如图34所示。时 间 公司 被保险人Year Ksdm(公司) Insurunitclass(单位类别)Quarter Businessunitname(外勤科室) Insurant(被保险人)Month Businessmanname(经办)Day车类别 车辆种类 国别 保险期限 使用性质Variety Variety 1 Countryname 保险期限 UsagenatureMode(车型) Mode颜色 上年公司 业务性质 车损保额 保单类别C(手动调整层) Onescolleaguecode Naturecode 车损保额 PolicyflagColor图34车损保额维度层次图车损保额分析主题维度设计说明书如下:第3章搭建保险业务分析系统平台 3I模型名称:车损保额分析模型模型功能:用于机动车车损保额的分析事实表:Chesbe Fact度量:(原保单数据)分险种保费分险种保额分险种承保数量分险种车均保费=分险种保费分险种承保数量分险种车均保额=分险种保额分险种承保数量分险种己决赔款分险种已决件数分险种未决赔款a11分险种未决件数a11分险种案均赔款=分险种已决赔款分险种已决件数分险种统计己决赔付率=分险种已决赔款分险种保费分险种统计综合赔付率=(分险种已决赔款+分险种未决赔款a11)分险种保费涉及维度:如图34所示。3、理赔主题维度设计其维度层次如图35所示。时 间 公司 被保险人Year Ksdm(公司) Insurunitclass(单位类别)Quarter Businessunitname
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏淮安2024~2025学年高一下册期末调研测试数学试题学生卷
- 加固材料在地下结构中的应用研究考核试卷
- 古典文学中的自然景观与人文情怀交融研究考核试卷
- 健身步道施工冬季施工技术考核试卷
- 部编人教版五年级语文上学期全册期末综合复习训练附答案
- 保险代理业务风险防范技术创新研究考核试卷
- 2025年中国POS计费终端机数据监测报告
- 2025年中国MINIDAS数据采集器数据监测报告
- 2025年中国EVA薄膜数据监测报告
- 2025年中国BMC玻璃纤维增强塑料数据监测报告
- 初++中数学设计学校田径运动会比赛场地+课件++人教版七年级数学上册
- 《卫星导航系统》全套教学课件
- 职业道德完全题库附有答案
- 初高中物理衔接讲座(初高中物理对比)
- 施工现场平面布置及临时设施、临时道路布置
- 小学六年级课后服务:scratch少儿编程 四阶第19课:BMI指数(上)
- 科技人才评价规范
- 《短视频编辑与制作(第2版)》-第9章
- 医院无菌操作知识培训
- 年产500吨40gL烟嘧磺隆可分散油悬浮剂农药项目环境影响评价报告表样本
- 介绍方志敏(修订版)
评论
0/150
提交评论