数据仓库解决方案v0_第1页
数据仓库解决方案v0_第2页
数据仓库解决方案v0_第3页
数据仓库解决方案v0_第4页
数据仓库解决方案v0_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库解决方案深圳太极云软技术股份有限公司2016年1月目录 TOC o 1-3 h z u HYPERLINK l _Toc439977491 (一)概述 PAGEREF _Toc439977491 h 2 HYPERLINK l _Toc439977492 一.国内信息化的现状 PAGEREF _Toc439977492 h 2 HYPERLINK l _Toc439977493 二.以应用驱动,数据仓库建设应由后向前规划 PAGEREF _Toc439977493 h 3 HYPERLINK l _Toc439977494 三.“想大做小”(整体设计、分布实施) PAGEREF _To

2、c439977494 h 4 HYPERLINK l _Toc439977495 (二)系统架构 PAGEREF _Toc439977495 h 5 HYPERLINK l _Toc439977496 数据仓库架构 PAGEREF _Toc439977496 h 6 HYPERLINK l _Toc439977497 系统功能架构 PAGEREF _Toc439977497 h 7 HYPERLINK l _Toc439977498 (三)数据仓库建设方法 PAGEREF _Toc439977498 h 8 HYPERLINK l _Toc439977499 数据仓库建设8大步骤 PAGERE

3、F _Toc439977499 h 9 HYPERLINK l _Toc439977500 1.系统分析,确定主题 PAGEREF _Toc439977500 h 9 HYPERLINK l _Toc439977501 2.选择满足数据仓库系统要求的软件平台 PAGEREF _Toc439977501 h 10 HYPERLINK l _Toc439977502 3.建立数据仓库的逻辑模型 PAGEREF _Toc439977502 h 10 HYPERLINK l _Toc439977503 4.逻辑数据模型转化为数据仓库数据模型 PAGEREF _Toc439977503 h 11 HYP

4、ERLINK l _Toc439977504 5.数据仓库数据模型优化 PAGEREF _Toc439977504 h 12 HYPERLINK l _Toc439977505 6.数据清洗转换和传输 PAGEREF _Toc439977505 h 13 HYPERLINK l _Toc439977506 7.开发数据仓库的分析应用 PAGEREF _Toc439977506 h 14 HYPERLINK l _Toc439977507 8.数据仓库的管理 PAGEREF _Toc439977507 h 15 HYPERLINK l _Toc439977508 (四)系统功能详细介绍 PAGE

5、REF _Toc439977508 h 16 HYPERLINK l _Toc439977509 企业数据门户 PAGEREF _Toc439977509 h 16 HYPERLINK l _Toc439977510 主题分析 PAGEREF _Toc439977510 h 17 HYPERLINK l _Toc439977511 即席查询 PAGEREF _Toc439977511 h 18 HYPERLINK l _Toc439977512 多维分析工具 PAGEREF _Toc439977512 h 19 HYPERLINK l _Toc439977513 ETL工具 PAGEREF _

6、Toc439977513 h 19 HYPERLINK l _Toc439977514 报表工具 PAGEREF _Toc439977514 h 21概述国内信息化的现状信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。为何要建立数据仓库:根据现状业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加

7、了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。以应用驱动,数据仓库建设应由后向前规划数据仓库到底应该怎么建设?我一贯的主张是应用驱动。什么样的应用呢?应用是应考虑政府管理的现状和决策层最关心的问题入手。分利用现有信息系统资源,进一步细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价和提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督和提升政府效能。通过分析经济发展、卫生健康、教育科技、

8、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务等这些主题的分析是否可行,应该先进行评估。这样从应用主题入手,就可以知道需要什么样的数据,来自那些业务系统和数据源,这些数据的全体进行一定的整合,按照分析的要求存储就组成了一个个数据集市(Data Mart)。 “想大做小”(整体设计、分布实施)为了避免原有业务系统相对独立而形成的一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新的信息孤岛。这是因为应用往往是部门级的或者是某一方面的应用,不能完全覆盖企业级的所有应用。当然我们这里不提倡一次建设的应用。如何避免这个问题,是我这里着重要要强调的。这里分两种情

9、形进行设计,系统作用1. 整合业务数据 在各业务系统中,数据不流通,形成信息孤岛,商业智能解决方案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一决策界面。 2. 支撑决策 从数据中分析企业发展趋势,挖掘新的机会方法,根据数据决策,提高决策的及时性及准确率。 3. 提供管理效能,量化办事效率 基于系统分析内容,管理者能了解细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价和提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督和提升政府效能。系统架构系统架构图在建立数据仓库,数据仓库按主题域存储各业务数据。数据来源主要是政

10、府管理结构的不同业务管理系统。通过数据交换平台定期采集各管理机构的业务数据,后台数据处理工具ETL抽取、清洗数据,并加载入数据仓库中。架构于数据仓库上的系统功能主要包括大数据门户、专题主题分析、即系查询、多维分析、自助报表的功能模块,通过这些功能模块为管理者获取数据和分析数据提供简单易用、功能强大的方法,为管理者决策及提升管理精度,最终实现权力有效监督和提升政府效能。数据仓库架构数据仓库是一个建设过程,而不是产品。数据仓库是通过对来自不同的数据源进行统一的处理及管理,通过灵活的展示方法来帮助决策支持。数据获取层实现如何从所有源系统中获得原始的业务数据,并对其进行一定的数据处理,按主题进行数据重

11、组和格式转换,然后传送并装载到数据仓库系统中。数据仓库系统需要从多个源数据系统中抽取和汇总各个业务数据,这些数据源系统是数据仓库系统的数据来源。把上述数据源系统中的数据按照主题进行划分和组织,然后抽取并装载到数据仓库系统中。数据需要经过三个过程:数据抽取、数据转换、数据装载。这三个过程是在保证各个数据源系统与数据仓库系统能够成功连接(包括网络协议标准的转换、不同平台之间的接口)的前提下实现的。保证把来自不同的源数据系统的同类数据的一致性和完整性,转换完成的数据装载到数据仓库系统中。数据管理层 把数据存储到企业级数据仓库系统中进行集中管理。在数据存储层,数据是存放在两类数据库中:关系型数据库和多

12、维数据库。数据存储是数据仓库系统的中心。取自多个数据源系统的明细数据,以及用于分析的集成汇总数据都存储在这个中心。它在逻辑上是一个完整的库。数据使用层 把数据仓库系统中的数据和分析结果提供给最终用户。按照用户的分析需求、使用报表、随即查询、多维度分析和数据挖掘进行数据展现。数据输出层的功能是使最终用户通过报表、图形和其他分析工具的方式简便、快捷地访问数据仓库系统中的各种数据,得到分析结果。 提供多种数据分析方法,包括标准报表、即席查询报表、动态分析报表、多维分析、趋势预测、假设分析和数据挖掘等。系统功能架构多维分析OLDP多角度、立体化、灵活动态的分析业务数据。产品简单易用,无需编写任何的代码

13、,用户只需要通过语义层的定义就可以轻松搭建自己的多维数据模型。即席查询统计报表、指标的快速检索,帮助业务分析人员快速获得所需要的数据和统计信息。数据门户Data Portal进行统一展现,展现方式包括仪表盘、表格、报表、日历等内容,并支持用户个性化定制内容、指标等功能,实现真正的个性化服务。数据门户中展现的内容是管理者及业务人员最关注的指标,通过门户为他们获取数据提供最简单容易的方式。主题分析根据资源的组织,支持数据的深入挖掘和分析应用,跟踪、监控政策的执行情况及实施效果,让管理层了解细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价和提

14、升管理精度,最终使群众的合法权益得到保护,实现权力有效监督和提升政府效能。报表业商业智能系统建设的重要组成部分,主要对企业数据仓库中整合的各主题域业务数据,按照监督管理要求,面向各级部门,快速提供准确、全面、灵活的体现政府管理效能等方面实际的数据信息,为决策支持、业务管理提供有效的数据信息支撑。ETL工具:ETL是数据仓库最核心的后台组件,通过对及汇总来的不同来源数据的抽取、清洗、加载实现数据仓库中数据的更新及流转。ETL工具(桥接器),实现了图形化及自动化的方式来配置ETL流程,极大的减轻了数据加工的工作量,提高了数据准确性及处理效率。数据仓库建设方法数据仓库决策分析的业务处理流程主要分为四

15、个阶段。数据集中:各级政府部门业务数据统一汇总数据中心临时数据存储;数据整理和转换:汇总后的业务数据经过ETL抽取、转换、加载到数据仓库中;数据存储和管理:对数据仓库数据进行集中存储和管理、备份和维护;数据挖掘和展现:用户通过前端的展现工具对数据仓库中数据进行挖掘、钻取和分析,在数据门户展现;各委办局业务系统人社公安民政交换平台政府数据中心临时存储数据抽取转换加载数据仓库数据集市决策趋势数据门户 HYPERLINK /HondaHsu/p/4312549.html 数据仓库建设8大步骤1.系统分析,确定主题确定一下几个因素:操作出现的频率,即业务部门每隔多长时间做一次查询分析。在系统中需要保存

16、多久的数据,是一年、两年还是五年、十年。用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。用户所能接受的响应时间是多长、是几秒钟,还是几小时。2.选择满足数据仓库系统要求的软件平台选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准:厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。数据库对大数据量(TB级)的支持能力。数据库是否支持并行操作。能否提供数据仓库的建模工具,是否支持对元数据的管理。能否提供支持大数据量的数据加载、转换、传输工具(ETT)。能否提供完整的决策支持工具集,满足

17、数据仓库中各类用户的需要。3.建立数据仓库的逻辑模型具体步骤如下:(1)确定建立数据仓库逻辑模型的基本方法。(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。(3)识别主题之间的关系。(4)分解多对多的关系。(5)用范式理论检验逻辑数据模型。(6)由用户审核逻辑数据模型。4.逻辑数据模型转化为数据仓库数据模型具体步骤如下:(1)删除非战略性数据: HYPERLINK /bi/sjck/ t _blank 数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。(2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。(3)增加派生数据:

18、对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。(4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。5.数据仓库数据模型优化数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。优化数据仓库设计的主要方法是:合并不同的数据表。通过增加汇总表避免数据的动态汇总。通过冗余字段减少表连接的数量,不要超过35个。用ID代码而不是描

19、述信息作为键值。对数据表做分区。6.数据清洗转换和传输由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到 HYPERLINK /bi/sjck/ t _blank 数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。在设计数据仓库的数据加载方案时,必须考虑以下几项要求:加载方案必须能够支持访问不同的数据库和文件系统。数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。支持各种转换方法,各种转换方法可以构成一个工作流。支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。7.开发数据仓库的分析应用建立数据仓库的最终目的是为业务部门提供

20、决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。信息部门所选择的开发工具必须能够:满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预测和趋势分析。提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是

21、一致的界面。8.数据仓库的管理只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项目的失败。数据仓库管理主要包括数据库管理和元数据管理。数据库管理需要考以下几个方面:安全性管理。数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加密策略。数据仓库的备份和恢复。数据仓库的大小和备份的频率直接影响到备份策略。如何保证数据仓库系统的可用性,硬件还是软件方法。数据老化。设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保存汇总数据,当年数据保存详细记录。然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。在数据采集阶段,元数据主要包括下列信息:

22、源数据的描述定义:类型、位置、结构。数据转换规则:编码规则、行业标准。目标数据仓库的模型描述:星型/雪花模型定义,维/事实结构定义。源数据到目标数据仓库的映射关系:函数/表达式定义。代码:生成转换程序、自动加载程序等。在数据管理阶段,元数据主要包括下列信息:汇总数据的描述:汇总/聚合层次、物化视图结构定义。历史数据存储规则:位置、存储粒度。多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义等。在数据展现阶段,元数据主要包括以下信息:报表的描述:报表结构的定义。统计函数的描述:各类统计分析函数的定义。结果输出的描述:图、表输出的定义。元数据不但是独立存放,而且对用户是透明的,标准 HYP

23、ERLINK /bi/sjck/ t _blank 元数据之间可以互相转换系统功能详细介绍企业数据门户企业实施商业智能、数据仓库的目的之一为整合各系统的业务数据,统一指标口径,实现统一视图、统一决策界面。企业数据门户功能主要对整合的业务数据进行统一展现,展现方式包括仪表盘、表格、日历等内容。数据门户中展现的内容是管理者及业务人员最关注的指标,通过门户为他们获取数据提供最简单容易的方式。 数据门户中展现的内容根据用户角色不同而有所差异,每个用户都可以定制自己关注的内容,实现真正的个性化服务。系统截图:主题分析数据仓库中的业务数据通常是面向主题进行组织的。主题分析是在较高层次上将企业信息系统的数据

24、进行归并、抽象,形成对分析对象的一个完整的描述,体现分析数据之间的相互关系,揭示数据规律和问题。主题分析模块从主题域的角度入手,支撑数据资源的组织,支持数据的深入挖掘和分析应用,跟踪、监控政策的执行情况及实施效果,倒逼行政权力部门认真履职、规范执法、优化服务,努力提高政府效能。考虑到国情特点和现状,主题分析涵盖了经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务量等八个主题域相关的主题分析功能。即席查询 即席查询针对数据仓库内的各主题数据、统计报表、指标的快速检索,帮助分析人员快速获得所需要的数据和统计信息。即席查询工具通过提

25、供各种向导式界面、图形查询生成器、联机帮助等功能,为系统使用人员提供细粒度数据。 即席查询是分析人员的重要的辅助工具,它是在数据仓库的信息组织基础上,尽可能多的在后台按照分析人员关心的分析角度沉淀业务知识,在前端功能上屏蔽后台查询技术细节,为分析人员提供灵活的业务分析查询角度定制和结果定制功能,使分析人员在分析汇总数据的同时能够通过即席查询进一步深入到自己感兴趣的细节数据中,以便更全面地反映情况,做出正确决策。多维分析工具多维分析是商业智能的核心技术,可以帮助用户进行多角度、立体化、灵活动态的分析。多维分析报表由“维”(影响因素)和 “指标”(衡量因素)组成,能够真正为用户所理解、并真实的反映

26、国情特性信息。 BI-多维分析工具简单易用,无需编写任何的代码,用户只需要通过语义层的定义就可以轻松搭建自己的多维数据模型。同时具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。它可用于证实人们提出的复杂的假设,以图形或者表格的形式来表示的对信息的总结。多维分析工具专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制

27、定正确的方案。ETL工具ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环,它是承前启后的必要的一步。ETL工具纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。功能强大、灵活,使用简单。 (ETL平台架构)数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据转换主要用于解决数据不一致性问题,数据加载就是将从

28、数据源系统中抽取、转换后的数据加载到数据仓库系统中。ETL流程管理调度是ETL过程中的统一调度者和指挥者,它把复杂的数据处理过程中各个步骤整合成一个整体。异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套机制。系统截图:(ETL界面切图)产品特色:(1) 支持MYSQL/ORACLE/MSSQLSERVER/DB2/ACCESS/达梦等多种数据库; (2) 支持Windows/Linux/Solaris/AIX等多种操作系统; (3) 支持txt/csv/xls/xml等多种输入输出格式;(4) 图形化ETL操

29、作配置,ETL数据加工过程一目了然; (5) 工具性能强大,处理速度大概可以达到8000行每秒; (6) 具有完整的日志管理功能、完善的数据审计功能,并且有相关的监控预警机制,保证ETL过程正常进行,不影响数据源系统的正常工作; (7)支持并行加载等高效的优化策略;报表工具报表工具作为企业商业智能系统建设的重要组成部分,主要对企业数据仓库中整合的各主题域业务数据,按照业务管理要求,面向各级部门,快速提供准确、全面、灵活的体现政府效能管理等方面实际的数据信息,为决策支持、行政管理提供有效的数据信息支撑。用户只需使用IE、firefox等浏览器就能设计、浏览、打印报表。功能强大、灵活,使用简单。报

30、表主要由两部分组成:一是报表设计,主要用来构建报表;二是可以加到你应用服务的运行期组件。报表同时也提供一个图形报表制作引擎。拥有和Dream weaver一般的操作界面,可以像画table一样画报表,也可以生成图片。 报表设计器包含标签、文本、图片、分析图、表格、交叉表等多种展现组件,对于不同的业务需求按不同的形式展现数据,提高了数据可视化程度,能帮助管理人员快速做出决策。报表运行时组件具有导出、打印、鉴权等功能,提升了系统的可用性和数据的安全性。功能特色:1.支持自定义报表,支持用户个性化报表制定、保存及相关管理功能,选择界面灵活、友好,支持临时性选择信息保存,支持报表格式的个性调整,包括:

31、指标维度的灵活调整和表格转置;2.支持固定报表,依据指标字典模块中基础指标、分析指标及综合指标的架构、口径,实现报表模板上传,报表展现时按模板展现数据;3.支持交叉报表,即报表维度可以横向和纵向同时多维度展现数据;4.支持分析型报表,采用OLAP分析引擎,支持报表数据上钻、下钻、切片、旋转等功能;5.展现方式支持多种图表类型,包括列表、交叉表,以及柱状图、折线图、饼图、雷达图等多种图表类型;附录资料:不需要的可以自行删除如何构建银行数据仓库数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念

32、指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规范和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规范做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(RO

33、LAP) 2、在多维数据库上建立数据仓库(MOLAP) MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资

34、。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期

35、,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统。尽管由于原有OLTP系统设计上的局限性,这样的系统可能无法实现很多分析功能,但这样一个系统中数据结构固定、信息分析需求相对稳定成熟,因此数据仓库的建模、实现过程会相对容易、便捷;同时,这样的系统也会成为将来真正数据仓库建设的原型。 信息系统与数据仓库的关系 由于数据量大、数据来源多样化,在商业银行构建管理信息系统时,不可避免地会遇上如何管理这些浩如烟海的数据,以及如何从中提取有用的信息的问题;而数据仓库的最大优点在于它能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数

36、据进行统计、分析。因此可以说,在银行使用数据仓库构建管理信息系统,既有压力,又有数据基础,它们之间的联系是必然的,难以割舍的。 数据仓库在商业银行的应用范围包括存款分析、贷款分析、客户市场分析、相关金融业分析决策(证券、外汇买卖)、风险预测、效益分析等。 在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径: 1、建设新系统 由于目前国内商业银行对银行内部运营的监管,缺乏很好的数据搜集机制,因此可以在构建管理信息系统时,分数据收集录入和数据汇总分析两部分来考虑。这样的系统中由于不需考虑大量历史数据的处理问题,同时考虑到搜集过程中可能存在多个数据来源,因此可以在系统建设的同时构建数据

37、仓库,将搜集来的各种数据通过数据抽取整合到数据仓库中。 2、完善原有系统 而对于已经存在OLTP系统,其中沉淀了大量历史数据,则可以先在原有系统上建立逻辑数据仓库,即使用数据分析的表现工具,在关系模型上构建一个虚拟的多维模型。当系统需求稳定后,再建立物理数据仓库,这样既节省投资,又缩短开发工期。 实现中需要注意的问题 一、模型设计中的问题 模型设计(包括逻辑模型设计和物理模型设计)是系统的基础和成败的关键,在实际操作中,视实现技术的不同应分别对下列问题引起注意。 1、直接构建数据仓库 直接构建数据仓库时,必须按业务分析的要求重组OLTP系统中的数据,并要按不同侧重点分别组织,使之便于使用。 *

38、主题的确定 主题是一个逻辑概念,它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系。划分主题的根据主要来源于两方面:对原有固定报表的分析和对业务人员的访谈。原有固定报表能较好地反映出以往工作对数据分析的需求,而且数据含义和格式相对成熟、稳定,在模型设计中需要大量借鉴。但仅仅满足于替代目前的手工报表还远远不应是构建管理信息系统的目标,还应该通过业务访谈,进一步挖掘出日常工作中潜在的更广、更深的分析需求。只有这样,才能真正了解构建数据仓库模型所需的主题划分。 *分析内容的细化 主题的划分实际上是与分析内容的范围直接相关的,一旦主题划分清楚了,下一步就是细化分析的具体内容以及根据分析内

39、容的性质确定它在数据仓库中的位置。通常维元素对应的是分析角度,而度量对应的是分析关心的具体指标。一个指标究竟是作为维元素、度量还是维属性,取决于具体的业务需求,但从实际操作中可以总结出如下的概念性经验:作为维元素或维属性的通常是离散型的数据,只允许有限的取值;作为度量的是连续型数据,取值无限。如果一定要用连续型数据作为维元素,则必须对其按取值进行分段,以分段值作为实际的维元素。判断分析指标是作为维元素还是维属性时,则需要综合考虑这个指标占用的存储空间与相关查询的使用频度。 需要特别强调的是,在细化分析内容的过程中,务必解决指标的歧义问题。在不同报表中以及在业务访谈中同一名称的指标,是否是在同样

40、条件限定下,通过同样方法提取或计算得到的,它们之间的相互关系是什么,这些问题都必须从熟悉业务的分析人员那里得到准确、清晰的答案,否则将会影响到模型设计、数据提取、数据展现等多个方面。 *粒度的设计 数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。 如果同一个信息系统要在大范围、多层次上同时运行,如部门级和企业级,还应考虑不同层次的数据仓库采用不同的粒度。 *模型设计中的技巧 复合指标尤其是比率类指标的定义,必须注意累加时是先加减后

41、乘除,还是反之。户数、笔数的计算,这类指标在分析或报表中经常出现,但不需要作为单独的指标物理存在于数据库中,但定义分析模型时一定应该准备。度量的时间特性,针对分析指标在时间维上的不同表现,可分为可累加指标、半可累加指标和不可累加指标。 2、在原有数据基础上构建逻辑数据仓库 如果直接使用OLTP系统中的数据进行数据分析处理,会遇到许多麻烦,有时甚至是不可能实现的。这并不是说关系数据库不好,而是因为其设计思路不适应较大规模数据分析。因此在使用这种方法时,需要注意下列问题的处理: *不同的时间单位 这是实现过程中最常遇到的问题,也往往是最难解决的问题。OLTP系统中存储的时间往往采用与实际业务发生相

42、同的时间单位,如帐务数据单位为日期,财务报表单位为月或半年。而面向分析时,往往要将不同时间单位的数据统一到同一个结果中,这样就必须存在适当的转换机制才能实现。 *冗余信息 所谓冗余信息,就是指不同关系表中存在的同一含义的字段,而同一含义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例如截止某一时间同一地区的同一贷种的贷款余额。在OLTP系统中,这样的字段往往是基于性能考虑而设计的,而在面向分析设计模型时,为了保证结果的唯一性和准确性,就必须用且只用其中之一的数据产生分析结果。 *表间连接 由于OLTP系统中表的设计面向业务处理,既要保证数据的完整性、一致性,又要考虑响应时间,因此表与表之间既

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论