数据仓库解决专项方案v要点_第1页
数据仓库解决专项方案v要点_第2页
数据仓库解决专项方案v要点_第3页
数据仓库解决专项方案v要点_第4页
数据仓库解决专项方案v要点_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库处理方案深圳太极云软技术股份1月

目录(一) 概述 2一. 中国信息化现实状况 2二. 以应用驱动,数据仓库建设应由后向前计划 3三. “想大做小”(整体设计、分布实施) 4(二) 系统架构 5数据仓库架构 6系统功效架构 7(三) 数据仓库建设方法 8数据仓库建设8大步骤 91.系统分析,确定专题 92.选择满足数据仓库系统要求软件平台 103.建立数据仓库逻辑模型 104.逻辑数据模型转化为数据仓库数据模型 115.数据仓库数据模型优化 126.数据清洗转换和传输 137.开发数据仓库分析应用 148.数据仓库管理 15(四) 系统功效具体介绍 16企业数据门户 16专题分析 17即席查询 18多维分析工具 19ETL工具 19报表工具 21

概述中国信息化现实状况信息化建设发展历史:在中国信息化建设过程中,基础上是根据当初业务系统需求进行建设,过一段时间,假如有新业务推出,就再建设一个新系统,或在原系统基础上增加新业务处理。这么结果使每个系统和系统之间缺乏真正信息沟通和信息交换。为何要建立数据仓库:依据现实状况业务系统各自为政,相互独立。当很多业务系统建立后,因为领导要求和决议需求,需要部分指标分析,在对应业务系统基础上再增加分析和对应报表功效,这么每个系统就增加了报表和分析功效。不过,因为数据源不统一造成了对同一个指标分析结果不相同。为了处理该问题,为了分析和决议需要,将相互分离业务系统数据源整合在一起,能够为领导和决议层提供分析和辅助决议。以应用驱动,数据仓库建设应由后向前计划数据仓库到底应该怎么建设?我一贯主张是应用驱动。什么样应用呢?应用是应考虑政府管理现实状况和决议层最关心问题入手。分利用现有信息系统资源,深入细化、量化权力清单,固化权力运行步骤和办理步骤,达成规范业务步骤、监督个体行为、统计执法诚信、科学考评评价和提升管理精度,最终使群众正当权益得到保护,实现权力有效监督和提升政府效能。经过分析经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务等这些专题分析是否可行,应该优异行评定。这么从应用专题入手,就能够知道需要什么样数据,来自那些业务系统和数据源,这些数据全体进行一定整合,根据分析要求存放就组成了一个个数据集市(DataMart)。“想大做小”(整体设计、分布实施)为了避免原有业务系统相对独立而形成一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新信息孤岛。这是因为应用往往是部门级或是某首先应用,不能完全覆盖企业级全部应用。当然我们这里不提倡一次建设应用。怎样避免这个问题,是我这里着关键要强调。这里分两种情形进行设计,系统作用1.整合业务数据在各业务系统中,数据不流通,形成信息孤岛,商业智能处理方案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一决议界面。2.支撑决议从数据中分析企业发展趋势,挖掘新机会方法,依据数据决议,提升决议立即性及正确率。3.提供管理效能,量化办事效率基于系统分析内容,管理者能了解细化、量化权力清单,固化权力运行步骤和办理步骤,达成规范业务步骤、监督个体行为、统计执法诚信、科学考评评价和提升管理精度,最终使群众正当权益得到保护,实现权力有效监督和提升政府效能。系统架构系统架构图在建立数据仓库,数据仓库按专题域存放各业务数据。数据起源关键是政府管理结构不一样业务管理系统。经过数据交换平台定时采集各管理机构业务数据,后台数据处理工具ETL抽取、清洗数据,并加载入数据仓库中。架构于数据仓库上系统功效关键包含大数据门户、专题专题分析、即系查询、多维分析、自助报表功效模块,经过这些功效模块为管理者获取数据和分析数据提供简单易用、功效强大方法,为管理者决议及提升管理精度,最终实现权力有效监督和提升政府效能。数据仓库架构数据仓库是一个建设过程,而不是产品。数据仓库是经过对来自不一样数据源进行统一处理及管理,经过灵活展示方法来帮助决议支持。数据获取层实现怎样从全部源系统中取得原始业务数据,并对其进行一定数据处理,按专题进行数据重组和格式转换,然后传送并装载到数据仓库系统中。数据仓库系统需要从多个源数据系统中抽取和汇总各个业务数据,这些数据源系统是数据仓库系统数据起源。把上述数据源系统中数据根据专题进行划分和组织,然后抽取并装载到数据仓库系统中。数据需要经过三个过程:数据抽取、数据转换、数据装载。这三个过程是在确保各个数据源系统和数据仓库系统能够成功连接(包含网络协议标准转换、不一样平台之间接口)前提下实现。确保把来自不一样源数据系统同类数据一致性和完整性,转换完成数据装载到数据仓库系统中。数据管理层把数据存放到企业级数据仓库系统中进行集中管理。在数据存放层,数据是存放在两类数据库中:关系型数据库和多维数据库。数据存放是数据仓库系统中心。取自多个数据源系统明细数据,和用于分析集成汇总数据全部存放在这个中心。它在逻辑上是一个完整库。数据使用层把数据仓库系统中数据和分析结果提供给最终用户。根据用户分析需求、使用报表、随即查询、多维度分析和数据挖掘进行数据展现。数据输出层功效是使最终用户经过报表、图形和其它分析工具方法简便、快捷地访问数据仓库系统中多种数据,得到分析结果。提供多个数据分析方法,包含标准报表、即席查询报表、动态分析报表、多维分析、趋势估计、假设分析和数据挖掘等。系统功效架构多维分析OLDP多角度、立体化、灵活动态分析业务数据。产品简单易用,无需编写任何代码,用户只需要经过语义层定义就能够轻松搭建自己多维数据模型。即席查询统计报表、指标快速检索,帮助业务分析人员快速取得所需要数据和统计信息。数据门户DataPortal进行统一展现,展现方法包含仪表盘、表格、报表、日历等内容,并支持用户个性化定制内容、指标等功效,实现真正个性化服务。数据门户中展现内容是管理者及业务人员最关注指标,经过门户为她们获取数据提供最简单轻易方法。专题分析依据资源组织,支持数据深入挖掘和分析应用,跟踪、监控政策实施情况及实施效果,让管理层了解细化、量化权力清单,固化权力运行步骤和办理步骤,达成规范业务步骤、监督个体行为、统计执法诚信、科学考评评价和提升管理精度,最终使群众正当权益得到保护,实现权力有效监督和提升政府效能。报表业商业智能系统建设关键组成部分,关键对企业数据仓库中整合各专题域业务数据,根据监督管理要求,面向各级部门,快速提供正确、全方面、灵活表现政府管理效能等方面实际数据信息,为决议支持、业务管理提供有效数据信息支撑。ETL工具:ETL是数据仓库最关键后台组件,经过对及汇总来不一样起源数据抽取、清洗、加载实现数据仓库中数据更新及流转。ETL工具(桥接器),实现了图形化及自动化方法来配置ETL步骤,极大减轻了数据加工工作量,提升了数据正确性及处理效率。数据仓库建设方法数据仓库决议分析业务处理步骤关键分为四个阶段。数据集中:各级政府部门业务数据统一汇总数据中心临时数据存放;数据整理和转换:汇总后业务数据经过ETL抽取、转换、加载到数据仓库中;数据存放和管理:对数据仓库数据进行集中存放和管理、备份和维护;数据挖掘和展现:用户经过前端展现工具对数据仓库中数据进行挖掘、钻取和分析,在数据门户展现;各委办局业务系统各委办局业务系统人社公安民政交换平台政府数据中心临时存放数据抽取转换加载数据仓库数据集市决议趋势数据门户数据仓库建设8大步骤1.系统分析,确定专题确定一下多个原因:

·操作出现频率,即业务部门每隔多长时间做一次查询分析。

·在系统中需要保留多久数据,是十二个月、两年还是五年、十年。

·用户查询数据关键方法,如在时间维度上是根据自然年,还是财政年。

·用户所能接收响应时间是多长、是几秒钟,还是几小时。2.选择满足数据仓库系统要求软件平台选择适宜软件平台,包含数据库、建模工具、分析工具等。有很多原因要考虑,如系统对数据量、响应时间、分析功效要求等,以下是部分公认选择标准:

·厂商背景和支持能力,能否提供全方位技术支持和咨询服务。

·数据库对大数据量(TB级)支持能力。

·数据库是否支持并行操作。

·能否提供数据仓库建模工具,是否支持对元数据管理。

·能否提供支持大数据量数据加载、转换、传输工具(ETT)。

·能否提供完整决议支持工具集,满足数据仓库中各类用户需要。3.建立数据仓库逻辑模型具体步骤以下:

(1)确定建立数据仓库逻辑模型基础方法。

(2)基于专题视图,把专题视图中数据定义转到逻辑数据模型中。

(3)识别专题之间关系。

(4)分解多对多关系。(5)用范式理论检验逻辑数据模型。

(6)由用户审核逻辑数据模型。4.逻辑数据模型转化为数据仓库数据模型具体步骤以下:

(1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中全部数据项,一些用于操作处理数据项要删除。

(2)增加时间主键:数据仓库中数据一定是时间快照,所以必需增加时间主键。

(3)增加派生数据:对于用户常常需要分析数据,或为了提升性能,能够增加派生数据。

(4)加入不一样等级粒度汇总数据:数据粒度代表数据细化程度,粒度越大,数据汇总程度越高。粒度是数据仓库设计一个关键原因,它直接影响到驻留在数据仓库中数据量和能够实施查询类型。显然,粒度等级越低,则支持查询越多;反之,能支持查询就有限。5.数据仓库数据模型优化数据仓库设计时,性能是一项关键考虑原因。在数据仓库建成后,也需要常常对其性能进行监控,并伴随需求和数据量变更进行调整。

优化数据仓库设计关键方法是:

·合并不一样数据表。

·经过增加汇总表避免数据动态汇总。

·经过冗余字段降低表连接数量,不要超出3~5个。

·用ID代码而不是描述信息作为键值。

·对数据表做分区。6.数据清洗转换和传输因为业务系统所使用软硬件平台不一样,编码方法不一样,业务系统中数据在加载到数据仓库之前,必需进行数据清洗和转换,确保数据仓库中数据一致性。

在设计数据仓库数据加载方案时,必需考虑以下几项要求:

·加载方案必需能够支持访问不一样数据库和文件系统。

·数据清洗、转换和传输必需满足时间要求,能够在要求时间范围内完成。

·支持多种转换方法,多种转换方法能够组成一个工作流。

·支持增量加载,只把自上一次加载以来改变数据加载到数据仓库。7.开发数据仓库分析应用建立数据仓库最终目标是为业务部门提供决议支持能力,必需为业务部门选择适宜工具实现其对数据仓库中数据进行分析要求。

信息部门所选择开发工具必需能够:

·满足用户全部分析功效要求。数据仓库中用户包含了企业中各个业务部门,她们业务不一样,要求分析功效也不一样。如有用户只是简单分析报表,有些用户则要求做估计和趋势分析。

·提供灵活表现方法。分析结果必需能够以直观、灵活方法表现,支持复杂图表。使用方法上,能够是用户机/服务器方法,也能够是浏览器方法。

实际上,没有一个工具能够满足数据仓库全部分析功效需求,一个完整数据仓库系统功效可能是由多个工具来实现,所以必需考虑多个工具之间接口和集成性问题,对于用户来说,期望看到是一致界面。8.数据仓库管理只重视数据仓库建立,而忽略数据仓库管理肯定造成数据仓库项目标失败。数据仓库管理关键包含数据库管理和元数据管理。

数据库管理需要考以下多个方面:

·安全性管理。数据仓库中用户只能访问到她授权范围内数据,数据在传输过程中加密策略。

·数据仓库备份和恢复。数据仓库大小和备份频率直接影响到备份策略。

·怎样确保数据仓库系统可用性,硬件还是软件方法。

·数据老化。设计数据仓库中数据存放时间周期和对过期数据老化方法,如历史数据只保留汇总数据,当年数据保留具体统计。

然而,元数据管理贯穿于整个系统建设过程中,元数据是描述数据数据。在数据采集阶段,元数据关键包含下列信息:

·源数据描述定义:类型、位置、结构。

·数据转换规则:编码规则、行业标准。

·目标数据仓库模型描述:星型/雪花模型定义,维/事实结构定义。

·源数据到目标数据仓库映射关系:函数/表示式定义。

·代码:生成转换程序、自动加载程序等。

在数据管理阶段,元数据关键包含下列信息:

·汇总数据描述:汇总/聚合层次、物化视图结构定义。

·历史数据存放规则:位置、存放粒度。

·多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义等。

在数据展现阶段,元数据关键包含以下信息:

·报表描述:报表结构定义。

·统计函数描述:各类统计分析函数定义。

·结果输出描述:图、表输出定义。

元数据不不过独立存放,而且对用户是透明,标准元数据之间能够相互转换系统功效具体介绍企业数据门户企业实施商业智能、数据仓库目标之一为整合各系统业务数据,统一指标口径,实现统一视图、统一决议界面。企业数据门户功效关键对整合业务数据进行统一展现,展现方法包含仪表盘、表格、日历等内容。数据门户中展现内容是管理者及业务人员最关注指标,经过门户为她们获取数据提供最简单轻易方法。数据门户中展现内容依据用户角色不一样而有所差异,每个用户全部能够定制自己关注内容,实现真正个性化服务。系统截图:专题分析数据仓库中业务数据通常是面向专题进行组织。专题分析是在较高层次上将企业信息系统数据进行归并、抽象,形成对分析对象一个完整描述,表现分析数据之间相互关系,揭示数据规律和问题。专题分析模块从专题域角度入手,支撑数据资源组织,支持数据深入挖掘和分析应用,跟踪、监控政策实施情况及实施效果,倒逼行政权力部门认真履职、规范执法、优化服务,努力提升政府效能。考虑到国情特点和现实状况,专题分析涵盖了经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务量等八个专题域相关专题分析功效。即席查询即席查询针对数据仓库内各专题数据、统计报表、指标快速检索,帮助分析人员快速取得所需要数据和统计信息。即席查询工具经过提供多种向导式界面、图形查询生成器、联机帮助等功效,为系统使用人员提供细粒度数据。即席查询是分析人员关键辅助工具,它是在数据仓库信息组织基础上,尽可能多在后台根据分析人员关心分析角度沉淀业务知识,在前端功效上屏蔽后台查询技术细节,为分析人员提供灵活业务分析查询角度定制和结果定制功效,使分析人员在分析汇总数据同时能够经过即席查询深入深入到自己感爱好细节数据中,方便更全方面地反应情况,做出正确决议。多维分析工具多维分析是商业智能关键技术,能够帮助用户进行多角度、立体化、灵活动态分析。多维分析报表由“维”(影响原因)和“指标”(衡量原因)组成,能够真正为用户所了解、并真实反应国情特征信息。BI-多维分析工具简单易用,无需编写任何代码,用户只需要经过语义层定义就能够轻松搭建自己多维数据模型。同时含有灵活分析功效、直观数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据分析变得轻松而高效,以利于快速做出正确判定。它可用于证实大家提出复杂假设,以图形或表格形式来表示对信息总结。多维分析工具专门设计用于支持复杂分析操作,侧重对决议人员和高层管理人员决议支持,能够依据分析人员要求快速、灵活地进行大数据量复杂查询处理,而且以一个直观而易懂形式将查询结果提供给决议人员,方便她们正确掌握企业(企业)经营情况,了解对象需求,制订正确方案。ETL工具ETL负责将分散、异构数据源中数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最终加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘基础。ETL是数据仓库中很关键一环,它是承前启后必需一步。ETL工具纯java编写,能够在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。功效强大、灵活,使用简单。(ETL平台架构)数据抽取就是从数据源抽取出所需数据过程。数据抽取后,再经过数据清洗、转换,最终根据预先定义好数据仓库模型,将数据加载到数据仓库中去。数据转换关键用于处理数据不一致性问题,数据加载就是将从数据源系统中抽取、转换后数据加载到数据仓库系统中。ETL步骤管理调度是ETL过程中统一调度者和指挥者,它把复杂数据处理过程中各个步骤整合成一个整体。异常数据处理机制指源数据系统中数据本身犯错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个步骤,怎样进行回退处理一套机制。系统截图:(ETL界面切图)产品特色:(1)支持MYSQL/ORACLE/MSSQLSERVER/DB2/ACCESS/达梦等多个数据库;(2)支持Windows/Linux/Solaris/AIX等多个操作系统;(3)支持txt/csv/xls/xml等多个输入输出格式;(4)图形化ETL操作配置,ETL数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论