数据仓库解决方案_第1页
数据仓库解决方案_第2页
数据仓库解决方案_第3页
数据仓库解决方案_第4页
数据仓库解决方案_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库解决方案

深圳太极云软技术股份有限公司

1月

目录

(-)概述....................................................

一.国内信息化现状........................................

二.以应用驱动,数据仓库建设应由后向前规划...............

三.“想大做小”(整体设计、分布实行)...................

(二)系统架构................................................

数据仓库架构................................................

系统功能架构................................................

(三)数据仓库建设办法.......................................

数据仓库建设8大环节.......................................

1.系统分析,拟定主题..................................

2.选取满足数据仓库系统规定软件平台..................

3.建立数据仓库逻辑模型...............................

4.逻辑数据模型转化为数据仓库数据模型................

5.数据仓库数据模型优化...............................

6.数据清洗转换和传播.................................

7.开发数据仓库分析应用...............................

8.数据仓库管理........................................

(四)系统功能详细简介.......................................

公司数据门户...........................................

主题分析................................................

即席查询................................................

多维分析工具...........................................

ETL工具.................................................

报表工具................................................

(一)概述

一.国内信息化现状

1.信息化建设发展历史:

2.在国内信息化建设过程中,基本上是按照当时业务系统需求进行

建设,过一段时间,如果有新业务推出,就再建设一种新系统,

或在原系统基本.上增长新业务解决。这样成果使每个系统和系统

之间缺少真正信息沟通和信息互换。

二.为什么要建立数据仓库:

三.依照现状业务系统各自为政,互相独立。当诸多业务系统建立后,

由于领导规定和决策需求,需要某些指标分析,在相应业务系统

基本上再增长分析和相应报表功能,这样每个系统就增长了报表

和分析功能。但是,由于数据源不统一导致了对同一种指标分析

成果不相似。为理解决该问题,为了分析和决策需要,将互相分

离业务系统数据源整合在一起,可觉得领导和决策层提供分析和

辅助决策。

四.以应用驱动,数据仓库建设应由后向前规划

五.数据仓库究竟应当怎么建设?我一贯主张是应用驱动。什么样应用

呢?应用是应考虑玫府管理现状和决策层最关怀问题入手。分运

用既有信息系统资源,进一步细化、量化权力清单,固化权力运

营流程和办理环节,达到规范业务流程、监督个体行为、记录执

法诚信、科学考核评价和提高管理精度,最后使群众合法权益得

到保护,实现权力有效监督和提高政府效能。通过度析经济发展、

卫生健康、教诲科技、道路交通、机构团队、生活服务、文体娱

乐、安全避险、资源环境、社保就业、财税金融、法律服务等这

些主题分析与否可行,应当先进行评估。这样从应用主题入手,

就可以懂得需要什么样数据,来自那些业务系统和数据源,这些

数据全体进行一定整合,按照分析规定存储就构成了一种个数据

集市(DataMart)。

六.“想大做小”(整体设计、分布实行)

为了避免原有业务系统相对独立而形成一种个信息孤岛,以应用

驱动建设数据仓库,往往会导致新信息孤岛。这是由于应用往往是部

门级或者是某一方面应用,不能完全覆盖公司级所有应用。固然咱们

这里不倡导一次建设应用。如何避免这个问题,是我这里着重要要强

调。这里分两种情形进行设计,系统作用

1.整合业务数.

在各业务系统中,数据不流通,形成信息孤岛,商业智能解决方

案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统

一决策界面。

2.支撑决.

从数据中分析公司发展趋势,挖掘新机会办法,依照数据决策,

提高决策及时性及精确率。

(二)3.提供管理效能,量化办事效.

(三)基于系统分析内容,管理者能理解细化.量化权力清单,固化

权力运营流程和办理环节,达到规范业务流程、监督个体行为、

记录执法诚信、科学考核评价和提高管理精度,最后使群众合法

权益得到保护,实现权力有效监督和提高政府效能。

(四)系统架构

多it分析即席居神统计决策管理8(费分析

数据仓库数据集市共享数据视图

数据管理层

相关业务单位

系统架构图

在建立数据仓库,数据仓库按主题域存储各业务数据。数据来源重要是政府管理

构造不同业务管理系统。通过数据互换平台定期采集各管理机构业务数据,后台

数据解决工具ETL抽取、清洗数据,并加载入数据仓库中。

架构于数据仓库上系统功能重要涉及大数据门户、专项主题分析、即系查询、多

维分析、自助报表功能模块,通过这些功能模块为管理者获取数据和分析数据提

供简朴易用、功能强大办法,为管理者决策及提高管理精度,最后实现权力有效

监督和提高政府效能。

数据仓库架构

>数据仓库是一种建设过程,而不是产品。数据仓库是通过对来

自不同数据源进行统一解决及管理一通过灵活展示办法来协助

决策支持。

>数据获取层

实现如何从所有源系统中获得原始业务数据,并对其进行一定数

据解决,按主题进行数据重组和格式转换,然后传送并装载到数据

仓库系统中。

数据仓库系统需要从各种源数据系统中抽取和汇总各个业务数据,

这些数据源系统是数据仓库系统数据来源。

>把上述数据源系统中数据按照主题进行划分和组织,然后抽取

并装载到数据仓库系统中。

>数据需要通过三个过程:数据抽取、数据转换、数据装载。这

三个过程是在保证各个数据源系统与数据仓库系统可以成功连

接(涉及网络合同原则转换、不同平台之间接口)前提下实现。

保证把来自不同源数据系统同类数据一致性和完整性,转换完

毕数据装载到数据仓库系统中。

>数据管理层

>把数据存储到公司级数据仓库系统中进行集中管理。在数据存储层,

数据是存储在两类数据库中:关系型数据库和多维数据库。数据存储是数

据仓库系统中心。取自各种数据源系统明细数据,以及用于分析集成汇总

数据都存储在这个中心。它在逻辑上是一种完整库。

>数据使用层

把数据仓库系统中数据和分析成果提供应最后顾客。按照顾客

分析需求、使用报表、随后查询、多维度分析和数据挖掘进行数据呈

现。

数据输出层功能是使最后顾客通过报表、图形和其她分析工具方式简

便、快捷地访问数据仓库系统中各种数据,得到分析成果。

提供各种数据分析办法,涉及原则报表、即席查询报表、动态分析

报表、多维分析、趋势预测、假设分析和数据挖掘等。

系统功能架构

多维分析OLDP多角度.立体化、灵活动态分析业务数据。产品

简朴易用,无需编写任何代码,顾客只需要通过语义层定义就可以轻

松搭建自己多维数据模型。

即席查询记录报表、指标迅速检索,协助业务分析人员迅速获得

所需要数据和记录信息。

数据门户DataPortal进行统一呈现,呈现方式涉及仪表盘、表

格.报表、曰历等内容,并支持顾客个性化定制内容.指标等功能,实

现真正个性化服务。数据门户中呈现内容是管理者及业务人员最关注

指标,通过门户为她们获取数据提供最简朴容易方式。

主题分析依照资源组织,支持数据进一步挖掘和分析应用,跟踪、

监控政策执行状况及实行效果,让管理层理解细化、量化权力清单,

固化权力运营流程和办理环节,达到规范业务流程、监督个体行为、

记录执法诚信.科学考核评价和提高管理精度,最后使群众合法权益

得到保护,实现权力有效监督和提高政府效能。

(五)报表业商业智能系统建设重要构成某些,重要对公司数据仓

库中整合各主题域业务数据,按照监督管理规定,面向各级部门,

迅速提供精确、全面、灵活体现政府管理效能等方面实际数据信

息,为决策支持、业务管理提供有效数据信息支撑。

(六)ETL工具:ETL是数据仓库最核心后台组件,通过对及汇总来

不同来源数据抽取、清洗、加载实现数据仓库中数据更新及流转。

ETL工具(桥接器),实现了图形化及自动化方式来配备ETL流

程,极大减轻了数据加工工作量,提高了数据精确性及解决效率。

(七)数据仓库建设办法

数据仓库决策分析业务解决流程重要分为四个阶段。

1)数据集中:各级政府部门业务数据统一汇总数据中心暂时

数据存储;

2)数据整顿和转换:汇总后业务数据通过ETL抽取、转换、

加载到数据仓库中;

3)数据存储和管理:对数据仓库数据进行集中存储和管理、

备份和维护;

数据挖掘和呈现:顾客通过前端呈现工具对数据仓库中数据进

行挖掘、钻取和分析,在数据门户呈现;

数据仓库建设8大环节

1.系统分析,拟定主题

拟定一下几种因素:

•操作浮现频率,即业务部门每隔多长时间做一次查询分析。

•在系统中需要保存多久数据,是一年、两年还是五年、十年。

顾客查询数据重要方式,如在时间维度上是按照自然年,还是财政

年。

•顾客所能接受响应时间是多长、是几秒钟,还是几小时。

2.选取满足数据仓库系统规定软件平台

选取适当软件平台,涉及数据库、建模工具、分析工具等。有许多因

素要考虑,如系统对数据量、响应时间、分析功能规定等,如下是某

些公认选取原则:

•厂商背景和支持能力,能否提供全方位技术支持和征询服务。

•数据库对大数据量(TB级)支持能力。

•数据库与否支持并行操作。

•能否提供数据仓库建模工具,与否支持对元数据管理。

•能否提供支持大数据量数据加载、转换、传播工具(ETT)。

•能否提供完整决策支持工具集,满足数据仓库中各类顾客需要。

3.建立数据仓库逻辑模型

详细环节如下:

(1)拟定建立数据仓库逻辑模型基本办法。

(2)基于主题视图,把主题视图中数据定义转到逻辑数据模型中。

(3)辨认主题之间关系。

(4)分解多对多关系。

迫r

<口>Number(1S<M)

Date

Time

Number(10.2)

主标识符<pi>

验客

Si>Inleaei<M>____________商品

姓名<ai>Characters(10)

住址Characcera(40)育晶编号LongInteger<M>

电话Cha,aa8r2(15)豹量Shortinteger

积分Number(6)

VIPBoolean

次标识苻<«i>

付款

育品目》

支付飙号8y导

<pi>LonaInteaer《山〉LonaInlscer

日期时间Date&Tme述

Text

ffl付款项Decimal(6.2)家

Longcharacters(20)

我霉Decimal(6,2)期

价Date&Timo

销苫记录^号Number。。)

Number(€.2)

主标识符

主标识符<pi>

(5)用范式理论检查逻辑数据模型。

(6)由顾客审核逻辑数据模型。

4.逻辑数据模型转化为数据仓库数据模型

详细环节如下:

(1)删除非战略性数据:数据仓库模型中不需要包括逻辑数据模型

中所有数据项,某些用于操作解决数据项要删除。

(2)增长时间主键:数据仓库中数据一定是时间快照,因而必要增

长时间主键。

(3)增长派生数据:对于顾客经常需要分析数据,或者为了提高性

能,可以增长派生数据。

(4)加入不同级别粒度汇总数据:数据粒度代表数据细化限度,粒

度越大,数据汇总限度越高。粒度是数据仓库设计一种重要因素,它

直接影响到驻留在数据仓库中数据量和可以执行查询类型。显然,粒

度级别越低,则支持查询越多;反之,能支持查询就有限。

5.数据仓库数据模型优化

数据仓库设计时,性能是一项重要考虑因素。在数据仓库建成后,也

需要经常对其性能进行监控,并随着需求和数据量变更进行调节。

优化数据仓库设计重要办法是:

•合并不同数据表。

•通过增长汇总表避免数据动态汇总。

•通过冗余字段减少表连接数量,不要超过3~5个。

•用ID代码而不是描述信息作为键值。

•对数据表做分区。

数据清理

脏数据“干通”数据

Ezzd===|

数据集成

[iii3c

数据变短-2,32,100,59,48,♦-0.02,0.32,1.00,0.59,0.48

AlA3・・・A11S

T1[][]一

T3------------------

数据归约

T1456

6.数据清洗转换和传播

由于业务系统所使用软硬件平台不同,编码办法不同,业务系统中

数据在加载到数据仓库之前,必要进行数据清洗和转换,保证数据

仓库中数据一致性。

在设计数据仓库数据加载方案时,必要考虑如下几项规定:

•加载方案必要可以支持访问不同数据库和文献系统。

•数据清洗、转换和传播必要满足时间规定,可以在规定期间范畴内

完毕。

•支持各种转换办法,各种转换办法可以构成一种工作流。

•支持增量加载,只把自上一次加载以来变化数据加载到数据仓库。

7.开发数据仓库分析应用

建立数据仓库最后目是为业务部门提供决策支持能力,必要为业务

部门选取适当工具实现其对数据仓库中数据进行分析规定。

信息部门所选取开发工具必要可以:

•满足顾客全某些析功能规定。数据仓库中顾客涉及了公司中各个业

务部门,她们业务不同,规定分析功能也不同。如有顾客只是简朴分

析报表,有些顾客则规定做预测和趋势分析。

•提供灵活体现方式。分析成果必要可以以直观、灵活方式体现,支

持复杂图表。使用方式上,可以是客户机/服务器方式,也可以是浏

览器方式。

事实上,没有一种工具可以满足数据仓库全某些析功能需求,一种

完整数据仓库系统功能也许是由各种工具来实现,因而必要考虑各

种工具之间接口和集成性问题,对于顾客来说,但愿看到是一致界

面O

8.数据仓库管理

(,\)只注重数据仓库建立,而忽视数据仓库管理必然导致数据仓

库项目失败。数据仓库管理重要涉及数据库管理和元数据管理。

数据库管理需要考如下几种方面:

•安全性管理。数据仓库中顾客只能访问到她授权范畴内数据,数

据在传播过程中加密方略。

・数据仓库备份和恢复。数据仓库大小和备份频率直接影响到备份

方略。

•如何保证数据仓库系统可用性,硬件还是软件办法。

•数据老化。设计数据仓库中数据存储时间周期和对过期数据老化

办法,如历史数据只保存汇总数据,当年数据保存详细记录。

然而,元数据管理贯穿于整个系统建设过程中,元数据是描述数

据数据。在数据采集阶段,元数据重要涉及下列信息:

•源数据描述定义:类型、位置、构造。

•数据转换规则:编码规则、行业原则。

•目的数据仓库模型描述:星型/雪花模型定义,维/事实构造定

义。

•源数据到目的数据仓库映射关系:函数/表达式定义。

•代码:生成转换程序、自动加载程序等。

在数据管理阶段,元数据重要涉及下列信息:

・汇总数据描述:汇总/聚合层次、物化视图构造定义。

•历史数据存储规则:位置、存储粒度。

•多维数据构造描述:立方体定义、维构造、度量值、钻取层次定

义等。

在数据呈现阶段,元数据重要涉及如下信息:

•报表描述:报表构造定义。

■记录函数描述:各类记录分析函数定义。

•成果输出描述:图、表输出定义。

元数据不但是独立存储,并且对顾客是透明,原则元数据之间可

以互相转换

(九)系统功能详细简介

公司数据门户

公司实行商业智能、数据仓库目之一为整合各系统业务数据,统

一指标口径,实现统一视图、统一决策界面。公司数据门户功能重要

对整合业务数据进行统一呈现,呈现方式涉及仪表盘、表格、日历等

内容。数据门户中呈现内容是管理者及业务人员最关注指标,通过门

户为她们获取数据提供最简朴容易方式。数据门户中呈现内容依照

顾客角色不同而有所差别,每个顾客都可以定制自己关注内容,实

现真正个性化服务。

系统截图:

♦tttmrnp•■UM:WHOTM10H

科到仪表a关it指标

<5ais5《ur*siis9•及日方♦ihQaii标

nna*naWtt*>»■

SibftAM•7U*1097%9SMw»s

・,士食A464t20-to»%5221

n2200tm-222U22・mn

1445Lm-212%2.W24

U£t%10M%12ftlM•M%T

▲m入%M44-iimA•

8JL1A,用1405-M45%IMS15m

月庾计划克w况

WrtlPWtt日历分析4201/8月

啦收入日盼布

W2周3ffl4nsffleJUD

1

”70

2345678

S742SMI,刎“45S54596M9460

9io«mv1112131415

”14s53e

16171819中蚌202122

232425262728

30

・或・时比分析

分居力名(TOP10)

20cMioA“H±<B

片比收入分店建名(Top10).*月*讨:5.6«6元)Brfftt:o«i

I丈化■:“B兄)

■0001

主题分析

数据仓库中业务数据普通是面向主题进行组织。主题分析是在较

高层次上将公司信息系统数据进行归并、抽象,形成对分析对象一种

完整描述,体现分析数据之间互有关系,揭示数据规律和问题。

主题分析模块从主题域角度入手,支撑数据资源组织,支持数据进

一步挖掘和分析应用,跟踪、监控政策执行状况及实行效果,倒逼行

政权力部门认真履职、规范执法、优化服务,努力提高政府效能。

考虑到国情特点和现状,主题分析涵盖了经济发展、卫生健康、教诲

科技、道路交通、机构团队、生活服务、文体娱乐、安全避险、资源

环境、社保就业、财税金融、法律服务量等八个主题域有关主题分析

功能。

即席查询

即席查询针对数据仓库内各主题数据.记录报表、指标

迅速检索,协助分析人员迅速获得所需要数据和记录信息。

即席查询工具通过提供各种向导式界面、图形查询生成器.

联机协助等功能,为系统使用人员提供细粒度数据。

即席查询是分析人员重要辅助工具,它是在数据仓库信息组织基本

上,尽量多在后台按照分析人员关怀分析角度沉淀业务知识,在前

端功能上屏蔽后台查询技术细节,为分析人员提供灵活业务分析查

询角度定制和成果定制功能,使分析人员在分析汇总数据同步可以

通过即席查询进一步进一步到自己感兴趣细节数据中,以便更全面

地反映状况,做出对的决策。

多维分析工具

多维分析是商业智能核心技术,可以协助顾客进行多角度、立体

化、灵活动态分析。多维分析报表由“维”(影响因素)和“指标”

(衡量因素)构成,可以真正为顾客所理解、并真实反映国情特性信

息。

BI-多维分析工具简朴易用,无需编写任何代码,顾客只需要

通过语义层定义就可以轻松搭建自己多维数据模型。同步具备灵活分

析功能、直观数据操作和分析成果可视化表达等突出长处,从而使顾

客对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论