版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、- PAGE 130 文档编号产品版本密级1.0共87页数据仓库系统总体设计文档作者:_ _日期:20001/12/20项目经理:_ _日期:20001/12/28部门经理:_ _ 日期:22002/01/08总 工 办:_ _日期:22002/01/08目 录TOC o 1-4 h z HYPERLINK l _Toc535738385 1概述 PAGEREF _Toc535738385 h 7 HYPERLINK l _Toc535738386 1.1背景 PAGEREF _Toc535738386 h 7 HYPERLINK l _Toc535738387 1.1.1待待开发的软件件系统
2、名称 PAGEREF _Toc535738387 h 8 HYPERLINK l _Toc535738388 1.1.2系系统的基本概概念 PAGEREF _Toc535738388 h 8 HYPERLINK l _Toc535738389 1.1.3项项目组名称 PAGEREF _Toc535738389 h 8 HYPERLINK l _Toc535738390 1.1.4项项目代号 PAGEREF _Toc535738390 h 8 HYPERLINK l _Toc535738391 1.2术语和和缩写词 PAGEREF _Toc535738391 h 8 HYPERLINK l _T
3、oc535738392 1.3设计目目标 PAGEREF _Toc535738392 h 9 HYPERLINK l _Toc535738393 2系统设计 PAGEREF _Toc535738393 h 9 HYPERLINK l _Toc535738394 2.1设计原原则 PAGEREF _Toc535738394 h 9 HYPERLINK l _Toc535738395 2.2系统结结构 PAGEREF _Toc535738395 h 11 HYPERLINK l _Toc535738396 2.2.1子子系统划分 PAGEREF _Toc535738396 h 11 HYPERLI
4、NK l _Toc535738397 2.3系统数数据结构 PAGEREF _Toc535738397 h 17 HYPERLINK l _Toc535738398 2.3.1逻逻辑结构 PAGEREF _Toc535738398 h 12 HYPERLINK l _Toc535738399 2.3.2层层次结构 PAGEREF _Toc535738399 h 13 HYPERLINK l _Toc535738400 2.3.3网网络拓扑结构构 PAGEREF _Toc535738400 h 14 HYPERLINK l _Toc535738401 2.3.4网网络层次结构构 PAGEREF
5、_Toc535738401 h 16 HYPERLINK l _Toc535738402 2.4行业特特殊需求 PAGEREF _Toc535738402 h 17 HYPERLINK l _Toc535738403 2.5底层数数据库(仓库库)设计 PAGEREF _Toc535738403 h 19 HYPERLINK l _Toc535738404 2.5.1设设计原则 PAGEREF _Toc535738404 h 19 HYPERLINK l _Toc535738405 2.5.2数数据现状 PAGEREF _Toc535738405 h 20 HYPERLINK l _Toc535
6、738406 2.5.3数数据存储整体体规划 PAGEREF _Toc535738406 h 21 HYPERLINK l _Toc535738407 2.6ETLL系统 PAGEREF _Toc535738407 h 24 HYPERLINK l _Toc535738408 2.6.1需需求规定 PAGEREF _Toc535738408 h 24 HYPERLINK l _Toc535738409 2.6.2运运行环境 PAGEREF _Toc535738409 h 24 HYPERLINK l _Toc535738410 2.6.3设设计思想 PAGEREF _Toc535738410
7、h 24 HYPERLINK l _Toc535738411 2.6.4结结构说明 PAGEREF _Toc535738411 h 25 HYPERLINK l _Toc535738412 2.6.5处处理流程 PAGEREF _Toc535738412 h 26 HYPERLINK l _Toc535738413 2.7系统管管理 PAGEREF _Toc535738413 h 27 HYPERLINK l _Toc535738414 2.7.1需需求规定 PAGEREF _Toc535738414 h 27 HYPERLINK l _Toc535738415 2.7.2运运行环境 PAGE
8、REF _Toc535738415 h 28 HYPERLINK l _Toc535738416 2.7.3设设计思想 PAGEREF _Toc535738416 h 28 HYPERLINK l _Toc535738417 2.7.4结结构说明 PAGEREF _Toc535738417 h 28 HYPERLINK l _Toc535738418 2.7.5处处理流程 PAGEREF _Toc535738418 h 29 HYPERLINK l _Toc535738419 2.8数据展展现 PAGEREF _Toc535738419 h 30 HYPERLINK l _Toc5357384
9、20 2.8.1需需求规定 PAGEREF _Toc535738420 h 30 HYPERLINK l _Toc535738421 2.8.2运运行环境 PAGEREF _Toc535738421 h 32 HYPERLINK l _Toc535738422 2.8.3设设计思想 PAGEREF _Toc535738422 h 32 HYPERLINK l _Toc535738423 2.8.4结结构说明 PAGEREF _Toc535738423 h 32 HYPERLINK l _Toc535738424 2.8.5处处理流程 PAGEREF _Toc535738424 h 34 HYP
10、ERLINK l _Toc535738425 2.9界面设设计 PAGEREF _Toc535738425 h 34 HYPERLINK l _Toc535738426 2.9.1需需求规定 PAGEREF _Toc535738426 h 34 HYPERLINK l _Toc535738427 2.9.2主主程序界面 PAGEREF _Toc535738427 h 34 HYPERLINK l _Toc535738428 2.9.3主主要页面设计计 PAGEREF _Toc535738428 h 35 HYPERLINK l _Toc535738429 2.10接口口设计 PAGEREF _
11、Toc535738429 h 38 HYPERLINK l _Toc535738430 2.10.1外部接口 PAGEREF _Toc535738430 h 38 HYPERLINK l _Toc535738431 2.10.2内部接口 PAGEREF _Toc535738431 h 39 HYPERLINK l _Toc535738432 2.11安全全设计 PAGEREF _Toc535738432 h 39 HYPERLINK l _Toc535738433 2.11.1网络安全 PAGEREF _Toc535738433 h 39 HYPERLINK l _Toc535738434 2
12、.11.2数据库安全全 PAGEREF _Toc535738434 h 42 HYPERLINK l _Toc535738435 2.12系统统可靠性设计计 PAGEREF _Toc535738435 h 43 HYPERLINK l _Toc535738436 2.12.1可靠性 PAGEREF _Toc535738436 h 43 HYPERLINK l _Toc535738437 2.12.2可维护性 PAGEREF _Toc535738437 h 43 HYPERLINK l _Toc535738438 2.12.3可扩展性 PAGEREF _Toc535738438 h 44 HYP
13、ERLINK l _Toc535738439 2.12.4健壮性 PAGEREF _Toc535738439 h 44 HYPERLINK l _Toc535738440 2.12.5性能保证 PAGEREF _Toc535738440 h 44 HYPERLINK l _Toc535738441 2.12.6出错处理 PAGEREF _Toc535738441 h 45 HYPERLINK l _Toc535738442 2.12.7备份与恢复复 PAGEREF _Toc535738442 h 45 HYPERLINK l _Toc535738443 2.13运行行设计 PAGEREF _T
14、oc535738443 h 46 HYPERLINK l _Toc535738444 2.14相关关工具选择 PAGEREF _Toc535738444 h 46 HYPERLINK l _Toc535738445 2.14.1数据库选择择 PAGEREF _Toc535738445 h 47 HYPERLINK l _Toc535738446 2.14.2WEB服务器器和应用服务务器 PAGEREF _Toc535738446 h 47 HYPERLINK l _Toc535738447 2.14.3数据库建模模工具 PAGEREF _Toc535738447 h 48 HYPERLINK
15、l _Toc535738448 2.14.4分析型工具具 PAGEREF _Toc535738448 h 48 HYPERLINK l _Toc535738449 2.14.5OLAP工具具介绍 PAGEREF _Toc535738449 h 49 HYPERLINK l _Toc535738450 2.14.6ORACLLE公司OLAPP介绍 PAGEREF _Toc535738450 h 50 HYPERLINK l _Toc535738451 2.15开发发环境 PAGEREF _Toc535738451 h 51 HYPERLINK l _Toc535738452 2.15.1硬件环境
16、 PAGEREF _Toc535738452 h 51 HYPERLINK l _Toc535738453 2.15.2操作系统 PAGEREF _Toc535738453 h 51 HYPERLINK l _Toc535738454 2.15.3开发语言 PAGEREF _Toc535738454 h 52 HYPERLINK l _Toc535738455 2.15.4数据库系统统 PAGEREF _Toc535738455 h 52 HYPERLINK l _Toc535738456 2.15.5中间件系统统 PAGEREF _Toc535738456 h 52 HYPERLINK l
17、_Toc535738457 2.15.6应用系统 PAGEREF _Toc535738457 h 53 HYPERLINK l _Toc535738458 3系统调试和和测试 PAGEREF _Toc535738458 h 53 HYPERLINK l _Toc535738459 3.1目的 PAGEREF _Toc535738459 h 53 HYPERLINK l _Toc535738460 3.2基本要要求 PAGEREF _Toc535738460 h 54 HYPERLINK l _Toc535738461 3.2.1测测试计划 PAGEREF _Toc535738461 h 54
18、HYPERLINK l _Toc535738462 3.2.2测测试说明 PAGEREF _Toc535738462 h 54 HYPERLINK l _Toc535738463 3.2.3测测试环境建立立 PAGEREF _Toc535738463 h 54 HYPERLINK l _Toc535738464 3.2.4测测试报告 PAGEREF _Toc535738464 h 54 HYPERLINK l _Toc535738465 3.3应遵循循的原则 PAGEREF _Toc535738465 h 54 HYPERLINK l _Toc535738466 3.4测试方方法 PAGERE
19、F _Toc535738466 h 55 HYPERLINK l _Toc535738467 3.5测试重重点 PAGEREF _Toc535738467 h 55 HYPERLINK l _Toc535738468 4项目进度 PAGEREF _Toc535738468 h 56 HYPERLINK l _Toc535738469 4.1项目资资源计划 PAGEREF _Toc535738469 h 56 HYPERLINK l _Toc535738470 4.1.1项项目组 PAGEREF _Toc535738470 h 56 HYPERLINK l _Toc535738471 4.1.2
20、数数据仓库领导导小组办公室室 PAGEREF _Toc535738471 h 56 HYPERLINK l _Toc535738472 4.2项目工工期计划 PAGEREF _Toc535738472 h 56 HYPERLINK l _Toc535738473 4.3时间进进度计划 PAGEREF _Toc535738473 h 56 HYPERLINK l _Toc535738474 4.3.1数数据仓库系统统需求调查与与两会系统 PAGEREF _Toc535738474 h 57 HYPERLINK l _Toc535738475 4.4第一期期开发主题 PAGEREF _Toc535
21、738475 h 57 HYPERLINK l _Toc535738476 4.5第二期期开发主题 PAGEREF _Toc535738476 h 57 HYPERLINK l _Toc535738477 4.6工作量量分配计划 PAGEREF _Toc535738477 h 57 HYPERLINK l _Toc535738478 5小结 PAGEREF _Toc535738478 h 588 HYPERLINK l _Toc535738479 6参考文献 PAGEREF _Toc535738479 h 60 HYPERLINK l _Toc535738480 7附录 PAGEREF _To
22、c535738480 h 611 HYPERLINK l _Toc535738481 7.1Oraacle性能能评估报告 PAGEREF _Toc535738481 h 61 HYPERLINK l _Toc535738482 7.2主流WWEB服务器器比较 PAGEREF _Toc535738482 h 65 HYPERLINK l _Toc535738483 7.3IBMM小型机性能能评估报告 PAGEREF _Toc535738483 h 76 HYPERLINK l _Toc535738484 7.4详细网网络拓扑图及及设备清单 PAGEREF _Toc535738484 h 78 H
23、YPERLINK l _Toc535738485 7.5在多层层体系结构下下建立数据仓仓库 PAGEREF _Toc535738485 h 83摘 要数据仓库系统的的建立可以解解决传统数据据库不能很好好提供分析决决策功能的问问题,可以发发掘历史数据据中隐含的大大量有价值的的信息,为国国民经济的发发展和宏观决决策提供大量量有效的参考考信息。系统统数据来源复复杂,在数据据仓库设计中中不能采用常常规方法解决决问题;主题题众多且分析析热点会随时时间变化而变变化,要求主主题下所含的的信息在一定定范围可变;主题下指标标可能需要调调整等实际情情况,这和数数据仓库的数数据的不可修修改性有矛盾盾;等等。我我们结
24、合数据据仓库的特点点和系统实际际情况,提供供了一套完整整的数据仓库库系统的解决决方案。整个个数据仓库系系统从数据采采集到数据展展现共分为四四部分:1、数数据抽取、转转换、加载;2、系统管管理(包括数数据库维护);3、数据展展现;4、支支撑整个系统统的数据库的的设计(包括括ETL中间间数据库和数数据仓库)保保证系统具有有相当的灵活活性。各个部部分独立完成成本部分功能能,同时紧密密协作组成数数据仓库系统统。数据仓库库系统管理与与数据导入部部分采用C/S模式有针针对性的开发发;数据仓库库系统的数据据展现采用流流行的B/SS模式向用户户提供数据查查询、决策分分析。关键词:指标,主题,数数据仓库,联联机
25、分析,数数据挖掘,决决策支持。概述背景经过2个多月的的需求分析调调查,确定了了数据仓库系系统总体定位位(省政府数数据仓库是以以充分发挥信信息的社会作作用和经济效效益为最终目目的)和系统统功能需求。现现根据需求分分析规定和局局具体情况,确确定数据仓库库整体方案,以以指导数据仓仓库系统研究究、开发、实实现。省政府局数据具具有建立数据据仓库系统的的基本条件:积累了大量历史史数据,这是是数据仓库存存在的必要条条件;随着市场经济的的发展,社会会各界(如金金融投资等领领域为了规避避市场风险,提提高决策的准准确度,开发发新的市场和和利润增长点点,挖掘市场场潜力)对数数据的需求不不断增大,社社会各界迫切切需要
26、利用数数据进行决策策分析,指导导经济建设。省政府数据仓库库建设存在以以下困难:当前局各个处室室没有统一规规划的数据库库系统;只有少量数据以以电子文件形形式存在,大大部分历史数数据保存在纸纸介质上,到到目前为止,建建国以来的数数据有一般以以上以纸介质质方式存储;由于我国制度在在不断发展完完善,指标在在不同的历史史时期的口径径不同,为了了使同类指标标具有可比性性,要确定不不同时期各个个指标的调整整规则,并对对历史数据按按规则进行调调整,这种调调整除了少数数指标可以按按统一的算法法进行以外,大大部分调整工工作需要人工工参与;因此,省政府数数据仓库的建建设中数据的的整理加载工工作量极大,EETL(Ex
27、xtractt、Transsform、CCleaniing、Load)工工具开发难度度大;完善的的、与数据仓仓库系统良好好联接的、统统一规划的各各个处室的数数据库系统是是据仓库系统统的具有长久久生命力的基基本保障,因因此各处室数数据库的建设设应同步进行行。待开发的软件系系统名称省政府数据仓库库系统系统的基本概念念指标:系统的数数据以指标为为载体,所有有的数据都是是指标在不同同时间,不同同地域上的取取值,统一指指标可能有年年度、月度、季季度、半年、连连续某几个月月等时间段的的数据,可能能有国家、省省、地、市、县县、乡、村的的数据,甚至至有居民户、具具体企业单位位的明细数据据,数据仓库库中的数据就
28、就是这些数据据的有机集合合。主题:数据仓库库中的数据按按主题组织,这这是由数据仓仓库以分析决决策为主要目目的决定的。主主题是一个在在较高层次上上将数据归类类的标准,每每一个主题对对应一个宏观观的分析领域域。省政府数数据仓库是将将指标数据按按分析主题集集成起来,供供查询、分析析、辅助决策策。项目组名称数据仓库项目组组项目代号XhnTJDWW001-00019术语和缩写词指标:Stattisticcal Paarametter数据仓库:DWW(DataaWarehhouse)主题:Subjject数据集市:DaataMarrt元数据:MettaDataa数据抽取、转换换、加载:EETL(Exxtr
29、actt、Transsform、CCleaniing、Load)联机分析处理:OLAP(On-LineAnalyticalProcessing)联机事务处理:OLTP(OOn-LinneTrannsactiionProocessiing)决策支持系统:DSS(DDecisiionSuppportSSystemm)数据挖掘:DMM(DataaMininng)应用服务器:AAS(AppplicattionSeerver)Web服务器:WebSeerver设计目标省政府数据仓库库系统是以充充分发挥信息息的社会效益益和经济价值值为最终目的的。将大量事务处理理数据库中的的数据进行清清理、抽取和和转换,并
30、按按决策主题进进行多维重组组,在高效的的网络平台上上充分发挥系系统作为社会会“数据库,信信息库,思想想库,智囊库库”的作用,直直接向党政领领导、社会各各界提供数据据、信息服务务,为信息工工程建设提供供一个“决策数据管管理与分析中中心”的基本解决决方案。为省政府局建立立一套面向党党政领导、专专业分析人员员、广大社会会群众对外发发布信息的数数据仓库系统统。整个系统统集数据采集集、管理、维维护、展现于于一体,旨在在建立数据仓仓库后既减轻轻局工作人员员工作量,又又能很好的为为公众服务。前前端数据展现现要有通用性性,采用浏览览器浏览数据据,是瘦客户户端。后端维维护系统要具具有高效性,能能及时、高效效处理
31、、管理理数据,功能能强大,是胖胖客户端。数据仓库系统重重在建立一个个适应分析的的系统环境,首首期开发“两会”信息咨询,企企业名录、人人口普查、字字典、工业经经济、农业经经济等主题。系统设计设计原则从充分发挥系统统作为社会“数据库,信信息库,思想想库,智囊库库”的作用,直直接向党政领领导、社会各各界提供“快、精、准准”的信息服务务的需要出发发,采用当今今数据库领域域成熟稳定的的数据仓库、决决策分析等技技术,在高效效的网络平台台上为全省信信息工程建设设提供一个“决策数据管管理与分析中中心”的基本解决决方案。系统采用多层体体系结构,建建立一个良好好开放性的数数据仓库系统统环境,适应应不断增加和和变化
32、的业务务需求。多层层体系结构通通过引入中间间层组件,扩大了传统统的客户/服服务器和两层层计算模式。多多层结构可由由以下三类分分层来定义:前端的客户户层,负责提提供可移植的的表达逻辑;中间的应用层层,允许用户户通过将其与与实际应用隔隔离而共享和和控制业务逻逻辑;后端的数据据管理与服务务层,提供对专门门服务(例如数据库库服务器)的访问。多多层结构与传传统的客户/服务器结构构的区别在于于:在传统的客客户/服务器器两层结构中中,用户将实实际的业务逻逻辑放置到客客户端(作为为对表达逻辑辑的增补)或或放置到后端端数据库(作作为数据逻辑辑的一部分包包含在存储过过程中)。而而在多层结构构中,用户将将业务逻辑放
33、放到中间层上上。这种模块块化方法明确确地划分了表表达逻辑、业业务逻辑和数数据存储。多多层结构通过过将应用逻辑辑集中到中间间层,开发者者可以迅速更更新业务逻辑辑,而无需重重新将应用递递交到成千上上万的桌面系系统上。提高高数据库的性性能、改善系统的开开放性、可扩扩展性和数据据的安全性,并并降低管理的复复杂性。结构化、层次化化、模块化。采采用面向对象象技术,使系系统高度结构构化、模块化化、层次化,整整个系统由接接口定义良好好的多个模块块组成,每个个模块都有详详细的功能说说明和设计文文稿,每个模模块完成相对对独立的功能能,模块之间间的接口定义义规范,使模模块功能的变变化相对独立立,不影响整整个系统的功
34、功能和结构,便便于系统升级级,维护。具有良好的平台台移植性。选选用支持多种种操作平台的的数据库服务务器、应用服服务器、WEEB服务器等等服务器软件件系统,选用用具有良好平平台移植性的的B/S和CC/S模式下下的开发语言言开发应用程程序和应用中中间件,提高高应用系统的的平台移植性性;统一性和多样性性相结合。面面向用户的各各个应用系统统,尽量保持持统一风格以以适应用户的的操作习惯,但但各个系统根根据内容具有有各自的特色色,整个系统统和谐统一,清清新明了。自主开发和利用用现有工具相相结合。尽量量利用各成熟熟的数据仓库库系统软件(工工具)为数据据仓库这个具具有特殊性的的项目服务,针针对具有特殊殊性的需
35、求,开开发特定的系系统软件,缩缩短数据仓库库开发周期,降降低开发成本本,保证系统统正常开发。安全性的考虑。系系统安全和数数据安全是一一个网络应用用系统应该首首先考虑的问问题,数据仓仓库系统的设设计要从网络络安全、系统统安全、数据据安全等各个个方面充分考考虑,保障系系统安全稳定定。分散与集中相结结合。数据仓仓库系统是一一个非常庞大大的系统,所所有数据集中中存储,但局局各处室能分分别维护本处处室数据,数数据仓库根据据需要能对系系统管理分别别设置权限,不不同用户维护护不同数据。稳定优先,注重重效率。数据据仓库的海量量数据存储和和高效查询是是一对矛盾,在在当今硬件技技术不断发展展和成本不断断降低的形式
36、式下,我们优优先考虑系统统效率,但是是在系统稳定定性和效率不不可兼顾时,以以系统稳定优优先。例如如在数据仓库库设计方面,我我们通过逆规规范化(引进进适当冗余)来来提高系统查查询效率。以最简单的方式式实现复杂的的功能。为提提高系统的稳稳定性和可读读性,可维护护性,尽量采采用简洁易懂懂的方式实现现系统功能,不不追求复杂、深深奥的算法。系统结构子系统划分整个系统按功能能分为四大系系统,各系统统分别为:数据库系统中间数据库数据仓库ETL系统指标数据抽取子子系统指标数据加载子子系统系统管理系统ETL管理管理理子系统数据仓库管理子子系统元数据管理子系系统数据展现系统应用服务器子系系统WEB服务器子子系统O
37、LAP多维分分析决策支持分析子系统数据挖掘子系统统图形展示子系统统报表处理子系统统数据导出子系统统逻辑结构层次结构整个系统在逻辑辑上分为三层层:原始数据据层,中间逻逻辑层(业务务逻辑层、WWEB服务层层、安全服务务层),应用用层。原始数据层:以以统一规范的的方式存储数数据;中间逻辑层:解解析应用层的的业务逻辑,使使应用层和原原始数据相互互独立,提高高应用层系统统(程序)的的可扩展性、可可移植性;应用层:面向最最终用户,提提供友好、简简洁、方便的的用户界面,具具有良好的业业务无关性。网络拓扑结构我们根据以下列列出的几点,确确定硬件系统统结构:系统已经拥有比比较完备的内内部网络系统统,此系统是是全
38、国系统的的专用网络。省政府数据仓库库系统的数据据、信息既能能够在系统的的网络内最大大限度的实现现数据共享,又又能将可以对对公众发布的的信息分不同同的级别向外外界发布。尽可能在网络设设计上考虑防防止黑客攻击击、病毒传播播等破坏数据据的手段和方方式。尽可能利用现有有网络系统,包包括系统专有有网,公共IInternnet网,政政府办公局域域网等。我们设计了一个个在物理上可可以随时隔离离或连接、由由两大部分组组成的网络系系统结构,如如下图所示:说明:出于网络安全的的原因,将整整个网络分为为内部网络和和外部网络两两部分。内部网络与外部部网络的系统统机构基本相相同。外部网网络基本上用用在对外发布布,不包括
39、保保密信息。外部网络需要的的发布数据从从内部网络中中通过ETLL工具获得,存存放在外部网网络的数据仓仓库中。外部网络经过防防火墙、路由由器与Intternett相连。为保证数据安全全,只在外部部网络从内部部网络抽取数数据时,两者者才是连通的的(且要经过过防火墙),其其余时间两个个网络物理隔隔离。工作站分别为各各个处室的个个人PC机,也也可以是单独独的工作站,功功能为向ETTL服务器提提供仓库所需需数据及通过过浏览器访问问数据仓库数数据信息。ETL工具定期期从各个处室室的数据库系系统抽取数据据,且ETLL服务器兼中中间数据库服服务器,抽取取的数据暂时时保存在ETTL服务器上上,在导入数数据仓库之
40、前前容许修改。考虑到数据仓库库系统决策分分析时需要大大量数据信息息,所以要求求交换机容量量应为10000M。OLAP服务器器和应用服务务器结合比较较紧密,在实实际的应用中中共享一台设设备。入侵检测系统是是一台单独的的设备,放在在路由之后,起起到防止非法法入侵的作用用。安全隐患扫描系系统可以运行行在一台高性性能的PC机机上,提供及及时的安全扫扫描,及早发发现问题。详细的硬件配置置及全局网络络拓扑参见附附件: HYPERLINK l _详细网络络拓扑图及设设备清单 详细网络拓扑图及设备清单单网络层次结构整个数据仓库系系统由内而外外分为四层:1、系统内核核层:包括数据仓库服服务系统及应应用系统。2、
41、系统安全全层:使用网络安全全产品,与局局现有网络系系统兼容,保保护内部数据据安全,网上上信息传送安安全、防止黑黑客破坏或恶恶意入侵。3、公共网络层层:基于TCP/IIP的城域网网和广域网(省省局目前开通通的帧中继网网),使用现现在已经建成成的公共网络络将数据、信信息、知识发发布出去。4、外部应用层层:各种数据仓库系系统的客户应应用系统,通通过外部应用用系统用户可可以获得系统统提供的向外外发布的各种种信息。系统数据结构省政府数据仓库库的数据是基基于多维建模模理论的关系系型数据存储储方式,采用用多星型结构构存储维度和和事实数据。行业特殊需求主题的增加系统的分析方向向众多,涉及及社会各界,且热点每年
42、都会发生变化,分析主题会随着社会经济的发展不断有所增加,我们采用自顶向下的设计方法来设计局数据仓库系统,采用自底向上的方式实施,这样每增加一个主题就是建设一个新的数据集市,每个数据集市都是整体数据仓库的有机组成部分,分步骤分阶段建成完整的数据仓库,在完整的数据仓库建立起来以后,就可以更快的建立更多的数据集市,满足系统不断增加的主题需求。主题所含指标的的修改主题的内容是由由指标来体现现,主题的分分析目标可能能在一定的范范围内发生变变化,起其所包含的的指标就会有有相应的增加加或减少,由由于数据仓库库采用的是多多维方式的数数据存储方式式,某个主题题下指标的增增加(减少),只只需要在相应应的指标维表表
43、、事实表中中增加(减少少)新的数据据即可;每个个主题在数据据库对应一个个指标代码表表,具体解释释主题下所含含指标。每个个主题相关数数据组成一个个事实表。这这样主题可以以很方便增加加,且效率比比较高,主题题下指标可以以适当调整。指标数据修改专业事实表(原始数据)主题事实表(用户使用数据)数据调整数据仓库中一个个非常重要的的原则,数据据具有不可修修改性。然而而制度在不断断地完善,指指标口径会发发生变化,为为保持同一指指标不同历史史时期的数据据具有可比性性,则要求数数据在一定范范围内可调整整。为了解决决这一矛盾,我我们在数据库库设计时把数数据分为原始始专业数据和和主题事实数数据,的原始始数据一旦进进
44、入数据仓库库(专业事实实表)将不容容许发生变化化,对指标进进行调整都是是基于原始专专业数据进行行的,调整后后的数据放入入主题数据表表中,用户查查询的是调整整后具有可比比性的数据。这这种设计可以以容许对同一一数据在不同同历史时期进进行不同的调调整,同时又又能保存最原原始的历史数数据不丢失,专业事实表(原始数据)主题事实表(用户使用数据)数据调整数据更新权限由于数据仓库的的数据维护由由分散的多个个处室在不同同的时间进行行,为了防止止数据的异步步操作给系统统的数据一致致性问题。我我们通过数据据库操作权限限的控制,保保证每个指标标数据只有唯唯一的用户拥拥有更新(增增加、删除、修修改)权限,但但可以有多
45、个个用户有查询询权限。定时报警定时检测各个处处室的数据是是否按设计要要求及时导入入数据仓库,否否则以适当方方式报警。决策算法的扩展展由系统结构的高高度模块化实实现。跨主题指标的查查询通过调整主题指指标,减少跨跨主题指标的的查询;临时性的跨主题题指标查询,利利用全局指标标库,从不同同的主题事实实表中查询。本地文件读写基于C/S模式式的应用,将将查询分析结结果保存在本本地是一件很很容易的事情情,但基于BB/S模式的的应用,虽然然基于安全角角度上的考虑虑,IE限制制了ActiiveX、JJavaSccript,、JavaaAppleet等对本地地文件的读写写;但对于JJavaSccript,AAct
46、iveeX,可以通通过配置IEE的安全属性性,来读写本本地文件,当当然,这种配配置也会带来来一些安全隐隐患,为一些些恶意代码对对本地文件系系统造成破坏坏提供了机会会,就JavvaAppllet而言,JJava安全全提供了APPI和工具集集用于向应用用程序或JaavaAppplet“注入”安全。提供供细粒度(ffine-ggraineed)和可配配置的访问控控制的架构被被内置到核心心Java安安全体系结构构之中,这是是通过使用JJava2权权限、策略文文件、访问控控制器功能和和数字签名实实现的。高频指标智能维维护系统实现高频指指标自适应功功能:用户每每次查询数据据时,数据库库自动指标查查询次数,
47、系系统定时刷新新高频指标表表,完成高频频指标的自动动维护。底层数据库(仓仓库)设计设计原则数据库设计是整整个数据仓库库系统的核心心,其设计的的好坏关系着着整个数据仓仓库系统建设设的成败。根根据数据仓库库系统需求及及Oraclle9i数据据库系统的特特性,我们对对数据仓库系系统的数据库库设计应遵循循如下设计原原则:规范化原则:数数据仓库系统统是一个数据据量大,开发发周期长,投投入资金大,涉涉及面广的系系统工程。为为开发和将来来系统维护的的方便我们对对数据仓库中中的所有对象象如表空间、数数据文件、日日志文件、表表、视图、索索引、存储过过程、列,都都要求有严格格的命名规范范简洁性原则:数数据库设计尽
48、尽可能简洁和和易理解,对对常用的数据据集可通过自自定义数据类类型来实现。高效性原则:数数据仓库中的的数据达到TTB级别,对对查询速度的的提高是我们们考虑的重点点,可通过建建Indexx,Clusster,尽尽可能的用存存储过程,允允许适当的数数据冗余等技技术来保证查查询效率。灵活性原则:设设计要充分考考虑主题,指指标等的变化化合理性原则:数数据应在源头头输入。数据据库的生成和和维护应尽量量靠近信息源源和使用点,使使信息按最短短的路径存取取,以确保信信息合理和快快速流动。独立性原则:数数据库与应用用程序严格的的相互独立,确确保数据的存存贮对应用程程序的独立性性,它的改变变不影响应用用程序。安全性
49、原则:由由于局是国家家一级保密单单位,其信息息对特定的用用户有特定的的保密要求,我我们在设计数数据库时要有有必要的安全全机制设计严严格的数据操操作权限和级级别控制,保保证数据不被被非法用户访访问,数据库库不被黑客破破坏,如在数数据库的主键键中加入操作作用户的信息息等等。数据现状1、数数据格式多种种多样,一致致性较差,并并存在数据冗冗余各个处室使用的的数据格式均均不相同,有有Oraclle,dbff,sarpp,MITTT,Exceel,Worrd,Texxt格式,且且各个系统相相对独立。2、数数据来源多,但但数据存放相相对分散,缺缺乏统一管理理数据不仅来源于于局内部各个个专业处室,而而且大来源
50、于于直报企业和和其他相关部部门或外部单单位的报送。这这些数据一般般分散存放在在各个专业科科室的数据库库中,缺乏集集中存放和管管理3、数数据量很大,但但对数据资源源的开发利用用不充分业务涉及到各行行各业和众多多企业,指标标很多,数据据量很大,各各级局只能做做到将这些数数据汇总成为为报表、年鉴鉴、县卡,还还不能对专业业数据进行各各种深层次分分析、综合、提提炼、挖掘。不不便于分析、预预测。4、偏偏重于上报报报表在计划经济时时期,局的职职能主要是为为上级机关报报送报表;在在市场经济时时期,局不仅仅要为上级机机关报送报表表,而且还要要更多地为辅辅助本级政府府宏观决策和和企业微观决决策及时提供供各种信息和
51、和情报。新时时期对信息的的质量提出了了更高的要求求:为了对复杂的动动态环境做出出及时响应,现现代管理要求求在大量的数数据中找出有有价值的信息息和情报作为为决策时参考考的依据;在决策过程中,一一旦需要,决决策人员可以以很快得到方方方面面详尽尽的信息和情情报支持,包包括历史的、当当前的、未来来的各种信息息和情报资源源;支持对分布在不不同地点的数数据或信息进进行操作,包包括内部、外外部或远程的的数据和信息息;支持对不同类型型和格式的数数据或信息进进行操作;信息要为更广大大的社会用户户尤其是企业业的微观决策策提供支持;要求信息资源能能实现充分共共享与快速交交流。数据存储整体规规划根据省局数据的的特点,
52、数据据仓库的数据据分为专业数数据,主题数数据和决策数数据数据集市市三个层次。这这三个数据库库层次逐层浓浓缩,其层次次结构如下: 各专业数据流专业数据层数据存储层数据集市数据库模型专业数据是从局局各处室的数数据库系统中中抽取,转换换,清洗而来来的数据;主主题数据是从从专业数据通通过增加一定定的列或一定定的数据运算算、修改等而而得到的数据据;决策数据据数据集市存放放数据存储层层的数据,供供分析决策用用。还有一类类很重要的对对数据仓库的的描述数据即即元数据,包包括主题描述述表,主题 各专业数据流专业数据层数据存储层数据集市数据库模型专业数据层建立立在相应的子子系统中,是是为专业子系系统服务的。其其数
53、据主要是是与某专业子子系统直接相相关的数据。一一般与其他专专业子系统不不发生频繁的的数据共享,它它的物理位置置可以设置在在网络服务器器上,集中存存储,亦可设设置在各专业业子系统的微微机上,呈分分布式存储。数据存储层,其其数据来源于于专业数据层层,但这些数数据一般不限限于某个专业业子系统调用用,而往往被被其他专业子子系统频繁地地共享,为若若干个子系统统和领导层提提供信息服务务。数据集市中存放放对整个行业业来说,带全全局性的计划划、技术经济济指标,各种种和实时数据据分析,其数数据除了来源源于各主题数数据库以外,还还有模型库和和方法库给予予支持,作为为领导提供预预测和决策的的支持。能源能源工业工业经
54、济决策交通邮电消费生产价格居民家庭收入城市社会经济决策元数据数据仓库数据组成示例单个主题的数据据库逻辑设计计地域维表地域维表地域编号地域名称时间维表时间编号时间名称专业事实表指标编号时间编号地域编号数据指标维表指标编号指标名称时间维表时间编码时间名称主题事实表指标编码时间编码地域编码数据指标维表指标编号指标名称地域维表地域编号地域名称主题所属指标主题编号指标编号主题表主题编码主题描述ETL系统需求规定采用自动加手动动的方式导入入数据。数据导入以定期期自动导入为为主,设立到到期自动报警警功能。各个处室可以在在任何时候向向ETL服务务器导入数据据,而只在确确定的时间从从ETL服务务器向数据仓仓库导
55、入数据据。提供导入数据的的接口,直接接与各个处室室的数据库连连接,尽可能能利用现有系系统数据,减减轻各处室工工作量。能够与通用的数数据文件进行行连接,适应应各专业处室室可能的数据据库平台的变变更,能导入入同种类型的的不同格式的的数据。运行环境指标数据加载子子系统运行于于主流UNIIX操作系统统指标数据抽取子子系统运行在在高性能PCC上,Winndows998以上版本本操作系统,需需要有Oraacle客户户端支持。设计思想指标数据抽取子子系统建立灵活的数据据导入方式,直直接利用中间间件ODBCC访问各种数数据库系统。建立统一的环境境,各个处室室在统一的环环境下向中间间数据库导入入数据。通过用户权
56、限区区别各个处室室应该导入的的数据,让不不同用户在导导入数据时不不会发生混乱乱。指标数据加载子子系统程序自动运行的的同时引进人人工干预,定定时启动加载载系统,自动动进行中间数数据库向数据据仓库导入数数据的工作。建立一个数据导导入的环境,各各种数据操作作按中间数据据库模型库中中的规定执行行。结构说明局各种行业数据据不是在统一一的时间生成成,数据在进进入数据仓库库之前需要经经过大量的运运算,为了不不影响原有系系统的正常运运行和保证导导入数据仓库库数据的正确确性与有效性性,设置中间间数据库。中中间数据库起起所有数据从从传统数据库库导入到数据据仓库的过渡渡作用。处室室数据存放在在不同媒介中中,提供手动
57、动输入界面、程程序自动导入入功能、半自自动导入等等等。接收从局局各个处室收收集的指标数数据,经过抽抽取、清洗,存存放在中间数数据库,在特特定的时间检检查数据仓库库需要的数据据是否齐全,齐齐全后一次性性加载到数据据仓库的专业业事实表中。人工输入数据仓库中间数据库自动导入各个处室人工输入数据仓库中间数据库自动导入各个处室数据抽取、清洗洗、转换、加加载过程高度度模块化, ETL系统统用数据抽取取模型从各处处室抽取数据据、用数据清清洗模型清洗洗数据、用转转换模型转换换不同类型的的数据、用加加载模型加载载数据到数据据仓库。ETL系统是一一个体系环境境,各种数据据操作按中间间数据库模型型库中的规定定执行。
58、维护护系统则通过过维护中间数数据库的模型型库达到维护护ETL服务务器的目的。数据抽取、清洗洗、转换、加加载有以下子子系统:指标数据抽取子子系统。这个系统又可以以称为数据导导入。功能:数据抽取取、数据清洗洗。把各个处处室不同格式式的数据按指指标进行抽取取、经过清洗洗后存入中间间数据库,容容许数据修改改。指标数据抽取子子系统能收集集各种通用格格式的数据,提提供输入界面面手动输入数数据。能转换以下几种种数据格式:Sybasse、Oraacle、ddb2、dbbf等可以通通过odbcc访问的数据据库,和Exxcel数据据以及按顺序序排列数据的的文本文件。各种格式的数据据都有对应的的模块,这些些模块遵循
59、统统一数据接口口,能够不断断增加并识别别新的数据格格式。指标数据加载子子系统。功能:数据转换换、数据加载载。把中间数数据库所有指指标数据经过过转换后,加加载到数据仓仓库中。处理流程指标数据抽取子子系统通过读读取ETL中中间数据库中中的抽取模型型和清洗模型型,把各个处处室的数据暂暂存到中间数数据库。指标数据加载子子系统读取中中间数据库中中的转换模型型与加载模型型,把中间数数据库的数据据加载到数据据仓库中。系统管理需求规定数据的维护年度数据至少保保存10年以以上;进度(月月、季、半年年度)数据至至少保存5年年以上;在条条件容许的情情况下,数据据保存尽可能能长的时间。历史数据的导出出、导入功能能。随
60、着指标体系的的变化,能够够对数据进行行少量修改,插插入、增加新新的数据。对时间跨度很大大的普查数据据等非时间累累加数据按实实际需要保存存相应年限。对数据要进行备备份。指标的维护数据库指标管理理、维护,随随时间的推移移可增加主题题下包括的指指标;能适应制度的变变化,指标口口径(指标含含义)能进行行适当调整。行政区划代码允允许调整。系统的维护设置不同级别用用户的维护访访问权限。各个处室只有维维护本处室相相应主题部分分的权限。外外界用户无权权访问维护系系统。系统管理具备日日志功能。主题的维护随着时间、形式式的变化,主主题能够增加加或减少。分析方法的维护护对现有分析方法法提供描述,能能够对分析方方法进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 评价系统视角下英语商业广告语类的多维剖析与策略构建
- 2026年镇江市京口区集中公开招聘社区工作者17人笔试模拟试题及答案详解
- 2026吉林省省直事业单位吉林农业大学招聘高层次人才5人(1号)考试模拟试题及答案详解
- 2026年芜湖国企奇瑞控股集团招聘笔试模拟试题及答案详解
- 2026华中师范大学人工智能教育学部合同聘用制人员招聘5人笔试模拟试题及答案详解
- 第5章 员工素质测评
- 2026年松原吉林油田医院临床医生招聘笔试模拟试题及答案详解
- 2026辽宁省能源产业控股集团集采中心有限公司招聘5人考试模拟试题及答案详解
- 2026年福建厦门市思明第二实验小学非在编人员招聘1人考试参考题库及答案详解
- 2026浙江台州市黄岩区区属国企联合招聘工作人员44人考试模拟试题及答案详解
- 大班数学《礼品商店》
- 甘肃省庆阳市2022-2023学年七年级下学期期末数学试题(含答案)
- 农村自留地转让合同
- GB/T 24368-2009玻璃表面疏水污染物检测接触角测量法
- 光缆线路维护课件
- 小学英语四年级音标专项练习【2套】
- 颈椎病的康复治疗课件
- 《冰雪类活动:冰上车胎接力赛》教案
- 草莓的贮藏保鲜方法课件
- 医务人员协助疾控中心对疫情调查、采样、处理的流程图
- 河南省洛阳市高二下期末考试数学(文)试题含答案
评论
0/150
提交评论