数据仓库解决方案v1.0要点_第1页
数据仓库解决方案v1.0要点_第2页
数据仓库解决方案v1.0要点_第3页
数据仓库解决方案v1.0要点_第4页
数据仓库解决方案v1.0要点_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库解决方案深圳市太极拳云软技术有限公司。2016年1月目录(a)概述2一.国内信息化现状2第二,以应用程序为中心,构建数据仓库需要从后到前计划3第三,“想做大”(总体设计、部署实施)4(b)系统体系结构5数据仓库方案6系统功能体系结构7(c)建立数据仓库的方法8构建数据仓库步骤8 91.系统分析,确定主题92.选择满足数据仓库系统要求的软件平台103.构建数据仓库的逻辑模型10将逻辑数据模型转换为数据仓库数据模型115.优化数据仓库数据模型126.数据清洗转换和传输137.数据仓库分析和应用程序开发148.数据仓库管理15(d)系统功能详细介绍16企业数据门户16主题分析17即席查询18多维分析工具19ETL工具19报告工具21(a)概述一.国内信息化现状1.信息建设的发展史:在国内信息构建过程中基本上是根据当时业务系统的需求构建的,如果在一定时间内推出新的业务,则是构建新的系统,或基于现有系统添加新的业务处理。这些结果导致每个系统和系统之间缺乏真正的信息通信和信息交换。2.构建数据仓库的原因:根据现状业务系统,分别是政治,相互独立。构建了很多业务系统后,由于领导的要求和决策的要求,需要对一些指标进行分析,基于该业务系统添加了分析和相应的报告功能,从而为每个系统添加了报告和分析功能。但是,由于数据源的不均匀性,对相同度量的分析结果不相同。为了解决这个问题,为了分析和决策的需要,整合相互分离的业务系统的数据源,可以为领导和决策层提供分析和辅助决策。第二,以应用程序为中心,构建数据仓库要从后面到前面进行规划。如何构建数据仓库?我一贯的主张是应用驱动。是什么应用程序?应用要从政府管理的现状和决策层最关心的问题开始。使用现有信息系统资源,进一步完善权力目录,量化权力运行流程和程序,标准化业务流程,监督个别行为,记录执法完整性,提高科学评价评价评价评价和管理准确度,最终保护群众的合法权益,有效监督权力,提高政府效率。必须首先分析和评估经济发展、健康、教育、科学技术、道路交通、机关团体、生活服务、文体娱乐、安全避险、资源环境、社会保障就业、财政和税收金融、法律服务等这些主题的分析是否可行。这将提供所需数据、业务系统和数据源的完整集成,并根据分析要求确定存储的数据集市。第三,“想做大”(整体设计、部署实施)为了构建以应用程序为中心的数据仓库,为防止现有业务系统相对独立而创建的信息孤岛通常会创建新的信息孤岛。这是因为应用程序通常是部门级或特定领域的应用程序,不能完全复盖企业级的所有应用程序。当然,我们不主张在这里进行一次建筑的应用。避免这个问题的方法是我在这里要强调的重要。设计、系统角色分为两种方案。1.业务数据集成在各种业务系统中,数据不是分布式的,而是信息孤岛的形成,业务智能解决方案构建统一的数据仓库,合并业务数据,为管理员提供统一的视图,统一的决策界面。2.决定支援从数据分析企业发展趋势,发掘新的机会方法,根据数据决策提高决策的及时性和准确性。提供管理效率和量化业务效率基于系统分析的内容,管理者可以规范业务流程,监督个别行为,记录执法廉正,提高科学评价评价和管理准确性,最终保护公众的合法权益,实现权力的有效监督和政府效率的提高,从而完善权力运行流程和处理流程。(b)系统体系结构系统体系结构图构建数据仓库后,数据仓库将按主题域存储每个业务数据。数据源主要是政府管理结构的不同业务管理系统。通过数据交换平台定期收集每个管理机构的业务数据,通过后台数据处理工具ETL提取、清理数据,并将数据加载到数据仓库中。数据仓库中构建的系统功能主要包括大数据门户、主题分析(查询、多维分析、自助报告功能模块),这些功能提供了管理员获取和分析数据的简单、易用、强大的方法,提高了管理员的决策和管理准确度,最终实现了有效的权限监控和政府性能提高。数据仓库体系结构数据仓库是一个部署过程,不是产品。数据仓库通过统一处理和管理不同数据源,通过灵活的演示方法支持决策支持。数据收集层次结构实施从所有源系统获取原始业务数据、执行特定数据处理、按主题执行数据重组和格式转换,然后传输和装载到数据仓库系统的方法。数据仓库系统需要从作为数据仓库系统数据源的多个源数据系统中提取和汇总各个业务数据。将上述数据源系统中的数据按主题进行组织,然后提取并装载到数据仓库系统中。数据需要三个过程:数据提取、数据转换和数据装载。执行这三个过程是为了确保数据源系统和数据仓库系统成功连接,例如网络协议标准转换、平台间接口等。确保不同源数据系统的相同数据一致性和完整性,并将转换后的数据装载到数据仓库系统。数据管理将数据存储在企业数据仓库系统中,以实现集中管理。在数据存储层次中,数据存储在两种类型的数据库中:关系数据库和多维数据库。数据存储是数据仓库系统的中心。来自多个数据源系统的详细数据和用于分析的合并摘要数据存储在此中心中。逻辑上完整的库。数据使用层次向最终用户提供数据仓库系统的数据和分析结果。根据用户的分析要求、使用情况报告、即时查询、多维分析和数据挖掘显示数据。数据输出层次结构的功能是允许最终用户通过报表、图表和其他分析工具轻松、快速地访问数据仓库系统中的各种数据,以获得分析结果。提供了多种数据分析方法,包括标准报表、即席查询报表、动态分析报表、多维分析、趋势预测、假设分析和数据挖掘。系统功能体系结构OLDP多角度、三维、灵活的动态分析业务数据的多维分析。无需使用产品和编写代码,用户只需定义语义层次即可轻松构建多维数据模型。临时查询统计报告、指标的快速搜索使业务分析人员能够快速获取所需的数据和统计数据。数据门户数据门户可执行包括仪表盘、表、报告、日历等在内的集成演示,并支持用户自定义的内容、指标等功能,从而实现真正的个性化服务。数据门户是管理员和业务人员最重视的指标,通过门户最容易获取数据。根据主题分析资源的组织,支持数据的深入挖掘和分析应用程序,跟踪、监控和实施政策执行的效果,管理人员可以细分、量化、权力运行流程和流程集成,标准化业务流程,监督个人行为,记录执法完整性,提高科学评价和管理准确度,最终保护公众的合法权益,实现权力的有效监督和政府效率的提高。作为报告行业业务智能系统构建的重要组成部分,主要根据集成到企业数据仓库中的各种主题域业务数据的监督和管理要求,快速提供所有级别部门的真实数据信息(如准确、全面、灵活的政府管理性能实施),为决策支持、业务管理提供有效的数据信息支持。ETL工具:ETL是数据仓库的核心后台组件,它通过提取、整理和加载各种源数据来实现数据仓库中的数据更新和流。ETL工具(网桥)以图形和自动化方式配置ETL流程,极大地减少了数据处理工作量,提高了数据准确性和处理效率。(c)如何构建数据仓库数据仓库决策分析的业务处理过程主要分为四个阶段:1)数据集中:各级政府部门业务数据整合摘要数据中心临时数据存储;2)整理和转换数据:汇总的业务数据将进行ETL提取、转换、加载到数据仓库,3)数据存储和管理:集中存储和管理数据仓库数据,备份和维护:4)数据挖掘和演示:用户通过前端演示工具挖掘、钻取和分析数据仓库中的数据,以在数据门户中显示这些数据。每个委托书业务系统人类历史公安民政交换平台政府数据中心暂时储存资料萃取转换罗德数据仓库数据集市决策趋势数据门户网站构建数据仓库的步骤81.系统分析,确定主题请注意以下几个因素:作业出现的频率,即业务部门执行查询分析的频率。需要存储在系统中的数据为1年、2年或5年、10年。用户查询数据的主要方法,例如,在时间维中按自然年或会计年。用户可接受的响应时间是多少、几秒还是几个小时2.选择满足数据仓库系统要求的软件平台选择适当的软件平台,如数据库、建模工具和分析工具。有很多因素需要考虑,如数据卷、响应时间、分析功能的系统要求等。以下是一些公认的选择标准:供应商的背景和支持能力能否提供全面的技术支持和咨询服务。支持大型数据(以TB为单位)的数据库。数据库是否支持并行操作。是否可以提供数据仓库的建模工具,是否支持元数据的管理。您能否提供支持大量数据的数据加载、转换和传输工具(ETT)您能否提供一套完整的决策支持工具来满足数据仓库的各种用户需求?3.构建数据仓库的逻辑模型具体步骤如下:(1)确定建立数据仓库逻辑模型的基本方法。(2)将主题视图中的数据定义移动到基于主题视图的逻辑数据模型中。(3)确定主题之间的关系。(4)分解多对一关系。(5)使用范式理论测试逻辑数据模型。(6)用户查看逻辑数据模型。4.将逻辑数据模型转换为数据仓库数据模型具体步骤如下:(1)非战略数据删除:不需要在数据仓库模型中包含逻辑数据模型中的所有数据项,也可以删除用于处理作业的某些数据项。(2)增加时间主键:数据仓库中的数据必须是时间的快照,因此必须增加时间主键。(3)派生的数据增长:对于用户需要经常分析的数据,或增加派生的数据以提高性能。(4)为不同级别的粒度添加聚合数据:数据粒度表示数据粒度,粒度越大,聚合的数据越多。粒度是数据仓库设计的重要因素,它直接影响数据仓库中驻留的数据量和可以执行的查询类型。显然,粒度级别越低,支持的查询越多。相反,可以支持的查询是有限的。5.数据仓库数据模型优化设计数据仓库时,性能是主要考虑事项。数据仓库完成后,必须经常监视其性能,并根据要求和数据量的更改进行调整。优化数据仓库设计的主要方法包括:合并其他数据表。添加摘要表以避免数据的动态摘要。通过重复字段将表连接数减少到3-5个或更少。使用ID代码代替描述信息作为键值。分割资料表。6.数据清洗转换和传输由于业务系统使用不同的硬件和软件平台,因此在加载到数据仓库之前,必须清除和转换业务系统中的数据以保持数据仓库中的数据一致性。设计数据仓库的数据加载方案时,请考虑以下几个要求:加载方案必须能够支持对不同数据库和文件系统的访问。数据的清洗、转换和传输必须满足时间要求,并且可以在规定的时间内完成。支持多种转换方法,多种转换方法可以配置一个工作流。支持增量加载,仅将自上次加载以来更改的数据加载到数据仓库中。7.数据仓库分析与应用程序开发构建数据仓库的最终目的是为业务部门提供决策支持,应选择适当的工具来实施分析数据仓库中数据的要求。信息部门选择的开发工具必须能够:满足用户的整体分析功能要求。数据仓库中的用户包括企业的每个业务部门,每个业务部门具有不同的需求分析功能。有些用户是简单的分析报告,有些用户要求进行预测和趋势分析。提供灵活的表达方式。分析结果必须以直观灵活的方式表示,并且能够支持复杂的图表。可以是客户机/服务器方法或浏览器方法。事实上,没有工具可以满足数据仓库的整体分析功能要求,一个完整数据仓库系统的功能可以由多个工具实现,因此,需要考虑多个工具之间的接口和集成问题,并且希望用户看到一致的接口。8.数据仓库管理如果只重视数据仓库部署而忽略数据仓库管理,数据仓库项目将失败。数据仓库管理主要包括数据库管理和元数据管理。数据库管理需要测试以下各项:安全管理。数据仓库中的用户在传输过程中只能访问其权限范围(即数据的加密策略)内的数据。数据仓库的备份和恢复。数据仓库的大小和备份频率直接影响备份策略。确保数据仓库系统可用性的方法、硬件或软件方法。数据老化。设计数据仓库中的数据保留期和旧数据的老化方法,例如,在历史数据中仅保留摘要数据,并记录该年的数据保留详细信息。但是,元数据管理是在整个系统构建过程中描述数据的数据。在数据收集阶段,元数据主要包含以下信息:定义来源资料的描述:类型、位置和结构。数据转换规则:编码规则,行业标准。目标数据仓库的模型说明:定义星型/雪花模型,定义维/数值结构。源数据和目标数据仓库的映射关系:定义函数/表达式。代码:转换器生成、自动加载程序等。在数据管理阶段,元数据主要包含以下信息:摘要资料的说明:摘要/汇总阶层,定义具体化检视结构。历史数据存储规则:位置,存储粒度。多维数据结构说明:定义多维数据集、维结构、度量值、定义钻取层次等。在数据显示阶段,元数据主要包含以下信息:报告描述:报告结构的定义。统计函数的说明:各种统计分析函数的定义。结果输出的说明:插图,表格输出的定义。元数据不是独立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论