数据仓库与管理信息系统(DWMIS)-毕业论文_第1页
数据仓库与管理信息系统(DWMIS)-毕业论文_第2页
数据仓库与管理信息系统(DWMIS)-毕业论文_第3页
数据仓库与管理信息系统(DWMIS)-毕业论文_第4页
数据仓库与管理信息系统(DWMIS)-毕业论文_第5页
免费预览已结束,剩余41页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与管理信息系统(DW/MIS)目录目录1引 言3背景简介3关于毕设3第一章概述41.1数据仓库产生的原因41.2 与数据仓库相关的几个概念4第二章 数据仓库的优点62.1数据仓库和管理信息系统的商业价值62.2 数据仓库的特点7第三章 数据仓库系统83.1数据仓库系统示意图83.2四个层次体系结构9第四章 数据仓库的数据采集104.1 数据仓库处理的部件图示104.2 后台处理104.3 中间处理114.4 前台处理11第五章 数据仓库的技术体系结构115.1 技术体系结构示意图125.2 各个模块125.3 数据准备阶段相关问题135.3.1 数据的有效性检查135.3.2 数据的清除和转换135.3.3 移动数据16第六章 数据仓库的建立166.1 明确主题166.2 数据仓库设计166.3 数据抽取166.4数据仓库与元数据管理176.4.1元数据的概念176.4.2元数据的作用186.4.3元数据管理相关工具196.4.4元数据管理标准化206.4.5元数据管理系统的设计20第七章 毕设MIS演示系统217.1 系统功能简介217.2 数据库和数据表217.3 系统截图和相关代码分析227.3.1 登陆界面227.3.2 主界面247.3.3 公司员工信息管理257.3.4 库存产品信息307.3.5 销售信息管理317.3.6 公司进货信息327.3.7 供应商信息327.3.8 顾客信息337.3.9 进货信息报表337.3.10 库存产品信息报表347.3.11 我的文档377.3.12 销售信息报表377.3.13 Mschart控件生成图表(随机生成数据)38致 谢43参考文献44附 录45引 言背景简介中国建设银行与其他国内银行一样面临着市场开放后所带来的各种机遇与挑战。为了从容应对外部环境变化和日益激烈的竞争,配合建设银行重组上市的步伐,加紧进行并完成各项体制改革任务的同时,全面提高整体科技应用水平也成为当务之急。以数据仓库为基础的管理信息与决策支持系统是现代商业银行得以稳步持续发展的推动力量,建设和优化这些系统是西方商业银行的信息化发展趋势之一。数据仓库是面向主题的、集成的、非易失的、随时间变化的数据集合,用来支持管理人员的决策。数据仓库是集中数据管理系统的关键部件,是分析型管理信息系统和决策支持系统(DSS)的基础。对于建设银行而言,数据仓库以及在其基础上的管理信息系统建设具有以下的战略意义和价值:(1) 能更好地解决已面临的数据管理与应用问题;(2) 适应集约化经营的需要,为科学化、定量化管理决策提供支持;(3) 促进信息资源集中管理与有效利用机制的形成,支持企业获得持续发 展的竞争能力。关于毕设实习期间,我参与的是DW/MIS前端处理一块,本项目预计今年(05)12月份完工,目前刚完成前期准备阶段,工具设备尚未定型,因此无法赋予设备截图,望各位老师见谅。实习阶段,在校外老师耐心指导下,我学习了与数据仓库相关的理论知识,并参加编写了建行员工培训管理信息系统费用相关模块。本文主要介绍了与数据仓库相关的重要知识和内容,并对其背景、关键技术及优点做了阐述。本次设计是运用C语言模拟写过的员工培训系统费用模块实现的一个商品公司管理信息系统平台,并为了和数据仓库前端展示一块相结合,在系统中还附带了动态报表生成的功能。即实现了查询所需各种信息,并按查询生成报表的能力。第一章 概述1.1数据仓库产生的原因事务处理环境不适宜DSS应用的原因主要有以下:(1)事务处理和分析处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;(vs) 在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题 DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。(3)数据动态集成问题 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些 变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成(因此不能用集成数据的DSS)。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。1.2 与数据仓库相关的几个概念Data warehouse本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。DSS决策支持系统(Decision Support system),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。EIS领导信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。BI商业智能(Business Intelligence),指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。CRM客户关系管理(Customer Relationship management),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM其实应该算是一个古老的应用了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种CRM. Meta Data元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。第二章 数据仓库的优点2.1数据仓库和管理信息系统的商业价值DW/MIS对建设银行具有极其重要的作用,可以帮助建行有效面对各种挑战:1) 可以帮助建设银行提高管理决策的效果和速度,增强资金使用的效率,有效应对银行的服务市场正由卖方市场向买方市场转变的经营管理压力、存款资金分流的压力和国内银行利息收入的下降的压力。2) 可以帮助建设银行加大对风险资产的控制,加强内部控制,提高信息披露的程度。3) 可以帮助建设银行形成目标的细分市场格局和客户服务方式,形成自己的竞争优势。4) 可以帮助建设银行采用国际会计准则或其他公认的会计准则编制帐项,为建设银行未来寻求机会在资本市场上筹集资金,更客观地衡量实际盈利水平创造有利条件。5) 可以帮助建设银行在风险管理方面完成总体不良贷款率从15降到10及新增不良贷款控制在1%的战略目标,从组织架构、管理流程、风险度量工具和信息技术四个方面提高信贷风险体系的管理能力,同时加强风险组合管理的能力。6) 可以帮助建设银行进行基于产品、客户、渠道的成本核算和利润贡献度分析,这对于建行进行更准确的产品定价和提高成本效益管理水平提供了基础。7) 可以帮助建设银行实现从以帐户为基础转为以客户为基础的经营,具备对客户信息进行采集、分析和相应区分目标客户的机制和能力。8) 可以帮助建设银行建立完善的人力资源和绩效薪酬体系,改进业绩评估制度和基层员工培训制度,并形成统一的企业文化的认知。9) 可以帮助建设银行改变目前各类数据分散于不同系统、平台和数据库中,缺乏一致性,信息分析利用能力低,造成不能为管理部门和业务部门提供完整详细的管理信息报告,特别是客户分析、风险管理和业绩评估方面的报告的状况。这对建设银行应付日益激烈的竞争,降低营运风险,采用合理的产品定价和提高服务水准打下了良好的基础。10) 可以帮助建设银行进行IT资源的有效整合和利用,对各个项目进行效益预测和分析,有利于项目总体投资的控制。11) 可以帮助建设银行在管理信息系统方面改变目前的业务支持系统的技术平台繁多,缺乏统一 标准,不利于系统的集中维护的弱点。2.2 数据仓库的特点数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点:1、面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。主题是对应某一分析领域的分析对象,主题的抽取应该是按照分析的要求确定的。举个例子来说明什么是面向主题:MIS系统中有采购子系统,库存子系统,销售子系统,那么在DSS中要分析的主要有采购的商品,供应商,销售的商品,顾客等基本信息,所以数据仓库中分别对应着商品,顾客,供应商等主题。2、集成的面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 集成是指数据仓库中的数据是从原有的分散的数据库中抽取出来的。在数据集成过程中有许多工作要做。比如去掉噪声数据,也就是明显不合理的数据;还有统一源数据中所有矛盾的地方,比如字段名称的统一,单位的统一等;还有数据综合,也就是在数据进入数据仓库之前进行综合,比如将原来每天的数据按月综合。3、相对稳定的操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。不可更新的意思是不对数据进行更新操作。因为数据仓库的数据主要是供决策分析用的,所涉及的数据操作主要是数据查询。但是着里的不更新只是不进行UPDATE的操作,不是指数据的追加和删除。4、反映历史变化操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据是随时间不断变化的。数据仓库随时间变化不断增加新的数据内容,也不断的删去旧的内容。数据仓库中包含大量与时间有关的综合数据,随着时间的变化,数据要进行重新综合。比如今年的数据周综合,到了明年要对数据按季度进行综合。第三章 数据仓库系统3.1数据仓库系统示意图企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示: 图13.2四个层次体系结构数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。第四章 数据仓库的数据采集4.1 数据仓库处理的部件图示图2 后台处理中间处理前台处理操作系统数据存储器安全处理用户查询数据仓库部门数据中心多维数据中心数据的转换和清理4.2 后台处理数据仓库系统的后台处理利用了操作系统的数据存储器,以进入数据仓库内占有活动区域:这个处理包括以下几个部分:数据处理为数据仓库收集数据的过程是从当前操作系统开始的。该数据仓库的后台处理需要被分成可管理的几个处理模块。操作系统生成必须处理和输入到数据仓库的事务。在数据仓库系统的结构内必须有一种方法来截取和收集那些在操作系统内已改变的数据,主要用于数据仓库的输入处理。数据采集在收集到操作数据存储器内的变化后,数据仓库的后台处理必须采集所有同以前收集的事务相关的数据。数据采集过程通常仅仅获取驱动数据采集过程的关键信息。数据制备成事务库并用它来更新和供给数据仓库系统。这个过程在整个数据仓库系统中是最复杂的,因为用户正处理多种遗留数据源。这些数据源中的一些较为容易使用,而大部分则不是这样。4.3 中间处理数据仓库系统的中间处理利用了一个登台区域来完成在数据仓库中对用户游泳的数据。登台区域有时被叫正式地指定为操作数据存储器。数据清理在收集到所有从操作系统存储器得来的相关信息后,数据必须在放入数据仓库之前进行清理,以获得一个适当的统一的格式和定义。数据的放置和分发当完成数据清理后,数据就必须放置到数据仓库中。标准报表的编译和索引在数据已放入数据仓库数据存储器之后,对包含于数据仓库系统内的标准报表必须进行编译和索引。在这个过程结束后,报表很像数据仓库内的原始数据,将让用户在线有用,不必用纸张的形式发送。中间处理更新了数据仓库中登台区域的数据,并使之成为可供最终客户,也就是数据仓库系统的用户使用的信息库。4.4 前台处理前台处理过程涉及到允许用户对数据仓库所包含的信息进行正确的访问,及提供用户工具集所需的目录和中间数据信息。大多数数据仓库项目的目标应当是驱使这一过程进入强大的用户领域,并脱离信息系统空间。然而,需要构造几个关键的应用程序以用于经验不足的数据仓库用户。该过程的任务包括用新的信息内容来更新访问数据仓库的应用程序,通过适当的用户工具组内的视图或分类定义来提高访问能力。第五章 数据仓库的技术体系结构5.1 技术体系结构示意图图3外部数据源数据数据管理员模块数据仓库之数据数据获取模块数据传递模块设计模块数据访问模块中间件模块信息目录模块数据仓库之元数据外部元数据管理模块5.2 各个模块设计模块:用于设计数据仓库数据库数据获取模块:用于从源文件和源数据库中获取数据,并进行清洁、传输,将它加到数据仓库数据库中管理模块:用于管理数据仓库的运行信息目录模块:用于为管理者和企业用户提供有关存储在数据仓库数据库中的数据的内容和含义信息数据访问模块:用于为企业的最终用户提供访问和分析数据仓库数据的工具中间件模块:用于最终用户工具提供访问数据仓库数据库的方法数据传递模块:用于向其他仓库和外部系统中分配数据仓库数据 数据仓库的三个重要组成部分,专家们一般把整个数据仓库的建设按照其不同性质,把它分为三个截然不同的部分,分别是:源数据、数据准备、以及数据呈现。现在讲的最多的OLAP分析和决策支持等,都是属于数据呈现的部分。5.3 数据准备阶段相关问题5.3.1 数据的有效性检查为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。如果没有进行刃具的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性。5.3.2 数据的清除和转换如果数据不在给定的界限之内,它就成为我们清除过程的对象。清除数据包括对那些在给定范围之外的数据采取纠正措施。在数据迁移的过程中,通常需要将操作数据转换成另一种格式以更加适用于数据仓库设计。在大多数情况下,转换是将数据汇总,以使它更有意义。提取处理是数据仓库成功的关键。在提取过程中,数据会被格式化,并分发给需要从操作环境中共享数据的资源。元数据存储的工作是定义和解释数据资源和数据标准。因此,在操作数据上执行的转换过程应该用元数据存储中定义的标准数据格式放置数据。我们可以定义数据变换的几个基本类型:简单变换简单变换是所有数据变换的基本构成单元。这一类中包括的数据处理一次只针对一个字段,而不是考虑相关字段的值。(1) 数据类型转换最常见的简单变换是转换一个数据元的类型。当现有应用程序存储某个类型的数据只在该应用程序的背景下有意义,在企业水平上却没有意义时,就常常要求进行这类变换。(2) 日期/时间格式的转换因为大多数业务环境都有许多不同的日期和时间类型,所以几乎每个数据仓库的实现都必须将日期和时间变换成标准的仓库格式。(3) 字段解码在数据仓库环境中,用户可能来自公司的任何部门,所以仓库的所有用户不可能都有足够的背景知识和培训,使他们能够理解在业务数据库中使用的编码值。因此,业务系统和外部数据中的编码值在存入数据仓库之前,应该转换为经过解码的、易于理解的相应值。一方面,我们想把编码值充分扩展,使它们为最大多数的用户理解;另一方面,把一个值扩展得太多要占用额外的存储空间,而且把该值当作查询中的检索标准也很困难。由于顾客情况代码不被普遍理解,所以应该扩展为一个有意义的、易于理解的值,以便仓库用户能够认出它。用到的准则是:必须长到足以被大多数仓库用户理解。清洁和刷洗清洁和刷洗是两个可互换的术语,指的是比简单变换更复杂的一种数据变换。在这种变换中,要检查的是字段或字段组的实际内容而不仅是存储格式。一种清洁是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来完成。(1) 有效值范围检验是数据刷洗的最简单形式,它是指检验一个字段中的数据以保证它落在预期范围之内,通常是数字范围或日期范围。枚举清单也相对容易实现。这种方法是对照数据字段可接受值的清单检验该字段的值。相关检验稍微复杂一些,因为它要求将一个字段中的值与另一个字段中的值进行对比。(2) 复杂的重新格式化数据刷洗的另一主要类型是重新格式化某些类型的数据,这种方法适用于可以用许多不同方式存储在不同数据来源中的信息,必须在数据仓库中把这类信息转换成一种统一的表示方式。最需要格式化的信息之一是地址信息,由于没有一种获取地址的标准方式,所以同一个地址可以用许多不同方式表达出来。这就要求将地址解析成几个组成部分,然后将这些组成部分进行转换并重新排列成一个同意的格式。集成集成是将业务数据从一个或几个来源中取出,并逐字段地将数据影射到数据仓库的新数据结构上。数据从多个数据源中提取出来,并结合成为一个新的实体。这些数据来源往往遵守的不是同一套业务规则,在生成新数据时,必须考虑到这一差异。(1) 简单影射字段水平的简单映射在必须执行的数据变换总量中站去了大部分。这种映射的定义是指数据中的一个字段被转移到目标数据字段中的过程。在这过程中,这个字段可以利用前面讨论过的任何一种简单变换进行变换,它可以被刷洗或重新格式化。(2) 复杂集成在一般的数据仓库中,数据转移和集成中的10%20%要比从源字段到目标字段的简单移动复杂一些。为了将源数据变换为目标数据,这些复杂集成必须做更多的分析。(3) 通用标识符 通用标识符问题是许多公司在建立数据仓库时所遇到的最困难的集成问题之一。当同一业务实体存在于多个系统源,并且没有明确的办法确认这些实体其实是同一实体的时候,往往会发生这个问题。这个问题往往很难用自动化方法解决,通常要求复杂的算法配对可能的匹配。有时在仓库中存入可能的匹配是可以接受的,但有时这些匹配在存入数据仓库之前必须先由人来检验。很多公司实行一种两阶段战略来处理该问题。第一阶段是隔离,在这一阶段中,我们试图保证实体的每次出现都指派一个唯一标识符;第二阶段是调和,我们开始确认哪些实体其实是相同的,并且将该实体的各次出现合并在一起。(4) 目标元素的多个来源当同一个目标数据元有多个来源时,会出现另一个复杂的数据集成问题,即很难保证该元素的各个来源总能保持一致。实际上,这样的数据元存在矛盾值比不同来源中的值相同更为普遍。解决冲突的简单办法是指定某一系统在冲突中占据主导地位。(5) 数据丢失问题数值没有值的问题与一个数据元有多个冲突值的问题一样困难。有时为一个丢失的元素把空白或空值赋进仓库中也是可以接受的,而有时数据元必须有值,对该表格所做的查询才会有效。必须为该数据赋一些估计值。如果是业务系统,数据库中有这种明知不准确的值是没有意义的,但对数据仓库来说,有估计值比根本没有值可能要好得多。因此,对于仓库中的每种数据类型,设计人员必须在存入估计数据的内在风险和数据丢失所造成的误解的风险之间进行权衡。用于这一目的最普遍技术是生成使曲线平滑的数据。然而,很多企业都有非常复杂的数据估计方法。这些方法能够调节许多变量,为丢失的数据生成一个非常接近实际的值。(6) 衍生数据/计算数据数据变换的最常见形式之一就是计算和生成衍生数据元或计算数据元。它包括平均值、总和或统计计算,还包括复杂的业务计算。衍生数据字段通常是冗余的,因为计算中涉及的数据也存储在仓库中,然而,它能大大简化查询,保证存入仓库中的这些衍生值的正确性和一致性,这样,在查询中可以选用它们,而不必在用户需要时都计算一次。在这方面,数据变换工具是很有用的,因为这些工具能迅速而轻松地进行各种计算,无需担心编程员是否正确地编写了计算逻辑。聚集和概括聚集和概括是把业务环境中找到的零星数据压缩成数据仓库环境中的较少数据块,有时进行聚集中的细节数据是为了避免仓库存入业务环境中的那样具体的数据,有时则是为了建立包括仓库的聚集副本或概括副本的数据商场。大多数数据仓库都要用到数据的某种聚集和概括。这通常有助于将某一实体的实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字,以使每个查询不必计算它们。数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这时,就有必要在变换业务数据的过程中加入一些数据聚集功能。这可以减少存储在数据仓库中的行数。聚集还可以去除数据仓库中的过时细节。在许多情况下,数据在一定时期内要以很具体的水平存放着,一旦数据到了某一时限,对所有这些细节的需求就大大减弱了。此时,这些非常具体的数据应该传送到离线存储器或近线存储器中,而数据的概括形式则可以存放在数据仓库中。5.3.3 移动数据将数据移出操作系统一般包括:在数据最终复制到数据仓库之前,将它们拷贝到一个中间位置。理想状况下,拷贝数据的过程应该在操作系统不忙时进行。确保了解自己的商务及其支持系统。如果还未完成大量的更新,就不应该移动数据。如果数据仓库中的数据来自多个相互关联的操作系统,就应该保证在这些系统同步工作时移动数据。经过一段时间的发展,人们最终认识到ETL工具的重要性,于是相关的ETL工具也纷纷出台,其中比较著名的是IBM的Visual warehouse,Ardent公司的data stage等等。第六章 数据仓库的建立6.1 明确主题数据仓库的实现主要以关系数据库(RDB)技术为基础,因为关系数据库的数据存储和管理技术发展得较为成熟,其成本和复杂性较低,已开发成功的大型事务数据库多为关系数据库,但关系数据库系统并不能满足数据仓库的数据存储要求,需要通过使用一些技术,如动态分区、位图索引、优化查询等,使关系数据库管理系统在数据仓库应用环境中的性能得到大幅度的提高。 数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(OLTP)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将导致迷失数据提取方向,偏离主题。需要在OLTP数据和主题之间找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策和分析的需要。 建立一个数据仓库需要经过以下几个处理过程:数据仓库设计;数据抽取;数据管理。 6.2 数据仓库设计在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。主要有以下3个步骤:(1)定义该主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。 (2)定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到主题的哪个数据表中。 (3)将一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。这些数据定义直接输入系统中,作为元数据(metadata)存储,供数据管理模块和分析使用。元数据存储在元数据库中,它不仅是数据仓库的文档资料,供管理、维护人员使用,而且亦可供用户查询,使之更好地了解数据仓库结构,提高自己的使用水平。6.3 数据抽取该模块是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织和加工,装载到数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。例如,有两个数据源存储与人员有关的信息,在定义数据组成的人员编码类型时,可能一个是字符型,一个是整型;在定义人员性别这一属性的类型时,一个可能是char(2),存储的数据值为“男”和“女”,而另一个属性类型为char(1),数据值为“F”和“M”。这两个数据源的值都是正确的,但对于目标数据来说,必须加工为一种统一的方法来表示该属性值,然后交由最终用户进行验证,这样才能保证数据的质量。在数据抽取过程中,必须在最终用户的密切配合下,才能实现数据的真正统一。6.4数据仓库与元数据管理数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。6.4.1元数据的概念按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:l 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;l 业务系统、数据仓库和数据集市的体系结构和模式l 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;l 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:l 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。l 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。l 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。6.4.2元数据的作用与其说数据仓库是软件开发项目,还不如说是系统集成项目1,因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。(1) 元数据是进行数据集成所必需的数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。(2) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。(3) 元数据是保证数据质量的关键数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维6,从更高的角度上来解决这一问题。(4) 元数据可以支持需求变化随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。6.4.3元数据管理相关工具元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。当前市场上与元数据有关的主要工具如图:元数据管理建模工具: ERwin PowerDesigner Rose数据转换工具: DataStage Decision Base Extract前端展现工具: BO Brio Cognos DSS Agent元数据存储工具: Repository MetaStage WCC 图4与元数据有关的主要工具这些工具大致可分为四类:1. 数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、CA(原Platinum)的Decision Base和ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。2. 前端展现工具:包括OLAP分析、报表和商业智能工具等,如MicroStrategy的DSS Agent、Cognos的PowerPlay、Business Objects的BO,以及Brio等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。3. 建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以、Rational的Rose等。4. 元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,CA的Repository、Ardent的MetaStage和Sybase的WCC等。6.4.4元数据管理标准化没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。从元数据的发展历史不难看出,元数据管理主要有两种方法:(1) 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。(2) 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。6.4.5元数据管理系统的设计数据仓库环境下的元数据管理系统的建设是十分困难的。但是在实际项目的实施过程中,这个环节又是非常重要的。我们在建立元数据管理系统的时候,绝对不能盲目追求大而全,要坚持目标驱动的原则,在实施的时候要采取增量式、渐进式的建设原则。具体的建设步骤如下:(1)如果是在建设数据仓库系统的初期,那么首先要确定系统的边界范围,系统范围确定的原则是首先保障重点,不求大,只求精。(2)系统边界确定以后,把现有系统的元数据整理出来,加入语义层的对应。然后存到一个数据库中,这个数据库可以采用专用的元数据知识库,也可以采用一般的关系型数据库。(3)确定元数据管理的范围。比如,我们只想通过元数据来管理数据仓库中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。(4)确定元数据管理的工具,采用一定的工具可以完成相应的工作。当前相关工具有微软的Repositry,它带有相应的编程接口,可以借助于它来完成元模型出入库的功能;与之相似的还有Platinum的OEE。总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原则,建立符合自身目标的元数据管理系统。第七章 毕设MIS演示系统7.1 系统功能简介本系统模拟商品公司管理信息系统,实现了包括员工,顾客,供应商和进货、销售,库存等各种信息的查询功能以及简单的动态报表生成功能。为了方便演示,系统采用Microsoft Access数据库。7.2 数据库和数据表(1)admin.mdb数据库管理员信息表 存放系统管理员的信息(2)all.mdb数据库包括以下的数据表 1 员工信息表 存放公司员工个人信息 2 供应商信息表 存放供应商信息 3 顾客信息表 存放顾客信息 4 库存商品信息表 存放现库存商品信息 5 进货信息表 存放公司进货信息 6 销售信息表 存放公司销售信息7.3 系统截图和相关代码分析7.3.1 登陆界面(1)连接admin.mdb数据库StdAfx.h中引入msado15.dll :#import c:Program FilesCommon FilesSystemADOmsa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论