




已阅读5页,还剩160页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-,1,企业集团数据仓库系统关键技术,宋旭东软件学院,-,2,主要内容,绪论数据仓库系统基本概念企业集团ETL技术企业集团数据仓库技术企业集团联机分析处理技术企业集团数据挖掘技术企业集团决策支持技术总结,-,3,1绪论,课题的研究背景和意义课题的国内外现状目前存在的问题本文研究的主要工作,-,4,研究的背景及意义,在知识经济时代,企业更多关注如何提高自身的竞争力?,从现代管理技术的角度,集团化运营已成为企业提升自身竞争力的必然趋势,许多同行业企业进行了资产重组,组建了企业集团。从信息技术的角度,人们开始把企业信息化作为改善企业管理业务活动,建立现代企业制度的重要手段。,-,5,研究的背景及意义,随着企业集团信息化进程的不断深入,企业面临问题:,数据的过度冗余而导致“数据过剩”现象.缺乏基于海量数据的知识发现,导致“信息贫乏”现象。,-,6,研究的背景及意义,解决问题的关键是:要建立一个全局化的、综合的信息集成平台,将这种行之有效的机制称为数据仓库(DataWarehouse,DW)。,如何从浩瀚的数据海洋中迅速、准确无误地提取企业集团经营管理所需的有价值的信息,挖掘出隐含在内的大量规律,是决策者的当务之急!,-,7,研究的背景及意义,然而,一个独立的数据仓库是没有实际意义的,必须将联机分析处理(On-LineAnalysisProcessing,OLAP)、数据挖掘(DataMining,DM)、决策支持等技术结合起来,才具有强大的生命力,而数据仓库系统正好就是这些相关技术的组合。,本课题针对企业集团研究数据仓库系统的若干关键技术,其意义在于:给出一个完整的企业集团数据仓库系统体系结构,并且针对每一组成部分提出高效、可用的实现技术和开发方法,从而使得数据仓库的理论得到发展,并且为企业集团在数据海洋中迅速发现、集成有用的信息(知识)提供支持。,-,8,课题的国内外研究现状,1993年Inmon首次提出了数据仓库概念:“是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用以支持管理层的决策过程”。,目前,众多专家学者对数据仓库面临的主要问题做了广泛而又深入地讨论,主要包括:数据仓库体系结构数据仓库建模与设计数据仓库操作问题新应用与新环境下的数据仓库构建,-,9,课题的国内外研究现状,会议:“ACM数据仓库和联机分析国际会议”、“数据仓库与知识发现国际会议”、“ACM-SIGMOD数据管理国际会议”(SIGMOD),“超大型数据库国际会议”(VLDB),“ACMSIGACT-SIGMOD-SIGART数据库原理研讨会”(PODS),“数据工程国际会议”(ICDE),“扩展数据库技术国际会议”(EDBT),“数据库理论国际会议”(ICDT),“信息与知识管理国际会议”(CIKM),“数据库与专家系统应用国际会议”(DEXA),和“数据库系统高级应用国际研讨会”(DASFAA)。期刊:IEEE知识与数据工程汇刊(TKDE),ACM数据库系统汇刊(TODS),ACM杂志(JACM),信息系统,VLDB杂志,数据与知识工程,智能信息系统国际杂志(JIIIS),知识与信息系统(KAIS)和决策支持系统等。,-,10,课题的国内外研究现状,国内对数据仓库及其相关技术的研究稍晚,但进展较快。国内的中科院、清华大学、北京大学、中国人民大学、北方交通大学、国防科技大学、东南大学、浙江大学、复旦大学、吉林大学、东北大学、哈尔滨工业大学、四川大学、华中科技大学、上海交通大学、大连理工大学、南京航空航天大学、重庆大学、南京理工大学、山东大学。,-,11,课题的国内外研究现状,数据仓库界最知名的R.Kimbal博士提出了数据仓库业务维度生命周期开发方法和数据仓库的总线结构。加拿大SimonFraser大学智能数据库系统研究实验室开发的多任务知识发现系统DBMiner。IBM公司Almaden研究中心开发的多任务KDD系统QUEST。SAS公司推出的EnterpriseMiner、微软公司推出的SQLSever、SPSS公司的Clementine、Sybase公司的WarehouseWorkbench、ORACLE公司的OracleWarehouseBuilder等。,-,12,课题的国内外研究现状,国内对数据仓库及其相关技术的研究稍晚,但进展较快。,中国科学院史忠植教授等人提出MSMiner平台。复旦大学的朱扬勇教授建立了国内著名的“数据挖掘讨论组”网站()。四川大学的唐常杰教授,华中科技大学的冯玉才教授中国人民大学的王珊教授、孟小峰教授和杜小勇教授,复旦大学的施伯乐教授,国防科技大学的陈文伟教授,哈尔滨工业大学李建中教授和刘大昕教授,东北大学的于戈教授在数据挖掘和数据仓库方面都做了许多有益的尝试。,-,13,目前存在问题,迄今为止,人们对数据仓库系统做的更多的是某个具体技术论述,相对很少有对整个系统结构进行论述,对企业集团的数据仓库系统的论述更未见报道。,针对企业集团数据仓库系统,我们认为目前存在下述问题急需解决:(1)如何设计面向企业集团的数据仓库系统体系结构?(2)如何实施企业集团ETL?(3)如何开发企业集团数据仓库?(4)如何设计并实现企业集团联机分析处理?(5)如何实施企业集团数据挖掘?(6)如何完成企业集团决策支持服务?,-,14,2数据仓库系统基本概念,数据仓库系统定义统一视图模型基本概念数据仓库系统体系结构数据仓库系统相关技术概述,-,15,数据仓库系统定义,数据仓库系统定义(用下面的一个组合公式表示):DWS=ETL+DW+OLAP+DM+DS其中:,DWS-DataWarehouseSystem(数据仓库系统);ETLExtraction/Tranformation/Loading(抽取/转换/加载);DW-DataWarehouse(数据仓库);OLAPOn-LineAnalyticalProcessing(联机分析处理);DMDataMining(数据挖掘);DS-DisicionSupport(决策支持),-,16,数据仓库系统体系结构,现美国伊利偌伊大学的JiaweiHan教授提出的三层数据仓库体系结构南京航空航天大学皮德常博士提出的面向仓库内数据组织的数据仓库体系结构上述一些数据仓库体系结构能够包含数据仓库、联机分析处理、数据挖掘等相关概念,但并不是真正意义上的数据仓库系统体系结构,更不是面向集团型的企业,它们对数据仓库中数据的一致性体现的不够充分,没有站在领域的角度设计面向整个集团的数据仓库事实表和维表。,-,17,统一视图模型基本概念,定义1.统一视图(UView),统一视图是在一个全局数据环境应用中,具有统一属性、统一度量、统一分类的查询模式,可用三元组描述,即UView:=。DKS是构成该视图的所有统一维关键属性的集合,即DKS=DKA1,DKA2,.,DKAm,其中DKAi是抽取的的第i个统一维中的关键属性;MAS是构成该视图的所有统一度量属性的集合,即MAS=MA1,MA2,.,MAk,其中MAi是抽取的第i个统一度量属性;VDS是构成该视图的用来描述该视图的统一属性集合,即VDS=VDA1,VDA2,.,VDAn,其中VDAi是抽取的第i个描述统一属性,用来表示统一视图的相关信息,例如:统一视图的名称、在统一视图模型中的分类等等。,-,18,统一视图模型基本概念,定义2.统一视图模型(UnifiedViewsModel,UVM),统一视图模型可以定义为全体统一属性、全体统一维及全体统一视图的集合,即UVM:=,它是全局数据环境下,能够为所有主题数据仓库提供抽取来源的统一数据模式描述。,-,19,数据仓库系统体系结构,-,20,数据仓库系统体系结构,面向领域工程的统一视图模型的确立领域工程是为一组相似或相近系统的应用工程建立基本能力和必备基础的过程,它覆盖了建立可复用的软件构件的所有活动。其中“领域”是指一组具有相似或相近软件需求的应用系统所覆盖的功能区域。我们按照领域工程的方法进行企业集团数据仓库领域统一视图模型的分析与设计,其模式具体内容要取决于企业用户实际的决策分析需求,其模型化过程如下:步骤1:依据企业集团用户决策分析的实际需求,通过调查、论证以及分析,获取企业集团数据仓库领域需求,形成“企业集团数据仓库领域需求分析说明书”。,-,21,数据仓库系统体系结构,面向领域工程的统一视图模型的确立步骤2对企业集团数据仓库领域所涉及的数据对象进行抽象,结合相关领域的信息、编码、术语的标准规范,参照统一属性库中关于统一属性的语义说明,及统一维库中的维度说明,定义基于统一属性的统一视图。统一视图中的属性需要从各个维表或标准属性库中选取。可以把一致性维度定义为统一视图模型中的“总线”,通过为特定数据环境定义的一种总线标准接口,就可以将新的统一视图加入统一视图模型中。生成的统一视图既有行业领域的通用信息又结合了本企业集团的具体特有信息。,-,22,数据仓库系统体系结构,面向领域工程的统一视图模型的确立步骤3用分类树的方法,按照数据对象所归属业务系统的实际情况进行分类,并通过适度的细化过程,形成一棵面向问题域的统一视图分类树,它构成了统一视图模型的主体结构。由于不存在绝对的统一视图抽象方法,因此对于统一视图分类树的生成,要求建模人员尽可能真实地反映企业用户决策分析问题域的情况。例如:针对某钢铁企业集团,建立统一视图分类树。对应业务系统,树中有销售、库存、生产、财务、设备、质量、采购、物资、人力资源等9个分支,每个分支下有若干统一视图。在销售分支下,可定义一个销售合同统一视图,视图包括若干统一属性,如:合同号、客户编码、生产号、产品类别、流向、材类别、钢类、销售公司、标准、加工用途、交货状态、冶炼方法、订货量、交货年月、合同说明。在生产分支下,可定义一个生产物料跟踪统一视图,视图包括:生产号、生产批次、炉号、工序号、分厂、班组、设备、生产量、完成时间、物料状态。,-,23,数据仓库系统体系结构,面向领域工程的统一视图模型的确立步骤4依据问题描述的实际需求,企业集团标准中心或信息中心,可及时向标准属性库中补充新的标准属性,或向统一维库中添加新的统一维。,-,24,3企业集团ETL技术,基于统一视图模型的ETL体系结构基于统一视图模型的ETL过程建模基于统一视图模型的ETL过程实现数据仓库系统ETL任务调度模型,-,25,基于统一视图模型的ETL体系结构,目前常见的数据仓库ETL体系结构如图3.1所示,数据从操作型数据源和外部数据源流出,经过ETL,即数据抽取-转换-装载到数据仓库中。,-,26,基于统一视图模型的ETL体系结构,复杂性、可用性和可维护性是这些ETL工具面临的主要问题,无法适应企业集团数据抽取、转换和加载需求,这主要体现在以下几个方面:对源数据模式的理解对企业集团多数据仓库ETL过程维护,-,27,基于统一视图模型的ETL体系结构,面向集团型企业,为降低ETL过程的复杂性,我们一方面将一个复杂的ETL过程分解为一系列的ETL操作;另一方面,我们提出了基于统一视图模型的ETL体系结构,将这些ETL操作按照不同的功能分解到基于统一视图模型的ETL体系结构中。面向企业集团的数据仓库ETL体系结构包括资源数据层、统一视图层、数据仓库层3个层次,通过引入统一视图中间层及两级抽取映射方法,实现了源数据的透明抽取及访问。这种体系结构不仅降低了数据仓库ETL过程的复杂性,还可以确保ETL过程的可用性和可维护性。,-,28,基于统一视图模型的ETL体系结构,我们为ETL过程定义了9个ETL基本操作,如表3.1所示:,-,29,基于统一视图模型的ETL体系结构,-,30,基于统一视图模型的ETL体系结构,我们提出的基于统一视图模型的数据仓库ETL框架有如下优点:这种方法支持把ETL过程集成在数据仓库系统统一建模框架下,能够确保ETL过程与数据仓库之间的无缝集成。统一视图支持ETL过程生命周期的每一步操作。这种方法帮助数据仓库设计人员更容易设计和维护ETL过程。通过提供统一视图中间层,采用分层策略,将复杂的ETL过程分解为ET和EL两大过程。实现了源数据层和数据仓库层之间的松耦合。这种方法能很好解决企业集团多数据仓库ETL过程维护过于复杂问题。多个ETL过程能够共享统一视图模型,进而降低维护多数据仓库ETL过程的复杂性,并确保多数据仓库ETL过程的可用性。这种方法使用统一视图模型作为源数据层和目标数据仓库层之间的映射。统一视图通常是一个查询模型,可以用SQL查询来表示源数据与目标数据之间的映射。通过使用统一视图,我们能实现一个动态数据仓库ETL过程,生成存储在数据库中的存储过程,按需调用执行刷新数据仓库中的数据。,-,31,基于统一视图模型的ETL体系结构,为支持企业集团多数据仓库构建,我们给出了统一视图模型双总线结构(如图3.3所示)。,-,32,基于统一视图模型的ETL体系结构,双总线结构为企业集团多数据仓库的构建提供了有利支持。双总线结构作用在于:双总线结构可以确保事实表具有较高的逻辑独立性,便于数据仓库事实表创建与维护;双总线结构支持统一维和统一视图复用,便于面向多个应用主题,快速开发多数据仓库;在双总线统一标准框架下,数据仓库开发人员可以相对独立地异步开展工作,支持增量方式构建数据仓库。,-,33,基于统一视图模型的ETL过程建模与实现,目前ETL的开发设计过程过于依赖具体业务的表结构和数据仓库的形式,没有在概念层上建立一个面向整个企业集团的,具有一定通用性的模型。现行的ETL建模和设计很难借用以往的ETL建模和设计成果,需要对业务和数据仓库进行重新的分析和设计,从而提高了设计和维护的时间和代价。,-,34,基于统一视图模型的ETL过程建模,在数据仓库系统的统一框架下,在概念层上将ETL过程引入到整个企业集团数据仓库系统的建模和设计中,给出一套基于统一视图模型的ETL过程建模方法,使得模型具备通用性和复用性。,采用UMLProfile为基于统一视图模型的ETL过程建立元模型包括:统一视图元模型和ETL操作元模型。,-,35,基于统一视图模型的ETL过程建模,统一视图元模型版类,-,36,基于统一视图模型的ETL过程建模,ETL操作元模型版类,-,37,基于统一视图模型的ETL过程建模,-,38,-,39,基于统一视图模型的ETL过程实现,-,40,数据仓库系统ETL任务调度模型,ETL包括众多的处理任务,且这些处理任务之间有一定的约束关系,如何高效地调度和管理这些处理任务是企业集团数据仓库ETL实施中非常重要的工作,也是提高数据仓库开发效率和资源利用率的关键。,我们针对数据仓库ETL任务调度问题,建立了数据仓库ETL任务调度模型,结合遗传算法及同层划分的思想,给出了相应的模型求解算法。,-,41,数据仓库ETL任务调度问题描述,ETL过程包含若干独立的ETL任务,每个ETL任务又由多个有时间顺序的具体ETL操作组成。不同ETL任务之间,没有强制性的时间顺序,可以并发执行,但每个ETL任务的各个具体ETL操作应该按照各自的先后次序约束执行,没有先后约束的ETL操作可以并发执行。,-,42,3.3.2数据仓库ETL任务调度问题描述,为了提高数据仓库ETL执行效率,需要对数据仓库ETL所有任务进行合理的分配与调度。我们的数据仓库ETL任务调度问题满足以下假设:所有ETL操作一旦开始进行就不能中断;所有处理机都是相同的,即每个ETL操作都可以在任意处理机上执行,而且执行时间是相同的。其调度目标是:在满足处理机资源约束及ETL各操作先后次序约束条件下,合理将多个ETL任务及ETL操作分配到多个处理机上,并合理调度各操作执行顺序,使ETL所有任务尽可能地并行执行以使总的ETL完成时间最短。相应的约束描述如下:所有的ETL操作都必须被执行;每台处理机同时只能执行一个操作;同一个ETL操作不能同时在不同的处理机上执行;任何ETL任务中的ETL操作之间都存在着一定的先后次序约束,不允许有可循环的先后次序,即ETL操作无回路,所有ETL操作必须按这个有效顺序执行。,-,43,数据仓库系统ETL任务调度模型,任务调度目标函数,ETL操作完整性约束,处理机执行唯一性约束,ETL操作唯一性约束,ETL操作有序性约束,调度决策变量约束,-,44,数据仓库系统ETL任务调度模型,采用遗传算法结合层层划分思想进行模型求解。(1)染色体编码表示采用数字串编码方式进行染色体编码,每个数字串表示一个可能的调度,由两部分构成,第一部分是一个由ETL操作序号组成的子串,表示ETL操作调度顺序,称为操作调度子串;第二部分是一个由处理机序号组成的子串,表示每个ETL操作所分配的处理机,称为处理机子串。(2)适应度函数本文定义适应度函数为:。值越大,则该染色体对应的调度效果越好。,-,45,数据仓库系统ETL任务调度模型,(3)生成初始种群。,-,46,数据仓库系统ETL任务调度模型,-,47,数据仓库系统ETL任务调度模型,-,48,数据仓库系统ETL任务调度模型,-,49,数据仓库系统ETL任务调度模型,-,50,数据仓库系统ETL任务调度模型,-,51,数据仓库系统ETL任务调度模型,-,52,数据仓库系统ETL任务调度模型,-,53,4企业集团数据仓库技术,企业集团数据仓库体系结构企业集团分布式数据仓库建模企业集团数据仓库模型驱动开发方法企业集团分布式数据仓库实施,-,54,企业集团数据仓库体系结构,-,55,企业集团分布式数据仓库建模,提出一种面向主题、耦合维度的一种新的数据集市和数据仓库模型。,-,56,4.3企业集团数据仓库模型驱动开发方法,给出了一种面向模型驱动的数据仓库开发方法。模型驱动体系架构(ModelDrivenArchitecture,MDA)是对象管理组织OMG(ObjectManagementGroup)发布的一个软件开发框架11,它以模型作为软件开发的核心元素,并为其提供了多种技术规范作为基础框架。MDA的核心思想是抽象出与实现技术无关、完整描述系统的平台无关模型(PlatformIndependentModel,PIM),针对不同实现技术制定变换定义;通过制定映射规则,将PIM转换成与具体实现技术相关的平台相关模型(PlatformSpecificModel,PSM);最后,再通过转换工具将PSM自动转换成代码(CODE)。MDA最大的好处在于可以节省软件开发的时间和精力,提高开发效率。,-,57,4.3企业集团数据仓库模型驱动开发方法,在模型驱动体系架构下给出了一种面向模型驱动的数据仓库开发方法,该方法构建了基于UMLProfile和CWM的数据仓库PIM(平台无关模型)元模型和数据仓库PSM(平台相关模型)元模型,定义了一套基于QVT规范的PIM元模型到PSM元模型转换的规则。在模型工具MediniQVT及IBM的EMF框架下实现了PIM模型到PSM模型,直至SQL代码的转换,从而实现了基于模型驱动的数据仓库开发。这种方法一方面在统一数据仓库框架下很好解决集成和互操作问题,模型表示简洁,直接面向最终用户需求。采用MDA规范体系中的标准定义各层模型以及模型之间的转换规则,保证了模型和转换规则描述的准确和通用性。另一方面这种方法的开发重点在数据仓库概念层PIM模型的设计,而不必关心概念层PIM模型到最终SQL实施代码的转换,进而减少开发的时间和代价,提高数据仓库开发效率,为决策支持系统实施提供有力的依据。,-,58,企业集团数据仓库模型驱动开发方法,在模型驱动体系架构下,给出一种模型驱动的数据仓库开发方法。,-,59,企业集团数据仓库模型驱动开发方法,-,60,4.3.4基于MDA的数据仓库PIM和PSM元模型,-,61,4.3.4基于MDA的数据仓库PIM和PSM元模型,-,62,4.3.4基于MDA的数据仓库PIM和PSM元模型,-,63,4.3.5基于MDA的数据仓库模型转换,(1)PIM模型到PSM模型转换本文根据Relation语言制定由数据仓库的PIM元模型到PSM元模型的转换规则。它们分别是:PackageToSchema,FCToTable,FAToColumn,DDTocolumn,DCToTable,BCToTable,OIDTocolumn,DAToColumn,FDToForeignKey。(2)PSM模型到SQL代码的转换采用EMF可以建立PSM元模型中各个模型元素的相对应的Java类。再通过自定义的从PSM模型实例到SQL转换的Java类,实现SQL代码的自动生成。,-,64,4.3.6基于MDA的数据仓库模型驱动实现,-,65,企业集团分布式数据仓库实施,(1)企业集团数据仓库实施策略数据仓库常用的开发策略有3种:即自顶向下方法、自底向上方法、自顶向下和自底向上相结合的方法。对于企业集团分布式数据环境的构建,采用有反馈的自顶向下和自底向上相结合的方法。即利用自顶向下的方法规划整个集团的数据仓库,并在统一的整体性扩展的数据仓库模型的指导下,利用自底向上的方法快速开发局部数据集市,即对各部门事务型数据库,利用前面提出的扩展的数据集市模型确定主题,形成多个主题表,并建立相应的主题耦合维,保留必要的维表,在统一视图模型基础上进行数据格式转换,经过数据提取、数据净化、数据检验后,存入各部门面向主题的数据集市中。这样做可避免各部门在开发各自的数据集市时的盲目性,减少各个数据集市之间的数据冗余和不一致。由于数据集市中数据在数据模式和数据格式上统一,便于数据向全局数据仓库转换。在整个开发过程中,不断收集客户的反馈信息,并根据这些反馈信息进行相应调整、修改。,-,66,企业集团分布式数据仓库实施,企业集团数据仓库实施技术(1)数据仓库中元数据管理企业集团元数据包括技术元数据和业务元数据。技术元数据主要包括数据仓库中的数据模型、数据仓库的数据源、数据仓库的源数据到数据仓库的映射、数据抽取日志和一些访问数据仓库的参数。业务元数据主要包括企业的业务模型、业务域的定义,数据仓库中数据的业务定义,各种有关业务规则和业务活动的数据,企业业务模型到数据仓库物理结构的映射等。这些业务元数据同企业的业务状况有密切关系。各个局部数据集市有各自独立的局部业务元数据,全局数据仓库也有独立的全局业务元数据。,-,67,企业集团分布式数据仓库实施,企业集团数据仓库实施技术(1)数据仓库中元数据管理企业集团业务系统的特点是:数据源数目多,硬件环境、操作系统平台复杂。基于这一特点,可以采用PL/SQL程序的方式,从业务数据库中抽取数据,按照一定的格式将数据组织起来。数据抽取的方式可以采取增量抽取和全量抽取相结合的方式,对于有时间戳的数据采用增量抽取的方式;对无时间戳的数据如果数据量较小,则可以采取全量抽取,完全覆盖的方式,对于数据量很大的情况,则通过抽取业务系统的日志信息进行增量抽取的方式,即通过系统的日志信息来判断哪些数据做过修改,新增了哪些数据等等。抽取的数据经过清洗、校验等处理后作为有效的数据加载进入数据仓库。具体的措施包括:重复数据唯一化、规范化以及例外处理,将不完整记录补充完整等。数据加载后根据查询的习惯和数据结构、数据量的大小定制相应的索引,提高查询速度。,-,68,企业集团分布式数据仓库实施,企业集团数据仓库实施技术数据安全性关键技术数据安全性是指保护数据以防止非法用户的越权使用、更改或破坏数据。数据安全性是设计和实施数据仓库系统的一个重要关键技术,其保护措施是否有效是评价系统质量高低的主要性能指标之一。这里,我们提出了数据安全性保护的系统分层控制方法,给出了实施数据安全性控制的综合解决方案。数据安全性保护的系统分层控制方法就是将系统划分为三个层次,即应用程序系统层(ApplicationProgramSystem)、数据库管理系统层(DataBaseManagementSystem)、操作系统层(OperationSystem),分别从不同的级别,不同的角度对系统的安全控制进行设计,即采取分层设置的安全措施;同时在实施上将三层数据安全性控制相结合,综合考虑整个数据仓库系统的数据安全控制技术,从而形成统一的安全控制策略。,-,69,5企业集团联机分析处理技术,OLAP基本操作基于MDA的OLAP集成开发框架基于MDA的OLAP模型开发基于MDA的OLAP开发应用实例,-,70,OLAP,目前,基于数据仓库(DataWarehouse,DW)进行决策分析主要有两种方式:联机分析处理(On-LineAnalysisProcessing,OLAP)和数据挖掘。OLAP是一种归纳型的决策过程,包括切片、切块、旋转、上卷、下钻等基本操作。其主要作用是使企业的决策者能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化,通过快速、一致、交互地访问各种可能的信息视图,帮助管理人员掌握数据中的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。OLAP具备了强大的决策支持能力,在决策支持系统中具有重要的地位。,-,71,TypicalOLAPOperations,Rollup(drill-up):summarizedatabyclimbinguphierarchyorbydimensionreductionDrilldown(rolldown):reverseofroll-upfromhigherlevelsummarytolowerlevelsummaryordetaileddata,orintroducingnewdimensionsSliceanddice:projectandselectPivot(rotate):reorientthecube,visualization,3Dtoseriesof2Dplanes.Otheroperationsdrillacross:involving(across)morethanonefacttabledrillthrough:throughthebottomlevelofthecubetoitsback-endrelationaltables(usingSQL),-,72,OLAPOperation:roll-up,Roll-uponlocation(fromcitiestocountries),-,73,OLAPOperation:drill-down,Drill-downontime(fromquarterstomonths),-,74,OLAPOperation:slice,Slicefortime=“Q2”,-,75,OLAPOperation:dice,Dicefor(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”),-,76,OLAPOperation:pivot,pivot,-,77,OLAP的旋转功能,平面数据的坐标轴转换。,12.7,8.5,-4.3,8.9,差量%,-44322,25402,-2995,31102,差量,350000,300000,69000,350000,计划,306677,325402,66005,381102,现有,其它,汽车,家具,服装,销售量,1999,-,78,12.7,-44322,350000,306677,所有其他,8.5,25402,300000,325402,汽车,-4.3,-2995,69000,66005,家具,8.9,31102,350000,381102,服装,差量%,差量,计划,现有,销售量,1999,-,79,OLAP开发,虽然人们在OLAP方面开展了大量的研究工作,但主要还集中在多维数据模型1-3及OLAP操作的有效算法4-7等几个方面,对面向最终决策用户的OLAP应用开发未引起足够的重视,基于数据仓库的OLAP应用开发的研究还很不够。OLAP应用系统开发是一项复杂性工作,系统的可用性和可维护性是构建OLAP系统面临的主要问题。,-,80,OLAP开发,目前多数OLAP应用开发过于依赖于具体业务的表结构(行、列)和数据仓库的形式8,缺少一个直观的、集成的和统一标准规范的开发框架,少有在应用模型的高度实施数据仓库OLAP应用开发,导致很难借用以往的OLAP建模和设计成果,OLAP与数据仓库系统其他层之间的互操作性和集成性难以保证。JesusPardilo等人在文献9给出了一种模型驱动的OLAP元数据自动获取方法,论文工作仅限于OLAP立方体,并没有给出OLAP操作模型表示。我们在前期工作中提出了应用UMLProfile设计OLAP元模型的方法10,实现了OLAP在概念层上的设计,提供了一个具备通用性和重用性的OLAP元模型,但没有给出这些概念模型到逻辑模型,乃至物理实现的具体转换方法,没有提供基于模型转换的OLAP实现。,-,81,OLAP开发,目前,MDA在数据仓库系统开发中有一定应用。Jose-NorbertoMazon等人在文献12提出了基于MDA的数据仓库开发方法,给出了数据仓库PIM、PSM等相关模型及具体转换方法,论文主要论述了数据仓库资源层的开发。LeopoldoZepeda等人在文献13中为数据仓库系统概念结构设计提出一种混合驱动的方法,应用MDA方法完成了ER(实体-关系)模式到OLAP模式的映射,论文工作仅限于数据仓库系概念结构设计,没有给出OLAP操作模型表示及实现方法。OctavioGlorio等人在文献14应用MDA方法为支持地理OLAP查询实施了地理数据仓库系统开发,论文并未给出OLAP应用开发实现方法。JesusPardillo等人在文献15提出了基于MDA的数据挖掘建模方法,给出了面向数据仓库的数据挖掘概念模型及相应模型转换框架。,-,82,OLAP开发,但将MDA方法应用到OLAP开发中的研究报道并不多见。唯一的一项相关研究见JesusPardillo等人的工作17,JesusPardillo等人提出采用OCL(对象约束语言)为OLAP操作实施平台无关概念建模的方法,同时给出MDA模型转换框架,但没有给出OLAPPIM元模型及OLAPPSM元模型定义,没有给出模型映射规则等关键技术描述。,-,83,OLAP开发,鉴于此,本文在数据仓库系统统一建模框架下,从模型驱动的角度实施OLAP应用开发,提出了基于MDA架构的OLAP应用开发方法,该方法构建了基于UMLProfile和CWM的OLAPPIM(平台无关模型)元模型和OLAPPSM(平台相关模型)元模型,定义了一套基于QVT规范的PIM元模型到PSM元模型转换的规则。在模型工具MediniQVT及IBM的EMF框架下实现了PIM模型到PSM模型,直至SQL代码的转换,从而实现了基于模型驱动的OLAP开发。,-,84,OLAP开发,这种方法一方面在统一数据仓库框架下很好解决集成和互操作问题,模型表示简洁,直接面向最终用户需求。采用MDA规范体系中的标准定义各层模型以及模型之间的转换规则,保证了模型和转换规则描述的准确和通用性。另一方面可以让OLAP较早地伴随数据仓库系统进入设计阶段,开发的重点在OLAP概念层PIM模型的设计,而不必关心概念层PIM模型到最终SQL实施代码的转换,进而减少开发的时间和代价,提高OLAP应用开发效率,为决策支持系统实施提供有力的依据。,-,85,基于MDA的OLAP集成开发框架,-,86,基于MDA的OLAP开发,-,87,基于MDA的OLAP开发,OLAPPIM元模型结构,-,88,基于MDA的OLAP开发,OLAPPIM元模型版类层次结构,-,89,基于MDA的OLAP开发,-,90,基于MDA的OLAP开发,OLAPPSM元模型结构,-,91,基于MDA的OLAP开发,(1)PIM模型到PSM模型转换采用QVT规范下的Relation语言制定由OLAP的PIM元模型到PSM元模型的转换规则。,(2)PSM模型到SQL代码的转换采用EMF可以建立PSM元模型中各个模型元素的相对应的Java类。再通过自定义的从PSM模型实例到SQL转换的Java类,实现SQL代码的自动生成。,-,92,基于MDA的OLAP开发,PIM模型到PSM模型转换OLAP的PIM元模型到PSM元模型的转换规则,分别是:PackageToSchema,ModelToCube,FAToAttr,DIMToDimension,DAToDimAttr,DAToLevelAttr,DimToDimId,OperationToDeployment,SliceToValue,DiceToLOV,DiceToInterval,DrilldownToLevel,RollupToLevel,PivotToDimHierarchy。,-,93,基于MDA的OLAP开发,PackageToSchema表示一个整体的PIM到PSM的转换,Package和Schema都是PIM和PSM对各自模型的整体性描述,包含了各模型整体结构的说明。通过后置条件(where子句)来触发关系ModelToCube,OperationToDeployment。ModelToCube,是将PIM中事实模型和目标模型转换成PSM中Cube的规则,其后置条件触发关系FAToAttr,DIMToDimension,DimToDimId,分别实现事实属性到属性转换,维属性的转换,以及维的转换。OperationToDeployment,表示将PIM中操作模型转换成PSM中的Deployment。其6个后置条件,将OLAP的几个基本操作进行的描述,实现了基本操作从PIM到PSM的转换。,-,94,基于MDA的OLAP开发,SliceToValue,通过设置一个属性的值,并指定该属性所从属的维,实现的切片模型的转换。DiceToLOV和DiceToInterval,在判断isContinuous作为前置条件的条件下,分别实现了离散取值和线性取值情况的切块模型转换。DrilldownToLevel和RollupToLevel分别实现了下钻模型和上卷模型的转换。PivotToDimHierarchy,将旋转模型转换到DimHierarchy,通过对重定序转换的描述,实现旋转操作的转换。,-,95,基于MDA的OLAP开发,下面以PIM中的操作模型转换为PSM中的Deployment模型为例,说明一下基于QVT的多维数据PIM到PSM模型转换的转换规则。relationOperationToDeploymentpn:String;checkonlydomainpimp:OLAP_PIM:PackageolapOperations=oper:OLAP_PIM:OLAPOperationsname=pn;enforcedomainpsms:OLAP_PSM:Schemadeployment=dp:OLAP_PSM:Deploymentname=pn;whereSliceToValue(oper,dp);DiceToLOV(oper,dp);DiceToInterval(oper,dp);DrilldownToLevel(oper,dp);RollupToLevel(oper,dp);PivotToDimHierarchy(oper,dp);,-,96,基于MDA的OLAP开发,基于MDA的OLAP模型实现,-,97,基于MDA的OLAP开发应用实例,下面以通过东北特钢集团一个具体实例进行应用描述。,企业集团战略管理处定期对企业各生产分厂进行考核,要实时统计分析销售合同执行情况,实时查询提前入库合同。为此,针对合同跟踪事实表,首先进行提前入库合同OLAPPIM概念建模,并通过基于MDA的模型转换生成相应的PSM模型,直至SQL代码生成。,-,98,基于MDA的OLAP开发应用实例,在我们的例子中,提前入库OLAP操作中仅涉及切块操作,所以OperationToDeployment中只有DiceToLOV关系会在转换过程发生作用。而且DiceToLOV关系会将Dice模型中的对入库日期区间(2008-12-28至2008-12-31)及提前入库(实际入库年月比合同中计划排产年月早的合同)的描述转换为在Deployment中的描述。利用支持QVT规范的MediniQVT开源模型转换工具,实现了OLAP操作元模型的定义和提前入库OLAP操作模型转换。具体实例中我们定义了提前入库OLAPPIM模型实例(source.xmi),利用模型转换生成OLAPPSM模型实例(target.xmi)。,-,99,基于MDA的OLAP开发应用实例,-,100,基于MDA的OLAP开发应用实例,-,101,基于MDA的OLAP开发应用实例,-,102,基于MDA的OLAP开发应用实例,利用提前入库合同查询结果,战略管理处管理人员可以准确定位所有提前入库合同详细信息,正确评价合同实际完成情况,辅助制定科学、高效的企业生产计划。应用表明,使用基于MDA的OLAP开发方法,一方面可以大大提高OLAP查询开发效率,开发效率比传统软件开发方法提高75%,支持模型重用。另一方面,通过模型驱动的方法可以让设计人员不必关心OLAP查询实现细节,使得他们更多关注模型的概念设计,进而提高模型的适用性和准确性,更加高效满足最终客户查询需求。,-,103,6企业集团数据挖掘技术,基于抽样的决策树分类算法及应用关联规则改进算法及应用,-,104,基于抽样的决策树分类算法及应用,提出一种基于抽样的决策树分类算法,能在面临企业集团大数据集的情况下,挖掘出有一定正确性的分类规则。,算法基本思想是:从原始的大数据集中选取一个与原大数据集相似分布的小样本子集,并在这个样本子集上采用决策树分类算法来进行学习,根据时间复杂度要求和收敛标准来定义抽样的终止。,算法中要解决的关键技术问题是:如何确定抽样的初始样本量,如何确定抽样的进度,如何确定抽样的终止条件。,-,105,基于抽样的决策树分类算法及应用,确定抽样的初始样本量,采用文献的方法,具体分为三步:给定m个样本大小,计算各个样本大小对应的样本质量,样本质量采用基于信息差异的标准度量;利用m个样本大小和样本质量,画出样本质量曲线,确定统计优化样本量(StatisticalOptimalSampleSize,SOSS),其对应的样本质量应该接近1。基于在SOSS上的学习能获得和最优样本量(OptimalSampleSize,OSS)足够近似的正确性,可以把SOSS作为抽样的初始样本量。,-,106,基于抽样的决策树分类算法及应用,确定抽样的进度在抽样的进度上根据增加样本数量的不同方法分为算术抽样和几何抽样。因为算术抽样比较保守,几何抽样比较激进,采用参考文献提出的抽样进度,抽样样本数量为:(i=1,2,m),其中go_length为步长系数,定义go_length=1.1。n0是初始样本量。,-,107,基于抽样的决策树分类算法及应用,确定抽样的终止条件利用时间复杂度要求来确定抽样的终止条件,在此要保证抽样算法所花的时间复杂度必须小于使用整个原数据集所花的时间复杂度,所以必须保证:,-,108,基于抽样的决策树分类算法及应用,确定抽样的终止条件,-,109,基于抽样的决策树分类算法及应用,确定抽样的终止条件利用收敛标准来确定抽样的终止条件,当学习曲线的坡度到达一个平缓的稳定状态时就认为其收敛了。,使用最后3个抽样得到一个有权重的正确度平均值来检测是否收敛,有权重的正确度平均值定义为:,-,110,基于抽样的决策树分类算法及应用,基于抽样的决策树分类算法,-,111,基于抽样的决策树分类算法及应用,-,112,基于抽样的决策树分类算法及应用,-,113,基于抽样的决策树分类算法及应用,将基于抽样的决策树分类算法应用到东北特钢集团生产成本管理领域,从大量生产成本历史数据中挖掘出工艺路线上的关键工序,为决策者在工业生产过程中提供更好的决策依据。,-,114,基于抽样的决策树分类算法及应用,钢铁企业生产成本工序数据仓库模型,-,115,基于抽样的决策树分类算法及应用,-,116,基于抽样的决策树分类算法及应用,-,117,关联规则改进算法及应用,在关联规则挖掘中,关键技术问题是如何确定候选频繁项集、如何计算项集的支持数,如何减少候选项集的个数,以及如何减少扫描交易数据库的次数。本文利用有向项集图的三叉链表式存储结构和基于有向项集图的完全频繁项集关联规则挖掘算法。,-,118,关联规则改进算法及应用,-,119,关联规则改进算法及应用,-,120,关联规则改进算法及应用,-,121,关联规则改进算法及应用,基于有向项集图的完全频繁项集挖掘算法,-,122,关联规则改进算法及应用,将本文提出的关联规则挖掘算法应用到东北特钢集团客户营销管理领域。我们结合客户订货事实表进行实例应用描述。抽取东北特钢集团华北分公司2005年度客户订货信息,挖掘客户购买不同钢类产品的关联规则。采用本文提出的方法,首先对数据表进行纵向转换,再定义有向图三叉链表存储结构,最后设置支持度设为3%时,挖掘完全频繁项集,当置信度设定为60%时,生成的满足置信度的部分关联规则如下:,-,123,7企业集团决策支持技术,决策基本概念企业集团决策支持信息模型企业集团决策支持系统结构企业集团决策支持系统应用研究,-,124,决策的涵义,韦伯大辞典的定义:决策就是从两个或者多个备选方案中有意识的选择其中一个方案。根据此定义决策包括两个要素:(1)有意识的选择(2)备选方案,在哈佛管理众书中,决策的定义为:“指考虑策略(或办法)来解决目前或未来(问题)的智力活动。”,西蒙(H.A.Simon)将决策视为一个过程:决策就是找出要求制定决策的原则;寻找、拟定和分析可能的行动方案;选择特定方案。,-,125,决策例子,“囚徒困境”例子以下几种情况:如果两人都不坦白,警察会以非法携带枪支罪而将二人各判刑1年;如果其中一人招供而另一人不招,坦白者作为证人将不会被起诉,另一人将会被重判15年;如果二人都招供,则二人都会因罪名各判10年。,这两个囚犯该怎么办呢?,-,126,结构化、半结构化和非结构化决策问题,按照决策问题的性质,可以按其结构化程度,划分为“结构化”、“半结构化”、“非结构化”三类。所谓结构化程度,是指对某一过程的环境和规律,能否用明确的语言(数学的或逻辑学的,形式的或非形式,定量或推理的)给予清晰的说明或描述。如果能描述清楚的,称为结构化问题;不能描述清楚而只能凭知觉或经验作出判断的,称为非结构化问题;介于二者之间的称为半结构化问题。与决策过程对应起来,结构化问题是指决策过程中的步骤都能使用确定的算法或决策规则来确定。如果上述无法用确定的算法或决策规则来确定,则称为非结构化决策问题。在某些条件下,其中一个阶段(步骤)由于人们认识不清楚,无法完成清晰的描述,则这样的问题就成为半结构化问题。,-,127,决策问题按性质与层次分类,-,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 投资协议书作价
- 公司城市轨道交通行车值班员工艺作业技术规程
- 怎样写分居协议书
- 婚后协议书怎么签
- 公司宝石轴承磨工岗位工艺技术规程
- 公司煤层气测井测试工合规化技术规程
- 公司工业炉及电炉电气控制装调工岗位设备安全技术规程
- 2025区域企业劳动合同
- 安徽省凤阳县2026届数学八年级第一学期期末考试试题含解析
- 2025短期劳务合同模板
- 隧道施工应急预案方案
- 植物鉴赏课件
- 安徽省华师联盟2026届高三上学期9月开学质量检测物理试卷(含答案)
- 航海船舶航线选择指南
- 2025年中小学校长岗位竞聘面试题库及答案
- 2025年中国心血管病报告
- 肿瘤热疗中国专家共识
- 2025年甘肃省药品检查员资格考试(药械化流通)历年参考题库含答案详解(5套)
- 2025年泸州职业技术学院招聘考试笔试试卷【附答案】
- 自来水企业内部管理规范
- 2025新热处理工程师考试试卷及答案
评论
0/150
提交评论