




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)负荷预测多维数据模型及实视图研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
巾殳摘要 摘要 本论文根据电力负衍预测系统的历史数据集的特点及各种预测方法、 0 l a p 及数据挖掘的对数据源的需求,研究了多维数据建模及实视图维护 的理论,以增强数据源独立性、可维护性和提高联机分析处理和数据挖掘 的效率。 本文分为五个部分。第一部分简单介绍了电力负荷预测的意义、现状 和存在的问题,提出建立数据仓库支持负荷预测以解决现存问题,然后突 出数据仓库研究中有关逻辑建模及效率的两个关键性的理论问题:多维数 据建模及实视图的选择与维护,在后面的两个部分分别对它们进行的阐 述。 第二部分首先概述了多维数据建模的意义与国内外研究的现状,指出 了目前人们已提出的多维数据模型的局限性,然后针对负荷预测系统的特 点提出了一个新的模型,该模型解决了不同维公用一个底层层次属性,把 系统中不完全的低粒度数据集和完全的粗粒度数据集在逻辑上无缝地结 合起来支持联机分析处理的问题,这是以前的多维数据模型所没有解决 的。 第三部分首先讨论了国内外实视图选择和维护领域内已有的研究成 果,然后根据负荷预测系统0 l a p ,数据挖掘的特点,提出了一种新的维 护算法,该算法能有效地提高数据仓库维护的效率。 第四部分讨论了如何利用本文中提出的多维数据模型及实视图维护 算法支持负荷预测系统。 论文最后对全文进行总结,对需进一步研究的问题进行了展望。 关键词:负荷预测, 数据仓库,多维数据模型,实视图,0 l a p , 数据挖掘 英文摘要 a b s l r a c t b a s e do nt h ec h a r a c t e r i s t i c so ft h e1 1 i s t o r i c a ld a t as e to ii o a dt o r e c a s “儿g s y s t e m ,f o r e c a s t i n gm e t h o d sa n dt h er e q u i r e m e n f so fo l a pa n dd mt o o i sf o r d a t as o u r c e s ,t h i s p a p e rr e s e a r c h e st h et h e o r i e so fm u l t i d i n c n s i o n a l d a t a m o d e la n dm a t e “a l i z e dv i e w sm a i n t e n a n c ei no r d e rt o i m p r o v et 1 1 e i n d e p e n d e n c ea n dm a i n t a i n a b i j i t yo ft h cd a t as o u r c e sa n dt h ee f i j c i e n c yo ft h e o l a pa n d d m t h ep a p e rh a sf b u fc h a p f e r s i nt h ef i r s tc h a p t e r ,t h ei m p o r t a n c e ,p r e s e n t s i t u a t i o na n dp r o b l e m so fl o a df b r e c a s t i n ga r ei n t r o d u c e ds i m p i y t os o l v et h e p r o b l e m s , as t r a t e g yo fb u i l d i n gad a t aw a r e h o u s et o s u p p o r tt h el o a d f b r e c 4 s t i n gs y s t e mi sp r o p o s e d t ob u i l dt h ed a t aw a r e h o u s e ,t h e r ea r et w o i m p o r t a n tt h e o r e t i c a lp r o b l e m sa b o u tm u l t i d i m e n s i o n a ld a t an l o d e l i n ga n d m a t e r i a l i z e dv i e w s b o t ht h ep r o b l e m sa r ee n l p h a s i z e da tt h ee n do ft h e c h 印t e r ,a n dd i s c u s s e dp r o f b u n d l yi nt h ef b l l o w i n gc h a p t e r s t h es e c o n dc h a p t e rb e g i n sw i t ht h eg e n e r a ir e v i e wo ft h ei m p o r t a l l c ea n d r e s e a r c h i n gs t a t u so fm u l t i d i m e n s j o n a ld a t am o d e l i n g ,t h e np o i n t so u tt h e i i m i t a t i o n so ft h ee x i s t i n gm u l t i d i m e n s i o n a ld a t am o d e l s i no r d e rt om o d e l t h em u l t i d i m e n s i o n a ls t r u c t u r eo ft h el o a df o r e c a s t j n gs y s t e m sd a t as e t ,a tt l l e e n do ft h ec h a p t e r ,t h ep a p e ri n t r o d u c e san e wm o d e it os o l v et h ep r o b l e m so f d i f f e r e n td i m e n s i o n ss h a r i n gac o m m o nb o t t o ml e v e lo fh i e r a r c h i e sa n d i n c o r p o r a t i n gi n c o m p l e t ed a t as e to ff i n eg r a n u l a r i t ya n dc o m p l e 把d a t as e to f c o a r s eg f a n u i a r i t yl o g i c a l i yt os u p p o r to l a pw h i c hh a dn o tb c e ns o l v e db y p r e v e n i e n tm o d e l s f i r s t , t h et h i r dc h a p t e rt a l k sa b o u tt h er e s e a r c h i n ga c h i e v e m e n t so n m a t e r i a l i z e dv i e w s ,a n dt h e no nt h eb a s i so fl o a df b r e c a s t i n g ,p r e s e n t san e w m a t e r i a l i z e dm a i n t e n a n c ea l g o “t h m ,w h i c hc a nr e d u c et h es p a c ea n dt i m ec o s t o ft h em a t e r i a l i z e dv i e w sm a i n t e n a n c e t h ef b u f t hc h a p t e rd i s c u s s e sh o wt os u p p o r tt h el o a df b r e c a s t i n gu s i n gt h e m u l t i d i m e n s i o n a ld a t am o d e la 1 1 dt h ev i e wm a i n t e n a n c ea i g o r i t h m st h a tt h e p 印e rp r e s e n t sb e f o r e f i n a l l y , t h ec o n c l u s i o no ft h ep a p e ri sg i v e na n dt h ef u t u r ew o r ki s s u g g e s t e d k e y w o r d s :l o a df o r e c a s t i n g ,d a t aw a r e h o u s e ,m u l t i d i m e n s i o n a ld a t am o d e l , m a t e r i a i i z e dv i e w s ,o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) ,d m ( d a t am i n i n g ) i i 中南大学硕士论文 第一章引言 第一章引言 1 1课题的意义 电力作为人类社会生产和生活中不可或缺的重要能源,由于其使用方 便、清洁无污染等卓越的优点而得到越来越广泛的使用,我国的电力事业 也因此得到快速的发展,“九五”以来我国电力长期以来的供不应求的矛 盾得以缓解。随着经济的快速发展和人们生活水平的逐步提高,我国的电 力的供需矛盾出现了新的特点:用电高峰和枯水期间供电紧张,用电低谷 和丰水期间电力大量过剩。因为电能在电网上不能存储,这种峰谷差日益 扩大的特点给电力企业的经济效益和安全运营带来了很大的压力。为了满 足人们对电力不断增长的需求和提高电力企业的投资效益和经营效益,加 强电力企业规划、市场营销和经营决策的科学性,建立科学有效的电力负 荷分析预测系统具有重大的经济价值和很高的社会效益。 国内外学者对电力负荷预测提出了各种各样的模型和方法o 】【o2 1 ,有 经典的单耗法、弹性系数法、时间序列法、统计分析法,到目前的专家系 统预测法、灰色预测法【o 引、神经网络法【0 4 儿。引、模糊神经网络法、优选组 合法【0 6 】等。这些方法基本上可分为两类:基于参数模型的方法和基于非参 数模型的方法。基于参数模型的方法是基于某一特定的数学模型或统计模 型,诸如线性回归模型、自回归平滑移动模型等。基于非参数模型的方法 主要由专家系统、灰色系统、模糊逻辑、神经网络、遗传算法的理论发展 起来的。这些方法在实际的预测系统中逐步得到了使用,取得了较好的效 果。我国的电力系统在计算机应用方面起步较早,积累了大量详细的历史 数据。但是由于各部门采用的应用系统是在不同时期在不同的情况下引进 不同的厂商的产品或自行开发而成,它们之间缺乏互通性,形成了许多互 相隔离的信息孤岛,根本没有互操作性,而且由于各地州市拥有的历史资 料多少各不相同,所以不同地区表格空缺程度完全不同,所以没有人工参 与,程序根本无法对其进行处理。而有些预测方法所需的数据如:各地区 的国民经济的发展战略,产业结构调整,大中型项目建设,重大自然灾害, 重大活动等非结构化的信息没有得到应有的反映。少数系统建立在普通的 数据库之上,对现存的各部门的数据源缺乏集成,所需数掘基本上依靠手 工输入,不能充分利用已有的大量历史资料。由于所需的数据数量和质量 均得不到保证,因而目前的电力负荷预测系统存在预测精度低,预钡i 结果 缺乏说服力等缺陷。影响其预测的精度。专业技术人员、高级决策人员在 交互式的预测分析中涉及大批量的数据查询时系统无法及时响应,影响了 分析人员思维的连贯性。加之这些系统是根据当时当地的时域和地域特征 定制而成的,缺乏通用性,且当数据格式发生改变,新的预测技术、预测 标准出现的时候缺乏可扩展性和灵活性,而且这些预测方法只能对需电量 进行有效的预测,对电力负荷特性的预测至今尚未有切实可行的理论和方 法0 7 】。为了提高电力负荷预测的准确程度,为各种预测方法提供准确、全 面的数据来源,便于在线预测分析,更为重要的是为各种数据挖掘方法提 供大量的历史和外部信息,便于挖掘出隐藏在历史数据中的知识、模式和 规律,发现新的预测模式,寻找历史数据中电力负荷特性的各项指标的变 化规律,为电力负荷各项指标的预测提供指导,就有必要把大量的宝贵的 历史数据与各种来源的数据集成到一起形成数据仓库,为数据挖掘及联机 分析查询提供一个统一的数据平台。而要使数据仓库技术在电力负荷预测 系统中发挥应有的作用,必须首先解决两个关键问题:逻辑建模和查询效 率。在这两个问题上至今还没有普遍适应的解决方案。本论文就目前数据 仓库逻辑建模和查询效率的研究领域相关的多维数据建模和实视图维护 问题进行深入研究,在国外大量研究的基础上提出适合电力负荷预测系统 特点的多维数据模型和实视图维护算法。 2 中南大学硕士论文第一章引言 1 2 课题目标 根据当前电力系统计算机应用的现状及各种电力预测方法、数据挖掘 方法对数据的需求,建立一个服务于电力负荷预测、数据挖掘及管理人员 进行联机分析处理的数据仓库系统框架,针对电力系统的数据特点和负荷 预测需求,深入研究概念建模及实视图选取与维护问题以提高数据源的逻 辑独立性和查询效率。本论文根据电力负荷预测系统的数据特点及数据挖 掘的目标提出一套形式化的查询、操作语言的接口及算法实现,以实现对 数据挖掘和0 l a p 的紧密支持,在对现有的实视图的选择、维护的思想及 算法的基础上,针对负荷预测系统的特点提出一个更有效的实视图维护算 法,以提高0 l a p 及数据挖掘的效率。 一3 一 中南大学硕士论文 留 第二章多维数据模弛的研究 第二章多维数据模型的研究 2 1多维数据模型研究起源、现状和进展 6 0 年代末,e d g a rf r a n k c o d d 所提出的关系数据模型促进了关系数据 库系统和联机事务处理( 0 l t p ) 的发展,数据不再是以文件形式同应用 程序捆绑在一起,而是分离出来以关系表的形式供大家共享。随在数据库 技术应用的发展,数据量由8 0 年代的兆( m ) 字节及千字节( g ) 过渡到现在 的兆兆( t ) 字节和千兆兆( p ) 字节,同时用户的查询需求也越来越复杂,要 对多个表中的成千上万条数据进行分析和综合,传统的关系数据库系统无 法在性能上同时满足操作型应用和分析型应用的要求,为了提高分析型操 作的性能,设计人员在关系数据库中放宽了对冗余的限制,引入了统计和 综合数据,但这些数据的应用逻辑却是分散杂乱、非系统化的,因l 【匕分析 功能有限,不灵活,维护困难,于是不少厂商开发了专门的数据综合引擎, 附加以图形化的用户界面,力图统一分散的公共应用逻辑,在短时间内响 应非数据处理专业人员人士的复杂查询需求【o 引。1 9 9 3 年e d g a rf r a n kc o d d 把这种技术定义为“o l a p ”,并提出了1 2 条准则来描述0 l a p 系统,其 中下面这些标准指出o l a p 操作具有多维性: 准则l :o l a p 模型必须提供多维概念视图( m u l t i d i m e n s i o n a l c o n c e p t u a lv i e w ) 从用户分析员的角度来看,整个企业的视图本质上是多维的,因此 o l a p 的概念模型应该是多维的。企业决策分析的目的不同,决定了分析 和街量企业的数据总是从不同的角度来进行的,所以企业的数据空问本身 就是多维的。多维模型可以使最终分析以比单一维模型更简单、直观的方 式操纵多维数据,例如通过切片、切块可以轻松的完成传统的操作方法必 须用极大的时间和代价爿。能完成的工作。 准则3 :存取能力准则 4 中南大学硕士论文第二章多维数据模型的研究 通过单一逻辑模式存取数据的能力。 准则4 :稳定的报表性能( c o n s i s t e n tr e p o r t i n gp e r f o r m a n c e ) 当维数和数据的综合层次增加时,提供给最终分析员的报表能力和响 应速度不应有明显的下降。 准则6 :维的等同性准则 每一数据维在数据结构和操作能力上都是等同的。 准则9 :非受限的跨维操作 准则1 2 :不受限的维与聚集层次 o l a p 工具的维数不应小于1 5 维,用户分析员可以在任意维上建立任 意多个聚集层次。 从此以后,多维数据模型的研究引起了学术界的重视。至今为止,人 们提出了多种典型的多维数据模型【0 9 】- - f 2 引,这些模型都把数据分为两类: 维和度量。下面对研究领域中提出具有代表性的多维数据模型进行介绍。 这些模型可以分为简单的立方体模型,统计对象模型,结构化的立方体模 犁。 2 1 1 简单的多维数据模型 1 9 9 5 年,j i mg r a y 等在微软公司的技术报告中第一次引入了c u b e 操作符( 1 2 】。c u b e 操作符是s q l 中对g r o u pb y 子句的扩展,它把n 个聚 集属性当作n 一维空间的n 个维,在对应着由这n 个维属性值构成的n 一 维向量的每一个具体取值的度量的集合上聚集,结果构成了n 一维空间的 一个点。所有的这些点构成一个n c u b e ,进一步在低维空间聚集可得到 ( n - 1 ) 一c u b e ,o c u b e 。所有的这些c u b e 的集合构成一个n 维数据立方体 ( 参考图2 1 ) ,即在这n 个聚集属性的所有可能的组合所形成的子空间行 进行聚集。图2 1 是在汽车销售表s a i e s ( m a k e ,c o l o r ,y e a r ,s a l e s ) 上进行 c u b e 操作的说明,非形式化地描述了数据立方体的概念。 中南大学硕士论文第二章多维数据模型的研究 图2 1 :c u b e 操作符是对简单的聚集函数的概化,0 d 数据立方体是 一个点,l d 数据立方体足一条线加一个点,2 d 数据立方体是一个交叉表 ( 一个面加两条线和一个点) ,3 d 数据立方体是一个立方体,加三个相交 的2 d 交叉表【1 2 】 j mg r a y 等创新性地引入了关键字a l l 来表示属性上所有取值的集 合,使聚集操作中没参与的属性用a l l 表示,从而使操作结果数据立方 体( d a t ac u b e ) 可用关系模式进行表示( 图2 2 ) ,因而可把c u b e 嵌入 到复杂的非过程数据分析程序中。这种数据立方体模型具有多维性的特 点,能给报表生成分析工具的常用的操作:制直方图( h i s t o g r a m ) 、交叉表 ( c r o s s - t a b ) 、小计( s u b t o t a i ) 提供有效的支持,但每一个维只能由一个属 性组成,不能表示维的层次结构,对数据立方体的复杂操作也没有进行深 入的讨论,只是在s q l 语言上的一些扩充。 一6 一 中南大学硕士论文 第二章 多维数据模型的研究 s e l e c tm o d e l , y e a r ,c o l o r , s u m cs a l e s )a ss a l e s p r o ms a l e s w i e r eh o d e li n f o 【d c h e ”y 。j a n dy e a rb e t w e e n1 9 9 0a n dl9 9 2 g r o u pb yc u b em o d e l , y e a r ,c o l o r ; 图2 2 一个3 d 数据立方体( 图右边) 在关系表中的表示1 2 j 图2 2 表示图上方的c u b e 语句在图左边的表上操作的结果:一个 3 d 数据立方体( 图右边) 在关系表中的表示。这样的表示方法的缺陷是: 当一个表由多个属性,而每个属性的取值较多时,这样c u b e 操作的结果 7 鸵。蚰帖nn兰星|如弓螂钉“铊m”豫。!兰”铊mmm!刍神mm叭蚍 0 o o 0 l 1 l 1 2 i 2 l l l l 0 0 o 0 l 1 l l 2 2 2 2 l l l;)l l l l;,:j j j 黜渊鼢蚕至溢器激裟黜黜垂至至至器器僦激薹萋黜船船器器黜裳 中南大学硕士论文 第二章多维数据模型的研究 表将十分庞大。例如:6 个属性,每个属性取值l o o 个,在这六个属性上 的c u b e 操作的结果足l o l6 个元纽的表,假没每个元组占1 0 b y l c ,则结 果表将比原来的表多占用空问约6 0 g ,hi 订的汁算机系统不可能捉供盘f l 此 巨大的存储空间,所以把全部属性所有可能对应的聚集全部计算并存储起 来,不仅是不可能的,而且是低效的。在此之后,学术界划如何高效实现 c u b e 进行了大量的研究【”】。 1 9 9 7 年m a r cg v s s e n s 和l a k sv s l a k s h m a n a n 提出了另一种简啦立 方体模型【1 4 j 。他们把模型的结构和内容区分开来,提出了n 一维表模式 ( n d i m e n s i o n a l t a b i es c h e m a ) 和实例( i n s t a n c e ) 的概念,通过引入“关系模式 的关系值关于其对应的多维数据模式的完全表示”( t l l cc o m p l e t i o no fa r e l a t i o nw i t hr e s p e c tt oan d i m e n s i o n a ls c h e m a ) 的概念,在多维表模式的实 例和对应的关系模式的关系值之问建立了一一对应关系,从而把扫:多维数 据表的代数操作用对应的关系上的代数操作来定义,定义简单而清晰,具 有较强的表达能力,能有效地表示c u b e 操作符。g y s s e l l s 等提出的这个模 型在数据立方体上前进了一步,每一维可包含多个属性,支持维属性和度 量属性的对称性,但是不支持维属性的层次结构,并且对定义在多维数据 表上的操作缺乏有效的实现方法。 而a n i n d y ad a t t a ,h e i e nt h o m a s 则给出了一个形式化的简单立方体多 维数据模15 1 ,他们把数据立方体( d a t ac u b e ) 定义成一个四元组 o ,称为维的域,d o m i 是域( 1 i n ) ; 2 ) d = d i ,d 。) ,称为维标识集,d i 是d o m i 的标识( 1 i n ) ; 3 ) m d o m = m d o m l m d o m m ,m o ,称为指标( 度量) 的域, m d o m i ( 1 i m ) 都是域; 4 ) m = m l ,m 。) ,称为指标( 度量) 标识集,m i 是m d o m i 的标识( 1 i m ) ; 5 ) f d o m m d o m 是d o m 到m d o m 上的部分映射,称为立方体的基 ( c u b e b a s e ) ; 6 ) a g g r 是m d o m 上的聚集函数。 然后定义了一套立方体操作代数:指标一维转换m d ( c u b e ,m i ) ,维一指 标转换d m ( c u b e ,d i ) ,指标退化操作d e g ( c u b e ,m i ) ,基于聚集的退化操作 d e g ( c u b e ,d i ) ,选择函数op ( c u b e ) ,具有相同特征的数据立方体的集合运 算c u b e i uc u b e 2 ,c u b e l nc u b e 2 ,c u b e i c u b e 2 ,数据立方体的积c u b e l 。c u b e 2 , 数据立方体关于谓词口的连接c u b ejd 司c u b e 2 。 口 总之,这些简单的多维数据模型本质上把数据当作n 维立方体,数据 通常被分为维和度量,每一维由一定数量的属性组成,它们可以在s e l e c t 查询的w h e r e 子句和g r o u pb y 子句中作为条件,但是这种模型不能支持维 属性之间的层次结构关系,任何一个属性只能属于某一个维,对现实世界 中南大学硕士论文第二章多维数据模型的研究 的多维数据表达能力极为有限。 2 1 2 统计对象模型 二十世纪八十年代,很多学者对数据聚集建模相关的问题很有兴趣。 因为聚集数据是在基本数据的基础上使用统计聚集或分析函数得来的,因 此这类数据库通常也叫统计数据库,统计数据库中存储的数据项通常是具 有复杂的数据结构,如向量,关系,时间序列等,这些数据项被叫做统计 对象一一s t a t i s t i c a io b j e c t ( s o ) 。 s o 被定义为一个四元组( n ,c ,s ,f ) ,其中: n 是s o 的名字,c 是分类属性( 维属性) 的集合:每一分类属性都 有一个相关的域( d o m a i n ) 和一个域的基数( d o m a i nc a r d i n a m y ) 和一个 计量单位( u n i to f m e a s u r e ) ,s 代表与s o 相关的i 唯一的一个聚集属性( 度 量属性) 。这个聚集属性也有一个相关的域,一个域的基数,一个计量单 位,另加一个聚集类型。 f 为分类属性的值的笛卡尔积到聚集属性的值的映射。 也可以采取以下形式描述一个统计对象: n ( c ( i ) ,c ( 2 ) ”,c ( n ) :s ) 其中n 是s o 的名字,c ( i ) 是来自于c 的一个分类属性,函数f 用“:” 表示。 例如,下面是对有关在美国的不同的产品销售量的统计对象的 s t o r m 表示: p r o d u c ts a l e s ( t y p e , p r o d u c t ,y e a r ,c i t y ,s t a t e , r e g i o n :a m o u n t l m a u r i z i or a f a n e l l i ,a r i es h o s h a n i 在研究统计数据库的统计对 象的结构和语义属性的基础上发现上述表示方法不能表示分类属性之间 的关系和结构语义,进而提出了一种统计对象模型s t o r m ( as t a t i s t i c a l o b j e c tr e p r e s e n t a t i o nm o d e l ) 【 1 。 一l o 中南大学硕士论文第二章多维数据模型的研究 在s t o r m 模型中,s o 使用一棵有向树来表示。树的节点分为三类: s 型、c 型、a 型,s 型节点表示聚集属性,c 型节点表示分类属性,a 型节点表示对指向它的所有的节点的聚集,它们满足下列条件: 1 ) 只有一个s 型节点,这个节点就是树的根。 2 ) 一个唯一的a 型节点指向s 型节点。 3 ) 可以有多个c 型节点或多个a 节点指向一个a 型节点。 4 ) 只有唯一的一个c 型节点或a 型节点指向一个c 型节点。 图2 3p r o d 琳t 鼢l e s 的s t o l u 表示1 8 r c g i o c 时 表示上述的统计对象p r o d u c ts a l e s 的有向图如图2 3 所示,这 个图可表示如下语义;产品销售量( p r o d u c ts a l e sa m o u n t s ) 数据能通过产品 名( p d u c t ) 、产品类别( t y p e ) 、年( y e a r ) 、城市( c i t y ) 得到,而城市可以按 地区( r 七g i o n ) 分组,地区可以按州( s t a t e ) 分组。 中南大学硕士论文 第二:章多维数据模型的研究 统计对象的这种s t o r m 表示中的箭头隐含了节点的映射关系,如图 2 3 中t y p e 节点和p r o d u c t 节点之间的多值映射关系,c i t y ,s t a t e ,r e g i o n 节点 键的单值映射关系,这种映射关系是与具体的应j :| 环境密切相关的。如果 给出有关一个c 型节点或a 型节点x 的聚集数据,x 到另一个c 型节点y 的映 射关系,能够正确地得出有关y 节点的聚集数据,则x 到y 的映射关系是“可 聚集的”( s u m m a r i z a b l e ) ,显然多值映射是不可聚集的。如果一个s 0 中所 有指向c 型节点的映射都是可聚集的,则这个s o 是可聚集的。 如果一个s o 中所有指向c 型节点的映射都是单值映射,而指向同一个 a 型节点的所有节点之间的映射为多值映射,则这个s o 为“好形式的” ( w e l l f o r m e d ) s o 。一个s o 是可聚集的不仅要求它是一一个好形式的s o ,而 且还要满足以下的条件: 1 ) 所有的单值映射是“完全的”( f u l l ) ,例如p r o d u c ts a l e s 统计 对象中要求有关州( s t a t e ) 的销售量数据应完全由有关城市( c i t y ) 的销售量数据累加而来,如果一个州的销售量不仅包括有关城市 还包括一些乡村的销售量,则从城市到州的映射是不完全的。 2 ) s o 必须是“完整的”( c o m p l e t e ) ,即对应的聚集数据没有丢失。 s t o r m 模型考虑了分类属性( 维属性) 之问的映射关系和统计对蒙 的可聚集性,这种表示统计对象的方法能有效表示分类属性的层次关系、 聚集路径和聚集语义,对后来的结构化多维数据模型具有重要的参考价 值。 2 1 3 结构化多维数据模型 很多学者在具体的应用环境中,根据多维数据建模的需求,建立了多 种多维数据模型,这些模型在简单立方体模型和统计对象模型的基础上进 一步提高了多维数据模型的表达能力,在吸取了人们在统计数据库,时变 数据库的研究成果的基础上,加强了多维数据模型的构造维层次结构及聚 一1 2 中南大学硕士论文 第二章多维数据模型的研究 集语义的能力。 1 9 9 7 年,r a k e s h a g r a w a l ,a s h i s h g u p t a 和s u n i t as a r a w a g i 提出了一种结 构化多维数据模型【1 8 l ,该多维数据模型把立方体的元素当做是从各维的域 的笛卡尔积到 o ,l j 的映射,或是到n 个度量属性构成的n 元组的映射, 通过定义两个操作符p u s h ,p u i l 把维属性改变为度量属性,把度量属性改 变为维属性以支持维和度量的对称处理,并且提出用函数映射的方式使每 个维能支持多个层次结构。当某一维只有一个取值时,可用操作符d e s t r o y 把该维消除。利用r e s t r i c t 操作符可以对某一维的取值进行限制,选择出 需要的元素组成新的立方体。j o i n 操作符则把两个立方体在维上面通过一 些函数映射构成对应的新的维组成新的立方体,而对应的两个立方体的元 素同样通过函数映射的方式形成新的立方体的元素,该操作符可以支持迪 卡尔积( c a r t e s i a np r o d u c t ) ,自然连接( n a t u r a lj o i n ) ,并( u n i o n ) ,归并 ( m e r g e ) ,关联( a s s o c i a t e ) 。 而l u c ac a b i b b o 和r i c c a r d ot o r l o n e 提出的多维数据模型则由维层次结 构和事实表构成 拇j ,维层次结构表示为一个三元组( 厶,r u p ) ,表示 所有层次的集合,表示维层次间的偏序关系,r u p 表示有偏序关系的层 次之间层次属性之间的包含关系。事实表的形式为:f a l :l l ,a 。:l 。】: l o ,其中伪事实表的名字,a i 为事实表的属性名,而l j 是一个维的层次,i o 为度量。多维数据模式定义为一个二元组( d ;f ) ,其中d 维为层次结构的有 限集,f 为事实表的有限集。多维数据模式的实例为从层次属性域的笛卡 尔积到度量属性值域的函数映射。然后给出了一套基于域的谓词演算的查 询语言。该模型能支持维的层次结构,允许同一维中存在不同的层次结构。 1 9 9 8 年,w o l 埯a n gl e h n e r 提出的多维数据模型【2 州把构成一个维的属 性分为基本属性、分类属性和维属性,由基本属性和分类属性构成维的层 次结构,由维属性形成嵌套的立方体,从而减少构成维层次属性过多引起 的组合爆炸,而事实表由各维的基本属性和度量构成,这种多维数据模型 叫做嵌套的多维数据模型。 中南大学硕士论文第二章多维数据模型的研究 而p a n o sv a s s i l i a d i s 对结构化多维数据模型进行了形式化的定义【2 , 他通过定义维的路径和路径上的层次来支持的立方体的维层次结构和一 个维允许有多个层次结构,对立方体上的o l a p 操作进行了直接的定义, 并且给出了这种模型及之上的操作符的关系和数组表示。 1 9 9 9 年,h v j a g a d i s h ,l a k sv s l a k s h m a n a n ,d i v e s hs r i v a s t a v a 弓f 入 有向图,提出了一种s q l ( h ) 多维数据模型1 2 引,这种模型中把有向图,维 层次属性,有向图节点到维层次属性集合( 该集合必须包括该维最基本的 属性) 的映射结合起来反映维的层次结构,数据仓库模式则由维模式及由 各维的基本属性和度量属性构成的事实表的集合组成。s q l 语言被扩展成 s q l ( h ) 语言使之能直接支持维的层次结构,该语言增加了d i m e n s i o n s 子句,和在维基本属性上的层次操作符= , , , = , _ ,它具有如下形 式: s e l e c td o m e x p l i s t ,a g g l i s t d i m e n s i o n sd i i m l i s t f r o mf r o m l i s t w h e r ew h e r e c o n d i t i o n s g r o u pb y g r o u p b y l i s t h a v i n gh a v i n g c o n d i t i o n s 其中d o m e x p l i s t 表示维表d i m l i s t 和事实表f r o m l i s t 的属性列表, 而,a g g l i s t 表示在f f o m l i s t 的属性上的聚集函数。该语言允许用户直接对 维的层次进行操作,能用较简单的形式表达复杂的o l a p 查询。这种模 型能允许同一维有不同的层次结构,同一层次属性可包含异构的节点,但 是要求用户对维层次构成的细节进行了解。 商业的数据仓库通常把维作为一个静态的对象,无法适应需求的改 变,但是为了跟踪数据仓库的历史变化,支持维的更新应该是必要的。 a l e r t oo m e n d e l z o n 和a l c j a n d r oa v a i s m a i l 提出了一种时变多维数据模型 【2 3 1 以支持数据仓库结构的更新,该模型把维层次之间的关系与一定的时间 一1 4 一 中南大学硕士论文第二章多维数据模型的研究 相关联,并且定义了一种时变( t e m p o r a i ) 查询语言t o l a p 来支持它。该模 型语义复杂,实现起来很困难。 在国内,李建中、高宏于2 0 0 0 年以偏序和映射为基础提出了一种新的 多维数据模型( o9 1 ,该数据模型同一维能支持多个可i 同的层次结构,引进了 层次结构的聚集约束概念以提供表达聚集约束的机制,它允许在多维数 据集合的任一维的同一个层次链上使j j 不同的聚集函数执行维数据结构 和语义。并提供一个以o l a p 操作为核心的操作代数。 李琪、白英彩在2 0 0 2 年提出了一个基于关系数据库的s q l ( d ) 的多维数 据模型【1 0 】,该模型的层次链、层次树、维的定义支持不平衡、异构的维层 次结构,并在此基础上对s q l 作了 h 应的扩充以支持维的定义、维层次比 较、维的引用和维聚集层次的指定,使得原先冗长、复杂的o l a p 查询表 达式变得简洁、易于理解。 总之, 上述的结构化多维数据模型在明确表示维的层次结构、同一 维中能表示多个层次结构和维层次间的聚集语义三个方面都有不同程度 的支持。虽然随着研究的深入,目前已有的多维数据模型表达能力越来越 强,商业上也出现了一些多维数据建模和查询语言的产品【2 ,僵是这些模 型都是在解决特定的问题而是提出的,表达真实世界的能力有限。 2 2 电力负荷数据的特征及对多维数据建模的需求 髓; 电力负荷预测系统中有一个最基本的数据集合,为电力负衙数据集, 基本数据以如下形式存在:( 用户地区,时间,用电负荷用电量) 。为了支 持对电力负荷特性的分析,需要获取典型日负荷曲线【o7 1 ,即要求数据仓库 中提供每小时记录一次的电力负荷数据。在现有的历史数据的分析中我们 发现每小时的用电负荷数据只对变电所和少数用电大户进行了纪录,这种 情况在现实应用中有代表性,人们对一个庞大的系统进行观察和测量时, 由于人力物力的局限,只能在某一集合层次上进行基本数据的观察和测 一1 5 一 中南大学硕士论文 第二章多维数据模型的研究 量,不可能对系统每个最基本的单元进行最详尽的纪录,如电力系统中对 每个用户每一小时的负荷进行纪录,因此对较低的层次只能有日的地选择 一些典型的对象进行,如电力系统的各行业、各地区的典型用户,于是出 现了某一层次的数据不是由低层次的数据汇总得来而是直接纪录得来的。 因而乡镇和市区的同负荷曲线的数据必须直接来自数据仓库外部的数据 源,从而使该数据集中的基本数据存在于维的不同层次上,这是本数据集 的特点之一。为支持对电力负荷特性从时间、地区、行业上进行o l a p 分 析及数据挖掘,该数据集合被组织为三个维:时问、地区、行业,和一个 度量属性:用电负荷( k k w ) 。时问维由层次属性小时,| i = l ,周,月,季, 年构成,地区维由层次属性用户,乡镇,d f 区,县市,地地级市构成,行 业维由层次属性用户,行业,产业构成,地区维和行业维共享一个层次属 性“用户”这是本数据集的第二个特点。这三个维的层次结构如图2 6 所 示。 对于上面的这些复杂层次关系,目前的多维数据模型都无法进行表 示。为了完整地支持对具有上面所述数据集的分析,个多维数据模型应 该满足以下需求: 1 ) 能明确地表示维的层次结构:多维数据模型要能清楚的表示出维内 部的层次关系,以便在数据仓库的用户进行o l a p 时进行d r i l l d o w n 和 r o l l u p 时提供维层次关系的导航信息。在我们的应用中,该多维数据模型 应能表示出如下的层次结构:小时一天一月一季一年,用户一行业一产业, 用户一乡镇区一县,市一地地级市。 2 ) 在任意维中能表示多个层次结构:在某一维中,可以有多条聚集路 径,如可以从天r o l l u p 到星期,也可以从天r o l l u p 到月,但星期不能r o l l u p 至0 月。 3 ) 支持维层次问的聚集语义:在电力负荷数据集中,度量属性用电负 荷是能够在时间维内进行s u m ,a v e r a g e ,m a x ,m i n 等聚集运算,但是在地区 维中由于我们没有对所有的用户每小时的用电情况进行记录,所以无法从 一1 6 中南大学硕士论文第二章多维数据模型的研究 时间维地区维行业维 图2 6 电力负荷数据集的多维层次结构 用户层向上进行聚集,多维数据模型应能表示维层次间的聚集语义,以构 成一个安全的机制确保用户的查询不会得出错误的或无意义的结果。 4 ) 支持基本的度量数据存在于维不同层次上:在以上数据集中,基本 的度量数据在地区维中既存在于用户层
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情节设置课件
- 内江市重点中学2026届化学高一上期中质量检测试题含解析
- 甘肃省嘉峪关市酒钢三中2026届高三化学第一学期期中学业质量监测试题含解析
- 2025年秋季部编版初中数学教学设计八年级上册11.3.1 多边形
- 幼儿园大班学期班务方案
- 幼儿园卫生保健方案
- 大学校运会活动方案
- 口外下期末考试题及答案
- 物业维修考试题及答案
- 公益诉讼考试题及答案
- 果树高级工考试试题
- YY/T 0043-2016医用缝合针
- GH/T 1070-2011茶叶包装通则
- GB/T 798-2021活节螺栓
- GB/T 19867.5-2008电阻焊焊接工艺规程
- GB/T 17656-2018混凝土模板用胶合板
- 2023年安徽省国有金融资本投资管理有限公司招聘笔试题库及答案解析
- 新外研版英语七年级上册单词默写表
- 客户拜访标准作业流程
- 2018中考总复习一次函数专题
- 锐途管理人员自我发展报告
评论
0/150
提交评论