(计算机应用技术专业论文)生产数据多维分析系统智能评判与智能预测技术研究.pdf_第1页
(计算机应用技术专业论文)生产数据多维分析系统智能评判与智能预测技术研究.pdf_第2页
(计算机应用技术专业论文)生产数据多维分析系统智能评判与智能预测技术研究.pdf_第3页
(计算机应用技术专业论文)生产数据多维分析系统智能评判与智能预测技术研究.pdf_第4页
(计算机应用技术专业论文)生产数据多维分析系统智能评判与智能预测技术研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方王监大学硕学位论文 摘要 电解槽的能耗与电解铝的产量是影响铝电解厂经济效益的重要因素,本文的任务是 对电鳞槽的槽况进行智麓评判和出铝量进行智能预测。 本文将多维分析技术与数据挖掘技术结合为一体,针对铝电解生产数据的特点,进 行了深入的理论和实验研究,设计并实现了铝电解生产数据的智能评判与智能预测系统。 本文主要内容及创新如下: l 、对数据仓库技术、多维分耩技术和数据挖掘技术进行了理论研究,并提出了基于 多维分析技术和数据挖掘技术的智能评判与智能预测系统的体系结构。利用数据仓库和 多维分析技术对铝电解数据进行抽取,得到我们需要的数据集,然后利用数据挖掘技 术,对数据进行挖掘,得到数据中蕴含的规则,最后利用这些规则对槽况进行智能评 判,对出铝量进行智能预测。 2 、在数据挖掘的预处理过程中,针对大量空缺值,提出了均值波动替换法,在 均值的基础上加上一个范围在一n 到+ n 之间的数,避免了插入大量相同的值对决策树 的生成造成的巨大影响。 3 、提出了针对铝电解生产数据特点的至d 3 决策算法。王d 3 算法是种嬲纳学习 的算法,它以自上向下分而治之的方式构造决策树,它只能处理逻辑性数据或者离散化 数据,并且用i d 3 算法生成的树节点依赖于特征值数目较多的数据,针对i d 3 算法的这 种特性,并结合锅电解生产数据的特点,提出了改进的加权王d 3 算法和基于王嬲算法的 评判与预测流程。 关键词:多维分析,数据挖掘,絮能评判,智能预测 j 艺方工娩大学硕士学位论文 t h e s t u d yo fi 魏鼍e i g e n c ej u d g m 铋ta 矬di n t e i g 蛆c ef o 湫a s 钿g t e c h n o l o g ya b o u tp r o d u c 廿o nd a t am u l t i d i m e n s i o n a la n a l y s i ss y s t e m a b s 缸a c t t h el i ro f d 咖l y z e 锄d 0 1 坤mo f a l 1 1 j 觚q 1 玢州锣a r e 伽ee ) 内a 【n e l y 缅耳哪m t 勤凇贼豳嘲龌叁e 鳓潲i e 蕊c i 鞠c y 嘏锺眩脚s 锚髓铡晌峰饿e 激o f 懿s p 带贸 i si n t e u i g 铋t 钠面u 撕o na b 椰“h es t ;的雌o f e l 咖l y z e 皴l di n t e l l i g m t 内燃ta t 啪ta l u l l l i n 姒 q u 枷够 强妞p 獬l 僦醚越霜缚镬瑶耀s i o 堇逮a n 越y s 主s 激避蕊a 栩熟颡g 玺e c 董啪l o 鼢越通 c ( m 而i f l o dn 1 鲫a so n e ,甜1 da ) n l b i i l e d 、拥mn l ec h 棚a c t e h s t i c so f t l l ed a t ao f a l l l m j n l 蛐 e l 铭昀l y s i s 掣诚砝i 哦删c a 】r f i 丽o n 撕醢m e o 搿撇d 龇e x p e 胁铋t 嫩l d y a n dd e s i 辨e d a 觳da 渊p l i s h e dm ea l u 舾娜md 咖l y s i s 础t i 雠d 如i n t e l l i 辨畦j u d g m e 嫩髓d i 1 1 t e l l i 舀斌妣a s ts y 双e m h ln l i s i p c o n t e n ta n di n n o v a t i o na r ea sf o l l o w s : l 、ld 遢m e 像e o 蕊嘲鳓磁yo f 程l cd a 毫aw 船醢o u s ea 稚m u l t i - 矗m e n s i o n a la 薹l a l y s i s a l l dd a t am 诚n g t e c l l l l o l o 影。lp r o p o s e dt h ea f c h i t e c 锄r co fi n t e l l i g e n te v a l l 烈i 傩a 懿d 谳e 1 1 i g e n t 向a s ts y s 栅nw 1 1 i c hb a s eo nl n u l t i 一幽觚e 1 1 s i o n a la n a l y s i sa i l dd a :t am 姗h g 勺鲁c 】馨砖g y 1 韬s e d 蠢g 陵w 蠢蕾e 咖s ei l l 避栅l 专i d 曩强霸弱s 硫舔a 嚣a l y s i sa 避d 鑫拯毪矗豳g 专 营醴瑚l o g y t oc o l l e c t i o ne le c | 的l 妒cd a t a 、) l 撕c hin c e d e d 。t h e l ll l s e dm eda _ t am i 墒培溆矗m o l o 影t o 麟c a v 撕o n t o m e d 抵a 1 1 d 撇e d 硼e 诫c h i f l m e d 獭c o n 协i n s 1 1 l s e d t h e s e r u l e s t oc a 鲫 摊幻遗湖i 签魅羹越辨鼹耄她的u g hs i 钿兹蛾幻确至主剃勤勰瑚睡氇e 戳螂o f 越碱溉。 2 、i i ld a t am i m n g p r e 仃e a t n l e n tp r o c e s s ,i nv i e wo f t h em a s s i v ev a c 觚c yv a l u e , p r o p o s 甜t h ea v e f a g ev a 重u ef l u c t u a t i o ni n t c r c h a n g em e t h o d o nt h eb a s i so ft h ea v 髓a g e v a l u el oa d d 鑫c o e 摄c 主铋l 讥o s e a l l g ei s b e 咐e 雌n 秘d + n 论a v o 主dm e 麟溯阻。珏s i l l n u e n c ew h i c ht h ei n s e r t i o nm a s s i v es a m ev a l u e sb r i n gt od e c i s i o nt r e e sp r o d u c t i o n 3 、脚s e d ad 3d c c i s i 伽拍a k 证ga l g o 五伽 i lw 量疽c hi si l l 丽e wo f t 量粉a l 硼f l i 搬确 e l c c 的l y s i sp d u 以o nd a 像c h 粼l c 眩 娟c 甜l ed 3a l g 耐n 强i so n el ( i 嫩醒i n 翻砸v el e a = 醯爨g a l g o r i 岫i tb y t l l er e c u r s i o nd e f c a ti nd 喇1w a ys 仇1 咖d e c i s i o n 协e e 鼢t h et o p ,i tc a i l o 瓣y d e 采谢氇m e l o 孚e o f 酝陵甜a 正蹴幽魂a 磁d 3 蕾g o 矗珲删。露s 豫删e d 删o n m em o r en 1 】l i l b e ro f f e :蝴o f ( 1 a t a m 啊e wo f d 3a l 鲥t 1 1 m i sc h 麟姒矗s t i c ,a n d 砌五e sn l ec h 删e 打s t i co fa l m 溺m m le l e 疏r o l y s i sp d u c t i o nd a t a ,ip 1 o p o s o dt l l ei i l l p r o v e m 饥t 蜊燃m 3 蠢g 砥她棚妞筘e h c 瞒s 镐f j 稍删绷她幻删 k 呵w o r d s :o l a p ,d a t am 洫m g ,h t e l l i g 蛳tj u d g m 枷t ,i n t e m g e n tf o r e c a s t _ 3 - 独创性声明 本人声臻所受交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表 或撰写过的研究成果,也不包含为获得j 墼直至些盘堂或其他教育机构的学位或证书褥使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文作者签名:旁| 芬签字目期:2 。哼年亏冠巧目 学位论文版权使用授权书 本学位论文作者完全了解兰釜直王些塞堂有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阕。本人授权 曼基友王业太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:主 着 签字目期:腑芋月彳舀 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名:孝表乏 导师签名:疗袈 签字日期溯年钥菇日 电话: 由器编: 北方工业人学硕士学位论文 l 引言 重。l 课题研究背景与意义 目前,国内铝行业电解生产的管理大部分还是传统的管理模式:几台监控机实时显 示所有电解槽的各种数据、曲线,并定期生成各种生产报表,如囡生产报表、豳效应报 表等,有自己酶局域网,:生产数据邑存入霹络数据库。工区长每鼹按常巍查毳抒印的各 种报表,查看实时曲线,决策一天的生产管理,一虽电解槽出现问题,则需从大量的报 表中人工分析,从中找到存在的问题,人的因素占很大的比重,随意性也很大。大量数 据自自浪费,不畿形成生产力。 数据仓库、多维分析等技术是近几年兴起的热门的技术之。在国箨,世界5 强 企业中9 5 以上拥有自己的数据仓库,并可对这些数据进行各种多维分析,从中发现问 题,及时做凄正确的决策。国走主要感用在银行、证券、保险、电信等大型国甓企业, 魏建设银行、联通、中阑电蓓等,毙较成功麓铡子翔上海宝锈等。此类技拳眈较成熟, 也比较实用,完全有可能将多维分析技术应用于铝行业的电解槽生产管理、决策、日常 生产中。电解生产数据全部上网,可在w e b 上随时对电解生产数据进行多维分析,通过 计算枫鼹络辅助工艺管理人员秧窦科学的决策;基于计算枫技术,将电解各部门生产数 据集成,将多维分析技术弓 入铝电解的生产管理中,提高生产智能管理水平。 长期以来,对铝电解槽变化趋势的综合分析、对工艺技术条件的综合管理以及对一 些控制设定值( 如设定横瞧压) 的调整与优化均是出现场管理入爨进行的。多维分辑昃 是提供给用户是一些表餮,用户然后根据自己| 的经验知识,还有主观见解等去傲一些判 断,虽然多维分析给用户在生产决策足艮数据预测上很大的帮助,但在一定程度上,工区 长水平的离低i 经验的多少,决定了所作决策的正确性。人为因素及随意性占了很大的 芝重,不免由予人秀因素为造成一些经济损失l 所以在多维分橱的基整上进行毅的技术 革新是很有必要的。 智能评判与智能预测技术的引入,将近一步完善多维分析在企业中应用,可以避免 人为主观霜素,在铝电解过程中更加合理的进行决策,更加有效提高企业效益,让企业在 市场的竞争中立于不黢之地。 北方工业大学硕士学位论文 1 2 研究内容 本课题主要研究如何对多维分析系统抽取出的数据进行挖掘处理,如何利用挖掘 算法得出的规则进行智能评判与智能预测。主要内容包括如下。 1 、对数据仓库,多维分析,数据挖掘及挖掘算法的理论研究。 2 、对o l a p 与数据挖掘的结合进行了研究。 3 、对多维分析系统抽取出来的数据进行预处理及离散化。 4 、结合铝电解工艺对决策树中i d 3 算法进行改进。 5 、如何利用规则进行智能评判与智能预测。 1 3 论文组织结构 本论文的结构组织如下: 第一章,引言部分主要讲述了课题研究背景与意义,并指出本课题研究内容。 第二章是本文的理论基础,主要讲述了数据仓库技术、联机分析处理技术、数据 挖掘技术的概念、基本原理、方法、算法和应用等。并对铝电解工艺进行了简单介绍。 第三章,基于o l a p 的数据挖掘,通过对o l a p 多维分析与数据挖掘的对比, 提出了在o l 舒多维分析中引入数据挖掘的原因,目的。 第四章对决策树技术中的算法进行了研究,并结合铝电解工具的特点对l d 3 算 法进行了改进,并研究了改进后的i d 3 算法如何对铝电解数据进行预测和评判。 第五章至第七章介绍了智能评判与智能预测系统的设计方案,及实现过程。并对 各个模块进行了详细的说明,系统的预测与评判结果进行了分析对比。 第八章结束是对全文的总结和对未来的展望。 2 - 北方上业大学硕士学位论文 2 系统理论知识 本章主要对系统涉及到的主要理论知识进行了讲解,因为本文的主要基的是对铝电 解槽生产数据的智能评判与智能预测,所以必须首先要对铝电解工艺进行详细的研究。 更好的了解铝电解工艺的知识,才能更好的结合实际来设计本系统软件。本章的后几节 主要讲述了数据仓库技术、联机分析处理技术( o 姒p ) 、数据挖掘技术的概念、基本 原理、方法、算法和应用等。 2 1 铝电解工艺 2 。1 1 铝电解工艺简介 2 0 世纪6 0 年代初期,电子计算机逐步应用到工业生产的过程控制中,并成功引入 到铝电解生产中,大大减轻了工人的劳动强度,提高了工作效率。到7 0 年代中期,随着 计算机技术的飞速发展翻人们对电解糟各种参数之间的关系的深入研究,控制系统具有 了一定程度的智能化。8 0 年代以后,数学模型逐步完善,工业控制微机的性能不断提高, 而其造价却不断下降,同时,对电解槽的工艺技术的研究迸一步加深,铝电解控制系统 实现了突飞猛进的发展,取得了良好的生产经济效益。其中,最为突出的是用以槽电阻 辩识氧化锅浓度的相关参数为控东l 基看毒的连续或准连续按需下料( 点式下料) 自适应控制 技术取代传统的定时下料技术。 该法的基本原理就是:在铝电解槽中,采用以氧化铝为主体的熔融电解质作溶剂, 以氧化铝佟为溶质,以碳素体作为鬻极,以铝液作为阴极,通入强大的自流电流麓,在 9 5 0 9 7 0 下,在两极( 阳极和阴极) 上发生电化学反应,在阳极上得到气态物质,在阴 极上得到液态铝,其过程为: 2 么之g ( 潘辩熬) + 3 t 辫髂) = 4 么支渡饽) + 3 2 ( 气搏) 在强大的自流电流( 系列电流) 作用下,槽内熔体维持在9 5 0 9 7 0 的正常电解温 度。电解液的密度约为2 1g c 加3 ,铝液密度约为2 3g 硎3 ,两者因密度差而上下分层, 两层的高度分别维持在2 惋嫩左右。槽膛上方饵p 电解质熔体上方) 有一层厚度可变的 么厶识覆盏层( 保温料层) 和结壳,槽膜侧部也有厚度可随槽内热平衡和物料平衡的变化丽 变化的电解质结壳( 侧部槽膛) 。槽膛内形的可变性既对槽内热平衡与物料平衡起一定的自 调节作用,又为最佳( 即对应最好电流效率) 的槽膛内形的保持增加了困难。铝电勰槽上的 3 - 北方工业大学硕士学位论文 集气罩用于收集阳极气体,阳极气体经由烟道进入净化系统净化后,废气排入大气,收 回的氟化物返回电解槽。 随着反应不断进行,电解质熔体中的氧化铝、固体碳阳极不断被消耗掉,因此,生 产中需不断向电解质熔体中添加氧化铝和补充碳阳极,使生产得以连续进行。冰晶石( 氧 化铝熔融盐) 在原理上不消耗,但在高温熔融状态下会发生挥发损失和其他机械损失, 因此,电解过程中也需作一定补充。除此之外,还需向反应过程供给大量的自流电能( 约 为1 3 0 0 0 1 5 0 0 0 后砌肛一彳j ) ,以推动反应向生成铝的方向进行l j j 。 预焙槽上的主要作业控制有: l 、加料。即由计算机控制点式下料器动作,补充消耗的彳厶d ,和电解质彳以,以保 持合适的物料平衡。彳,q 浓度是主要的被控参数。若彳,:d 3 加料过少造成么乞0 ,浓度过 低则导致阳极效应发生,若加料速率过大造成浓度过高则导致槽底沉淀产生。这两种情 形均导致正常槽况的破坏。 2 、调整极距。由于阳极的消耗速率与铝水平增高速率并不完全相等,加之槽膛厚度 变化引起铝水平变化,故需由计算机控制阳极升降机构不定期移动阳极以维持合适的极 距。此外,极距调节还是调整槽上作电压( 因而调整电解槽能量输入) ,实现电解槽能量平 衡( 热平衡) 调整的主要手段。 3 、换阳极( 块) 。预焙槽的阳极由两排并列排布的阳极炭块构成。由于阳极参与电化 学反应而逐渐消耗,消耗速率为1 5 l 8 c l l l 日,阳极不能长期连续使用,故需按一定秩 序和周期由人上更换阳极( 例如大约每日更换l 块) 。 4 、出铝。随产出铝的积累,铝液水平不断增高,故需每过一定时间( 如1 次日) 由人 工使用真空抬包将新产铝吸出。 在现代预焙铝电解槽上,上述的第一和第二项作业均由计算机控制系统实施自动控 制,第三和第四项作业是在计算机监控下由人工进行l 引。 2 1 2 铝电解生产中的主要因素 在电解铝生产过程控制中的重要因素有以下几种: 1 、分子比 电解质分子比是指电解质中氟化钠与氟化铝的物质的量之比的简称。目前,在电 解铝生产上采用酸性( 分子比小于3 ) ,虽然酸性电解质对提高电流效率和生产操作都 有较大好处,但酸性过大也存在如下缺点: ( 1 ) 氧化铝的溶解度降低; 4 一 北方工业大学硕士学位论文 ( 2 ) 导电离子钠离子减少,电解质的电阻增大,电导率有所降低; ( 3 ) 氟化铝挥发损失较大; ( 4 ) 由于电解质中含有的过剩氟化铝,生成低价氟化铝的反应增加,反而会使铝 的损失增加,因此,电解质的分子比不能过低。在实际生产中应视槽温,炉底,环境 温度而适当或略微调整。 2 、电解质水平 氧化铝的溶解能力随电解质水平的增加而增加,高电解质水平虽有利于氧化铝的 溶解,但过高会导致水平电流增多,造成炉帮上口空,降低电流效率。且易熔化阳极 钢爪,造成原铝品位下降;电解质水平过低则不利于氧化铝的溶解,易造成炉底沉淀, 电解质水平低的槽若不及时调整,则氧化铝连同电解质一起沉于炉底,电解质水平越 来越低,电解槽热稳定性变差,易产生病槽。 3 、铝水平 铝水平有调节槽温的作用。铝水低,发热区接近炉底,铝液散热少,炉底散热不 足,易引起槽温升高;铝水过高传导槽内热量,炉底冷,易形成炉底结壳。为了使阴 极达到正常生产温度下的热平衡,提高抗钠能力,铝水平的确定和控制,应以不产生 沉淀并能抑制电压摆( 噪音) 为首要考虑条件。在此条件下尽量控制铝水平,同时,考 虑铝水平对温度的调节作用。 4 、电解温度 在电解生产过程中,各种作业的进行都会造成电解温度的波动,进而影响电解槽的 热平衡,物料平衡也会因电解质粘度变化造成氧化铝溶解速率发生变化而需重新建立, 因此,研究铝电解槽运行过程中热趋势的变化情况,对指导生产有十分重要的实际意义。 长期以来,对铝电解槽变化趋势的综合分析、对工艺技术条件的综合管理以及对一 些控制设定值( 如设定槽电压) 的调整与优化均是由现场管理人员进行的。按照铝电解规 程,工区长每天要根据各槽的日报、班报等各种报表,分析判断出各槽的槽况,如冷槽、 热槽、冷行程、热行程等,并决定各槽一天的么以添加量、出铝量、设定电压等。在一 定程度上,工区长水平的高低、经验的多少,决定了所作决策的正确性,人为因素及随 意性占了很大的比重。由于铝电解槽是一个大滞后的上业对象,今天的错误决策或不合 理的安排,如多出铝或少出铝,可能在1 0 天半个月后才能体现出来,一但形成病槽,要 想调理过来非常困难,损失巨大【3 1 。 一5 北方工业人学硕士学位论文 从上述研究分析可知,在铝电解槽的运行过程中,其电解温度变化具有较强的规律 性,管理者可通过运用这些规律,在氟化铝添加策略,n 心作业时点安排等方面做出优 化调整,从而保证铝电解槽的持续均衡稳定生产。 5 、氧化铝浓度 电解质熔体导电度随氧化铝浓度降低而增大,表面张力亦如此。电解质表面张力 的增大有利于阳极气体结成气泡逸出,减少溶解铝的二次氧化;有利于炭渣和电解质 液的良好分离。改善电解质物理化学性质。研究表明。随电解质中氧化铝浓度的降低, 铝电解电流效率升高。在采用低分子比电解质和低电解温度时,电解质中氧化铝饱和 溶解度低。而在低氧化铝浓度范围内,槽电阻对氧化铝浓度变化反应敏感,有利于稳 定控制氧化铝浓度和控制阳极效应的发生,对控制电解槽物料平衡和热平衡有重大意 义。 6 、槽工作电压 传统电解工艺是“以低槽电压获得低电耗 。现代工艺理论提出“四低一高”即 低分子比、低电解温度、低氧化铝浓度、低阳极效应系数、高槽电压。当分子比和电 解温度降低时,电解质导电率变小。若槽工作电压不相应提高,就只能缩小极距。在 工业槽上,极距每缩小1 c m ,电流效率降低4 。 7 、氟化铝 向电解质中添加氟化铝,是铝电解生产中调控电解质分子比及电解温度的最重要手 段。因而,如何合理确定氟化铝添加量和调控氟化铝添加速率,是铝电解生产的重要内 容,前者决定了分子比及槽温的波动范围,后者则对分子比及槽温的波动频率有重大影 响。 由于添加过程中挥发损失、水解反应等因素影响,氟化铝工艺作用的发挥总有一定 的滞后性。而目前采用的各种氟化铝添加策略,不论是人工添加,还是计算机模糊控制 添加,受实际生产中电解质分子比、电解温度离线检测的限制,均难以达到根据电解槽 热趋势变化,在适当时机添加适量氟化铝,最大限度发挥其工艺作用的目的【3 j 。 2 1 3 铝电解数据的特点 由于电解槽是一个半定量,反应滞后的体系,许多参数之间有着高度的、滞后的相 关性。铝电解数据具有如下特点【4 】: 1 、铝电解的数据大多都是实时采集的,工区长根据这些数据进行槽况的监视,调整 工艺参数,显示槽电压、电流等参数变化的实时曲线,统计采集的数据生成报表,然后 将数据存入数据库。 6 - 北方工蝗大学硕圭学位论文 2 、对这些历史数据的利用不够,目前这些历史数据只能用来再现槽况,其实这些数 据中隐含了大量的规律或规则,这些都有待我们的发掘。 3 、多变量。在铝电解的生产过程中,有很多物理量,比如:日平均电压,铝水平, 氟优铝,分子比,槽温,系列电流,系列电压等等。这些变量之间都是稠关的。一个两 的变动往往会影响到其它几个变量的变化。 4 、非线性的。经典的统计方法主要处理线性关系,因为在线性并且噪音极小条件下, 容易用严格的数学模型来描述目标,并得到解析解。但铝电解生产系统中的绝大多学问 题不熊简化为线性闯题,特别是复杂生产数据酶处理超题。 5 、高噪音。噪音干扰时研究目标或自变量失真。噪音可能是“白噪音”或“有色噪 音 ,主要有不确定因素导致,甚至是系统的混沌现象构成。 6 、还有一个特点就是空缺值较多,因为很多变量都是几天测一次,所以在数据库中 有大量的空缺值。 2 2 数据仓库技术 数据仓库是近年来兴起的一种新的数据库应用,到9 0 年代中期己经形成潮流。 在美国,数据仓库己成为紧次于妣e m c t 之后的又一技术热点。目前,己建立和使用 的数据仓库应用系统都取得了明显的经济效益,在市场竞争中显示了强劲的活力。 2 2 1 数据仓库的产生 数据仓库起源于2 0 世纪8 0 年代中期。1 9 8 8 年,d 钾l i n 和m u 啦y 发表了第一篇 关于数据仓库的论文,披露i b m 的一项内部研究计划,唇的是构造一种“以关系数 据库为基础的公司数据的集成化仓储 ,以使各决策者使用“一组相容的上具”从仓 库中提取有助于决策的信息f 5 】【6 】。1 9 9 1 年,m m 正式发布它的数据仓库构架 掰d p 髓王,在产业界弓| 起了很大的轰动。1 9 9 2 年w 。h 融n o n 出版了b 试l d i n gt 矜a t a w a 羹e h o u s e 一书【7 】f 8 1 。 数据仓库是计算机应用领域里的一个崭新方向,己成为九十年代信息系统体系结 构新的技术焦点,它是来自多个数据库系统的数据的拷贝和集成,它从历史的角度来 组织和存储数据,同时保证关键任务数据的完整性和安全性,为企业等数据库用户提 供有效的技术支持。 - 7 - 北方工业大学硕士学位论文 2 2 2 数据仓库理论 2 2 2 1 数据仓库的基本概念与特征 业界公认的数据仓库概念创始人w h h 1 1 1 1 0 n 博士在建立数据仓库( b u i l d i n gm e d a t aw a r e h o u s e 一书中提出了数据仓库的概念【9 】。他曾对数据仓库做了这样的描述: “数据仓库是9 0 年代信息技术架构的新焦点,它提供集成化的和历史化的数据,它 集成种类不同的应用系统,数据仓库从事物发展和历史的角度来组织和存储数据,以 提供信息化和分析处理之用 。他在建立数据仓库书中指出“数据仓库是面向 主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制 订过程 。这已经成为最权威的数据仓库的定义【。7 1 。 从数据仓库这一概念的出现到现在,不论是在理论方面,还是在应用方面,数据 仓库技术都己得到了飞速的发展,对数据仓库的含义也有了更深的理解。通俗的讲, 数据仓库就是企业内部一种专门的、大型统一的数据存储,支持更快速、更灵活、更 有效的分析数据查询【1 0 1 。 从w h i 啪o n 对数据仓库的权威性定义可以得到数据仓库最重要的四个特征, 即数据仓库的数据是面向主题的、集成的、随时间不断变化的、相对稳定的【】。 l 、数据仓库的数据是面向主题的 传统数据库是面向应用而设计的,它的数据为了处理具体应用而组织在一起,即 按照业务流程来组织数据,反映的是企业内部数据的动态特征,目的在于提高数据处 理的速度。主题是一个较高层次将数据进行归类的标准,它是与传统的数据库面向应 用相对应的,每一个主题基本对应一个宏观的分析领域,满足该领域分析决策的需要 【1 引。比如,一个保险公司的数据仓库所组织的主题可能为:客户、政策、保险金、索 赔等,而按应用来组织则可能为:汽车保险、生命保险、健康保险、伤亡保险等。 2 、数据仓库的数据是集成的 数据仓库的数据是从原有的分散的数据库数据中抽取出来的,因为数据仓库的数 据主要用于进行分析决策,要对细节数据进行归纳、整理、综合。 数据仓库中的数据来自多个应用系统,但并不是对数据的简单汇总或拷贝,因为 我们不仅要统一原始数据中的所有矛盾,如同名异义、异名同义、单位不统一等,而 且要将这些数据统一到数据仓库的数据模式上来,还要监视数据源的数据变化,以便 扩充和更新数据仓库。应该说数据仓库是对源数据的增值和统一。数据集成是数据仓 库技术中非常关键且非常复杂的内容。 一8 北方工业大学硕士学位论文 3 、数据仓库的数据是随时间不断变化的 数据仓库中的数据随时间变化的特征主要表现在以下几个方面:首先,数据仓库 必须随着时闻的变化不断增加新的内容;其次,数据仓库随着时间变化必须不断测去 l 露的数据内容,即过期数据要删除;最后,因为数据仓库中的数据包含有大量的综合 数据,这些数据要随着时间的变化不断地进行重新综合。由于数据仓库常用作是预测 分析,所以需要保留足够长时间历史数据( 一般为5 年l o 年) 。业务数据麾通常 只存有3 0 9 0 天的事务处理数据,并且这些历史数据是极少或根本不更新的,一般 只用于历史信息查询【1 3 1 。因此,数据仓库的数据都带有“时间 属性,以标明数据的 历史时期。 4 、数据仓库的数据是相对稳定的。 数据仓库的数据主要供企业决策分析之用,决策人员所涉及的数据操作主要是数 据查询,一般情况下不进行修改操作。它的数据反映的是一段相当长的时间内历史数 据的内容,是不同时间的数据库快照的集合,以及基予这些快照进行集成、综合和重 组的导出数据,两不是联机处理的数据。尽管源数据库内的具体枣务处理过程是交化 的,但进入数据仓库的数据则是相对稳定的。 2 2 2 2 数据仓库结构 数据仓库将大量鬻予事务处理的传统数据库数据进行清理、捆取和转换,并按决 策主题的需要进行重新组织,然后形成统一的存储格式,最终为用户特别是决策支持 者提供对公用数据的访问支持。其相应结构形式简图如图2 1 所示【l o 】: 综数糍 当瓣数瓣 历黛数据 图2 1 数据仓库系统结构简图 一9 - 罔户纛翔 羔巽 c 搐羔疑 o l a p 羔疑 d m 誓疑 北方工业大学硕士学位论文 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境 发展为一种新环境:体系化环境。如图2 2 所示: 图2 2 数据仓库的体系化环境 2 2 2 3 数据仓库的关键技术 由于数据仓库更偏向于工程,因而在技术上可以根据它的工作过程分为:数据的抽 取、存储和管理、数据的表现以及数据仓库的设计的技术咨询四个方面。 l 、数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要 通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到 数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方 面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以 定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性 则至关重要。 2 、数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有 别于传统数据库的特性,同时也决定了其对外部数据表现形式。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比 传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数 据库系统能够担当此任。目前不少关系数据库系统己支持数据分割技术,能够将一个 大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能 力。采用关系数据库管理数百个g b 甚至到t b 的数据己是一件平常的事情。 - 1 0 北方一业大学硕士学位论文 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访 问系统的特点是短小而密集。而在数据仓库系统中,用户访问系统的特是庞大而稀疏, 每一个查询和统计都很复杂,但访阀的频率并不是很高。此时系统需要有能力将所有 的处理机调动起来为这一个复杂的查询请求服务,将该请求并行处理。因此,并行处 理技术在数据仓库中比以往更加重要。 数据仓库的第三个闯题是针对决策支持查询的优化。在技术上,针对决策支持的 优化涉及数据库系统的索弓| 机制、查谗优纯器、连接策略、数据摊序和采样等诸多部 分。普通关系数据库采用b 树类的索引,对于性别、年龄、地区等具有大量重复值 的字段几乎没有效果。而扩充的关系数据库则引入了位图索引的机制,以二进制位表 示字段的状态,将查询过程变为筛选过程,单个计算机的基本操作便可筛选多条记录。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数据仓 库领域遇到的最严峻的挑战之一。对于数据仓库的访问往往不是简单的表和记录的查 询,而是基于用户业务的分析模式,即联机分析。如图2 3 所示,它的特点是将数据 想象成多维的立方体,用户的查询便相当于在其中的部分维上施加条件,对立方体进 行切片、分割,得到的结果则是数值的矩阵或向量,并将其制成图表或输入数理统计 的算法。 图2 。3 联杌分析数据处理示意图, 3 、数据的表现 数据表现是数据仓库的门面。它们主要集中在多维分析、数理统计和数据挖掘方面。 多维分毒蓐是数据仓库的重要表现形式,由于m 0 毛a p 系统是专媚的,因此,关予多 维分析领域的上具和产晶大多是i 的u 蟑上具。这些产品近两年来更加注重提供基于w e b 的前端联机分析界面,而不仅仅是网上数据的发布。 2 2 2 。4 数据仓库中的数据组织 数据仓库中数据的组织问题是建立数据仓库的关键,所以理解数据的组织从而能 更好的去对数据仓库有深入的理解和运用。 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度 综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综 北方工业大学硕士学位论文 合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见, 数据仓库中存在着不同的综合级别,也称之为“粒度”。粒度越大,表示细节程度越 低,综合程度越高【1 0 1 。一个典型的数据仓库的数据组织结构如图2 4 所示 离发鲧食 轻度综合 豢蔫缎繁 掣期缨节 图2 4 数据仓库数攒缱织结构 粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据仓库中 的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据 仓库所熊回答询阌的种类。在数据仓库中,多维粒度是必不可少的。壶于数据仓库的主 要作用是d s s 分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数 查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低 速设备如磁带上i m j 。 还有种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一 个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是由采样率 的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分散 到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如日期、 地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分自然而 且分割均匀。 2 2 3 数据仓库的应用前景 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据 仓库技术也不断发展,并在实际应用中发挥了巨大的作用。 据h ) c 分析,从2 0 0 2 年到2 0 0 7 年,整个数据仓库市场( 软件、服务、服务器和存 储) 将以平均每年2 0 5 的速度增长,到2 0 0 8 年将超过1 0 0 0 亿美元。中国的数据仓库 市场前景广阔,更是充满无限商机。在未来大规模定制经济环境下,数据仓库将成为企 业获得竞争优势的关键武器。总之,数据仓库是一项基于数据管理和利用的综合性技术 1 2 北方工业大学硕士学位论文 和解决方案,它将成为数据库市场的新一轮增长点,同时也成为下一代应用系统的重要 组成部分。 2 3 联机分析处理技术( o i 。a p ) 联机分析处理( o “垤) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的。 当时,c o d d 认为联机事务处理( o l l 限) 已不能满足终端用户对数据库查询分析的需要, s q 己对大数据库进行的简单查询也不缝满足用户分析的需求。用户的决策分橇需要对关 系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因 此c o d d 提出了多维数据库和多维分析的概念,即o l 心【1 5 】。 随羲数据仓库技术的发展,0 b 谨也得到了迅猛的发展。数据仓库侧重于存储和管 理面向决策主题的数据:蔼0 l a p 则侧重予数据仓库中的数据分柝瑟6 】,并将其转换成辅 助决策信息。o l 心的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正 好形成相互结合、相互补充的关系。在数据仓库应用中,o l 垤应用一般是数据仓库应 用的前端工其,同时o u 谨工具还霹以同数据挖掘工具、统计分析工具配合使用,增强 决策分析功能。 2 3 1o u 冲多维分析理论 2 3 1 1o l 艘的溉念 根据0 l 心产晶的实际应用情况和用户对o i 。a p 产品的需求,人们提出了一种对 o l a p 更简单明确的定义,即共享多维信息的快速分析【1 7 】。 ( 王) 快速性 用户对o l 谨的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分 析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐烦,因而可能 失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不容易,因此 就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设 计等。 ( 2 ) 可分析性 o “撑系统应麓处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编 程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计算, 将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在o l a p 平台上进行 数据分析,也可以连接至 j 其他外部分析工具上,如时间序歹1 分辑工具、成本分配工具、 意外报警、数据开采等。 - 1 3 _ 北方工业大学硕士学位论文 ( 3 ) 共享 指多个用户存取数据时,系统应保证安全性。尤其是当存在多个用户向o l 心服务 器写数据时,系统应在适当粒度上加更新锁。 ( 4 ) 多维性 多维性是o i a p 的关键属性。系统必须提供对数据分析的多维视图和分析,包括对 层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是 o i 。a p 的灵魂。 ( 5 ) 信息性 不论数据量有多大,也不管数据存储在何处,o l 廿系统应能及时获得信息,并且 管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、 o 乙廿产品的性能及与数据仓库的结合度等。 2 3 1 2o l 心的多维数据概念 多维结构是决策支持的支柱,也是o l 廿的核心。o l 廿展现在用户面前的是一幅 幅多维视图。 1 、维 假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店 或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道 该商品在哪个商店和哪段时间的销售情况。对某一商店,也许他想知道哪个商品在哪段 时间的销售情况。在某一时间,也许他想知道哪个商店哪种产品的销售情况。因此,他 需要决策支持来帮助制定销售政策。 这里,商店、时间和产品都是维:各个商店的集合是一维,时间的集合是一维,商品的 集合是一维。维就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每 种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的 商品组成。 维有自己固有的属性,如层次结构( 对数据进行聚合分析时要用到) 、排序( 定义 变量时要用到) 、计算逻辑( 是基于矩阵的算法,可有效地指定规则) 。这些属性对进 行决策支持是非常有用的。 2 、多维性 人们很容易理解一个二维表( 如通常的电子表格) ,对于三维立方体同样也容易理解。 o l a p 通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、 商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维( 如加入 1 4 北方工业大学硕士学位论文 商店维) ,则图形很难想象,也不容易在屏幕上画娃j 来。要突破三维的障碍,就必须理 解逻辑维和物理维的差界。o l a p 的多维分析视图就是冲破了物理的三维概念,采用了 旋转、嵌套、切片、链墩和高维可视化技术,在屏幕上展示多维视图的结构,使用户直 观地理解、分析数据,进行决策支持。 2 3 1 3o u 垤的多维数据结构 数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在 一起,其密度很大。因此,o l 谨系统的开发者要设法解决多维数据空闻的数据稀疏和 数据聚合问题。事实上,有许多方法可以构造多维数据【1 8 】。 l 、超立方结构 超立方结构( 鞋y p e r e 珏b e 指用三维或更多酶维数来攒述一个对象,每个维彼此垂直。 数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的o l a p 系统中,其主要特点是简化 终端用户的操作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维 数更少,并可加入额外的分析维。 2 、多立方结构 在多立方结构( 潮菇| 哦) 中,将大熬数据结构分成多个多维结构。这些多维结构 是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结 构。它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容易接 近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验的m i s 专家 更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩 阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向 于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立 方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 3 、活动数据的存储 用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式: ( 1 ) 关系数据库 如果数据来源于关系数据库,则活动数据被存储在关系数据疼中。在大部分情况下, 数据以星型结构或雪花结构进行存储。 1 5 _ 北方工业大学硕士学位论文 ( 2 ) 多维数据库 在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库 和终端用户的数据。通常,数据库存储在硬盘上,但为了获得更高的性能,某些产品允 许多维数据结构存储在ra m 上。有些数据被提前计算,计算结果以数组形式进行存储。 ( 3 ) 基于客户的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预先建立, 如w e b 文件。与服务器上的多维数据库一样,活动数据可放在磁盘或r a m 上。 这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种。 4 、o l a p 数据的处理方式 o l 廿有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进行。 ( 1 ) 关系数据库 即使活动的o l 廿数据存储在关系数据库中,采用在关系数据库上完成复杂的多维 计算也不是较好的选择。因为s q l 的单语句并不具备完成多维计算的能力,要获得哪怕 是最普通的多维计算功能也需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论