(计算机应用技术专业论文)铝电解槽焙烧启动数据挖掘的研究与开发.pdf_第1页
(计算机应用技术专业论文)铝电解槽焙烧启动数据挖掘的研究与开发.pdf_第2页
(计算机应用技术专业论文)铝电解槽焙烧启动数据挖掘的研究与开发.pdf_第3页
(计算机应用技术专业论文)铝电解槽焙烧启动数据挖掘的研究与开发.pdf_第4页
(计算机应用技术专业论文)铝电解槽焙烧启动数据挖掘的研究与开发.pdf_第5页
已阅读5页,还剩93页未读 继续免费阅读

(计算机应用技术专业论文)铝电解槽焙烧启动数据挖掘的研究与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方工业大学硕士学位论文 摘要 随着计算机在铝电解生产行业中应用的推广,各厂在生产过程中均采用了计算机参 与的监控系统实现对电解槽的自动化控制。各种槽况数据被监控系统自动采集,在铝电 解生产行业积累了大量的历史数据。然而现有的系统数据共享度、集成度低、且只能进 行简单的数据录入、查询、统计等事务性的处理过程,却不能发现这些海量的数据中蕴 含的对企业生产和管理具有重要的指导作用的规则和规律。决策者迫切需要从海量数据 中提取有价值的信息和知识,以用于电解槽的管理,提高生产效益。焙烧启动是影响铝 电解槽寿命进而影响企业经济效益极为重要的因素之一,所以对焙烧启动期间电解槽的 状况分析相当重要。 本文主要对数据仓库和数据挖掘技术在铝电解领域中的应用作了研究和开发:介绍 了数据仓库数据挖掘的基本概念,对铝电解焙烧启动的数据仓库进行了设计,并开发了 抽取、转换、装载e t l ( e x l r a c tt r a n s f o r ml o a d ) s e 具,实现了多种预处理方法,完成了 数据仓库的建设。 着重对数据挖掘中的聚类、分类、关联规则算法进行了研究和针对铝电解数据特点 的改进,使其能产生更有效和实用的挖掘结果。包括:1 、聚类中的k - m e a n s 算法,改 进和简化了基于单亲遗传的k m e a n s 算法,消除传统的k - m e a n s 对初始中心点的依赖 性;2 、分类中的i d 3 算法,针对铝电解数据全是连续型数值,而i d 3 只能处理离散数 据,提出一种改进的动态划分数据区间的数值型i d 3 算法,使其能建立更优的决策树、 数据的处理结果更符合生产管理需求;3 、基于f p g r o w t h 的关联规则算法,根据铝电 解数据的分布特点改进了该算法,使其可以对连续型的铝电解数据的直接分析处理,自 动获取不同区问数据之间的关联关系,使挖掘出的规律对生产更有指导价值。 设计和开发了铝电解数据挖掘系统,并利用实现的改进算法对电解槽焙烧启动期间 的槽状态数据进行了聚类、分类和关联分析,发现了异常槽及得出了槽况的分类规则; 分析各工艺参数之间的相互影响关系,及确定较高电流效率的最佳的工艺参数组合,同 时也证明了本文改进算法的有效性和实用性。 该系统应用于铝电解生产行业的数据处理中,能够有效指导电解槽的稳定生产、延 长槽寿命、提高生产效率,为科学化管理提供依据。 关键词:数据仓库数据挖掘分类聚类关联规则铝电解槽 北方工业大学硕士学位论文 r e s e a r c ha n dd e v e l o p m e n to f t h ed a t am i n i n go f b a k ea n d s t a r t - u p o f a l u m i n u mr e d u c t i o nc e l l s a b s t r a c t a l o n g w i t ht h eg e n e r a l i z i n ga p p l i c a t i o no f c o m p u t e ri nt h ea l u m i n u me l e c t r o l y s i si n d u s t r y , t h es u p e r v i s o r yc o n t r o ls y s t e mw h i c hc o n t r o l st h ea l u m i n u mr e d u c t i o nc e l lt oa u t o m a t e dw o r k w a su s e di nt h ep r o d u c t i o no fa 1 1a l u m i n u me l e c t r o l v s i sf a c t o r i e s v a r i o u sk i n d so fd a t aw h i c h r e f l e c tt h es t a t e so fc e l l sw e r ea u t o m a t i c a l l yc o l l e c t e db ys u p e r v i s o r yc o n t r o l s y s t e m t r e m e n d o u sa m o u n t so f h i s t o r i c a ld a t aw a sa c c u m u l a t e di nt h ea l u m i m u ne l e c t r o l y s i si n d u s t r y , h o w e v e rs u c hp r o b l e m sa sd a t au n - s h a r a b l e ,l o wi n t e g r a t i o n ,d i f f i c u l t yt oe x t r a c tc h a r a c t e r i s t i c i nm a s sd a t aw a se x i ti nt h ep r e s e n ts y s t e mw h i c h o n l yc a d _ c a r r yo ns i m p l ed a t ai n p u t ,i n q u i r y , s t a t i s t i c sa n ds oo n ,m o r ei m p o r t a n tg u i d a b l er u l e sf o rt h em a n a g e m e n ta n dp r o d u c t i o no ft h e e n t e r p r i s e si nt h em a s sd a t ac a n n o tb ed i s c o v e r e d t h ed e c i s i o n m a k e ru r g e n t l yn e e d st h e v a l u a b l ei n f o r m a t i o na n dt h ek n o w l e d g ew h i c hs h o u l db ee x t r a c t e df r o mt h em a s s i v ed a t am a d c a nb eu s e dt oi n s t r u c tt h em a n a g e m e n tf o ra l u m i n u mr e d u c t i o nc e l l st oe n h a n c et h ep r o d u c t i o n b e n e f i t t h eb a k ea n ds t a r t - u pi so n eo f t h ek e yf a c t o r sa f f e c tt h ea l u m i n u mr e d u c t i o nc e l l sl i f e a n dc o n s e q u e n t l yi n f l u e n c ee n t e r p r i s ee c o n o m i ce f f i c i e n c y , t h e r e f o r et o a n a l y s i st h ed a t a r e f l e c t i n gt h ec o n d i t i o n so f c e l l sa tt h es t a g eo f b a k ea n ds t a r t - u pw i l lb eq u i t ei m p o r t a n t t h i sa r t i c l em a i n l yi n t r o d u c e st h er e s e a r c ha n dt h ed e v e l o p m e n ta b o u tt h ea p p l i c a t i o no f t h ed a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g yi na l u m i n u me l e c t r o l y s i sf i e l d i ti n t r o d u c e dt h e e l e m e n t a r yt h e o r ya n dt h ec o n c e p to ft h ed a t aw a r e h o u s ea n dt h ed a t am i n i n g ,t h ed a t a w a r e h o u s eo fb a k ea n ds t a r t - u po fa l u m i n u mr e d u c t i o nc e l l sh a sb e e nd e s i g n e da n db u i l t a e t l ( e x t m c tt r a n s f o r ml o a d ) t o o l 、i mm a n yk i n d so fp r e p r o c e s s i n gm e t h o d sh a sb e e n d e s i g n e da n dd e v e l o p e d t oi m p l e m e n tt h ed a t ae x t m c i m g ,t r a n s f o r m a t i o na n dl o a d i n gt op r o v i d e af m i s h e dd a t aw a r e h o u s e i te m p h a t i c a l l yr e s e a r c ho nc l u s t e ra n a l y s i s c l a s s i f i c a t i o n , a s s o c i a d o nr u l ea l g o r i t h ma n d i m p r o v et h e mi nv i e wo f t h ec h a r a c t e r so fa l u m i n u me l e c t r o l y s i sd a t at og e tm o r ee f f e c t i v ea n d m o r ep r a c t i c a ld a t am i n i n gm s d t w h i c hc o m p r i s e d :1t h ek - m e a n sc l u s t e r i n ga l g o r i t h m , i m p r o v i n ga n ds i m p l i f y i n gt h ek - m e a n sb a s e do np a r t h e n o - g e n e t i ca l g o r i t h mt oe l i m i n a t et h e d e p e n d e n c eo fc l a s s i ck - m e a n st ot h ei n i t i a lc e n w a lp o i n t s ;2i d 3c l a s s i f y i n ga l g o r i t h m ,w e p r o p o s e da l li m p r o v e di d 3a l g o r i t h mw h i c hc a nd y n a m i cd i v i d ec o n t i n u o u sd a t at os u b s e c t i o n s i nv i e wo f t h ea l u m i n u me l e c t r o l y s i sd a t aa l l i st h ec o n t i n u a lv a l u ea n dt h ec l a s s i ci d 3o n l yc a n p r o c e s st h ed i s c r e t ed a t a , s ow ec a ne s t a b l i s ha no p t i m i z e dd e c i s i o nt r e ea n dg e tt h ed a t a 3 北方工业大学硕士学位论文 p r o c e s s i n gr e s u l tm o r ec o n f o r m i n gt ot h ed e m a n do f p r o d u c t i o nm a n a g e m e n t ;3t h ea s s o c i a t i o n r u l e sa l g o r i t h mb a s e do nt h ef p g r o w t h ,t h i sa l g o r i t h mi m p r o v e da c c o r d i n gt ot h ed i s t r i b u t e d c h a r a c t e r i s t i co fa h i m i n u me l e c t r o l y s i sd a t ac a nb eu s e dt oa n a l y s i sc o n t i n u a la l m n i n u m e l e c t r o l y s i sd a t ad i r e c t l ya n dg e tt h er u l e sa b o u tt h ed a t ai nd i f f e r e n ts e c t i o n sw h i c hw a sd i v i d e d b yt h ea l g o r i t h ma u t o m a t i c a l l y t h e s ev a l e sh a v em o r ei n s t r u c t i v ev a l u et ot h ep r o d u c t i o n a na l u m i n u me l e c t r o l y s i sd a t am i n i n gs y s t e mh a sb e e nd e s i g n e da n dd e v e l o p e d t h r o u g h c l u s t e ra n a l y s i s ,c l a s s i f i c a t i o na n a l y s i sa n da s s o c i a t i o na n a l y s i so f t h ed a t ac o l l e c t e da tt h es t a g e o fa l u m i n u mr e d u c t i o nc e l lb a k e da n ds t a r t e db yr e a l i z ea n di m p l e m e n tt h ei m p r o v e d a l g o r i t h m si nt h ed a t am i n i n gs y s t e m ,t h ea b n o r m a lc e l l sw a s d i s c o v e r e da n dt h ec l a s s i f i e dr u l e a b o u tc e u sc o n d i t i o i l sw a so b t a i n e d t h em u t u a li n f l u e n c er e l a t i o n sb e t w e e nv a r i o u sc r a f t s p a r a m e t e rw a sa n a l y z e da n dab e s tc r a f tp a r a m e t e rc o m b i n a t i o nw i t hh i g hc u r r e n te f f i c i e n c y w a sf o t m d ,a tt h es a m et i m et h ev a l i d i t ya n dt h eu s a b i l i t yo ft h e s ei m p r o v e da l g o r i t h m sh a d b e e np r o v e d t h es y s t e mi sa p p l i e dt op r o c e s st h ed a t ai nt h ea l u m i n u me l e c t r o l y s i sp r o d u c t i o nf i e l dt o i n s t r u c tt h ep r o d u c t i o ne f f e c t i v e l ya n de n h a n c et h ep r o d u c t i o ne f f i c i e n c ya n dp r o l o n gt h el i f eo f t h ec e l l sa n dp r o v i d et h eb a s i sf o r t h es c i e n t i f i cm a n a g e m e n t k e y w o r d s :d a t aw a r e h o u s e ,d a t am i n i n g , c l a s s i f i c a t i o n ,c l u s t e r , a s s o c i a t i o nr u l e , a l u m i n u mr e d u e t i o nc e l l s 4 一 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得j e 直王些太堂或其他 教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名能技挚字日期:诲f 月,3 日 学位论文版权使用授权书 本学位论文作者完全了解j e 直王些盍堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。本人授权j e 直王些太堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:? k 耗蓑 签字日期:m 浑媚增日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名:彦护秀蔗 签字日期沈j 年朋l ,日 电话: 邮编: 北方工业大学硕士学位论文 1 引言 1 1 概述 随着计算机和通信等现代信息技术的迅速发展,在全球内掀起了信息化浪潮,大型 数据库系统得到广泛应用,企业产生和收集数据的能力已经迅速提高。然而现有的数据 库系统只能进行数据录入、查询、统计等事务性的处理过程,却不能发现这些海量的数 据中蕴含的对企业生产和管理具有重要的指导作用的规则和规律。数据的丰富带来了对 强有力的数据分析工具的需求,决策者迫切需要从海量数据中提取有价值的信息和知 识。人类急需一种能从海量数据中发现潜在知识的工具,以解决“人类正被信息淹没, 却饥渴于知识。”的矛盾,数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突 出,人们也希望能够在对已有数据分析的基础上进行科学研究、商业决策、企业管理, 但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数” 兴叹。这种情况下,信息系统的核心问题应该是如何在海量数据中获取有价值的知识。 面对海量数据库和大量繁杂信息,如何才能从信息海洋中提取有价值的知识,进一步提 高信息的利用率,这就引发了一个新的研究方向:基于数据库的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) 以及相应的数据挖掘( d a t a m i n i n g ) t 里论和技术的研究。 数据挖掘同时也是信息技术自然演化的结果,信息技术的发展历程可归结为:数据 收集和数据库创建、数据管理、以及数据分析与理解。数据收集和数据库创建机制的早 期开发已成为数据存储和检索、查询和事务处理有效机制开发的必备基础。随着提供查 询和事务处理的大量数据库系统的广泛付诸实践,数据分析和理解自然成为下一个目 标。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现 的。数据挖掘是在对数据全面而深刻认识的基础上,对数据内在本质的高度抽象与概 括,也是对数据从感性认识到理性认识的升华。 数据挖掘i l l ( d a t am i n i n g ,d m ) 是为满足从数据中挖掘知识的需要而发展起来的一门 交叉学科。数据挖掘汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及 管理信息系统等各学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学 科得以蓬勃发展。但一个数据挖掘系统不是多项技术的简单组合,而是一个完整的整 体,它还需要其它辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表达 这一系列任务,最后将结果呈现在用户面前。 通常,从数据库中发现知识有两方面的含义:一是指研究如何从商业等数据库由事 实所构成的大规模数据中发现隐含的规律性或不同属性问存在的规则,称为发现的定性 北方工韭大学硕士学晓论文 知识。二是指与科学发现相关,从观测客观f 盐界的大孱实验数据中发现数据的整体结构 特性和数攒闷的函数依赖或者嬲关关系,并根据缀计特氩e 推断客观世癸申数据闻存在鲍 矮律淫,稼为发瑷嚣定量麓谖。 数据挖掘从一开始就是面向应用的,对数掘进行分析,可以发现羹要豹数据模式。 数据挖掘技术已经在金融、零悔、医疗、电信、保除、证券等领域得到广泛的应用,成 为一种利用信息资源的有效方法和途径,具有广阔的开发前景和应用市场。在高度信息 纯的今天我们将数据挖掘引入到铝瞧鳃行业中来,建立铝电解生产数撼羧掇系统,为铝 电瑟嚣簸戆生产帮管理g 受务。 1 2 课题背景和意义 据资料1 1 统计,到2 0 0 3 年,我国电解铝的生产量和消费量均居世界篇,铝电解 生产企业1 4 0 家,遍布全国2 6 个省区。各个铝厂“均采用了自动化控制系统。在铝电解 的生产遭稳中( 见图1 1 囝) ,采集了海量鲍反应漱鼹德状态的数据,翔瞧解槽酶工作 毫匿、乎筠电匿、赞振、毫嚣搽、系剜电压、系捌滚滚、效应发生时剿、效应电压等; 此外,另外有测量的电解槽的各种工艺数据,如:分子比、氧化铝浓艘、温度、两水平 等。 瑟1 1 毫解铝生产工艺筵整 謦翁,镪电解现有的控制系统大都只能根据实时采集豹数耩进行槽况的监控,调整 工艺参数,显示槽电压、电流镣参数变化的实时曲线,统计采集的数据生成报表,然后 2 。 北方工业大学硕士学位论文 将数据存入数据库。作为历史数据后只能用作再现槽状况,而这些数据中可能隐含的大 量的规律或规则是无法被反映出来的。 另外在现有的系统中,生产管理人员对电解槽是参考所测量的部分参数指标,如电 压、分子比、槽温等,根据个人的经验做出定性的分析判断来进行下一步的管理,不能 精确的分析出各种因素之间的相互影响关系,以及不同槽之间、同一台槽的不同时期和 不同状态下,各因素之间的复杂关系以及对槽况的影响。 由于电解槽是一个半定量,反应滞后的体系,许多参数之间有着高度的、滞后的相 关性。铝电解数据具有如下的特点【4 j : ( 1 ) 多变量。在生产过程中,己能在线检测许多物理量。研究目标的影响因素相当 多,在多变量数据处理过程中,许多参数之间常是强相关的。 ( 2 ) 非线性。经典的统计方法主要处理线性关系,因为在线性并且噪音极小条件下, 容易用严格的数学模型来描述目标,并得到解析解。但铝电解生产系统中的绝大多数问 题不能简化为线性问题,特别是复杂生产数据的处理问题。 ( 3 ) 高噪音。噪音干扰是研究目标或自变量失真。噪音可能是“白噪音”或“有色噪 音”,主要由不确定因素导致,甚至是系统的混沌现象( 如铝液的湍流现象) 构成。 基于铝电解行业的生产管理现状,信息化工厂建设和优化管理控制指标的需求,考 虑铝电解数据的特点:不能建立精确的数学描述模型,直观的确定哪些因素与研究目标 有关,所以我们把数据仓库和数据挖掘技术应用到铝电解的数据分析、及生产管理和控 制中来通过对槽状态的分类、判断、发现异常槽及槽况变化的原因分析:分析各工艺参 数之问的相互影响关系,确定最佳的工艺参数组合,提供给专业人员用于有效地指导铝 电解的生产,以获取更好的控制效果,规范铝电解生产管理,为科学化管理提供依据, 同时提高铝电解行业的信息化水平。 本课题来源于北方: 业大学和国内某电解铝厂合作的铝电解生产智能系统的研究 与应用。 1 3 本文所作的工作 本文主要研究了数据仓库和数据挖掘技术的主要理论和技术,并将其应用于铝电解 焙烧启动期间的生产数据的处理中。结合铝电解生产焙烧启动数据的特点主要做了以下 工作: 1 、开发了铝电解数据的e t l 工具。实现了元数据的管理和数据的抽取、清洗、转 换、装载。首先将数据抽取到数据准备区,根据数据特点提供了多种在数据准备区对数 一3 北方工业大学硕士学位论文 据的清洗、转换的方法,然后装载到数据仓库,完成了铝电解焙烧启动的数据仓库建 立; 2 、对聚类中的k - m e a n s 算法的研究和改进。改进和简化了基于单亲遗传的k - m e a n s 算法,消除经典k - m e a n s 对初始中心点的依赖性; 3 、对分类中的i d 3 算法的研究和改进。针对铝电解数据全是连续型数值,而1 1 3 3 只能处理逻辑型数据、一般处理连续型数据需要提前划分区问的特点提出一种改进的动 态划分数据区间的数值型i d 3 算法,使其能建立更优的决策树、数据的处理结果更符合 生产管理需求; 4 、对基于f p g r o w t h 的关联规则算法进行了研究和改进。使该算法根据铝电解数 据的分布特点对数据进行动态预处理,实现了对连续型数值数据的直接分析处理,使挖 掘出的规律对生产更有指导价值。 5 、设计和开发了铝电解焙烧启动数据挖掘系统。在系统中实现了以上2 、3 、4 提 及的改进算法,提供了对数据的聚类、分类和关联分析等功能。对电解槽焙烧启动期间 的槽状态进行了聚类、分类和关联分析,发现异常槽及槽况变化的原因;分析各工艺参 数之问的相互影响关系,确定最佳的工艺参数组合,以获取更好的控制效果等。 1 4 论文组织结构 本文共分为六章,各章内容如下: 第一章引言,简要介绍本文的课题背景、研究目的和意义以及论文的工作和组织 结构。 第二章数据仓库和数据挖掘基本概念与理论,主要介绍了数据仓库和数据挖掘的 概念、基本原理、方法、算法和应用等。 第三章挖掘模型的研究及算法改进,详细介绍了对聚类、分类、关联等挖掘算法 的研究并结合铝电解数据特点做了一定的改进。 第四章铝电解槽数据仓库系统的设计和建设,讲述了铝电解槽数据仓库系统的设 计和实现,以及数据的e t l 方案 第五章铝电解槽数据挖掘系统的设计与实现,介绍了铝电解槽数据挖掘系统的设 计方案及实现过程。 第六章铝电解槽数据挖掘系统的应用实例及结果解析,对铝电解槽焙烧启动期间 的数据进行了聚类、分类、关联挖据处理,并得出一定的规则结果。 4 一 北方工业大学硕士学位论文 2 数据仓库和数据挖掘的基本概念与理论 2 1 数据仓库原理 2 1 i 数据仓库的基本概念 市场竞争的加剧和信息社会需求的发展,从大量数据中提取( 检索、查询等) 制定市 场策略的信息显得越来越重要。这种需求既要求联机服务,又涉及大量用于决策的数 据,而传统的数据库系统己无法满足这种需求。具体体现在三个方面:历史数据量很 大;辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成;由于访问数据的 能力不足,它对大量数据的访问性能明显下降。 c s 技术的成熟和并行数据库的发展,要提高分析和决策的效率和有效性,信息处 理技术的发展趋势是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储 格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种 用于决策支持系统( d s s d e c i s i o ns u p p o r ts y s t e m ) 的、特殊的数据存储即被称为数据 仓库( d a t aw a r e h o u s e ,d w ) 。 我们现在称之为“数据仓库”的这一技术,最早出现于2 0 世纪8 0 年代初 w h i n m o n 的研究,并存在于其“记录系统”、“本原数据”、“决策支持系统”等研 究专题中。w h i m n o n 在1 9 9 3 年所写的论著b u i l d i n gt h ed a t aw a r e h o u s e s 首先系 统地阐述了关于数据仓库的思想、理论,在该书中给出了数据仓库的定义口】,数据仓库 是一个面向主题的、集成的、时变的、非易失的数据集合,用以支持经营管理中的决策 过程。 这个定义概括了数据仓库最主要的四个特征嘲 n : ( 1 ) 面向主题的 数据仓库围绕一些主体,如顾客、供应商、产品和销售组织。数据仓库关注决策者 的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此数据仓库排除 对于决策无用的数据,提供特定主体的简明视图。 ( 2 ) 集成的 通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机处理记 录,集成在一起。使用数据清洗和数据集成技术,确保命名约定、编码结构、属性度量 等的一致性。 ( 3 ) 时变的 5 一 北方工业大学硕士学位论文 随时间不断变化的,数据仓库系统必须不断捕捉o l t p ( 联机事务处理) 数据库中变 化的数据,并在经过统一集成后装载到数据仓库中。操作型数据库含有“当前值”的数 据,这些数据的准确性在访问时是有效的,“当前值”的数据能被更新,而数据仓库中 的数据仅仅是一系列某一时刻生成的复杂的快照。同时,数据仓库中的数据也有存储期 限,会随时间变化不断删去旧的数据,只是其数据时限远比操作型环境的要长,操作型 系统的时间期限一般是6 0 9 0 天,而数据仓库中数据的时间期限通常是5 1 0 年。 非易失的 数据仓库的数据反映的是一段相当长的时间内历史数据的内容,主要供企业决策分 析之用,与面向应用的事务数据库需要对数据作频繁的插入、更新操作不同,数据仓库 中的数据所涉及的操作主要是查询和新数据的导入,一般不进行修改操作。 2 1 2 数据仓库的体系结构 数据仓库的体系结构如下图 8 1 所示。 e = = j i 内l l 、j k = = 习 f 外辩腿渌f 。 l 、 凰 用户界面 图2 1 数据仓库体系结构图 数据源:通常包括企业内部数据源和外部数据源。内部数据包括存放于r d b m s 中 的各种业务处理数据和各类文档数据。外部数据包括各类市场信息等;竞争对手信息和 各种手工收集的信息等, 数据准备区:是从数据源数据转换到主体数据转换过程中的中间数据存储。由于数 据源数据无法直接载入数据仓库的主体数据中,必须先按一定的规则,抽取到数据准备 区,在数据准备区对数据进行净化、组合、消除冗余、内部处理等一系列处理才能装载 到数据仓库中去。 一6 一 北方j :业大学硕士学位论文 数据仓库的存储与管理:是整个数据仓库系统的核心。包括数据仓库的创建、维 护、对数据仓库中数据的重整和数据仓库元数据的管理。该部分的核心功能是完成数据 仓库的建模、确定数据的粒度级别、指定数据仓库的物理存储模式、确保数据仓库的运 行效率等。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库 ( 数据集市) 。 应用和服务:数据仓库的应用和服务部分提供了各种应用工具,报表工具、查询工 具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。 使用这些工具可以对数据仓库中的数据进行复杂的查询分析和数据挖掘等。o l a p 服务 器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的 分析,并发现趋势。其具体实现可以分为:r o l a p ( 关系o l a p ) 、m o l a p ( 多维 o l a p ) 和h o l a p ( 混合0 l a p ) 。r o l a p 基本数据和聚合数据均存放在r d b m s 之 中:m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存放于 r d b m s 之中,聚合数据存放于多维数据库中。 2 1 3 数据仓库中的数据组织结构 一个典型的数据仓库的数据组织结构如图2 2 所示: 图2 2 数据仓库数据组织结构图 数据仓库中的数据分为四个级别1 3 :早期细节级、当前细节级、轻度综合级、高度 综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综 合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由此可见, 数据仓库中存在着不同的综合级别,一般称之为”粒度”。粒度越大,表示细节程度越 低,综合程度越高。 粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据仓库中 的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据 7 一 北方i , l k 人学硕士学位论文 仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主 要作用是d s s 分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少 数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于 低速设备如磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一 个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率 的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分 散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如 日期、地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项, 它十分自然而且分割均匀。 2 1 4 数据仓库建设和开发的特点 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据 仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其 业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组, 并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度 看,数据仓库建设是一个工程,也是一个过程。 企业级数据仓库的建设通常有两种途径:一种是从建造某个部门特定的数据集市开 始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反映企业全貌的企 业级数据仓库;另外一种则是从一丌始就从企业的整体来考虑数据仓库的主题和实施。 前一种方法类似于软件工程中的“自底向上”的思想,投资少、周期短且易于见到 成果,但由于该设计开始时是以特定的部门级主题为框架的,向其它的部门和主题扩充 往往比较困难。而后一种方法恰恰相反,“白顶向下”,投资大、周期长。 创建数据仓库的工作是在原有的数据库基础上进行的,在原有的数据库系统中有数 据,还有对数据的处理及应用,一个企业的数据是固定的,但数据的处理则是特殊的。 因此,这“基础”只能是原有数据库中的数据,即需要从己经存在于操作型环境中的数 据出发来进行数据仓库的建设工作,这种从已有数据出发的数据仓库设计方法称为“数 据驱动”的系统设计方法。“数据驱动”的系统设计方法的基本思路如下: ( 1 ) “数据驱动”系统设计方法的思路就是利用以前所取得的工作成果来进行系统 建设。要利用已有的工作成果,唯一的办法就是要能识别出当前系统设计与己做工作的 “共同性”,即在进行数据仓库系统设计前,需要清楚地知道原有的数据库系统中已有 一8 北方工业大学硕士学位论文 什么,它们对当前系统设计有什么影响,等等。要尽可能地利用己有的数据、代码等, 而不是什么都从头开始,这是“数据驱动”的系统设计方法的出发点,也是其目的所 在。 ( 2 ) “数据驱动”的系统设计方法不再是面向应用,从应用需求出发,这些工作己 经在数据库系统设计时完成了,其成果就是现有的数据库系统及其在数据库系统中的数 据资源,数据仓库的设计是从这些已有的数据库系统出发,按照分析领域对数据及数据 之间的联系重新考察,组织数据仓库中的主题。 ( 3 ) “数据驱动”系统设计方法的中心是利用数据模型有效地识别原有数据库中的 数据和数据仓库中主题的数据的“共同性”。 2 1 5 数据仓库的多维数据模型 数据仓库的数据可以采用基于多维数据模型方式存储1 6 j 1 9 j 。该模型将数据看作数据 立方体( d a t ac u b e ) 形式。数据立方体允许以多维对数据建模和观察,维是关于一个组织 想要记录的透视或实体。多维数据模型围绕中心主题组织。该主题用事实表表示。事实 是数值度量的。多维数据模型可以以星型模式、雪花模式、或事实星座模式形式存在。 星型模式( s t a rs c h e m a ) :是最常见的模型范例,其中数据仓库包括一个大的包含大 批数据和不含冗余的中心表( 事实表) 平口一组小的附属表( 维表) ,每维一个表。 雪花模式( s n o w f l a k es c h e m a ) :雪花模式是星型模式的变种,其中某些维表是规范化 的,因而把数据进一步分解到附加的表中。 事实星座( f a c tc o n s t e l l a t i o n ) :复杂的应用可能需要多个事实表共享维表。这种模 式可以看作星型模式集,因此称为星系模式( 刚a x ys c h e m a ) ,或事实星座。在多维数据 模型上可以很方便的进行o l a p ( 联机分析处理) 操作。 多维数据模型同时引入了“概念分层”。一个概念分层定义一个映射序列,将低层 概念映射到更一般的高层概念。在数据挖掘过程需要考察不同层次,或某层的某个维度 值。 2 1 6 数据仓库的元数据 元数据0 v i e t a d a 啪是关于数据的数据 6 】mo 。在数据仓库系统中,元数据可以帮助数 据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述 数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据 ( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于丌发和管理数据仓库 使用的数据,它主要包括以下信息: 9 北方工业大学硕士学位论文 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义, 以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预 定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据 提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统 之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业 务元数据主要包括以下信息:使用者的业务术语所表达的数据模型;对象名和属性名; 访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。具体包 括以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的 高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术 和s q l 语句的业务人员对数据仓库中的数据也能做到心中有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据 集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立 方体表示某主题领域业务事实表和维表的多维组织形式。 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据 的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、 维、层次等之间的对应关系也应该在元数据知识库中有所体现。 对于数据挖掘也需要完善的元数据管理机制,技术元数据包含数据挖掘过程中需要 准备的数据,其字段、长度、类型、含义、算法的种类,模型的构造等;业务元数据涉 及数据挖掘过程确定、商业理解、数据理解、知识库等。元数据对于指导数据挖掘过程 以及某些资源的重用有重要意义。 2 1 7 数据的抽取、清洗、转换和装载 在数据仓库构筑中,工作量最大是从业务数据库向数据仓库抽取、清洗、转换、装 载数据的作业。原因是为了从各种不同种类和形式的业务应用抽取、变换、集成数据, 并将其存储到数据仓库,要求要对数据的质量进行维护和管理。 数据抽取:从多个异种的内部或外部数据源收集数据; 数据清洗:去除原始数据中的噪声数据和无关数据; 一1 0 一 北方工业大学硕士学位论文 数据转换:将数据转换成适合挖掘的形式; 装载:将转换合并之后的数据以加载映像的形式装载迸数据仓库存储库中。 e t l 工具就是做对数据的抽取、“净化提炼”和装载处理的。所谓数据的“净化提 炼”就是对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统 一、编码的统一和形式的统一,消除重复数据。 其次是数据中心构筑方式的进展。数据仓库是面对整个企业的数据应用,而针对各 个部门的信息应用是构筑数据中心。数据中心的数据是按部门从数据仓库中抽取,并进 行加工处理。数据中心构筑工具,就是提供从数据仓库自动进行数据的抽出、变换功 能,具有e t l 功能,可以大幅提高运行效率。 如果数据挖掘直接从事务数据库上获取初始数据,需要进行e t l 过程。如果数据 挖掘从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论