(电气工程专业论文)基于数据挖掘的电力营销决策支持系统的结构原理及算法研究.pdf_第1页
(电气工程专业论文)基于数据挖掘的电力营销决策支持系统的结构原理及算法研究.pdf_第2页
(电气工程专业论文)基于数据挖掘的电力营销决策支持系统的结构原理及算法研究.pdf_第3页
(电气工程专业论文)基于数据挖掘的电力营销决策支持系统的结构原理及算法研究.pdf_第4页
(电气工程专业论文)基于数据挖掘的电力营销决策支持系统的结构原理及算法研究.pdf_第5页
已阅读5页,还剩93页未读 继续免费阅读

(电气工程专业论文)基于数据挖掘的电力营销决策支持系统的结构原理及算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着我国电力市场的逐步发展和完善,电力工业已经逐步从“卖方市场”转 变为“买方市场”,这将给我国电力工业的发展带来重大的影响。作为独立市场主 体的电力企业,其经营目标转变为关注企业效益的最大化,工作的重点逐渐从发 输电方面转移到市场营销开拓以及电力需求侧的管理服务方面。 随着机制的转换,传统的面向基本业务的信息管理系统( 如用电m i s 等) 已 不能满足电力企业营销工作的需要,如何建立适应于我国电力营销需求的决策支 持系统已成为当务之急。 数据挖掘技术是人工智能和数据库结合的产物,用于发现海量数据库中存在 的潜在关系和规则,已经成为一种重要的智能决策方法以及决策知识获取的重要 途径,在决策支持系统中具有重大的应用研究价值。 本文对电力营销决策支持的需求进行了详细的分析和设计,在此基础上提出 了一种全新电力营销决策支持系统的整体框架设计原理。该系统结构的特点是具 有问题引导功能以及融合了数据仓库、o l a p 分析以及d m 技术,能较好地满足 电力营销决策支持系统的实际需要。 基于数掘仓库的o l a p 技术是电力营销辅助决策支持的重要技术之一。在详 细分析数据仓库基础上,设计了电力营销数据仓库的实现方案;对电力营销的 o l a p 分析内容和方法进行了研究;在b u s i n e s s o b j e c t 基础上设计和实现了电量电 费的多维决策分析,包括语义层设计、通用查询报表的设计以及切片、旋转和钻 耿操作等。 d m 技术与o l a p 技术是电力营销决策支持系统中的关键数据分析技术,二 者有机结合构成的多维数据挖掘模型能提高数据分析的效果和性能。针对多维数 据挖掘模型中的挖掘空间的选择方法问题,提出了一种用于数据挖掘空间选择的 神经网络结构和算法,其算法既避免统计方法中复杂的非线性建模问题,又比一 般神经网络变量选择方法的计算量小。 鉴于聚类分析在数据挖掘中具有重要的作用,本文针对聚类分析中聚类数确 定难的问题,深入研究了聚类准则的选择和曲线特性;提出了一种基于s o f m 神 经网络的结构自适应聚类神经网络,其特点是能够自动确定最佳的聚类数。基于 实际营销数据,采用结构自适应聚类神经网络技术实现了用户用电量时间特征分 析,所得结论对于电价的针对性的调整以及合理地安排电力生产具有重要的参考 价值。 本文的研究成果对于电力市场环境下电力企业的电力营销决策系统的方案设 重庆大学博士学位论文 计以及实现有重要的参考价值。 关键词:神经网络,聚类分析,电力营销,决策支持系统,数据挖掘,数据仓库 联机分析 l i 英文摘要 a b s t r a c t w i t ht h es t e p w i s ed e v e l o p m e n ta n di m p r o v e m e n to fc h i n ae l e c t r i cp o w e r m a r k e kt h e p o w e ri n d u s t r yw i l lb ec h a n g e df r o m “s e l l e r sm a r k e t t o “b u y e r sm a r k e t ”w h i c hw i l l g i v eo u rp o w e ri n d u s t r yag r e a ti n f l u e n c e a si n d e p e n d e n tm a r k e tm a i nb o d i e s ,t h e p o w e re n t e r p r i s e s so p e r a t i n gg o a lw i l lc h a n g e dt op u r s u i n gt h em a x i m u mb e n e f i t so f t h ee n t e r p r i s e ,a n dt h e i rw o r k i n ge m p h a s i sw i l lb ec o n v e r t e df r o mp o w e r sg e n e r a t i n g , t r a n s p o r t i n ga n dd i s t r i b u t i n gt ot h em a r k e td e v e l o p m e n t ,p o w e rd e m a n d sm a n a g e m e n t a n ds oo n w i t ht h em e c h a n i s m sc o n v e r s i o n ,t h et r a d i t i o n a lm i s ( f o r e x a m p l e ,p o w e ru s em i s ) h a sn o ta l r e a d ys a t i s f i e dp o w e re n t e r p r i s e sn e e d s h o wt ob u i l dt h ei m f o r m a t i o ns y s t e m t os a t i s f yt h en e e d so fo u rp o w e rs a l e sd e c i s i o nh a sb e c o m eo u ru r g e n ta f f a i r s t h ed a t am i n i n g ( d m ) t e c h n i q u ew h i c hi su s e dt od i s c o v e rt h ep o t e n t i a lr e l a t i o n s h i p s a n dr u l e si nv a s td a t a w a r ei st h ep r o d u c to fc o m b i n i n gt h ea r t i f i t i a l i n t e l l i g e n c ea n d d a t a w a r et e c h i n i q u e a n dh a sa l r e a d yb e c o m e 柚i m p o r t a n tm e t h o df o ri n t e l l i g e n t d e c i s i o na n dw a yf o rg e t t i n gd e c i s i o nk n o w l e d g e ,a n dh a st h ei m p o r t a n ta p p l i e d r e s e a r c hv a l u e si nd e c i s i o ns u p p o r ts y s t e m s , t h en e ws t r u c t u r a lf r a m ed e s i g n i n gt h e o r yo fp o w e rs a l ed e c i s i o ns u p p o r ts y s t e mi s p r e s e n t e db a s e do nc a r e f u ld e m a n da n a l y s i sa n dd e s i g no fp o w e rs a l ed e c i s i o ns u p p o r t s y s t e m t h en e wf r a m eh a st h ef e a t u r e so fd e c i s i o np r o b l e m sl e a d i n gf u n c t i o na n dt h e c o m b i n a t i o no fd a t a w a r e ( d w ) t e c h n i q u e s ,o n - l i n ea n a l y t i c a l p r o c e s s i n g ( o l a p ) t e c h n i q u e sa n dd a t am i n i n gt e c h i n i q u e s ,w h i c hc a np r e f e r a b l ys a r i s f yt h en e e d so fp o w e r s a l ed e c i s i o ns u p p o r t t h eo l a pt e c h n i q u eb a s e do nd wi so n eo ft h ei m p o r t a n tt e c h n i q u e si np o w e rs a l e s a i d e dd e c i s i o ns u p p o r t ad a t a h o u s es c h e m eo np o w es a l e si sp r e s e n t e db a s e do nc a r e f u l a n a l y s i so fd a t a h o u s e ;t h eo l a pa n a l y t i c a lc o n t e n t sa n dm e t h o d sa r es t u d i e d ;t h em u t i d i m e n s i o n a la n a l y s i so fp o w e rq u a n t i t ya n dr a t ei sd e s i g n e da n dc a r r i e do u tb yu s eo f b u s i n e s s o b j e c to l a pt o o l ,i n c l u d i n gu n i v e r s ed e s i g n ,g e n e r a lq u e r yr e p o r tf o r md e s i g n , s l i c i n g ,d r l l i n g ,c i r c u m r o t a t i n ga n ds oo n t h ed ma n do l a pa r et h ec r i t i c a lt e c h n i q u e so fd a t aa n a l y s i s ,t h em u l t id i m e n s i o n a l d a t am i n i n gm o d e lc o m b i n i n gb o t ht e c h n i q u e sc a l le n h a n c et h ep e r f o r m a n c ea n de f f e c t s o fd a t aa n a l y s i s a sf a ra st h ec h o o s i n gm e t h o do fm i n i n gs p a c ei nm u l t id i m e n s i n a l m i n i n gm o d e l ,an e wa n n s t r c t u r ea n da l g o r i t h ma r ep o s e d ,w h i c ha v o i d st h ep r o b l e m i i i 重庆大学博士学位论文 o fc o m p l i c a t e dn o n l i n e a rm o d e l i n ga n dh a sl e s sc a l c u l a t i n gt h a ng e n e r a la n nv a r i a b l e m e t h o d i nv i e wo ft h ei m p o r t a n te f f e c to fc l u s t e r i n ga n a l y s i si nd a t am i n i n g ,t os o l v et h e p r o b l e mo fd e t e r m i n i n gc l u s t e r i n gn u m b e r , t h ec l u s t e r i n gr u l e sa n di t sc n r v ea r es t u d i e d c a r e f u l l y ;ak i n do fs e l f - a d a p t a t i o nc l u s t e r i n ga n n i sp r e s e n t e db a s e do ns o f m a n n ,w h i c hc a na u t o m a t i c a l l yd e t e r m i n et h ec l u s t e r i n gn u m b e r b a s e do np r a t i c a ls a l e s d a t a , t h et i m ef e a t u r ea n a l y s i so fp o w e ru s e rc o n s u m p t i o na r ec a r r i e do u tb yu s i n gt h e s e l f - a d a p t a t i o nc l u s t e r i n ga n n ,w h o s ec o n c l u s i o nh a st h ei m p o t a n tr e f e r e n c e dv a l u e s f o ra d j u s t i n gp o w e rp r i c ec o r r e s p o n d i n g l ya n da r r a n g ep o w e rp r o d u c i n gr e a s o n a b l y t h ea c h i e v e m e n t so ft h ed i s s e r t a t i o nh a v et h ei m p o r t a n tr e f e r e n c e dv a l u ef o rt h e s c h e m ed e s i g n sa n dr e a l i z a t i o no fp o w es a l e sd e c i s i o ns u p p o r ts y s t e mo fp o w e r e n t e r p r i s eu n d e rp o w e rm a r k e t k e yw o r d s :n e u r a ln e t w o r k s ,c l u s t e r i n ga n a l y s i s ,p o w e rs a l e s ,d e c i s i o n s u p p o r t s y s t e m ,d a t am i n i n g ,d a t aw a r e h o u s e ,o n - l i n ea n a l y t i c a lp r o c e s s i n g 1 绪论 1 绪论 1 1 引言 电力系统是由发电、输电、变电、配电及用电等多个环节构成的超大型控制系 统,系统具有的连续性及统一性的特点,要求安全可靠高质地运行,全面满足备行 业生产及人民群众生活的需要。 电力行业是一个资金技术密集型的行业,我国的电力管理体制长期以来采取的 是国有垂直垄断模式。改革开放以后,我国逐步放松了对电力行业的管制,主要体 现在改变过去国家“独家办电”的格局,推行多家办电,谁投资谁受益的投资体制, 并允许外资、地方等多方参与电厂建设,已形成全国性买方市场宏观环境。随着我 国电力买方市场的出现,垂直垄断电力体制企业所固有的一机构臃肿、效率低下、 电价居高不下和服务质量差等问题目益突出,极大地制约了电力行业的发展。 1 9 9 9 年4 月,国家经委发出关于进行厂网分开、竞价上网试点有关问题的通 知,电力行业体制改革进入一个新阶段。2 0 0 2 年2 月1 0 日,国务院以国发 2 0 0 2 1 5 号文下发了电力体制改革方案,标志我国电力工业将打破计划经济体制下原有的 发、输、配一体化管理和完全垄断的管理模式和经营方式,开始走向电力市场化的 逐步完善和发展的道路。国家提出的电力行业改革方案,总的目标是要在传统的电 力工业垄断体制中引入竞争体制,以提高电力工业效益,降低发供电成本和电价, 促进国民经济发展。 电力工业从“卖方市场”转变为“买方市场”给我国电力工业的发展带来了重大的 影响,而且这种影响是全局性、根本性、战略性的,其特点是:供需矛盾相对缓和; 发电量、售电量低速增长:电网峰谷差加大,高峰需求旺盛,负荷率逐年下降,电 网备用容量增大;发电设备年利用小时数逐年下降;欠电费数额增长,电网运行困 难。在这样的情形下,作为独立市场主体的电力企业,其经营目标转变为关注企业 效益的最大化,工作的重点逐渐从发输电方面转移到市场营销开拓以及电力需求侧 的管理服务方面。 过去由于体制问题以及用电紧缺,电力公司与客户是管理和被管理的关系,电 力公司的工作是管理用户而不是服务于客户,对于客户服务和电力营销的观念极其 淡漠。随着电力由计划走向市场,各供电企业逐渐改变过去在计划经济时期形成的 官商作风,努力提供高效优质服务。同时,国民经济高速发展、人民生活水平不断 提高,电力企业的业务不断发展,多家办电政策的实施电价日趋复杂,用电业务也 因此复杂化,原有的手工营业操作方式已不能满足需要。因此,近几年来各级供电 企业在信息系统的建设上投入了相当大的人力、财力和物力,也取得了一定的效果: 重庆大学博士学位论文 规范了管理、健全了基础资料,初步建成了企业内部的局域网,甚至广域网,实现 信息共享。 随着电力企业各类管理信息系统( 电力m i s 、用电m i s 、调度m i s 等) 的普及 应用,电力企业产生了正在以指数速度增长的大量基础性数据,展现在运行人员和 决策者面前的已经不是局限于本单位、本部门和本行业的庞大数据库,而是浩瀚无 垠的数据海洋。传统的m i s 系统只能对数据库中的数据进行诸如录入、查询、统计 等操作性处理,通过这种处理所获得的信息仅仅是整个数据库所包含信息知识的一 小部分,缺乏对数据整体特征的描述及其发展趋势预测方弱的知识,无法发现数据 中存在的关系和规则以及根据现有的数据预测未来的发展趋势,从丽导致“数据爆炸 和知识贫乏”的现象。 信息技术的迅猛发展使越来越多的企业认识到,信息作为一种战略性资源,能 决定一个企业在国内和全球竞争中的命运。如何将这些操作型基础数据转变为决策 型信息,从这些历史数据中挖掘出“宝藏”,为企业发展提供辅助决策依据,已经成 为当前电力企业的当务之急。例如,随着电力事业的蓬勃发展,电力由短缺趋向相 对缓和,如何“扩供促销”成为摆在供电企业面前的一项重要任务;供电企业应该出 台何种优惠政策鼓励用户用电:采取何种措施削峰填谷;如何丌拓电力市场,这些 决策可以从企业信息库中积累的数据获得帮助。 针对这一状况,面向决策支持的数据挖掘( d a t am i n i n g ,缩写为d m ) 技术应 运而生,它是数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简称为k d d ) 的 核心技术,是人工智能与数据库结合的产物,它应用一些专门的算法从数据库中提 取出有效的模式,能从大量的数据中发现潜在的规律,以提取有用的知识。以数据 库、人工智能以及统计学等学科为理论基础的数据挖掘和知识发现在商业、工业领 域已经得到广泛的应用,是近年来国际较为活跃的研究领域,显示出强大的生命力。 同时,数据挖掘技术也逐步融入决策支持系统之中以解决传统的决策支持系 统所面临的知识获取“瓶颈”等一系列问题,成为决策系统的重要的组成部分。本文 将针对电力营销行业领域,探讨和研究数据挖掘技术在电力营销决策支持系统中的 应用。 1 2 决策支持系统基本结构和发展趋势 1 2 1 决策支持系统的模式及基本结构 决策问题按结构化程度不同可划分为三种类型:结构化决策问题、半结构化决 策问题以及非结构化决策问题。通常认为,m i s 系统主要解决结构化问题,而决策 支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) ! j ! 1 ) 以支持半结构化和菲结构化问题为目的。 决策支持系统是以管理科学、运筹学、控制论和行为科学为基础,以计算机技 1 绪论 术、仿真技术和信息技术为手段,针对某一类型的半结构化或非结构化的决策问题, 通过提供背景材料、协助明确问题、修改完善模型、列举可能的方案、进行分析比 较等方式,为管理者做出正确决策提供帮助的人机交互式的信息系统。1 3 1 决策支持系统是信息系统( i s ) 经由电子数据处理( e d p ) 和管理信息系统( m i s ) 而形成的最新形式,因d s s 是比e d p 和m i s 更高级的i s ,它可以提高决策的有效 性,模型单元的存在是d s s 区别于以往其它信息系统的一个重要标志。d s s 是支持 性的而非代替性的,是描述性的而非命令性的,是效益性的而非效率性的。 一个完整的d s s 系统模式被表示为d s s 本身以及它与“真实系统”、人和外部 环境的关系。如图1 1 所示,管理者始终处于核心地位,通过协助人员的帮助,运 用自己的知识和经验,结合d s s 的响应输出,对他所管理的“真实系统”进行决策。 图1 1d s s 的基本模式 f i g 1 1d s sb a s i cm o d e 图1 1 中的方框内也给出了由s p r a g u e 提出d s s 结构【3 1 3 9 ,“,该结构由二库( 数 据库和模型库) 和一部件( 对话系统) 组成,一般称为两库结构。s p m g u e 的两库 结构对后来的d s s 结构的发展起了很大影响,相继出现了基于三库( 加方法库) 、 四库( 加知识库) 、五库( 加文本库) 、六库( 加图形库) 等多库的结构模式。基于 x 库的结构模式为d s s 提供了内核的支持,随各库增加,d s s 的功能由定量计算扩 大到对定性分析的支持,方便了多模型库的管理,人机界面变得更加友好,对d s s 的发展起到了很大的推动作用。但由于库的增加使得知识表示以及各个子系统接口 处理等变得更为复杂,可能导致d s s 的结构涣散和处理的低效率口“。此外,该结构 没有反映出d s s 的本质特征,如决策者是d s s 的主体的地位,具有一定的局限性。 重庆大学博士学位论文 b o n c z e k 于1 9 8 1 提出了另外种d s s 结构体系一基于知识的d s s ,由语言 子系统( l s ) 、知识库子系统( k s ) 和问题处理予系统( p p s ) 组成( 参见图1 2 ) 所示,也可以称为基于问题处理( p s s ) 的d s s 结构f 3 1 , 3 7 1 。其中 图1 2 基于知识的d s s 结构 f i g 1 2k n o w l e d g e - b a s e dd s ss t m i c t u r e 语言子系统是用户与系统联系的工具,用户的问题是通过自然语言子系统来 描述和响应的; 知识库子系统是d s s 能够解决用户问题的智囊,主要包括综合性的知识库, 其中存放有关问题领域的各j f 申知识( 数据、模型等) ; 问题子系统是d s s 的核心部分,它完成系统的动态过程,即接受用户的问 题,运用知识子系统的知识,实现用户问题的求解过程。 基于知识的d s s 结构将专家系统( e s ) 中的问题处理技术引入到d s s 中,克 服一些d s s 缺乏知识的弱点,符合d s s 智能化发展的趋势,对d s s 的发展起到了 很大的促进作用,较好地解决了对决策问题求解过程的控制。但该框架仍保留了e s 系统的求解思路,未能充分体现出决策者在模型建造和选择等方面的特点以及d s s 模型驱动的特点,另外该框架d s s 不具备学习能力,因此无法改善自身的性能。 实际应用的d s s 结构普遍都是基于以上两种基本结构演变而成。 1 2 2 决策支持系统存在的问题及解决方法 自2 0 实际7 0 年代提出决策支持系统以来,d s s 已经得到了很大发展。对于传 统的d s s ,由于其以定量数学模型为基础操作数据,使得其对决策中常见的定性问 题、模糊问题以及不确定问题等缺乏相应的支持_ t 段1 3 2 j :另外,模型库提供的分析 能力有限,它所提供的模型独立于环境之外,决策者和模型交互很少,模型参数几 乎固定不变,不能根据决策环境的变化提供主动支持p “。 随后提出的多库结构的d s s 以及基于知识的d s s 结构等都是为了更有效地解 决以上存在的问题。综合起来,其基本思想是在d s s 中充分结合人工智能( a r t i f i c i a l i n t e l l i g e n c e ,简称a d 和专家系统( e x p e r ts y s t e m ,简称e s ) 技术在定性分析和不 确定推理上的优势,利用人类在问题求解中的经验和知识,为解决上述问题提供了 新途径。a l 和e s 技术不仅深刻影响着d s s 的技术与结构,而且对d s s 的概念产 1 绪论 生了深刻的影响。近年来,e s 与d s s 的结合的研究直接体现在d s s 系统各个部件 的智能化上,如与人机对话部件的结合,与求解方法的结合,与数据库、模型库和 方法库及其管理系统的结合等等( 8 9 】。d s s 的研究也逐渐由过去的决策部件功能的 扩充发展到部件的综合集成,由过去的定量模型发展到基于知识的智能决策方法, 传统的决策支持系统逐渐向更高级的智能决策支持系统( i n t c l l i g e m d s s ,简称i d s s ) 发展。 然丽,决策支持系统的应用现状并不理想。真正投入运行并取得良好效果的例 子并不多,即便已投入使用的系统其功能也非常有限,有些开发的系统仅为简单的 查询系统或报表系统,并不能给决策者提供需要的辅助决策信息,远远达不到人们 的期望。总体来讲,d s s 系统在开发及使用过程中主要存在以下问题: 知识获取的“瓶颈”问题 d s s 中的知识包含在知识库以及模型库之中,知识库和模型库中的知识总是有 限的,而实际决策的情况有可能干差万别,库中的知识很难满足不断出现的各种实 际决策问题。 数据集成问题9 6 1 实际业务数据通常是分散的,其数据种类方式各异,有异构数据库上数据,也 有互联网上的数据,还有文本数据等等,而决策支持系统需要大量综合且动态集成 的数据,是否能有效动态集成这些数据将关系到决策系统能否真正地发挥作用。 数据库平台问题【9 7 传统的数据库系统面向以事务处理为主的联机事务处理( o n l i n et r a n s a c t i o n p r o c e s s i n g ,简称o l t p ) 应用,而o l t p 应用处理的数据量较少,而d s s 需要综合 处理大量的历史数据,因此传统数据库平台很难满足d s s 高级决策分析应用的需 要。 缺乏有效的数据分析手段 决策支持系统需要对数据进行高效多维分析以得到有价值的信息,而现有多数 分析工具为自行开发,在功能以及开放性和通用性方面都较差。 人机交互能力不足 传统决策支持系统采用模型操纵数据,要求决策者不仅具有决策问题领域知识, 还要有数据和模型的相关知识,使得其入机交互能力较差。 d s s 在从7 0 年代开始起步发展,到了8 0 年代初就达到了顶峰,之后就跌迸了 深渊。其中最根本原因是缺乏驱动d s s 所必须的原始数据,数据碎片和数据不致 等问题也使得d s s 很难得到迸一步的发展。1 9 9 0 年i n l l l o n 提出了数据仓库( d a t a w a r e h o u s e ,简称d w ) 的概念。d w 通过多数据源信息的概括、聚集和集成,建立 面向主题、集成、时变、持久的数据集合,从而为决策提供可用信息| 3 。与d w 技 重庆大学博士学位论文 术同时发展起来的有二种主要数据分析工具:数据挖掘( d a t am i n i n g ,简称d m l 和 联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) 。d m 是一种展望和预测 型的工具,能自动挖掘出数据间的潜在模式,发现决策者可能忽略的信息,并为他 们作出超前的、基于智能和知识的决策服务:而o l a p 是基于数据仓库的专门用于 支持复杂的分析型处理的软件技术,可以称为一种较浅层次的数据挖掘。d m 与 o l a p 技术可以相辅相成,结合成o l a m ,可以称为广义的数据挖掘,基于数据仓 库为决策支持服务。 虽然d w 、d m 和o l 世技术最初是作为三种独立的信息处理技术出现以解决 “数据爆炸知识贫乏”的现象,但是,由于它们之间内在的联系和互补性,使得这三 种技术在高级决策支持系统中已经成为一个密不可分的核心,同时也为d s s 系统解 决以上问题开辟了新的途径。具体体现在以下几点: d w 技术侧重于使用多维立方体方式存储和管理面向主题的数据,加上其固 有的集成性和时变性,决定了其非常适应作为数据分析平台,这为d s s 解决数据集 成和数据库平台问题提供了很好的解决方案; o l a p 技术侧重于数据仓库的多维数据分析,并将其分析结果转化为决策信 息,这与d w 的多维立方体存储方式形成了很好的统一。因此,利用基于d w 的 o l a p 技术不但较好地解决d s s 系统数据分析手段缺乏的问题,也解决了d s s 交 互能力差的弊端。 d m 技术是人工智能和数据库技术相结合的产物,可以挖掘出隐藏在海量数 据之中的潜在模式和知识,包括总结性知识、关联性知识、分类模型知识、聚类模 型知识等,这些知识既可以直接用于决策过程,也可以放入知识库中作为知识保存, 随着时间的推移将积累更多的知识。因此,d m 技术为解决d s s 系统的知识获取“瓶 颈”问题提供了良好的途径。 1 3 数据挖掘在决策支持系统中的应用及趋势分析 1 3 1 数据挖掘的过程和方法 运用基于计算机的方法( 包括新技术) ,按照既定的业务目标从海量数据中提取 出潜在的、有效的并能被人理解的模式( 知识) 的高级过程,就叫做数据挖掘,也 叫做数据开采或数据采掘( d a t am i n i n g ,d m ) l l j 。 d m 的二个基本目标是预测和捕述。预测指用一些变量或数据库中的若干已知 字段预测其它感兴趣的变量或字段的未知或未来的值;另一方面,描述指找到描述 数据的可理解模式。根据发现知识不同,d m 的基本任务为【9 - l :分类、聚类、预测、 关联性、特征及区分、变化以及偏差分析( c h a n g e a n dv a r i a t i o n ) 等。 关联分析 1 绪论 若两个或多个数据项的取值重复出现且概率很高时,它就存在某种关联,可以 建立起这些数据项的关联规则。关联规则常附加最小支持度和最小可信度二个阈值 指标,支持度表示该规则所代表事例( 元组) 占全部事例( 元组) 的百分比,可信度表 示该规则的所代表的事例占满足条件事例的百分比。 时序模式分析 时序模式分析的侧重点在于分析数据间的前后或因果关系。在时序模式中,需 要找出在某个最小时间内出现比率一直高于某一最小百分l l ( i 闽值) 的规则。这些规 则会随着形式的变化做适当的调整。时序模式中,一个有重要影响的方法是“相似时 序”。用相似时序的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多 个相似的时序事件。 分类分析 分类分析的输入集是一组记录集合和几种标记,首先按标记分类,然后检查这 些标定的记录,描述它们的特征。它代表了这类数据的整体信息,即该类的内涵描 述,一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中 的某一个。分类是利用训练样本集通过有关算法而求得分类规则。 聚类分析 聚类分析法的目的是根据一定的规则,合理地划分记录集合,并用显式或隐式 的方法描述不同的类别。当给定距离阈值后,各样本按阈值进行聚类。 偏差检测 数据库中的数据存在许多异常情况,从数据库中发现这些异常情况也很重要, 因为偏差中包括很多有用的知识,如分类中的反常实例、模式的例外、观察结果对 模型预测的偏差以及量值随时间的变化等。 时序预测 预测是利用历史数据找出变化规律,建立模型并用此模型来预测未来数据的种 类、特征等。 数据挖掘首先必须从实际应用的角度出发,清晰明确地陈述问题和阐明假设, 整个挖掘过程必须建立在挖掘对象( 即所研究领域的大量数据) 的深刻理解和把握 之上,拥有领域内的详尽的知识和经验,对象不同所采用的挖掘技术也不同,将挖 掘技术和专业知识有机地结合起来,对挖掘对象的了解将贯穿和持续整个的数据挖 掘过程。 数据挖掘一般f h - - 个阶段组成:数据准备、数据挖掘以及解释评估。数据挖掘 是这三个阶段的反复,如图1 3 所示。 重庆大学博士学位论文 转换后 数据 徽 啸z 愀据同矬 数据晌出;蝴徽 f :习匕! _ l 预处理 : 数据源 d j数据选择 0 0 0 数据集成 ; 数据挖掘 i l i i 卜一一一一一 数据准备一一一一一一叶- 一数据挖掘一十- 解释评估叫 图1 ,3 数据挖掘的过程 f i g1 3a no v e r v i e wo f t h es t e p sc o m p r i s i n gt h ed a t am i n i n gp r o c e s s 数据准备 数据准备是是数据挖掘的第一个阶段。其好坏将影响数据挖掘的效率、准确度 以及最终挖掘模式的有效性。该阶段又可以细分为4 个步骤:数据集成、数据选择、 数据预处理以及数据转换。 数据挖掘 选择并应用适当数据挖掘技术,从数据中提取用户感兴趣的知识,这些知识可 以用一种特定的方式表示或使用一些常用的方式表示。 解释评估 解释评估是根据最终用户的决策目的对提取的知识进行分析,把最有价值的信 息区分出来,提交给用户。在这个过程中,不仅要把知识以能被人理解的方式表示 出来,还要对其进行有效性评估,如果不能满足用户要求,则应重复上述数据挖掘 过程。 d m 是人工智能和数据库相结合的产物,它的许多方法来源于机器学习。因此 机器学习、模式识别、人工智能等领域的常规技术,如聚类、决策树、统计等方法 经过改进后均可用于d m 。对于不同应用系统的数据挖掘技术采用不同的技术和手 段,数据挖掘方法主要有【l l 】:数学统汁方法、决策树方法、神经网络方法、遗传 进化方法( g a ) 、基于事例的推理方法、粗集( r o u g hs e t ,r s ) 方法以及可视化技 术( v t ) 等。 1 3 2 数据挖掘在决策支持空间层次上的作用 k p a r s a y e 把决策支持空间从应用层次上分成四个子空问1 9 ”,如图1 4 所示。其 一 霎塞奎堂壁主兰垡丝奎 转换后 数据 数据挖掘 卜一一一一一 数据准备一一一一一一 _ 一数据挖掘一叶- 解释评估叫 图75 数据挖掘的过程 f i 9 1 3 a n o v e r v i e w o f t h es t e n se o m p r i s i n g t h ed a t a m i n i n g p t o b e s s 数据准备 数据准备是是数据挖掘的第一个阶段。其好坏将影响数据挖掘的效率、准确度 以及最终挖掘模式的有教性。该阶段又可以细分为4 个步骤:数据集成、数据选择、 数始预处理以及数据转换。 数据挖掘 选择并应用适当数据挖掘按术,从数据中提取用户感兴趣的知识,这些知识可 以用 种特定的方式表示或使用一些常用的方式表示。 解释评估 解释评估是根据最终用户的决策目的对提取的知识进行分析,把最有价值的信 息区分出来,提交给用户。在这个过程中,不仅要把知汉以能被人理解的方式表示 出来,还要对其进行有效性评估,如果不能满足用户要求,则应重复上述数据挖掘 过程。 d m 是人工智能和数据库相结合的产物,它的许多方法来源于机器学习。因此 机器学习、模式识别、人工智能等领域的常规技术,如聚类、决策树、统计等方法 经过改进后均可用于d m 。对于不同应用系统的数据挖掘技术采用不同的技术和手 段数据挖掘方法主要有【1 1 】:数学统计方法、决策树方法、神经网络方法、遗传 进化方法( g a ) 、基于事例的推理方法、粗集( r o t l 曲s e t ,r s ) 方法以及可视化技 术( v t ) 等。 132 数据挖掘在决策支持空间层次上的作用 kp a s a y e 把决策支持空间从应用层次上分成四个子空问1 9 7 ,如图1 , 4 所示。其 k p m s a y e 把决镶支持空间从应甩层次上分成四个了空j 司”,如图1 , 4 所示。其 鬻囝i z 择 据和l l 酗 黜虻一 日 一一 卧黼g 一,啪 1 绪论 中: 图1 4 决策支持的空间层次 f i g 1 4t h es p a c ea r r a n g e m e n to f d e c i s i o ns u p p o r t 数据空间( d a t as p a c e ) 它利用现有数据库管理系统的查询检索和报表功能,进行基于关键字的决策查 询,实现联机事务处理o l t p 。 聚合空间( a g g r e g a t i o ns p a c e ) 利用聚集运算( s u m 、a v g 、m 1 n 、m a x ) ,结合多维分析和统计分析,实现在 线o l a p ,以提供决策参考的统计分析数据。 影响空间( i n f l u e n c es p a c e ) 按照相似性的聚类、差异性的分类方法,发现关联性及结构模式、顺序模式、 相似时序、建立预测模型,从数据库或大量数据记录中发现隐含的有用信息,这是 在更高层次上的知识发现,是数据挖据实质性内涵。 变化空间( v a r i m i o ns p a c e ) 。 负责回答某种变化的过程和速率问题。 在决策支持空间的四个子空间中,前二个空间主要处理数值的计算分析,而后 二个空间比前二个空间要大得多,主要处理逻辑性质的决策支持。从中我们也可以 看出o l a m 技术在整个决策支持空间中所处的重要地位。总之,基于数据仓库的 o l a m 技术能极大地增强d s s 决策支持的功能,为d s s 的进一步发展开辟新的道 路和方向。 1 3 3 基于数据挖掘的决策支持系统应用研究现状 目前基于数据挖掘的决策支持系统的研究主要集中在结构设计实现、挖掘算法 以及行业应用研究等三个方面。 结构设计方面 基于数据挖掘的决策支持系统在总体结构上一般都采用融合方式实现,即将 重庆大学博士学位论文 d m 、o l a p 、d w 作为单独的部件,根据各自的功能和联系实现与其它部件( 模型 库、方法库、知识库、人机接口等) 的联系和沟通1 8 9 1 。另外的研究工作涉及到各个 部件之间的具体的融合方式,如文献 9 9 1 介绍一种知识库与数据挖掘知识之间的查 询协同算法以及知识库管理和刷新算法,实现知识库的增量维护,解决在大容量数 据库中快速发现知识的问题,提高决策支持的效率:文献 1 0 0 阐述了采用数据挖掘 中的范例推理技术用于决策支持系统。另外,为了在互联网上实现分布式d s s 系统, 采用人工智能最新技术之一的a g e n t 和多a g e n t 技术来构建各个d s s 智能部件,如 交互a g e n t 、知识库管理a g e n t 、数据挖掘a g e n t 等等,而这些a g e n t 可分布于网上 的任何位置【9 8 1 。 目前在结构设计实现方面还要结合考虑行业应用的具体特点,实现高效的面向 专业的融合方式,如人机交互中问题的引导设计、自然语言设计研究以及知识的管 理方式等等,仍然需要作进一步的研究。 挖掘算法方面 在基于数据挖掘的决策支持系统研究中,挖掘算法的一直是其主要的研究方向, 主要有关联算法、分类算法、聚类算法以及预测算法等。 1 ) 关联规则算法 关联规则挖掘一般分为二步,首先是寻找支持度大于预定义最小值的数据项集, 然后是从找出的数据项集中生成关联规则。目前通用的搜索算法有为p r i o r i 算法、 改进的p r i o r 算法( d h p 算法) 以及并行挖掘算法( p d m 算法、c d 算法、d m a 算 法) 等。 2 1 分类算法 主要有基于决策树的方法( 如i d 3 ,c 4 5 ) 、基于神经网络的方法、基于粗集的分 类方法、基于模糊的方法、基于遗传的方法以及基于统计的方法等。 3 ) 时序预测方法 典型的预测方法是回归分析,还有近年来发展起来的神经网络方法、小波分析 方法等。 4 ) 聚类算法 聚类分析的算法可归纳为如下五大类:划分方法、层次方法、密度方法、网格 方法以及模型方法。基于模型的方法主要分两类:统计学方法和神经元网络方法。 由于数据挖掘面临不断增加的越来越大的海量数据库,针对行业特点开发高效 具有增量特性的数据挖掘算法是进一步研究的方向。 行业应用方面 在行业应用方面,基于数据挖掘的决策支持系统具有十分广泛的应用前景,几 乎可以用于所有使用计算机的行业领域。构建d s s 基本步骤为: 1 绪论 1 ) 分析决策需求,描述和表示决策的问题。这是一个分析过程,通过了解决策 者的需求,确定决策主题、决策风格、流通信息及其传送方式等。 2 ) 确定数据来源、建立数据仓库。从可操作的数据记录、数据库或文件系统中 筛选所需的数据,对它们重新进行组织,存入数据仓库的不同信息层。然后综合并 行技术、关系数据库系统和中间件,在现有异构环境基础上建立数据仓库。 3 ) 针对所要发现任务的所属类别,如归类、回归分析、聚类、发现关联规则等, 设计或选择有效的数据挖掘算法并加以实现。 4 ) 数据挖掘,逐层综合。调用数据挖掘功能从平凡的历史数据中提出综合数 据,独立存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论