(计算机应用技术专业论文)贝叶斯算法在电力营销决策中的应用与研究.pdf_第1页
(计算机应用技术专业论文)贝叶斯算法在电力营销决策中的应用与研究.pdf_第2页
(计算机应用技术专业论文)贝叶斯算法在电力营销决策中的应用与研究.pdf_第3页
(计算机应用技术专业论文)贝叶斯算法在电力营销决策中的应用与研究.pdf_第4页
(计算机应用技术专业论文)贝叶斯算法在电力营销决策中的应用与研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)贝叶斯算法在电力营销决策中的应用与研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要 摘要 电力企业数年来积累了大量的数据,迫切需要通过知识发现来为营销决策者提 供可靠的依据。贝叶斯方法以其独特的不确定性知识表达形式、丰富的概率表达能 力和综合先验知识的学习特性称为当前知识发现领域中最引入注目的焦点之一将 贝叶斯方法应用于电力营销决策,能够取得很多其他方法无法比拟的实际效果。本 文重点介绍了贝叶斯网络在数据挖掘中的应用,结合电力营销者所关心的问题,构 造了适合电力营销决策的贝叶斯网络,用于客户价值评估、用电异常监测等领域, 并且通过网络学习算法不断完善网络模型。通过实际数据的实验表明,贝叶斯网络 用于电力营销决策是实际可靠的。 关键词:数据挖掘,贝叶斯方法,贝叶斯网络,电力营销决策 a b s t r a c t e l e c t r i cp o w e re n t e r p r i s eh a sa c c u m u l a t e dm u c hd a t af o rm a n yy e a r s ,a n dn e e d st o g i v er e l i a b l eb a s e sf o rs e l l e r sw h om a k ed e c i s i o n st h r o u g hk n o w l e d g ed i s c o v e r i n g b a y e s i a nm e t h o dh a sb e e no n eo ft h em o s te x c e l l e n tf o c u s e si nk n o w l e d g ed i s c o v e r i n g d o m a i nt h r o u g hi t su n c e r t a i n k n o w l e d g ee x p r e s s i o nf o r m ,a b u n d a n tp r o b a b i l i t ) r e x p r e s s i o na b i l i t ya n ds t u d yc h a r a c t e r i s t i cw i t ht r a n s c e n d e n tk n o w l e d g e i n t r o d u c i n g b a y e s i a nm e t h o dt oe l e c t r i cp o w e rm a r k e t i n gd e c i s i o n - m a k i n gc a ng e tm a n ya c t u a l e f f e c t st h a to t h e rm e t h o d sc a nn o tm a t c h t h i sp a p e rg i v e sf o c u so nt h eb a y e s i a n n e t w o r k sa p p l i c a t i o ni nd a t am i n i n g i tc o n s t r u c t sb a y e s i a nn e t w o r kw h i c hi ss u i t a b l et o e l e c t r i cp o w e rm a r k e t i n gd e c i s i o n - m a k i n gc o m b i n i n g 、衍t ht h ep r o b l e mt h a ts e l l e r s c o b c e l nf o r 。t h e s en e t sa r eu s e df o re v a l u a t i n gc u s t o m e r sv a l u e ,m o n i t o r i n gt h ed i s o r d e r o fu t i l i z i n ge l e c t r i ca n do t h e rp a r t s ,肇yp e r f e c tt h e m s e l v e st h r o u g hs t u d ya l g o r i t h m : t h ee x p e r i m e n t sw i t ha c t u a ld a t as h o wt h a tb a y e s i a nn e t w o r ki sp r a c t i c a la n dr e l i a b l ei n e l e c t r i cp o w e rm a r k e t i n gd e c i s i o n - m a k i n g b a it a o ( c o m p u t e ra p p l i e dt e c h n o l o g y ) d i r e c t e db yp r o f m e n gj i a n l i a n g k e yw o r d s :d a t am i n i n g ,b a y e s i a n m e t h o d ,b a y e s i a nn e t w o r k ,e l e c t r i cp o w e r m a r k e t i n gd e c i s i o n m a k i n g 华北电力大学硕士学位论文摘要 摘要 电力企业数年来积累了大量的数据,迫切需要通过知识发现来为营销决策者提 供可靠的依据。贝叶斯方法以其独特的不确定性知识表达形式、丰富的概率表达能 力和综合先验知识的学习特性称为当前知识发现领域中最引入注目的焦点之一将 贝叶斯方法应用于电力营销决策,能够取得很多其他方法无法比拟的实际效果。本 文重点介绍了贝叶斯网络在数据挖掘中的应用,结合电力营销者所关心的问题,构 造了适合电力营销决策的贝叶斯网络,用于客户价值评估、用电异常监测等领域, 并且通过网络学习算法不断完善网络模型。通过实际数据的实验表明,贝叶斯网络 用于电力营销决策是实际可靠的。 关键词:数据挖掘,贝叶斯方法,贝叶斯网络,电力营销决策 a b s t r a c t e l e c t r i cp o w e re n t e r p r i s eh a sa c c u m u l a t e dm u c hd a t af o rm a n yy e a r s ,a n dn e e d st o g i v er e l i a b l eb a s e sf o rs e l l e r sw h om a k ed e c i s i o n st h r o u g hk n o w l e d g ed i s c o v e r i n g b a y e s i a nm e t h o dh a sb e e no n eo ft h em o s te x c e l l e n tf o c u s e si nk n o w l e d g ed i s c o v e r i n g d o m a i nt h r o u g hi t su n c e r t a i nk n o w l e d g ee x p r e s s i o n f o r m ,a b u n d a n tp r o b a b i l i t y e x p r e s s i o na b i l i t ya n ds t u d yc h a r a c t e r i s t i cw i t ht r a n s c e n d e n tk n o w l e d g e i n t r o d u c i n g b a y e s i a nm e t h o dt oe l e c t r i cp o w e rm a r k e t i n gd e c i s i o n - m a k i n gc a ng e tm a n ya c t u a l e f f e c t st h a to t h e rm e t h o d sc a nn o tm a t c h t h i sp a p e rg i v e sf o c u so nt h eb a y e s i a n n e t w o r k sa p p l i c a t i o ni nd a t am i n i n g i tc o n s t r u c t sb a y e s i a nn e t w o r kw h i c hi ss u i t a b l et o e l e c t r i cp o w e rm a r k e t i n gd e c i s i o n - m a k i n gc o m b i n i n gw i t ht h ep r o b l e mt h a ts e l l e r s c o b c e l nf o r 。t h e s en e t sa r eu s e df o re v a l u a t i n gc u s t o m e r sv a l u e ,m o n i t o r i n gt h ed i s o r d e r o fu t i l i z i n ge l e c t r i ca n do t h e rp a r t s ,妒yp e r f e c tt h e m s e l v e st h r o u g hs t u d ya l g o r i t h m : t h ee x p e r i m e n t sw i t ha c t u a ld a t as h o wt h a tb a y e s i a nn e t w o r ki sp r a c t i c a la n dr e l i a b l ei n e l e c t r i cp o w e rm a r k e t i n gd e c i s i o n - m a k i n g b a it a o ( c o m p u t e ra p p l i e dt e c h n o l o g y ) d i r e c t e db yp r o f m e n gj i a n l i a n g k e yw o r d s :d a t am i n i n g ,b a y e s i a n m e t h o d ,b a y e s i a nn e t w o r k ,e l e c t r i cp o w e r m a r k e t i n gd e c i s i o n m a k i n g 声明户明 本人郑重声明:此处所提交的硕士学位论文贝叶斯算法在电力营销决策中的应用 与研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和 取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:日期遵:墨:f 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 新躲益彰 日期: 华北电力大学硕士学位论文 第一章引言 贝叶斯网络最早是由r h o w a r d 和j m a t b e s o n 于1 9 8 1 年提出来的,早期的贝 叶斯网络主要在专家系统中用来表述不确定的专家知识。随着人工智能的发展,尤 其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供了更广阔的空间。 2 0 世纪8 0 年代贝叶斯网络用于专家系统的知识表示,2 0 世纪9 0 年代进一步研究 可学习的贝叶斯网络,用于数据挖掘和机器学习,近年来,贝叶斯网络更广泛应用 于因果推理、不确定性知识表达、模式识别和聚类分析等,使得这一学科蓬勃发展 并且已经初具规模。 本文主要研究贝叶斯理论中的贝叶斯网络在电力营销决策中的应用,由于数据 挖掘和预测在电力营销决策中已经日益成为最为关注的问题,所以本文重点讨论了 以先验知识和贝叶斯算法为基础的贝叶斯网络的构造方法,研究了该网络模型用于 数据挖掘以及预测的方法,最后,将其应用在电力营销决策的评估和预测中。 1 1 论文背景及意义 随着电力体制改革的深入,供电企业的市场化步伐将会加快。电力营销作为电 力市场化的重要组成部分,市场化的运作好坏将直接决定电力工业市场化改革的进 程和成败。而决策支持系统的特点和技术又决定了它是电力营销市场化运作的最好 技术平台。所以能够把决策支持系统很好的应用于电力营销工作,不仅能加速电力 营销人员的思想和工作作风的转变,而且可以保证电力营销工作的科学、高效、准 确,并促进电力市场化改革的进程。 一方面,电力营销是随着电力行业信息化的需要而产生的,用来帮助企业内高 层次的决策者进行决策。目前电力管理者和决策者只能根据固定的、定时的报表系 统获得有限的业务信息,而无法全面的、系统的了解用电客户和市场需求。需求侧 市场已经转变为以客户为中心的买方市场,用电与缴费矛盾日益突出。在用户年用 电量持续增长的情况下,每年的流失电费、拖欠电费多达上亿,严重阻碍了企业的 发展和客户服务质量的提高。但是电费的控制与解决不是一个单纯的问题,它与用 电服务、信用度、市场营销策略、电费监控手段等密不可分,因此要利用数据挖掘 技术研究先进的、实用的分析决策系统,用来解决供电企业运营管理中最关键、最 突出的问题。贝叶斯网络是用来表示变量集合的连续概率分布的图形模式,它提供 了一种自然的表示因果信息的方法,用来发现数据间的潜在关系,由于这些特点, 使得它在数据挖掘中得以广泛应用。 另一方面,多年来,在电力营销中积累了大量的用电数据,这些数据中蕴含着 该领域内在的运行机制和规律,往往是进行正确决策的重要依据。过去一直没有有 华北电力大学硕士学位论文 效的方法发现这些机制和规律,知识发现( k d d ) 就是应这一类需求而产生的一种 具有很强的实用性的理论和技术,数据挖掘( d m ) 则是只是发现的核心环节。在众 多的数据挖掘技术中( 神经网络、遗传算法、决策树及关联规则等) 贝叶斯网络以 其独特的方式和良好的性能正日益受到人们的关注。联机分析处理只能用于决策的 表层知识,数据挖掘却能提供深层的知识,即提供数据内部所隐藏的有用知识。贝 叶斯网络是数据挖掘的一个非常有用的工具,它能够定性和定量的分析属性之间的 依赖关系( 这些关系既是电力系统决策部门所关心的知识) ,并进行概率推理。 1 2 国内外研究现状 几乎绝大部分的决策支持系统研究都是基于生产制造业、产品销售等领域,很 少涉及到电力工业,实际上电力工业它本身的特点,决定了它囊括了生产制造业的 生产和产品销售业的对外销售其中的所有环节,从这一角度考虑,决策支持系统同 样适用于电力工业。 在国内,清华大学对贝叶斯网络推理及其在数据挖掘等方面的理论及应用进行 了研究;重庆大学在贝叶斯网络学习与推理方法方面进行了理论研究,并对基于贝 叶斯网络的不确定知识处理方法进行了一定的研究。吉林大学对贝叶斯网络的构建 和在数据挖掘中应用进行了研究。 目前国外许多学者和研究机构都对贝叶斯网络进行了深入的研究主要集中在 以下几个方面: ( 1 ) 基于贝叶斯网络的推理; ( 2 ) 基于贝叶斯网络的学习; ( 3 ) 基于贝叶斯网络的应用: ( 4 ) 数据挖掘中贝叶斯网络建造。 1 3 本文的主要工作 本文在研究电力行业具体情况的基础上,将贝叶斯网络应用到数据挖掘技术, 结合专家知识,为电力企业的营销决策者进行多角度的预测和决策构造贝叶斯网 络,并且优化网络学习算法,进行网络结构的学习。 ( 1 ) 论述了贝叶斯网络在数据挖掘以及预测中应用的方式,以及贝叶斯方法 与其他方法相比的优势。 ( 2 ) 研究了电力营销理论及决策分析的相关概念,建立电力营销系统用户的 属性模型,对数据进行初始化。作为电力营销的基础性工作,本文将利用贝叶斯参 数预测从多角度建立电力营销参数的预测模型。模型利用决策者关心属性的历史资 料及设计者的经验,作为先验信息形成先验分布,并结合样本数据形成被估数据的 2 华北电力大学硕士学位论文 后验分布。 ( 3 ) 对电力营销决策中的几种用于预测和评估的贝叶斯网络进行参数学习、 概率学习、结构学习,重点分析了客户价值评估和客户用电风险评估模型,并且结合 实际数据,证明该网络结构应用于电力营销的决策中的切实可行性。 ( 4 ) 使用b r i oi n t e l l i g e n c ed e s i g n e r 工具,用j s p 作为脚本语言,以 o r a c l e 8 i 作为后台数据库,将贝叶斯网络作为主要决策算法,应用到电力营销决策 支持系统中。 华北电力大学硕士学位论文 第二章数据挖掘与贝叶斯网络 贝叶斯网络起源于贝叶斯统计学,是以概率论为基础的图模型,它为不确定知 识的表达提供了自然、直观的方法。本章主要介绍贝叶斯网络的理论基础,将贝叶 斯方法与数据挖掘其它方法进行比较,并分析了将贝叶斯网络应用与数据挖掘的优 点及不足,研究了该网络模型用于数据挖掘以及预测的方法。 2 1 贝叶斯方法的基本观点 贝叶斯统计分析起源于英国数学家贝叶斯( r t b a y e s ) 撰写的一篇论文:a n e s s a yt o w a r d ss o l v i n ga p r o b l e mi n t h ed o c t r i n eo f c h a n c e s ( 机遇理论中一个问题的 解) n 1 文中比不应用于几乎所有的学科,并取得了显著的成果。现代贝叶斯统计学 的发展同时也极大地促进了现代统计推断方法的研究进展。在统计学领域内,贝叶 斯理论在很多方面取得了很大的发展。包括生物统计、因果关系研究、分类、判别、 神经网络、决策分析和决策论、试验设计、经验贝叶斯、有穷总体抽样、广义线性 模型、图方法和贝叶斯网络、多层建模、图像处理、信息论、缺失数据、非参数统 计和函数估计,顺序数据、预测性推断和模型平均、可靠性和生存分析、序贯分析、 信号处理、时间序列、空间统计、检验、模型选择和变量选择等。 定义2 1 “在事件b 出现”的条件下,事件a 的概率,称为事件b 出现的条件下, 事件a 的条件概率( c o n d i t i o np r 。b a b i l i t y ) ,记作以爿ib ) rp ( - 4i 召) = ! 篙等。 定义2 2 全概率公式。对任一事件a ,若有互不相容的事件置( i - l ,2 ,帕,满 足尸( e ) o ,p ( e ) = l ( f = 1 ,2 ,n ) l f f 旦3 彳,则事件a 的概率可用下式计算: p ( 么) = 尸( e ) 尸似i 丑) 。此概率称为全概率公式。 定义2 3 先验概率和后验概率。用e ( h ) 表示在没有训练数据前假设厅拥有的初 始概率,p ( h ) 被称为h 的先验概率。先验概率反应了关于h 是一正确假设的机会的 背景知识,如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概 率。类似地,p ( d ) 表示训练数据d 的先验概率,p ( d lh ) 表示假设h 成立时d 的概 率。我们关心的是p ( h id ) ,即给定d 时h 成立的概率,称为h 的后验概率。 定义2 4 贝叶斯法则。给定一个数据集z = “,x 。) ,假设扛和也是两个假设, 和嘎必有一个成立,但是二者不能同时成立。又设五是可观测事件。贝叶斯法则 4 华北电力大学硕士学位论文 为: 尸( 啊i 薯) = 瓦而丽v ( x , 而lh t ) p 丽( h i ) 丽 其中,尸( i t ) 称为后验概率,而p ( ) 是假设呜的先验概率。e c x , ) 是出现毛的概率。 e ( x ;i ) 是x j 元组满足给定假设的条件概率。 当存在m 种不同的假设时,有: p ( 而) = 杰p ( 而i 吩妒( 1 ) , 于是就有: p ( 啊l t ) = 璺掣 j l l - 、一f , 从直观上看,只扛i 薯) 随着以磊) 的增长而增长,同时随着尸( 薯) 的增加而减小。 这是因为如果而独立于 时被观察到的可能性越大,那么葺对 的支持度越小。 贝叶斯法则允许为给定的一个数据集指定一个假设的概率值p ( 丙。i 毛) ,在实际 问题中,可以是属性值,也可能是其他数据标签。可以是属性值、属性值的集合, 还可以使一些属性值的组合。 贝叶斯方法是以贝叶斯理论为基础的,它的一个显著特点是可以通过分析结果 来了解假设,也就是说,在对先验知识知之甚少,或者毫不知情的情况下,贝叶斯 方法具有其它方法不可比拟的长处口1 。而数据挖掘技术的一个重要应用就是挖掘先 前未知的知识,数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质 区别之一是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘 所得到的知识应具有先前未知,有效和可实用三个特征。其中先前未知的信息是指 该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知 识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒 之间有着惊人的联系。 2 2 贝叶斯方法同其他方法的比较 1 关联分析方法 关联规则分析的优点是,可以产生清晰有用的结果,而且它的处理过程可以看 到,处理起来相对也比较简单,因此它有一个其它方法不具有的长处,到目前为止, 用于发现关联规则的算法和应用都比较成熟。关联规则本身也存在一些问题: ( 1 ) 支持度仅以出现次数为评价对象,可能忽略销售额大而次数很少的项目。 ( 2 ) 分析出来的关系可能是随机的。 ( 3 ) 置信度低的数据可能反映很重要的市场信息。可能是替代品或竞争产品。 2 决策树 决策树一般都是自上而下的来生成的。选择分割的方法有好几种,但是目的都 5 华北电力大学硕士学位论文 是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路 径就是一条“规则 。有些规则的效果可以比其他的一些规则要好。决策树方法最 突出的优点是: ( 1 ) 可以生成可以理解的规则; ( 2 ) 计算量相对来说不是很大: ( 3 ) 可以处理连续和种类字段: ( 4 ) 决策树可以清晰的显示哪些字段比较重要。 分析不同的影响因素对分析目标的影响,找到关键的影响因素。决策树法的优 点是直观,但是随着数据复杂性的提高,其分支树也会增多,管理困难。而且很难 基于多个变量组合发现规则。不同决策树分支之间的分裂也不平滑。另外,对连续 性的字段比较难预测,而且当类别太多时,错误可能就会增加的比较快。一般的算 法分类的时候,只是根据一个属性来分类。 3 神经网络 神经网络较贝叶斯方法及其它方法的优点是:大规模的并行处理和分布式的信 息存储,良好的自适应、自组织性,以及很强的学习功能、联想功能和容错功能。 与当今的冯诺依曼式计算机相比,更加接近人脑的信息处理模式。 主要表现如下: ( 1 ) 神经网络能够处理连续的模拟信号。例如连续灰度变化的图像信号。 ( 2 ) 能够处理混沌的、不完全的、模糊的信息。 ( 3 ) 传统的计算机能给出精确的解答,神经网络给出的是次最优的逼近解答。 ( 4 ) 神经网络并行分布工作,各组成部分同时参与运算,单个神经元的动作速 度不高,但总体的处理速度极快。 ( 5 ) 神经网络信息存储分布于全网络各个权重变换之中,某些单元障碍并不影 响信息的完整,具有鲁棒性。 ( 6 ) 传统计算机要求有准确的输入条件,才能给出精确解。神经网络只要求部 分条件,甚至对于包含有部分错误的输入,也能得出较好的解答,具有容错性。 ( 7 ) 神经网络在处理自然语言理解、图像模式识别、景物理解、不完整信息的 处理、智能机器人控制等方面有优势。 神经网络也有其不足之处。首先,神经网络对分类模型比较适合,但是,神经网络 的隐藏层可以说是一个黑盒子,得出结论的因素并不十分明显。同时其输出结果也没有 任何解释,这将影响结果的可信度及可接受程度。其次,神经网络需要较长的学习时间, 因此当数据量很大时,性能可能会出现问题。 4 。距离法进行分类、聚类 由于分类或聚类体系中的类别不是完全互斥的,存在这样一些既属于其中一个 类别,又同时属于其它类别的数据,对于这种数据,分类或聚类算法无法确定数据 6 华北电力大学硕士学位论文 所属的所有类别。因此,需要对每个类别确定阈值,当数据在该类的阈值之上时, 就将数据归于该类中。 阈值的确定是十分困难的,理论上,没有很好的解决方法,一般采用预定初始 值,然后给出测试数据,使用分类器进行分类或聚类,再根据分类或聚类的准确程 度调整初始值,这样的方法有两个缺点:首先,初始值的确定不容易,完全是根据 经验或简单的测试而定:其次,调整的幅度无法确定,当初始值过高或过低需要增 减时,增减的幅度无法很好的确定,只能反复测试,反复调整,这样就大大地增加 了工作量。 相对于数据挖掘的其它算法贝叶斯方法也存在着不足之处: ( 1 ) 贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者 以前的实验结论,没有确定的理论依据作支持,因此在很多方面颇有争议。由于很 多工作都是基于先验信息的,如果先验信息不正确,或者存在误差,那么最后导致 的结论就会是不可想象的。尤其是在数据挖掘中,挖掘出的知识也是不可预知的, 就是说不知道挖掘出的知识是有用的还是无用的,甚至是错误的。虽然知识发现中 有一步是进行知识评估,但是这种评估并不能总是知识的可用性和有效性,特别是 不能确定先验信息是否正确时,这种评估更带有不确定性“】。 ( 2 ) 处理数据复杂性高,因此时间和空间消耗也比较大。贝叶斯方法要进行后 验概率的计算、区间估计、假设检验等,大量的计算是不可避免的。 2 3 贝叶斯网络在数据挖掘中的应用 2 3 1 贝叶斯网络的基本概念 贝叶斯网( b a y e s i a nn e t w o r k ) 又称为信念网络( b e l i e fn e t w o r k ) 、概率网 ( p r o b a b i l i t yn e t w o r k ) 是美国加州大学j p e a r l 教授首次完整提出的,是继模糊逻辑、 可信度方法和神经网络等方法之后的不确定知识表示模型,它不仅有着坚实的概率 论理论基础,同时又能够很好地同专家头脑中的知识结构相对应,所以引起了人们 广泛重视,在医疗诊断系统,数据挖掘,决策支持系统,软件开发过程的软件测试, 网站的智能导航,电力系统的可靠性分析、故障诊断等都有着重要的应用价值和广 阔的应用,己经成为人工智能领域对不确定性知识的描述和推理十分重要的方法佑1 。 图2 1 是一个简单的叶斯网络。 7 华北电力大学硕士学位论文 图2 - 1 简单的贝叶斯网络 贝叶斯网络是用来表示数据概率知识的模型,是以贝叶斯概率理论为基础的, 是概率论与论相结合的产物。它可以获得数据集中各变量间的条件概率,判断变量 间的因果关系。在许多现实的情况下,一些规则不能对数据进行全面描述。建立数 据库完整的模型是比较困难的,而且所建立的模型也比较复杂。贝叶斯网络可以对 规则进行补充,它的图形表示方式更容易理解。同时,它是一种数学模型,可以在 不确定的情况下进行推理。 在形式上,贝叶斯网络是一个有向无环图( d i r e c t e da c y c l i eg r a p h ,简称d a g ) 。 网络中每一个节点表示- 个属性,每一条边表示节点间的依赖性。从节点a 到节点 b 的边表示因果关系即节点b 的值依赖节点a 的值。贝叶斯网络的变量是离散的。 每一个节点与一系列的参数有关用m 表示一个节点,用兀j 表示m 父节点集。m 的参数是以尸( mi 兀m ) 形式表示的条件概率分布,这是每个丌j r , 的概率分布。 2 3 2 数据挖掘技术 数据挖掘就是从大型数据集的数据中提取人们感兴趣的知识。这些数据是大量 的、不完全的、有噪声的、模糊的、随机的,要提取的知识是隐含的、事先未知的 潜在有用信息,这些知识表示为概念、规则、规律、模式等形式 。还有很多和这 一术语相近似的术语,如从数据库中发现知识、数据分析、数据融合以及决策支持 等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可 以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图 像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管 华北电力大学硕士学位论文 理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据 挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智 能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 数据挖掘所发现的知识有以下几种:概化型知识,反映同类事物共同性质的知 识:特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属 性差别的知识;关联型知识,反映事物之间关联或依赖的知识;预测型知识,根据 历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。 数据挖掘可以发现基于以上类型的知识,归根到底集于一点就是,通过预测未 来趋势及行为,做出前瞻的、基于知识的决策。 数据挖掘的目标是从数据集中发现隐含的、有意义的知识,主要有以下几类功 能。他们是:自动预测趋势和行为、关联分析、分类、聚类、概念描述、偏差分析。 完整的数据挖掘一般有以下5 个步骤: 具体工作流程如图2 3 : 图2 - 2 完整的数据挖掘流程概图 图2 - 3 数据挖掘的具体工作流程 9 华北电力大学硕士学位论文 工作流中各步骤解释如下: ( 1 ) 问题定义:了解相关领域的有关情况,熟悉背景知识,弄清用户要求。定义要挖 掘的目标。 ( 2 ) 数据提取:根据要求从数据库中提取相关的数据。 ( 3 ) 数据预处理:主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据 的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。 ( 4 ) 知识获取:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知 识可以用一种特定的方式表示或使用一些常用的表示方式。 ( 5 ) 评估:将发现的知识以用户能理解的方式呈现,例如某种规则,再根据实际执行 情况对知识发现过程中的具体处理阶段进行优化,直到满足用户要求。 2 3 3 用于数据挖掘的贝叶斯网络 贝叶斯网络不但可以表示不确定知识,而且可以进行概率推理,贝叶斯网络的 学习算法还能从大量的数据中自动构造贝叶斯网络,这使得贝叶斯网络非常适合于 不确定性知识发现。图2 - 4 是利用贝叶斯网络进行数据挖掘( d m ) 的框架。 图2 - 4 基于贝叶斯网络的数据挖掘框架 贝叶斯网络应用于数据挖掘有以下优点: ( 1 ) 贝叶斯网络建立在概率论之上,具有坚实的数学理论基础。贝叶斯网络包 括两个部分:拓扑结构与参数。网络中各节点处的条件概率表定量地描述节点间的 概率依赖关系,边定性地描述了节点间的因果关系。概率化使贝叶斯网络学习时允 许数据样本的不完整和噪声数据的存在。 ( 2 ) 贝叶斯网络能挖掘出知识的隐含性口从数据中学习到贝叶斯网络后,对网 l o 华北电力大学硕士学位论文 络进行推理、解释,能获得想要的知识、概念和决策信息。 ( 3 ) 贝叶斯网络具有良好的可理解性和逻辑性。图形化结构中表现出来的条件 依赖关系,可以对知识进行直观解释,符合人们的思维习惯,容易理解。 ( 4 ) 贝叶斯网络中对条件独立性的利用和变量之间关系的限制,极大地简化了 概率计算,在一定程度上贝叶斯推理的n p 难题,还能进行因果双向推理。 目前,贝叶斯网络领域的研究工作主要集中在以下三个方面:基于贝叶斯网络 的推理、基于贝叶斯网络的学习和基于贝叶斯网络的应用。其中基于贝叶斯网络的 推理一般分为:精确推理和近似推理两个部分,主要研究高效、适用于不同网络的 推理算法。基于贝叶斯网络的学习分为结构学习和参数学习。参数学习包括无丢失 数据的参数学习和从不完整数据集中的参数学习;结构学习是在贝叶斯网络未知 时,设法从训练数据中学习贝叶斯网络结构和参数,而且要能贴切地反映数据中各 变量因果关系。同时,还需要建立评价网络结构优劣的标准,学习到最佳的网络结 构。结构学习分为:完备数据集的结构学习和不完备数据集的结构学习。在贝叶斯 网络的应用领域,贝叶斯网络作为不确定知识的表示模型,以其坚实的理论基础, 知识结构的自然表达方式,灵活的推理能力,方便的决策机制等己经成为人工智能 领域对不确定性知识的描述和推理十分重要的方法。 贝叶斯网络是用来表示变量集合的链接概率分布的图形模型,它提供了一种自 然地表示因果信息的方法,贝叶斯网络本身并没有输入和输出的概念,各节点的计 算是独立的,因此,贝叶斯网络的学习既可以由上级节点向下级节点推理,也可以 是由下级节点向上级节点的推理,用于数据挖掘的贝叶斯网络方法主要有以下几个 特点6 1 : 1 ) 贝叶斯网络可以处理不完备的带有噪声的数据集,它用概率测度的权重来描 述数据间的相关性,从而解决了数据间的不一致,甚至是相互对立的问题。 2 ) 贝叶斯网络用图形的方法描述数据间的相互关系,语义清晰,可理解性强, 这将有助于利用数据间的因果关系来进行预测分析。 3 ) 由于贝叶斯网络具有因果和概率性语义,它有助于先验知识和概率的结合, 容易与优化决策方法相结合。 1 贝叶斯概率 贝叶斯概率简单来说是观察着对某一事件发生的相信程度,观测者根据先验知 识和现有的统计数据,用概率的方法来预测未知事件发生的可能性。贝叶斯概率不 同于事件的客观概率,客观概率是在多次重复实验中事件发生的频率的近似值,而 贝叶斯概率则是利用现有的知识对未知时间的预测。 记d 2 五= 毛,x 2 = 屯,以= 靠) 为重复m 次实验所得到的观测样本,其中x 为 事件变量,】c 为变量值或状态,记参数p 为事件x = x 发生的先验概率,p ( el 1 为它 的概率密度,其中 为观测者的先验知识,这样,贝叶斯概率的计算问题可以陈述 l l 华北电力大学硕士学位论文 如下:已知先验概率密度p ( e l ;) 和样本d ,求第m + 1 次实验中的事件l + = k + 。发 生的概率p ( 以+ = + 。id , 0 为夕分布的参数。a = a h + a t 显然,分布b e t a ( o la h ,口f ) 的期望 值为鱼。由式( 2 2 ) ( 2 4 ) 可得,后验概率也为夕分布,即 即i d ,伊( 1 胡峨泖i a h + h , a t + t )( 2 - 5 ) 于是,预测事件的贝叶斯概率为 尸( 以“= “id ,f ) = i o b e t a ( 01a h + h ,q + t ) d o = 业( 2 6 ) 现在,我们讨论事件变量x 取值为有限的情况,即有一,工2 ,共,- 个可能的状态, 参数矢量为0 = b ,岛,b ) ,其中 幺= p ( x = 妒i 矽,) , k = l ,2 ”,厂 ( 2 7 ) 记统计数m 为样本d 中事件x = 发生的次数,扣l ,2 ,。现假设先验概为 d i r i c h l e t 分布,即 p ( 乡l ) :d f ,( o l a :,杩,) :掣n 卵- ( 2 - 8 ) 其中,0 【= 砉a t ( 可能的组合术肄 o ,七= 1 ,2 ,。后验概率也为d 衍c 办胁分 暑l 布,即 1 2 华北电力大学硕士学位论文 p ( o ld ,) = d i , ( e l 仅l + l ,o r , 2 + 2 ,0 【,+ ,) ( 2 - 9 ) 于是预测事件的贝叶斯概率为 p ( l - 1 - x k id ,) = 心帅( 秒ia 。+ 川,仅:+ 2 ,a ,+ ,) d 护= ;争( 2 - 1 0 ) 2 贝叶斯网络模型 贝叶斯网络又称为信任网络、概率网络或因果网络n 1 。它是一个具有n 个节点 的有向无环图,图中的节点带随机变量,可以是任务问题的抽象;连接节点的有向 边代表了节点间的相互关系,通常认为有向边表达了一种因果关系。 ( 1 ) 网络结构s 。s 是一个有向图,其中每一个节点代表一个数据变量五,p a , 为s 中 节点z 的父节点的集合。 ( 2 ) x 的局部概率分布p 。p 中的每一个元素为数据变量置的条件概率密度 p ( 五i , ) ,由概率的链规则得 p ( xd ) = p ( 五,五9e ,鼍10 - 兀p ( 五 x i ,五,五书c ;) ( 2 - 1 1 ) i - i 对于任一个数据变量五,必可以找到一个与五条件都不独立的最小子集 乃= x l ,砭,五一l ,使得 p ( 五i 五,五,五。,) = p ( 五i 乃, 0 是b e t a 分布的超参数,口= a + t 。有了先验分布,再结合 数据库信息,得到的后验分布仍未b e t a 分布: 华北电力大学硕士学位论文 即io ) = 矗厂“ ( 2 - 1 8 ) 于是,我们可以得到第n + 1 次抛掷出现头朝上的概率的一个简单的表达式: 地+ l - 胁a d id ) = i s b e t a ( 口1 砌”,瑚= 筹( 2 - 1 9 ) 以上是二项分布的情况,现在讨论多项分布。假设x 具有可能的值1 ,则 存在参数o ,= ( 以呐,气,) ,并满足: = l , o ,七= 1 , p ( 西= 七i 而,一,而,o ,0 = 见t ( 2 - 2 0 ) 设川,2 ,为实验观测到的x 取值的充分统计量,则它的似然函数为: l ( o ,d ) = n 鲈 ( 2 - 2 1 ) 满足上式所描述的样本称为多维分布。而二项分布则是它的一个特例。基于数 据库o ,我们有: p ( e ,ld ,孝) = c n e ! ”k p ( o ,l 善) ( 2 2 9 ) 其中,m 表示x = k 在数据库d 中的次数,c 为标准化常数。m ,2 ,为多项 分布样本的充分统计量。 对于似然函数:l ( e ,d ) = 兀如果要用它来做贝叶斯预测,则必须为其指派 一个先验分布。在给定一个多项1 分布样本后,我们可以假设不同的 ,概率分布。在 实际解决过程中,一般采用d i r i c h l e t 分布,因为它具有许多优良的性质:d i r i c h l e t 分 布属于共轭分布族,这个特性使得在利用贝叶斯方法计算未知参数的后验分布时, 取先验分布为d i r i c h l e t 分布,那么后验分布仍然是d i r i c h l e t 分布。设参数o 。有指数 为,口2 ,何的d i r i c h l e t 分布,即 r ( x 吼) , 以q 憎卜武高玎咧以 0 ( 2 - 2 3 ) 其中r + 1 ) = x r ( x ) ,并且r ( 1 ) = l 。当变量o ,是d i r i c h l e t 分布时,我们可以认 为尸( e ,l 善) 也是d i r i c h l e t 分布。当r = 2 时,公式( 2 - 2 3 ) 就转化为b e t a 分布了。另外, 由公式( 2 2 2 ) 可以看出,如果o ,的先验分布是d i r i c h l e t 分布时,那么给定数据库 d = ( 而,) 后, ,的后验分布仍是d i r i c h l e t 分布。 1 6 华北电力大学硕士学位论文 所以,给定先验分布后,下一次观测出现x = k 的概率就是以:。的期望: ( 2 - 2 4 ) 其中,口= a k 表示我们事先对它的信任度。 k - i l 多变量的参数学习 现在考虑这样的问题,给定贝叶斯网络的结构,如何利用样本数据去学习网络 的概率分布,即更新网络变量原有的概率分布。换句话说,就是综合先验知识和数 据去改进已有知识的问题。 假设变量组x = ( 五,五,五) 的物理联合概率分布可以编码在某个网络结构s 中: j ( xl 见,s 6 ) = 兀尸“ip a t ,倪,s 6 )( 2 - 2 5 ) j = i 其中包是分布p ( ip a t ,只,) 的参数向量,见是参数组娼,幺,见) 的向量,表示 物理联合分布可以按照s 被分解( 不交叉) 的假设。此外,从x 的物理联合概率分 布得到一个随机样本d = ( 五,x 2 ,鼍) ,d 中的每一个元素表示样本的一个观测值, 称为一个案例。现在为随机变量q 指派一个先验概率密度函数尸( 见l ) 作为我们事 先对它的认识,那么贝叶斯网络的多变量学习问题可以简单的表示为:给定随机样 本d ,计算后验分布尸( 包id ,s ) 。 假定每个变量置是离散的,有个可能的值爿,# ,彳,每个局部分布函数是 一组多项分布的集合,一个多项分布对应于p q 的一个构成,也就是说,假定 p ( 茸ip a ,倪,s ) = 0 ,= l ,2 ,n ;= l ,2 ,q 。;七= 1 ,2 ,)( 2 - 2 6 ) 其中剜表示p a t 的构成,吼= 兀,:。而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论