




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号UDC密级学号 04210566移够多譬z嵌¥硕士学位论文基于数据挖掘技术的电力系统短期负荷预测学科名称:学科门类:指导教师:薛美娟皇直丕笙壁基旦塾些工 学姚李孝教授摘要论文题目:基于数据挖掘技术的电力系统短期负荷预测学科专业:电力系统及其自动化研究生:薛美娟 签名:指导教师:姚李孝教授 签名:摘 要电力系统短期负荷预测是电力系统调度运营部门的一项重要的日常工作,预测精度的高低直接影响到电力系统运行的安全性、经济性和供电质量,其特点是:要预测的数据个数多、采集到的样本数据含一定的噪声、受诸多气象因素的影响并具有随机性等。论文在大量查阅国内外资料、跟踪国际前沿技术基础上,综合应用多种数据挖掘技术、主要以预测工作的各个环节为线索,对历史负荷数据的预处理、数据样本的选择、气象因素的处理、预测模型输入参数的确定及模型的建立各方面都作了深入的研究,为高精度的短期负荷预测模型奠定了基础。电力负荷是一个随机非平稳过程,其负荷观测值由于受到各种因素的影响,可能会存在某些“坏数据”,这些数据夹杂在正常的负荷数据中参与神经网络的训练,严重影响了负荷预测的精度。为准确、快速地清洗负荷历史数据,本文通过对自适应共振网络(舢玎网络)抗差聚类性能和超圆神经元网络(CC网络)模式分类性能的分析,设计由这两种网络组合而成的神经网络模型,较好地完成了坏数据辨识的任务。利用神经网络对负荷进行预测,输入样本的选择是一个不得不考虑的问题。输入样本过少,将导致学习不够,不能达到训练要求;输入样本过多,将导致许多无意义的过学习,训l练时间增长,甚至无法收敛;输入样本同预测样本联系甚少,将导致预测结果的不准确。因此,论文根据电力负荷的特点,在考虑天气、日类型、实际历史负荷等因素对预测负荷影响的基础上,采用Kohoncn网络对训练样本进行选择,进而选取出与预测日相似的样本进行预测,从而减少训练时间,提高预测精度。影响短期电力负荷预测的因素众多,如何有效地判断和选择这些相关因素是改善电力负荷预测的关键,本文通过引入数据挖掘中粗糙集约简算法来解决这一难题。通过粗糙集理论的属性约简算法,既全面考虑了影响负荷预测的各种因素,又避免了由于输入变量过多而导致的神经网络拓扑结构复杂、训练时间过长的不足。针对常规粗糙集算法计算量大,且不具备容错性和泛化能力,本文在属性约简过程中设置了分类可信度B,因而对数据具有了一定的容错性和泛化能力,增强了抗噪声能力。最后,创建基于数据挖掘技术的负荷预测模型。文中以预测工作的各个环节为线索,西安理工大学硕士学位论文将预测模型分为四个模块:数据预处理模块、样本选择模块、属性约简模块以及预测模块。从各个环节考虑影响负荷预测精度的因素,并加以解决。实例分析证明,本文所提出的负荷预测模型在一定程度上可以提高负荷预测的精度。关键词:短期电力负荷预测;数据挖掘;坏数据处理;样本选择;粗糙集AbstraetTitle: RESEARCH OF ELECTRlC POWER LOAD FORECASTINGBASED ON D,凸M MlNING TECHNOLOGYMajor:Power System and its AutomationName:Meijuan XueSupervisor:ProfLixiao YaoAbstractsgnature:五印Power short-term load forecasting(STLF)is all important and integral component in theoperation of any electric ufility whose accuracy directly influence power systemS security,profit and qualitySTLF is characterized by massive data for forecasting,noisycontainedsample data,influenced by weather condition,and randomicityBased on various data nlillingtechnologies,the author aims at each stage of STLF and has done deep research on thepreprocess ofhistorical load data,classification ofload samples,process ofweather condition,establishment of forecasting model and its input parameters millingAll these work had laid asolid foundation for hi-accuracy STLFThe load of power systems is an unsteady stochastic processAmong those observedvalues there may exist somedirty datadue tO the effect ofvarious factorsThese dirty data,participating the training of neural networks intermingled with normal data,badly affect theaccuracy of load forecastingIn order幻purge the historical load,this paper brings forward anintelligent model which comprising the effects of ART network clustering and CC networkclassificationClassification of load samples is one must take into consideration when carry outshortterm load forecastingInput sample neither less nor more,tOO less will not achievetraining accuracy,too more will lead to not only meaningless study but even carltconvergeTherefore,this paper adopt Coonan network to train samples based on weather、daytype、actual historical load and SO on who influence the accuracy of load forecasting,in rumraises choose out the samples similar to forecasting dayForecasting model using the selectedsamples can decrease training-time and increase forecasting accuracy effectivelyThere are so many factors that influenced STIF,how to justify and select the correlativefactors is the key tO improve the performance of load forecastingThe reduction algorithm西安JEs-大学硕士学位论文based on rough set theory introduced to mine more correlative attributes in the pendingforecasting components,insures the ration柏ity of input parameters of forecasting modelAreduction algorithm through classification reliability algodthm which with certain noise andhaving very good cover ability and generalizable ability through set classification reliabilityp isintroduced to overcome the large computational complexity of conventional mductionalgorithmLastly,construct the shortterm load forecasting based on data miningthe author ailns ateach stage of STLF and has done deep research on the pre-process of historical load data,classification ofload samples,process ofweather condition,establishment offorecasting modeland its input parameters miningAll these work had laid a solid foundation for hiaccuracySTLFThe forecasting results show that the proposed method possesses better forecastingaccuracy and the forecasting is satisfactoryKey words:short-term load forecasting:data mining;data processing;classification ofloadsamples;rough set theoryV独创性声明秉承祖国优良道德传统和学校的严谨学风郑重申明:本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的成果。尽我所知,除特别加以标注和致谢的地方外论文中不包含其他人的研究成果。与我一同工作的同志对本文所论述的工作和成果的任何贡献均已在论文中作了明确的说明并已致谢。本论文及其相关资料若有不实之处,由本人承担一切相关责任论文作者签名:g孥冬钟8月。日学位论文使用授权声明本人壅兰。蹈在导师的指导下创作完成毕业论文。本人已通过论文的答辩,并已经在西安理工大学申请博士硕士学位。本人作为学位论文著作权拥有者,同意授权西安理工大学拥有学位论文的部分使用杈,即:1)已获学位的研究生按学校规定提交印刷版和电子版学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索;2)为教学和科研目的,学校可以将公开的学位论文或解密后的学位论文作为资料在图书馆、资料塞等场所或在校园网上供校内师生阅读、浏览。本人学位论文全部或部分内容的公布(包括刊登)授权西安理工大学研究生部办理。(保密的学位论文在懈密后,适用本授权说明)论文作者签名:童笙苤绸 导师签名 彩I绪论1绪论11概述电力系统是由电力网、电力用户组成,其作用就是对各类用户尽可能经济的提供可靠而合乎标准要求的电能,以随时满足各类用户的要求,即满足负荷要求。但由于电力的生产与使用具有其特殊性,即电能不能大量储存,这样就要求系统发电是随时紧跟系统负荷的变化动态平衡,用多少就生产多少。电力系统负荷预测就是为满足和保证这一平衡提前做好准备,就是在正确的理论指导下,在调查研究大量资料的基础上,运用可靠的方法和手段对电力负荷的发展趋势做出科学的推断Ell。随着我国市场经济和社会的不断发展,电力需求迅猛增长,电力紧缺的局面逐年加剧。到2004年,全国共有24个省级电网拉闸限电,高峰时缺电约为3000万千瓦。华北、华西、西北等电网用电负荷屡创历史新高。2004年7月30日,全国日用电量当年第四次被刷新,达到了6643亿千瓦时,超过上一年全国日用电量1332,这使得负荷预测的重要性更加突出。而要求进一步改进系统负荷预测工作的一个原因是,这几年我国开始推行电力市场的工作对系统负荷预测提出了更高的要求,因为短期负荷预测作为电力市场中的一项经济信息,是各级电力市场的重要组成部分,对于建立电量计费系统、实行峰谷分时电价和建立模拟电力市场等均有深刻影响。短期负荷预测的重要意义可以归纳如下1211短期负荷预测是电力系统优化调度(如机组最优组合、经济调度、最优潮流计算等)的基础工具,是电力企业日常经营管理工作的重要组成部分,准确的短期负荷预测是电网调度机构制定发供电计划和做好电网供需平衡的关键,它有助于系统运行人员高效地预估电能的生产、输送、分配及消费情况。2随着我国电力市场的进一步发展,短期负荷预测在电力系统的经济运行方面的影响会愈来愈明显。对于发电公司,短期负荷预测是制定发电计划、检修计划和报价的主要依据;对于供电公司,短期负荷预测为供电方制定购电计划提供了依据;对于输电公司,短期负荷预测是进行电网规划、制定发电计划及安全、可靠、经济、运行的基础。3提高转运业务是电力市场中电网的一项基本功能,转运是电力市场平等竞争的必要条件,可以给电网带来巨大的效益,而电网在执行转运业务时,将根据短期负荷预测的数据及各发电机的运行参数,制定发电计划和调度计划,所以准确的短期负荷预测将促进供、用、输三方的协调。4电价是电力市场的杠杆和核心内容“1,体现了电力市场的竞争性和开放性,而电价的制定是在未来给定电价计算期的短期负荷预测的基础上完成的。因此,发电企业要保证其电价的竞争能力并且盈利,就必须获得较准确的短期负荷预测值,才能定出既有竞争力又保证盈利的电价。西安理工大学硕士学位论文5准确的短期负荷预测给系统充裕性评估奠定了基础,从而保证了发电市场的顺利进行,以及保证电力系统的安全。综上所述,准确的短期负荷预测已成为实现电力系统管理现代化的重要内容之一。如何提高预测精度是目前研究短期负荷预测理论与方法的中心和重点。12短期电力负荷预测的研究现状与发展趋势电力负荷预测的研究已有较长的历史,它是随着电力系统中EMS系统的逐步发展而发展起来的。从上世纪七十年代初开始,对电力负荷预测的研究就呈现出逐步上升的趋势,到了八十年代,由于能源紧张造成的对负荷科学管理的迫切要求以及对准确和适应性强的负荷模型的渴望,使得对负荷预测的重视程度越来越高九十年代,随着世界各国电力市场的发展,负荷预测受到了人们更加广泛的重视。至今,国内外的许多专家、学者在预测理论方法方面已做了大量的研究工作,取得了很多卓有成效的进展。121常用的负荷预测方法随着现代科学技术的发展,负荷预测技术的研究也在不断深化,各种各样的负荷预测方法不断涌现,从经典的回归法、时间序列法,到目前的神经网络法、专家系统法、模糊数学法、灰色预测法、混沌理论法、小波分析法和优选组合法,它们都有各自的研究特点和使用条件。回归分析法u是基于数理统计中的回归分析预测,是通过对变量的观测数据进行统计分析,确定变量之间的相关性来实现预测。主要分为线性回归和非线性回归。一元线性回归是将负荷看成是仅与某一因素有线性关系,事实证明负荷是受各种因素的影响,所以一元线性回归模型是不可取的:多元线性回归是将负荷看成是受多个因素的影响,但它是将这种影响视作简单的线性关系,而负荷与天气等变量之间是动态的、非线性的关系,对此多元线性回归便不能很好的解决。另外,部分假设天气与负荷之问是动态、非线性关系的回归算法也只是通过简单的变量代换来拟合这种非线性关系。因此,模型无法反映负荷与天气等复杂变量间的关系成为制约这种方法发展的瓶颈151。时间序列法是应用较早、最为广泛、发展比较成熟的一种方法“。它把负荷数据看作是一个按季节、按周、按天以及按小时周期性变化的时间序列。并将实际负荷和预测负荷之间的差值看作一个平稳的随机过程,进行分析和处理的。它包括自回归模型CAR)、滑动平均模型(MA)、自回归滑动平均模型(ARMA)、累积式自回归滑动平均模型(ARIMA)。其中AR、MA、ARMA三种模型应用的前提条件都是以平稳随机时间序列为依据。但实际电力系统的负荷序列变化显然有一定的规律性,受各种与负荷无关的外部因素影响,使得负荷时间序列的变化形成非平稳的随机过程。ARIMA适用于非平稳随机1绪论时间序列的预测,并能将非平稳随机时间序列中的平稳随机变化负荷序列也隐含在模型中。但是在模型中最重要的是如何确定差分算子的阶数,为此,常需要对自相关函数进行人工辨识,需进行离线分析,实现较困难且复杂,从而限制了此方法的应用。运用人工神经网络(AnificialNeuralNetworks。ANN或Nm技术进行电力负荷预测,其优点是可以模仿人脑的智能化处理过程,对大量非结构性、非精确性规律具有自适应功能,具有信息记忆、自主学习、知识推理和优化计算的特点,特别是其自学习和自适应功能是常规算法和专家系统所不具备的,因此,预测是人工神经网络的最有潜力的应用领域之一【61,有非常广泛的前途。由于人工神经网络适于解决时间序列预测问题(尤其是平稳随机过程的预测),在电力系统负荷预测中应用人工神经网络在理论上是可行的。1991年Park等人玎第一次将人工神经网络应用于电力负荷预测,并取得了令人满意的结果。但是它也存在一系列局限性,例如难以确定网络结构、学习速度慢、存在局部极小点、记忆不稳定等。因此,目前的研究重点大多在于对BP算法的改进“、如何构造样本91如何构成输入层数据、如何防止训练过程中出现过拟合现象等问题上。专家系统(Expert-System,ES)”是一个应用基于知识的程序设计方法建立起来的计算机系统,它拥有某个特殊领域专家的知识和经验,并能像专家那样运行这些知识,通过推理,在该领域内做出智能决策。将专家系统技术用于负荷预测时,能对所收集整理的常规的预测模型逐一进行评估预测,对于突发性事件引起的负荷变化,由调度人员经验发展而来的负荷预测专家系统可以避开复杂的数值计算,快速的做出最佳预测结果,避免了人工推理的繁琐和人为差错的出现,克服以往用单一模型进行预测的片面性缺陷。然而,把专家的知识和经验等确定地表达并转化为一系列规则往往是很困难的141而且建立专家系统的工作量要比一般预报算法大得多。专家系统法需要对一段时间的数据进行精确的分析,从而得出各种可能引起负荷变化的因素,其分析本身就是一个耗时的过程,并且对于某些复杂的因素,通用性差、缺乏学习能力和自适应能力。因此,目前研究都是与模糊理论、神经理论结合在一起,互补优势,得到更好的发挥。模糊预测方法,如同人工神经网络,是模拟人脑工作的工程,仅仅模拟专家的推理和判断方式,并不需要建立精确的数学模型161。由于电力负荷动态过程中包含大量的随机性和非线性,几乎不可能建立其精确的数学模型。而模糊集系统不需要建立负荷的数学模型,它适合描述广泛存在的不确定性,同时具有强大的非线性映射能力,能够在任意精度上一致逼近任何定义在一个致密集上的非线性函数,并且能够从大量的数据中提取它们的相似性,这些特点正是负荷预测所需要的而其它方法所欠缺的优势所在117e但随着模糊理论更深入的研究和应用,模糊理论暴露了如下不足:模糊的学习能力比较弱;当其映射区域划分不够细时,映射输出比较粗糙;受主观人为因素的影响。灰色系统理论是80年代由我国邓聚龙教授提出,用来解决信息不完备系统的数学方法”1。它把控制论的观点和方法延伸到复杂的大系统中,将自动控制与运筹学的数学方法相结合,用独树帜的有效方法和手段,研究了广泛存在于客观世界中具有灰色性的问西安理工大学项士学位论文题。部分信息已知、部分信息未知的系统称为灰色系统灰色系统理论是研究、解决灰色系统分析、建模、预测和控制的理论。将灰色理论用于电力负荷预测要求负荷数据少、不考虑变化趋势、运算方便、易于检验等特点,因此得到广泛应用,并取得了令人满意的结果。但是与其它方法相比,也存在如下的局限性:首先,数据离散程度越大,预测精度也越差;具有实际意义,精度较高的预测值,仅仅是最近的一、两个数据,对于后几天的预测值将会有较大的偏差;其微分方程解比较适合于具有指数增长趋势的负荷指标,对于具有其它趋势的指标则有拟合灰度越大,精度难以提高的缺陷。实践研究证明18J灰色理论应用于短期负荷预测的精度还是可以承受的,但是用于中短期负荷预测则较差。基于混沌理论珏的混沌优化是近年来出现的一种新型优化算法,它利用混沌变量的便利性、随机性、规律性来搜索,寻求问题的最优解,算法思路直观、实现简单、适应性强。由于在电力市场中,负荷的变化在一定标度下是近似不变的,这种标度即自相似结合,放大其任何部分,进行分形预测,其不规则程度都是一样的。分形的核心就是标度不变性22J即自相似性,因而分形理论应用予电力负荷预测存在可能性。应用分形理论对负荷进行预测是一种有趣的探索,具有速度快、精度高、无收敛性问题,且数据收集简便。然而,该方法完全是以历史资料为基础,对于影响电力负荷变化的各种因素仅赋予不同权重系数加以处理,趋势的预测难免会存在一些人为因素造成的缺陷。考虑到电力系统是一个多因素共同作用的系统,如何确定各影响因素与权重系数在数学上的非经验量化关系是该方法进一步实用化的关键,需做系统的深入研究。小波分析吸取了现代数学种诸如泛函分析、数值分析、Fourier分析、样条分析、调和分析等众多分支的精华。它在时域、频域同时具有良好的局部化性质231。由于电力负荷具有特殊的周期性,负荷以日、周、年为周期发生波动,大周期中嵌套着小周期,小波变换能将各种交织在一起的不同频率组成的混合信号分解成不同频段上的块信号。对负荷序列进行小波变化,可以将负荷序列分别投影到不同的尺度上,各个尺度上的子序列分别代表了原序列中不同频率的分量,它们可以清楚地表现出负荷序列的周期性,所以可以将小波分析应用于电力系统负荷预测。基于多分辨思想,通过对电力系统短时负荷序列进行正交二进小波,把负荷原序列投影到各个不同的尺度上,清楚地看到了各负荷序列逐渐细微的周期性。在此基础上,分别对各个尺度上变换得到的子序列进行预测,最后利用各尺度上的预测结果进行信息重构,得到了完整的短时负荷预测结果。小波在分析非固定信号和构造非线性函数方面具有卓越的性能,但它未能考虑气象、温度和湿度等诸多因素对负荷的影响。目前,国内外学者最主要是将它同神经网络方法相结合预测负荷的,并且取得了不错的成果2410单一预测模型的缺点是只考虑了一种变化趋势,由于电力系统是受多种因素影响的,在多因素影响叠加下,单一预测模型很难准确描述负荷预测的实际复杂变化和规律。理论和实例计算均表明”:用组合方法中单一模型进行预测的平均误差不小于用组合预测方法所产生的平均误差。显然,基于组合方法进行预测的结果要优于单一模型的预测结果,41绪论探索组合预测已成为学者们的共识。传统的确定组合预测最优权重的方法是最小二乘法1271,由于电力系统负荷变化具有高度的非线性,应用最小二乘法得到的结果会产生较大偏差。针对这一现象,学者们进行了尝试,如引入GA2”、BP291、混沌优化啪1等来确定最优组合权重。但是,就预测机理而言,组合预测权重的确定仍然是一个未能很好解决的问题,在今后组合预测的研究中,最优组合权重的确定仍将是一个热点。122短期负荷预测的研究现状对于电力系统的短期负荷模型的研究,在过去的十几年中得到很大的发展。各种预测方法和模型被引入到负荷预测中,其特点总体上体现在如下四个方面311预测模型从简单到复杂;智能技术用于负荷预测;影响负荷变化因素的计及;从单一预测模型到基于多智能原理结合的组合预测。在短期负荷预测的研究过程中,由于前述人工神经网络的优异性能,奠定了它在负荷预测中的重要地位。因此这十几年对于短期负荷预测的研究基本上是以人工神经网络为核心,不断对其改进、或将它与其它方法相结合多元理论综合预测方法,现对人工神经网络在短期负荷预测中的发展状态做一简要的概述。在早期对人工神经网络采用递推(Back-Propagation,BP)学习算法,但在研究过程中,发现存在BP-NN模型的隐含层神经元个数一般是按照经验数选取,可能陷入局部极小、学习速度慢、不易收敛等不足,提出了各种的改进算法。另外,随着对负荷时间序列的深入对STLF问题研究从两方向取开拓研究和解决:首先,对BP学习算法进行改进或用其它启发式优化算法等来代替;它局限于对NN潜能的挖掘,而不是从STLF问题的实质去研究解决,所以是属于非实质性的研究方向;其次,提出各种不同结构的NN和相应算法,它不是属于改进的策略,而是NN结构原理改变来获得好的性能,它是属于实质性的研究方向。基于NN的STLF研究内容纵观可见图11所示。r各种改进BP学习算法l厂 非实质性的研究方向(NN学习算法改进) 各种启发式优化学习算法I l基于 I l各种非线性理论学习方法NN原 I理的 p(2。3)(24)(25)(26)若集合,为空集,则在输出端增加一个节点,并置该节点的输入场权和输出场权矢量的初值分别为当前模式样本矢量和分量为1的矢量, ,一,UC+)(为当前增加的节点序数),转。否则,转。按(7)、(8)式分别学习修正第,个输入场权和所有的输出场权。0(f+D-0(憾l (35)所有正的质蕴含项构成信息系统s的所有约简集。属性的约简和核粗糙集理论中核与约简是用来描述冗余的概念。对于属性6BC,如果存在1ND(B)-IND(B一6),则称属性b对于口是不可缺少的,否则6是冗余的。当口中所有元素都是必须时,称B为正交。若存在Bc使IND(B)一mD(C),并且B是正交的,即当艿满足:IND(B)一IND(C)且VbCBlND(B一6)_IND(C) (36)称曰是c的一个属性约简。一个信息系统存在多个属性约简集,所有约简集的集合记为RED(C)。显然,约简口中的所有属性都是必要的,而且占保留了C的不可分辨关系。通常,一个信息系统可能存在多个属性约简集,每一个约简都可以代替整个条件属性,而不改变原有的依赖关系,为此需要确定一个最佳约简集或者一个具有最小可能属性的最西安理工大学硕士学位论文小属性集。专家们已经证明找到一个信息系统的最小约简是一个NPhard问题唧,这主要是由于属性的组合爆炸引起的,在人工智能中解决这类问题的一半方法是采用启发式搜索求取最优或次最优约简矸。属性集c的所有必要的属性构成属性约简的核,记为co衄(o。属性集C的所有约简集与核存在如下关系: 删。一nRED(C)(37)即C的所有约简的交集构成c的属性约简的核CORE(O。核可由辨别矩阵来计算:核中的属性是由辨别矩阵中所有单元素项中的属性组成。昏属性的相对约简对于属性集合C,DQ,相对辨别矩阵盯。(回的矩阵单元元素为:辨一。rdc:厂(,口)_八o,口),勺是不同等价类9 【 彩 其它(38)相对辨别函数为:石。fV嘞):1s,j歹-勺,D (39)当且仅当气气是辨别函数厶的质蕴涵项,属性1,)是D的相对约简。这样,可以通过求厶的质蕴涵项来求取相对约简。若s(c_0中所有D必要的属性构成相对约简的核,记为c0口跑j(动。 REDv(B)为所有丑相对于D的约简的集合COREo(B)与舳(B)满足cDR(功iFIREDo(B)。k属性的依赖度和重要性如果属性集合D中的所有属性值完全依赖于属性集合c中的属性值,则可表示为CjD。属性D对C的依赖程度用r(C,D)表示:r(c,D)i card(POSc(D)Icard(U) (310)其中:card()表示集合的基数,POSc(D)是C的正区域。如果y(c,D)l,那么D完全依赖于C;如果r(C,D)(1,那么D部分依赖于c,其依赖程度为r(C,D)。r(C,D)反映了通过属性集c能够被正确划分入UIND(D)的各个等价类的对象与域中所有对象的比例。根据依赖度的定义,对于等价类uIND(D)的重要程度定义为:SGF(a,C,D)。监哥业 (3属性口的重要性是相对面言的,它依赖于属性集C和D,在不同的背景下,属性的重要性可能不同。(3-11)可扩展为属性集的相对重要性:3基于扩展粗集的预测模型输入参数方法研究SGF(B,C,D)一型铲(312)i决策规则决策规则获取是粗糙集理论应用的一个重要领域。对于任何一个xEU,根据(qz)中RED(C)的定义,S的任何一个关于工的约简BF=REDD(C),有eOSc(D)-POSB(D),正域POSc(D)实际上就是所有决策类的下近似的合集,POSc(D)中的所有对象都能根据各自的条件属性值正确地区分到相应的决策类中。因此我们可以通过求出关于x的相对约简口来得到关于x的决策规则。322约简算法研究曩基于区分矩阵的启发式约简算法Hu在他的论文中提出一种基于分辨矩阵的约简算法。该算法基于可分辨矩阵,然而与一般的一些启发式算法不同的是,此算法并不要求求取属性核。因此比较而言就不必再去求取属性核这一步。Hu提出基于分辨矩阵启发的约简算法在实践上较某些启发式算法有较大程度的改进。然而令一方面,在Hu的论文中,Hu也指出该算法是一个非充分算法,它并不保证能求出一个约简。通常情况下,用此法求出的结果可能是最小属性约简的超集。Hu的论文试验数据也表明,该算法在属性集投有属性核时可能求不出属性的约简。本节介绍Hu提出的基于分辨矩阵的启发式约简算法。(1)基本原理我们知道,一个约简和可分辨矩阵的每一个不为空的属性项砚,(妇,)的交都不能为空。否则,如果它和可分辨矩阵的某项砖,的交为空的话,对象i和对象,对于该约简就是不可分辨的。而这是和约简是能够可分辨矩阵中所有对象的最小属性集自相矛盾的。基于这个事实,Hu首先设候选约简集合R-刀,然后检查可分辨矩阵的每一项M,和候选约简集合的交。如果交为空,随机从聊。中选择一个属性插入到R中。否则就跳过这一项。重复这一过程直到可分辨矩阵的每一项都检查过了。这样,我们在置中就得到了一个“约简”。Hu认为,在可分辨矩阵中,一个属性的重要性由它出现的频率决定。一个属性出现越频繁,它的潜在分辨能力就越大。因此,Hu提出一个属性频率函数:,(口)一厂(口)+IcI,icI对于每个aEc: (313)其中IcI是信息系统总的条件属性个数。例如,f(at)一3,八a2)一4,系统总共有十个属性,新的分辨函数项是舷,a2),则处理这项后,属性的频率被更新为八at)t 3+1012=S,f(a2)=4+102 z9。此更新公式体现了两个重要的启发式思想:属性在分辨项中出现的次数越多,该属性的重要性越大;属性所出现的分辨矩阵的项越短,属性的重要性越大。西安理工大学硕士学位论文基于分辨矩阵的启发式约简算法如下:输入:决策表S=U,Cu(d),V,f,其中Cuq净12,塌输出:约简RED;1)RED-刃,count(a,)一0,对于j=1,2,疗;2)计算分辨矩阵肘并同时计算属性的加权频率count(aj);3)合并并排序分辨矩阵M;4)For M中的每项小doifnREDg)选择掰中具有最多的count(a)的属性a;RED一足EDU口emilendfor5)return RED在第二行中,每计算M的一个新项c,count(a,)就更新为count(a,)一count(aj)+nIIcI,其中qqcl。第三行合并相同的项并且按照每项的长度和频率对分辨矩阵排序。第四行遍历M并生成约简。(2)算法时间复杂度分析步骤2中的计算可分辨矩阵的代价是D(IcIIUl2)。因为在最坏情况下,可分辨矩阵肘中有IUI(IU|-D2,因此步骤3中的排序算法需要最多时间复杂度为D(uf xlog(Iuf)。但是实际上,可分辨矩阵的项要远小于最坏情况,因为有一些重复的项和空项。步骤4遍历可分辨矩阵M并生成矩阵。由于在可分辨矩阵中最多有lUI(1UlD2项,每项顶多包含ICl个属性,因此最坏情况的时间复杂度仍然是D(JCIlUl2)。在实际情况中,往往经过步骤3后的科分辨矩阵只有少得多的项。因而运行时间比步骤2要快得多。因此整个算法的时间复杂度的上限是o(ICl+log(1U12)l【,12)。b-基于属性依赖度的约简算法在Hu的算法中,我们可以通过分辨矩阵中项来计算属性频率作为属性的重要度衡量指标,从而得到求简的目的。在该算法中,由于在属性频率函数算法中并没有一个保证得到约简的规则,也就不能肯定最终能够得到一个约简。因此本节介绍另外一种基于属性依赖度的属性约简算法t731该算法能够保证得到一个约简。(1)基本原理设决策表stU,Cu(d),y,f,C D分别为条件属性和决策属性,B是C的任一非空子集,则D对B的依赖度为:3基于扩展粗集的预测模型输入参数方法研究Card(U皂(x)七(D)I盂韶厂则在B中增加某个属性pEC-B所引起的k的变化大小为:r,(DI口)huIm(D)一h(D)(314)(315)r。(Dl丑)越大,说明在已知属性B的条件下,P对决策D越重要。基于属性依赖度的属性约简算法就是将y。(Dl丑)作为寻找最小属性约简的启发式信息。基于属性依赖性的属性约简算法如下:输入:决策表S-U,CU(d),V,f,其中CUa,卢l,2,糟;输出:约简RED;1)计算决策表T中决策属性D对条件属性C的依赖度,(D);2)另Core。(D=D,对条件属性集c,重复对每个属性Pc。计算a(p)一yc(妫yc川(西若口(p)0。则COP,Eo(C)一CORED(C)up若遍历了C中的全部元素则终止,否则转1)。3)最后求得的CORED(C)就是c的D核。4)令RED-Core。(o,重复对每个属性pcB,计算条件依赖度(DI研;选择使y。(DlB)最大的属性记作P,且RED-REDUp;若y(D)-Yc(D),则终止;否则转1);5)最后得到的RED就是C相对于D的一个约简。(2)算法时间复杂度分析在本算法中,步骤1)中计算依赖度r,(助的时间复杂度是0(1u12),在第步骤4)到步骤5)中,时间消耗主要在循环体内,最坏情况下,每次所考虑的属性数是IC J、ICll、l,故总次数是ICI+(IcI一1)+lI坚掣,则总的时间复杂度为lLD(ICrIUl2)。厶基于分类可信度的启发式属性约简算法在数据集中存在噪音等干扰情况下,经典理论会由于对数据的过拟合而使其对新对象的预测能力大大地下降。而在实际应用中,噪音是在所难免的。为增强粗糙集模型的抗干扰能力,本文参考Ziarko变精度粗糙集模型,提出了一种基于分类可信度的粗糙集模型,该模型中包含一个可控制的分类可信度,具有更一般的集合上下近似概念。标准的粗糙集模型是基于分类可信度的粗糙集模型的特例。在数据分析中,基于分类可信度的粗糙集模西安理工大学硕士学位论文型的优点在于它可以识别出无法识别出的数据项之间的依赖关系,以近似决策规则的形式表示出来。(1)基本原理首先我们给出一些基于分类可信度扩展粗糙集模型的定义。定义31芦属性依赖度设决策表S-(U,CU(d),V,f,c、D分别为条件属性和决策属性,卢为分类可信度,O5s卢s1,B是c的任一非空子集,则D对B的依赖度为:Card(U(x)七。r善(D)-嚣象西i一,则在B中增加某个属性pEC-B所引起的k的变化大小为2(DIB)-yBup(D)一,口4(D)定义32,属性约简设决策表s-U
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿童厌食症的原因与治疗
- 北京协和医院新型冠状病毒感染基层诊疗建议
- 吉林省松原市扶余第一中学2025届化学高一下期末联考试题含解析
- 广东省韶关市2024-2025学年高一下学期期末教学质量检测政治试卷(含答案)
- 北京市丰台区2024-2025学年高一下学期4月期中考试政治试题
- 常德执法大比武活动方案
- 展览展厅活动方案
- 少先队防灾活动方案
- 小班综合亲子活动方案
- 巧妙组织活动方案
- T/CSPSTC 112-2023氢气管道工程施工技术规范
- 微弱的光亮(2024年山东烟台中考语文试卷记叙文阅读试题)
- 24春国家开放大学《农业推广》调查报告参考答案
- 机械原理课程设计-冲压机构及送料机构设计说明书
- 钢框架结构计算书毕业设计
- 品牌中国产业联盟简介ppt课件
- 肝素钠生产工艺综述
- 压力管道氩电联焊作业指导书
- 屋面防水质量控制培训课件(共63页).ppt
- DISCO240控制台
- 实验一机构运动简图绘制与分析
评论
0/150
提交评论