(电力系统及其自动化专业论文)电力系统短期负荷预测的智能模型建模方法研究.pdf_第1页
(电力系统及其自动化专业论文)电力系统短期负荷预测的智能模型建模方法研究.pdf_第2页
(电力系统及其自动化专业论文)电力系统短期负荷预测的智能模型建模方法研究.pdf_第3页
(电力系统及其自动化专业论文)电力系统短期负荷预测的智能模型建模方法研究.pdf_第4页
(电力系统及其自动化专业论文)电力系统短期负荷预测的智能模型建模方法研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(电力系统及其自动化专业论文)电力系统短期负荷预测的智能模型建模方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j _ = 海交通大学博士后研究一i :作报告 a b s t r a c t t h es h o f t t e r ml o a df o r e c a s to fe l e c t t i cp o w e rs y s t e mi sa l l i m p o r t a n tr o u t i n ef o r p o w e rd i s p a t c ha n du t i l i t yd e p a r t m e n t s i t sp r e c i s i o nw i l l i n f l u e n c et h ee c o n o m i c a n ds e c u r e o p e r a t i o no fp o w e rs y s t e m sa n dq u a l i t yo fp o w e rs u p p l y t h ef e a t u r e so fs h o r t t e r ml o a d f c l r e c a s tc a nb eg e n e r a l i z e da sf o l l o w i n g s :m a n yd a t an e e dt ob ef o r e c a s t e d ,t h ep h y s i c a l f a c t o r sw h i c hi n f l u e n c ef o r e c a s ta r ec o m p l i c a t e da n dr a n d o m ,a n dh i g hp r e c i s i o no ff o r e c a s t i sd e m a n d e d t h ea r t i f i c i a li n t e l l i g e n tt e c h n i q u e sa r eu s u a l l yw a y so fb u i l d i n gf o r e c a s t i n g m o d e l sc o m b i n e da f f e c t i n gf a c t o r s ,t h i st h e s i sm a i n l yc o n t r i b u t et os t u d yt h em e t h o do f b u i l d i n gi n t e l l i g e n tm o d e lf o rs h o r t - t e r ml c a df o r e c a s tb ym e a n so fr o u g h e s tt h e o r ya n d s o m ed a t ap r o c e s sm e t h o d i tc o v e r sa sf o l l o w s t h em e t h o do fk n o w l e d g ea c q u i s i t i o nb a s e do nr o u g h e s tt h e o r yi ss t u d i e da n d a n a l y z e df u l l y a n dd e e p l y i ti ss t u d i e dan e wr o u g h e s t d i s c r e t i z a t i o na l g o r i t h mo fr e a l a t t r i b u t e si nd e c i s i o nt a b l eb a s e do ni n f o r m a t i o ne n t r o p y , t h a ti s ,ai n f o r m a t i o ne n t r o p yi s d e f i n e df o re v e r yc a n d i d a t ec u tp o i n ta n dt r e a t e da sam e a s u r e m e n to fi m p o r t a n c e ,a n dt h e n ad i s c r e t i z a t i o na l g o r i t h mo f c o n t i n u ea t t r i b u t e si nr o u g hs e tf o rs e l e c t i n gc u tp o i n t si sg i v e n i ti ss u g g e s t e daf a s tl e a r n i n ga l g o r i t h mf o rf e e d f o w a r dn e u r a ln e t w c l r kb a s e do nt h e l a y e r _ b v 1 a y e ra n dn e u r o n _ b v ,n e u r o no p t i m i z i n gp r o c e d u r e s e l e c t i o no fi n p u tv a r i a b l e sa n d d e t e r m i n a t i o no fa p p r o p r i a t en e t w o r ka r c h i t e c t u r ea r et w ok e yf a c t o r sf o ra r t i f i c i a ln e u r a l n e t w o r kb a s e ds h o r t t e r ml c a df o r e c a s tm o d e l ,am e t h o db a s e do nr o u g hs e tt h e o r y i s e m p l o y e d f o rt h i sp u r p o s e i nt h ep r o p o s e da p p r o a c h , i n p u tv a r i a b l e so fm o d e la r ei d e n t i f i e d b yr o u g hs e tt h e c r ya n d an e u r a ln e t w o r kb a s e d1 0 a df o r e c a s tm o d e l i se s t a b l i s h e db yas e to f i n f e r e n c er u l e so b t a i n e dt h r o u g hr o u g hs e tt l l e o r y t h em e t h o da v o i dt h eb l i n d n e s si n b u i l d i n gl c a df o r e c a s tm o d e l i ti ss t u d i e dt h em e t h o dc o m b i n e dr o u 【g hs e tt h e o r yw i t ho r t h o g o n a ll e a s ts q u a r e a l g o r i t h mt ob u i l dt s kf u z z ym o d e l f o rs h o rt e r ml o a df o r e c a s t a c c o r d i n gt ot h i sm e t h o d , i n p u tv a r i a b l e so fm o d e la r ei d e n t i f i e db yr o u g hs e tt h e o r ya n dt h ef u z z ys e tp a r t i t i o no f i n p u ts p a c ec a nt h e nb ed e t e r m i n e d ,t h ec a n d i d a t ef u z z yr u l e sa r e d e t e r m i n e db yr e g i o n c o r r e s p o n d i n ga c q u i r e db yt h er o u 曲s e td i s c r e t i z a t i o n ,am o d i f i e do r t h o g o n a ll e a s ts q u a r e a l g o r i t h mi sp r o v i d e d t or e d u c et h er e d u n d a n tr u l e sa n dd e t e r m i n et h ef i n a lf o r e c a s tm o d e l a m o d e l i n gm e t h o d o fn o r m a l i z e df o r e c a s t i n gi ss t u d i e df o rd a i l yl o a d c u r v ef o r e c a s t i ti so f f e r e dac o n t r o l l a b l ec l a s s i f i e da p p r o a c hw h i c hs u i tl o a df o r e c a s t ,i t i so f f e r e da m o d e l i n g m e t h o dc o m b i n e dr o u g hs e t t h e o r y a n d p r i n c i p l ec o m p o n e n ta n a l y s i s w i t h c o n t r o l l a b l ec l a s s i f yf o rt h en o r m a l i z e dd a i l yl o a d - c u r v e k e yw o r d s :s h o r t t e r ml o a df o r e c a s t ,d a i l yl o a df o r e c a s t ,r o u g hs e t ,n e u r a ln e t w o r k s ,f u z z y s y s t e m ,p r i n c i p l ec o m p o n e n ta n a l y s i s ,c o n t r o l l a b l e c l a s s i f y ,o r t h o g o n a l l e a s t s q u a r e ,a f f e c t i n g f a c t o r 上海交通人学博十后研究工作报告第1 章绪论 第1 章绪论 1 1 短期负荷预测的意义及研究背景 短期负荷预测是指对未来几天、几周或者几个月的负荷和电量做出估计。它是电 力系统调度运营部门和用电服务部门的一项重要日常工作,是制订发电计划和输电方 案的主要依据。精度较高的丑负荷预测在制订发电计划时可以合理安排旋转备用和冷 备用容量,减少机组启停次数,降低即日交易电量,在满足用户用电需要的同时减少 电能成本和电价。另外日负荷预测数据是校核电网安全的重要依据,而月度负荷预测 数据可以用于制订机组和电网检修计划。不论从经济角度还是从安全角度讲,短期负 荷预测工作都是十分重要的。短期负荷预测作用的大小主要取决于预测精度,所以如 何提高预测精度是目前研究短期负荷预测理论与方法的重点。 近年来短期负荷预测的手段已由人工预测方式逐步被软件预测方式所代替。负荷 预测软件己成为能量管理系统( e m s ) 的一个重要组成部分。由于计算机的普及,使 大量短期负荷预测方法和预测模型的采用成为可能,为提高预测精度创造了条件。 短期负荷预测的核心问题是如何利用现有的历史数据( 历史负荷数据和气象数据 等) ,采用适当的数学预测模型对未来时刻或时间段内的负荷值和电量值进行估计, 因此有效地进行短期负荷预测要具备两方面的条件,一是历史数据信息的可靠性,二 是预测方法和相应的软件。由于现在电力系统管理信息系统的逐步建立以及气象部门 气象预测水平的提高,各种历史数据的获取已不再困难,因此短期负荷预测的核心问 题是预测模型的水平高低。 1 2 短期负荷预测的研究和应用现状 对于电力系统的短期负荷预测模型的研究,在过去几十年中有了很大的发展,提 出的各种预测方法和模型不下几十种,其特点总体上体现在如下四个方面 1 预测模型从简单到复杂; 上海交通大学博士后研究丁作报告第1 章绪论 2 智能技术用于短期负荷预测: 3 影响负荷变化因素的计及: 4 从单一模型预测到多模型组合预测。 最简单的预测模型主要有各种趋势外推预测模型和灰色预测模型【他引,这些预测模 型主要适用于有明显趋势的情形,对中长期负荷预测比较适用。由于短期负荷数据包 含随机波动的成分,采用这些模型进行预测其精度往往难以保证。线性时间序列 a r i m a 模型是建立在随机过程理论基础之上,有比较完善的建模理论,适宜短期负荷 预测,文献 1 2 2 对其应用进行了较为详细的讨论。针对短期负荷数据包含的随机成分 也提出了k a l m a n 滤波h 5 l 和其它一些基于统计理论的预测模型1 6 】1 7 5 1 。 非线性系统理论与方法应用于短期负荷预测是近年来学术界讨论和研究的一个热 点。在非线性时间序列统计模型中,能实际应用的非线性时间序列模型有门限自回归 模型,文献 1 0 0 1 对其在短期负荷预测中的应用进行了讨论。基于混沌理论的非线性时 间序列预测模型在短期负荷预测中的应用引起人们的广泛兴趣,文献 8 3 5 】【9 3 】【9 4 皆借助于嵌入相空间建立预测模型。确定嵌入相空间维数的方法文献 8 9 3 1 1 9 4 者g 是通 过计算l y a p u n o v 指数,而文献【3 6 】采用的是计算伪邻域的个数。文献【9 3 】提出了基于 l y a p u n o v 指数的预测模型。 目前解决非线性问题和复杂系统问题的比较有效的方法是采用人工智能技术,这 方面主要包括人工神经网络理论、模糊系统理论、支持向量机与专家系统等。 前向神经网络可以用来逼近任意的非线性映射,因此可以用前向神经网络建立非 线性时间序列预测模型。文献【4 7 】【8 1 9 2 【9 5 9 9 【1 0 l 】 1 0 5 】均采用前向神经网络作为 预测模型。文献u 0 1 用模糊p i d 算法对b p 学习算法的学习率进行调整试图加快神经 网络的学习速度:文献 1 0 5 1j 千 共轭梯度法对网络进行训练;文献 9 2 1 采用模糊控制方 法对b p 学习算法的学习率进行调整:文献 8 1 】提出混沌学习算法试图摆脱传统b p 学 习算法收敛于局部极小;而文献 4 7 1 1 9 5 】【9 9 】则皆采用了遗传算法对网络进行学习以期 避免局部极小。采用小波神经网络作为预测模型的有 1 0 0 1 。文献【5 】将分类网络与多层 感知机组成混合网络进行目负荷预测。文献【4 6 】讨论了建立神经网络日负荷预测模型 应遵循的一些原则。将神经网络作为预测模型时输入变量的选择文献中一般都是人为 地进行选取,文献 3 4 仲采用非线性混沌时间序列分析来决定输入变量则是向前迈进 2 , 上海交通人学博l 后研究i 作报告第1 章绪论 了一步,文献 8 3 1 n 采用正交最小二乘算法来选择模型输入变量。 通过定义在模糊集上的模糊规则进行模糊推理,理论上可以逼近任意的非线性映 射这是模糊技术能处理非线性问题和复杂问题的理论基础。由于模糊推理也可以通 过函数网络进行描述,其特点与神经网络相似,不同的是节点的输入输出函数具有局 部性,而般神经网络节点的输入输出函数为具有全局性的s 一型函数,因此模糊推理 的网络结构一般称为模糊神经网络。对于模糊规则的获取可采用神经网络的反向传播 学习算法( b p 算法) ,也可以从历史数据中直接获取( 1 2 4 】) 。采用模糊推理和模糊神经 网络进行负荷预测的有文献 2 5 5 5 1 5 7 1 1 6 2 ;文献 2 5 】采用模拟退火算法对模糊推理规 则的参数进行调整,文献【5 5 】采用b p 算法对模糊推理规则参数进行优化,文献 5 7 1 在 建立模糊推理规则时采用正交最d , - - 乘法,文献 6 2 1 在模糊规则的则部分采用线性模 型并将模糊推理系统表示为神经网络结构对模型参数进行学习;文献【2 9 将模糊规则 与线性a r m a 模型相结合;将k a l m a n 滤波与模糊推理系统相结合的有文献1 3 1 :文 献 4 3 1 基于模糊集分类进行预测。 将影响负荷变化的因素作为变量引入预测模型也出现在大量文献中。对温度等气 缘因素作为变量建立线性回归预测模型的有 5 3 。在建立神经网络预测模型或模糊系 统预测模型时将气象等因素作为输入变量是常用的方法【2 】 9 】 3 2 【6 4 7 2 ;文献【6 7 】将 温度作为网络的输入变量并采用非全互连结构神经网络来建立预测模型;文献 7 8 7 9 】 利用自组织特征映射对日负荷数据曲线形状进行分类,然后建立基于温度影响的峰谷 负荷神经网络预测模型,文献 3 6 】 1 0 4 】的处理方法类似;文献 8 0 1 目小时温度数据为 类型对日负荷进行匹配预测:文献 1 采用日小时温度神经网络预测模型来提供日各个 小时的温度预测数据进行日负荷预测:文献 3 9 1 先对日负荷数据进行处理再与同小时 温度数据一起进行模糊分类匹配预测;文献 1 7 采用模糊专家系统处理气象、节日和 其它影响负荷的因素;文献 4 2 1 将特殊日进行分类再建立混合神经网络模型进行特殊 日的日负荷预测:文献 1 8 1 先对日负荷数据用自组织映射分类,然后建立将温度作为 输入变量的神经网络预测模型,用模糊控制器对预澳r 误差进行矫正。 组合预测方法是预先选择若干预测模型作为预测模型库,在预测时首先计算每一 种预测模型在近期的预测误差,可由这些误差值选择种预测模型进行预测,也可对 每一种预测模型的预测值采用加权组合,权重有采取等权重的,也有用误差方差确定 权重以及b a y e s i a n 方法确定权重。这种方法的优点是可以取各个预测模型之长。另一 1 上海交通人学蹲十后研究! r 作报告第l 章绪论 种预测方法是由模型库各个模型进行预测得到若干预测值,由实际运行操作人员选取 某一值作为预测值。文献 6 5 1 将线性长a r 模型、线性a r 模型和神经网络预测模型采 用b a y e s i a n 方法进行组合;文献 7 0 】针对不同的情形采用多个神经网络模型进行组合 预测;文献 7 3 1 分别建立基于温度的神经网络负荷预测模型和基于历史负荷数据的神 经网络负荷预测模型进行组合预测;文献 1 0 6 1 对灰色预测模型和单指数平滑预测模型 进行日负荷预测;文献 1 2 3 1 和 1 2 6 对组合预测方法进行了较为详细的讨论。 采用支持向量机进行负荷预测的有文献【1 1 3 】。将实际预测工作人员及技术专家的 预测经验,建立专家系统用于预测。一般对节假日和一些突发事件借助专家系统进行 预测可能会获得较好的效果。专家系统方法最关键的步骤是知识的获取。将神经网络 与专家系统相结合进行分布负荷预测的有文献【4 】。 1 3 短期负荷预测中存在的问题 影响短期负荷预测精度的原因是多方面的,一般来讲可概括为如下几方面: ( 1 ) 信息不完整。由于大量用户的用电行为与影响因素( 如气象因素) 之问的关系在历史 数据中是没有记载的,信息的缺失和不完整是无法避免的:( 2 ) 未来不确定性。各个 用户的用电行为在未来具有一定程度的不确定性:( 3 ) 预测模型的质量。短期负荷预 测模型的建模与预测是依据历史数据资料所包含的信息,因此预测模型反映历史数据 所包含信息的程度和有效性决定了预测水平的高低,这些因素致使负荷预测很难作到 没有误差。现有短期负荷预测不仅精度不能使应用部门满意,而且精度的变化也没有 规律。要使预测模型在实际使用中获得好的预测效果,根据历史数据的变化随时对预 测模型更新就显得尤为重要,这就要求预测模型的建模过程具有以下特征: 1 ) 建模过程简单明了,易于理解和使用; 2 ) 能有效地从历史数据中提取预测模型的结构信息; 3 ) 能处理各种影响因素,包括离散量和连续量; 3 ) 模型推广能力强; 由于智能技术易于结合各种影响因素,通过学习算法可以获得历史数据所包含的 信息,因而应用最为广泛。但是其建模方法理论上还很不完善,其应用距达到以上目 标还有一定的距离,有很多基础问题亟待解决。智能技术包括人工神经网络理论、模 4 上海交通人学博士后研究:作报告第l 章绪论 糊系统理论、支持向量机与专家系统等。 b p 人工神经网络是最常用来建立负荷预测模型的工具之,在实际应用中主要面 临两方面的问题:一是网络的学习速度问题,二是网络的结构设计问题。经典的b p 学习算法收敛速度太慢,学习效率不高,因此大量改进的新的学习算法被相继提出。 快速有效的学习算法无疑有助于提高预测模型的质量。b p 神经网络结构设计要解决模 型输入变量的选择、各层神经元的个数以及神经元之间的连接等基本问题,目前对此 问题还缺乏有效的理论方法,应用中基本上都是凭经验或者采用反复试验的方法来确 定,这种盲目性无疑会影响到预测模型的质量。 由t a k a g i 、s u g e n o 和k a n g 提出的模糊系统模型( 简称t s k 模糊系统模型) 是被 广泛使用的一种模型,用于短期负荷预测要解决的建模问题有两个方面:一是要确定 模型输入变量,二是要确定模糊推理规则。文献 5 5 6 0 均采用j 下交最小二乘 ( o r t h o g o n a ll e a s ts q u a r e ) 算法为工具选择模糊推理规则和模型输入变量,但是模糊 推理规则前提论域的模糊集是人为选定的,输入变量选择也仅仅针对规则结论部分的 线性函数;文献 1 3 2 1 采用遗传算法来辨识模糊推理规则,这种方法假定输入变量 均已经确定,而且一般计算时间都比较长;文献 4 9 首先采用h o u g h 变换对数据进行 变换处理,然后通过聚类算法确定模糊推理规则。这种方法也同样假定输入变量已经 确定,而且h o u g h 变量对二维输入比较有效,对于高维其形式过于复杂。总的来看目 前t s k 模糊系统模型的辨识方法还有很大的局限性和不足。 支持向量机( s v m ) 是v v a p n i k 在统计学习理论【l 】基i l i l 上提出的新的机器学习方 法。这种方法基于结构风险最小化原理( s r m ) ,这一点不同于传统的基于经验风险最 小化( e r m ) 的常规神经网络方法,其根据有限的样本信息在模型的复杂性和学习能力 ( 推广能力) 之间寻求平衡。它的学习问题属于求解二次规划问题,因而具有全局最 优点。将支持向量机用于短期负荷预测面临的问题仍然是模型输入变量的选择问题, 另外支持向量机设置的学习参数较多,在实际使用中其意义不易理解,这无疑会妨碍 其有效使用。 1 3 负荷预测一般是提前一天以上对预测日所规定的时刻的负荷值做出估计。其特 点是要同时预测的点数多影响因素多,而且很多影响因素无法与各个时刻的负荷对 应( 如平均温度、最高温度、最低温度、平均湿度、风力和降雨等) 。目前的预测方 e 上海交通人学博十屙研究i :作报告第1 章绪论 式基本上可以分成三类:第一类是将整个负荷值序列看作一维时问序列,对此建立时 间序列模型。预测时采用所谓“滑动窗”预测技术逐点递推预测,空缺的历史数掘用 预测数据代替。此方法用于日负荷预测时要递推预测的步数太多,预测误差无法控制, 而且此方法不易结合其它影响因素;第二类是对每一个要预测时刻建立负荷预测模型 进行预测。其不足之处是各点独立建模和预测,忽视了各点之间的相关信息,建模工 作量太大,同样也不易结合气象等影响因素;第三类是基于曲线形状的预测方法。此 类方法先采用某些特征负荷( 如最大负荷、最小负荷和平均负荷等) 将日负荷曲线规 范化,将r 负荷预测转化为日特征负荷的预测和日规范化负荷曲线的预测,此类方法 易于结合气象等影响因素,但是对规范日负荷曲线预测不易建立预测模型,目前文献 中采用的方法主要是将曰规范化曲线按某种条件相似进行聚类平均,总的来看方法上 比较简单,主观成份过重。日负荷预测除了以上列举的预测方式上的不足外,对每一 个要预测的负荷量无论采用那一种智能技术建立预测模型都仍然面临相应的问题。 1 4 本文主要工作 本文的主要思想是试图完善在短期负荷中智能预测模型的建模理论,研究从历史 数据( 包括气象等影响因素数据) 中提取模型信息建立智能预测模型的方法和算法, 其工作包括: 第2 章简单论述了粗糙集理论的基本概念及其知识获取方法,为以后章节作逻辑 准备;提出了基于信息熵的粗糙集离散化算法,丰富了粗糙集理论处理连续系统的手 段,为后续章节的应用打下了基础。 第3 章针对b p 神经网络预测模型的学习问题,提出了基于神经元逐个优化的线 性快速学习算法。对b p 神经网络预测模型的建模问题,提出了采用粗糙集理论的建 模方法,即采用粗糙集理论对模型输入变量进行辨识,采用粗糙集理论获取的推理规 则构筑神经网络结构。该建模方法避免了在建立负荷预测模型时的盲目性。 第4 章对建立t s k 模糊系统预测模型,提出了将粗糙集理论和正交最小二乘方法 相结合的建模新方法。首先采用粗糙集理论对模型输入变量进行辨识和确定输入空间 的模糊集划分,由粗糙集离散化算法得到的区域对应确定候选模糊推理规则,再采用 改进的正交最小二乘算法对候选模糊规则进行选择确定最终的模糊系统。 6 上海交通大学博l :后研究一作报告第i 章绪论 第5 章对短期日负荷曲线预测提出了规范化预测的建模方法,提出了适宜负荷预 测问题的可控聚类方法,提出了将粗糙集理论、主成分分析和可控聚类方法相结合建 立规范化日负荷曲线预测模型的建模方法。 一7 - 上海交通大学博士后研究1 :作报告第2 章粗糙集理论知识发现方法 第2 章粗糙集理论知识发现方法 波兰科学家z p a w l a k 于1 9 8 3 年提出的粗糙集( r o u g hs e t ) 理论是一种新型的处 理模糊和不确定知识的数学工具,目前已经在人工智能、数据知识发现、模式识别与 分类、故障检测等方面得到了成功的应用。本文对采用粗糙集理论建立电力负荷智能 预测模型的方法进行了系统的研究。为了使本文叙述逻辑上自成体系,在本章中对本 文中用到的粗糙集理论的相关概念作一陈述,其中基于信息熵的决策表连续属性离散 化算法由作者提出。 2 1 粗糙集理论的基本概念和定义 在本文的讨论中,如果不作说明,一律遵从如下约定:用n 表示集合的交运算; 用u 表示集合的并运算;用减号表示集合的余运算,即a b 表示集合a 中去掉b 后剩 余的部分;用a b 表示爿是b 的子集合;口a 表示元素a 属于集合彳;若a 为有限 集,以旧l 或c a r d ( a ) 表示a 的基数,即它所含有的元素个数:用+ 表示空集;用a 表示 逻辑与:用v 表示逻辑或。本文仅限于对集合中元素个数为有限的集合进行讨论。 粗糙集的定义是基于数学中二元等价关系的概念,为此先给出其一般定义。 定义1 :设z 是一个集合,子集r 已= y x x 称为集合彳上的一个二元关系。 定义2 :设x 是一个集合,五是x 上的一个二元关系,若r 满足如下条件 1 ) 对任何x z ,有:“x ) 只,( 自反性) 2 ) 若:伉力r ,则有:“x ) 尺,( 对称性) 3 ) 若: y ) r ,“g ) e r ,则有:z ) 尺( 传递性) 则称r 为一个等价关系。若伍力e r ,则称x 与一在等价关系r 下等价,在不致混淆 的情况下简称x 与y 等价。 设胄是集合x 上的一个等价关系,对于任意x e x , 令 b 】= 秒:_ y x r ( 2 1 ) 则此集合中的任何两元素都满足等价关系月,此集合称为由元素x 确定的等价类。实 际上集合x 可以分解为这样等价类集合的并,即存在集合五( f d ,使得 x = u x ,( 2 2 ) l e 8 上海交通人学博士后研究工作报告 第2 章粗糙集理论知识发现方法 对每个x ,其中任何两个元素彼此等价;不同中的元素彼此不等价。一般称x 为由 尺确定的一个分类,由这些等价类集合为元素构成的集合称为集合x 关于等价关系r 的商,记为x r 。 定义3 :设月是集合j 上的一个等价关系,子集一量y 在等价关系月下的上近似集r + 口) 和下近似集月似1 分别定义为 r ( 爿) = ( x :x 彳 x n a ) ( 2 3 ) r ( 一) = x :x 鼻 【x 】a ( 2 4 ) 定义4 :一个决策表是一个由四元组( 墨r ,k 力构成的信息表知识表达系统,其中爿 是对象的集合,也称为论域。r = c u d 是属性的集合,子集c 和d 分别被称为条件属 性集和决策属性集。肛u 是属性的取值范围构成的集合,其中阼是属性r 的值域。 f x r - 9 , v 是信息函数,它指定中每一个对象各个属性的取值。d 由。 在本文讨论中仅考虑单个决策属性的决策表,此时决策表的形式一般如表2 1 所 示,其中x = x l ,x 2 ,, x n c 毛 c l ,c 2 ,c 卅) ,d = 田,以及 m ,q ) = g j , i ,0 。,回2 v , 上两式也可简记为c j ( x ,) = 。,m ,) = 。 表2 - 1 决策表的一般形式 对象条件属性决策属性 c i岛 d j 。 “1 11 j 2 1 i22v 2 u 1 n“m _ 为了具体说明决策表的含义,以表2 2 为例,j ,_ x 1 2 j 3 # 4 5 # 6 :条件属性集合 f 为 头疼,肌肉疼,体温 ,决策属性集合d 为 流感 :v 的集合由表中所列各个属 性的取值构成,此表本身定义了信息函数,如:b 3 ,头疼) = 是。 表2 - 2 决策表例子 条件属性决镱属性 个体编号 头疼肌肉疼体温流感 j i 是是正常否 l 也 是是高是 9 。 上海交通大学博士后研究。1 :作报告第2 章粗糙集理论知识发现方法 x 3 是是很高是 知否是正常否 j 5 否香高否 否是很高 是 设q 是由决策表各个条件属性按属性值相等确定的等价关系簇,q 中等价关系的 交仍然是一个等价关系,在不致混淆的情况下仍用q 表示。同样用p 表示由决策属性 按属性值相等确定的等价关系。设由q 确定的等价类子集簇y g x l ,x z ,x s ,则可给 出如下定义。 定义5 :决策表的分类质量定义为: i a ( x t ) r e ( q ) 。钎 ( 2 - 5 ) 其中i x i 表示集合x 的元素个数,p 表示子集尥在等价关系p 下的下近似集( 见 定义3 ) 。一般有0 1r p ( :q ) 11 ,特别当r “q ) = 1 时称决策表是相容的或协调的。 定义6 :设决策表去掉某个条件属性c 。后分类质量记为,p ( q l b ) ) ,则条件属性c 。的 重要性定义为 r ( c ) = f p ( q ) 一,p ( q 一 c 。 ) ( 2 - 6 ) 其中尸、q 含义与定义5 相同。 属性重要性是基于粗糙集理论获取知识的一个重要概念,它体现了一个属性变量 对决策表所包含的逻辑因果关系的支持程度。若某个属性的重要性为零,则说明去掉 该属性后决策表的相容度不会发生变化,因此该属性是多余的,在属性约简中有可能 被去掉。 2 2 决策表的属性约简和值约简 基于r o u g h 集理论的知识获取,主要是通过对原始决策表进行约简而获得推理规 则知识库。对决策表的约简是在保持决策表决策属性和条件属性之间的依赖关系不发 生变化的前提下对决策表进行简化,它包括属性约简和属性值约简。所谓决策表的属 性约简,就是要在保持条件属性相对于决策属性的分类能力不变的条件下。删除其中 不必要的或不重要的属性。一般来讲,决策表的条件属性对于决策属性的相对约简不 1 0 上海交通人学博士后研究: 作报告第2 章粗糙集理论知识发现方法 是唯一的,即对一个决策表可能存在多个相对约简,但是为了使得最终的逻辑系统简 洁,一般总是寻求保留属性个数最少的属性约简。下面先给出一些与属性约简相关的 概念,然后再给出归纳属性约简算法。 定义7 :设x 为一个论域( 集合) ,p 和q 为定义在x 上的两个等价关系簇,q 的p 正域记为p o s p ( q ) ,定义为 p o s ,( q ) = u 只( z ) ( 2 7 ) z e j ,口 定义8 :设工为一个论域,p 和q 为定义在x 上的两个等价关系簇,若 p o s e ( q ) = p o s e r ( q ) ( 2 - 8 ) 则称r 为p 中相对于q 可省略的( 不必要的) ;否则,称,为p 中相对于q 不可省略 的( 必要的) 。 定义9 :设x 为一个论域( 集合) ,p 和q 为定义在x 上的两个等价关系簇,若p 中 的每一个r 都是p 中q 不可省略的,则称p 为( 相对于) q 独立的。 定义1 0 :设x 为一个论域( 集合) ,p 和g 为定义在z 上的两个等价关系簇,若p 的 q 独立子集s o _ p 有p o s s t :q ) = p o s p ( q ) ,则称s 为p 的q 约简。 可以记尸的所有q 约简关系簇为r e d 口( 尸) 。 定义1 1 :设x 为一个论域,p 和q 为定义在x 上的两个等价关系簇,尸的所有q 不 可省略原始关系簇称为_ p 的q 核,记为c o r e o ( p ) 。 定义1 2 :设工为一个论域( 集合) ,p 和q 为定义在x 上的两个等价关系簇,如果 p o s p ( q ) = x , 则称论域z 是j p 上相对于g 一致的。 定理1 :设x 为一个论域( 集合) ,p 和q 为定义在z 上的两个等价关系簇,r e d q 妒) 为p 的所有q 约简关系簇,c o r e c ( p ) 为p 的q 核,则c o r e q ( p ) = nr e d o ( p ) 。 定义1 3 :集合x 的所有子集构成的集合称为彳的幂集,记为t o o :集合x 中所有元 素个数为i 的子集构成的集合称为x 的i 阶幂集,记为靠。 若p 为决策表中由所有条件属性按属性值相等构成的等价关系簇。d 为按决策属 性值相等构成的等价关系簇,则可以证明尸的d 核c o r e d ( p ) 为所有属性重要性大于 零的属性构成( 见定义6 ) 。 上海交通大学博士后研究工作报告第2 章粗糙集理论知识发现方法 决策表属性的归纳约简算法: 第1 步:求取p 的d 核c o r e o ( p ) 第2 步:求取p 的d 最小属性约简r e d , p ) : ( 1 ) 令g = c o r e d ( p ) ,l = p g = 口l a 2 ,口。) ,瓦( 三) 为l 的i ( 1s i s m ) 阶幂子 集; ( 2 ) 如果p o s c ( d ) = p o s e ( d ) ,则r e d o ( p ) = g ,转( 1 0 ) ; ( 3 ) i = 1 ,船0 ,z ,a ,b ( 4 ) y _ 玎) ; ( 5 ) 任取y y ,a = g u y , 如果p o s a ( d ) = p o s p ( d ) ,则 如果f l a g - - - o ,则z = a ,f l a g = l ; 否则,如果c a r d ( u z ) c a r d ( u a ) ,则z = a ; ( 6 ) 】,= y l v ; ( 7 ) 如果y 庐不为空集,转( 5 ) ; ( 8 ) 如果办踞= l ,则r e d d ( p ) = z ,转( 1 0 ) : ( 9 ) i = i + 1 ,如果:i 茎m ,则转( 4 ) ; ( 1 0 ) 结束。 因为属性核是肯定在约简结果中的,所以归纳属性约简算法先求得决策表的属性 核,试图以属性核为基础来求决策表的最小属性约简。实质上,这个算法还是一种对 属性组合的搜索,采用启发式知识来减小搜索空间。所以首先得到属性核,这样就避 免了对核属性之间的组合情况的搜索。同时,由于目标是求取最小属性约简,所以从 属性核出发,逐步增加一个、两个属性,直至得到约简结果,这样就避免了对超 出最小属性约简属性个数的属性组合情况的搜索。因此,归纳属性约简算法是一种带 启发式知识的搜索方法,井能够保证得到最小属性约简。 在对决策表进行属性约简的基础上,还需对决策表的属性值进行约简,进一步剔 除多余的信息,得到可用于进行推理的规则库。对属性值的约简可以采用下面的启发 式值约简算法。 决策表属性值的启发式约筒算法 算法输入:信息系统丁( 假定系统有n 条记录m 一1 个条件属性,1 个决策属性) 。 1 2 上海交通人学博士后研究工作报告第2 章粗糙集理论知识发现方法 算法输出:7 1 的值约简r 。 第1 步:对信息表中条件属性进行逐列考察。若删除该列后产生冲突记录,保留冲突 记录的原该属性值;否则如果有重复记录,则将重复记录的该属性标记为 “ ”:对于其他记录,将该属性值标记为“? ”。 第2 步:删除可能产生的重复记录,并考察每条含有标记“? ”的记录。若仅由未被 标记的属性值即可以判断出决策,则将标记“? ”改为“ ”;否则,将标记 “? ”修改为原属性值;若某条记录的所有条件属性均被标记,则标记“? ” 修改为原属性值。 第3 步:删除所有条件属性均被标记为“木”的记录及可能产生的重复记录( 假定c a r d ( t ) = n ) 。 第4 步:如果两条记录仅有一个条件属性值不同,且其中一条记录该属性被标记为 “ ”,那么,对该记录如果可由未被标记的属性值判断出决策,则删除另外 一条记录;否则,删除本记录。 2 3 粗糙集理论的离散化方法 在应用粗糙集理论解决实际问题时,一般的过程是将样本数据组成决策表,然后 对决策表进行约简( 包括属性约简和值约简) ,在此基础上得到推理规则知识库。但是 以上过程处理决策表时,要求决策表中各个属性值必须用离散值表达。如果某些条件 属性或决策属性的值域为连续的,则在处理前必须经过离散化,这就是粗糙集理论中 的一类重要研究课题数据离散化问题。关于连续数据的离散化并不是一个新课题, 早在粗糙集理论出现之前,由于计算机对数值计算的要求,人们就对离散化( 或称量 化) 问题进行了广泛研究,取得了大量研究成果。在对决策表进行离散化时有的文献 借用其它领域已有的离散化方法,但是这样做明显地没有考虑粗糙集理论的特殊要求, 离散化的效果不好。在研究将粗糙集理论和决策表相结合的离散化算法中,已经取得 了一些成果 5 1 【5 2 l ,其中最为瞩目的是s k o w r o n 提出的粗糙集与布尔逻辑方法【5 1 】。此方 法具有完备性,即理论上可以找出所有可能组合的离散化断点集,但是其算法复杂度 是指数级的,无法在实际问题中应用,为此文献 5 2 1 提出了在此基础上的几种改进的 贪心算法。另外还有基于属性重要性的算法【矧。由于粗糙集离散化问题在实际应用中 的重要性,作者对此问题进行了研究,提出了基于信息熵的离散化算法。 1 3 - 上海交通大学博士后研究1 :作报告第2 章粗糙集理论知识发现方法 1 ) 离散化问题的描述 设s r ,k 力是一个决策表x = “,x :,h ) 是论域,一般仅考虑一个决策属性 的情形,即r = c u 田。对属性a r ,设值域圪= 【f d ,r 胡,其中有一组点 ,。 c ? c ; c ,a 一 r o ,n 这_ - - n 点按区间划分 圪= 【f 。,c ? ) u p ? ,c ;) u u c :。一- ,c :。) u 【c :。,r o ( 2 9 ) 将属性a 的取值分成m 。+ 1 个等价类。这里每一个c ;就称为一个断点。离散化的目的 就是对所有连续属性都找到适宜的断点集,此时若令 厂9 ( x ,a ) = f f ( x ,a ) c k , c “)( 2 1 0 ) 则可得到一新的决策表足旷广) ,即经过离散化之后原来的信息系统被一个新的 信息系统所代替。 2 ) 等距离划分( e q u a l i n t e r v a lw i d t h ) 离散化算法 此种离散化算法是在每个属性上,报据用户给定的参数来把属性值简单地划分为 距离相等的断点段,不考虑每个断点段中属性值个数的多少。假设某个屑性口c 的最 大屑性值为如,最小属性值为乇,用户给定的参数为k ,则断点间隔为占:! 量;盟,为 k 此得到此属性上的断点为砰= ,。+ 话( i = 0 ,l ,句。这些断点之间的距离相等。 3 ) 等频率划分( e q u a lf r e q u e n c yi n t e r v a l s ) 离散化算法 此种离散化算法是根据用户给定的参数k 把m 个对象分成段,每段中有m k 个对 象。假设用户给定的参数为k ,则首先需要将这个属性在所有实例上的取值从小到大 进行排列,然后进行平均划分为k 段即得到断点集。每两个相邻断点之间所包含的属 性值的个数是相等的。 以上两种算法需要人为地规定划分的个数,或者需要用户预先给定一个参数,根 据给定的参数将各属性的值域按等距离或者等频率( 属性值出现的频率) 划分为几个 离散的区间。离散化过程中几乎不考虑信息系统的具体属性值,一次得到所有的断点 值,不考虑信息系统的不可分辨关系。在对条件属性离散化的过程中采用这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论