(电力系统及其自动化专业论文)基于聚类分析的负荷数据分类方法的研究.pdf_第1页
(电力系统及其自动化专业论文)基于聚类分析的负荷数据分类方法的研究.pdf_第2页
(电力系统及其自动化专业论文)基于聚类分析的负荷数据分类方法的研究.pdf_第3页
(电力系统及其自动化专业论文)基于聚类分析的负荷数据分类方法的研究.pdf_第4页
(电力系统及其自动化专业论文)基于聚类分析的负荷数据分类方法的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学 ( 北京) 硕士学位论文 第一章绪论 第一章绪论 , .,电力负荷建模研究和应用现状 1 . 1 . 1 电 力负荷建模的重要意义和我国目 前负荷应用的 现状 保证电力系统运行的安全可靠性就是电力系统规划和运行的首要任务。 电力 负荷作为电力能量的消耗体, 对整个电力系统的安全稳定运行起着至关重要的作 用。由 于安全运行的限制, 在研究电力系统在扰动后的动态特性时, 不能采用直 接在实际系统中 进行各种试验的方法, 通常在模拟系统上来研究电 力系统的 动态 特性。这就是通常所说的电力系统动态仿真。 电力系统动态仿真是研究整个电力系统动态特性的重要工具, 是电力系统设 计、 规划和运行的基础。 负荷模型作为电 力系统动态仿真的重要组成部分, 对电 力系统的动态特性具有重要影响。 它的准确与否直接影响着仿真的结果和以仿真 结果为基础而产生的决策方案, 进而关系到决策方案实施所产生的经济效益和社 会效益。 粗糙的电力负荷模型与精确的发电 机, 调速系统, 励磁系统, 网络元件 模型的不协调, 从总体上讲, 不仅将后者的精确性难以发挥其应有的作用, 而且 降低了整个仿真的准确度和可信度。 负荷模型对实际系统的描述能力对电力系统的 运行, 规划设计有着至关重要 的影响,从两方面来说:( 参考文献 【 1 ) 如果当前的负荷描述不准确而导致过于乐观的结论: 在规划设计方面将会导致系统反事故措施投入资金不足,从而产生了不 合理的系统规划方案, 给以后的系统运行造成不便, 甚至是潜在的危险; 在运行方面将导致系统运行于失稳的临界状态或疏于防范造成事故。 如果当前的负荷描述不准确而导致过于悲观的结论: 在规划设计方面将会因不必要的加强系统结构和反事故措施而投入过多 的资金,造成浪费;在运行方面因采取过分保守的策略而限制了功率传 输的极限,使设备得不到充分利用。 随着电 力系统逐渐向大电网、 超高 压、 大机组、 远距离方向 发展, 负荷模型 显得越来越重要。 例如, 在电压中长期的动态分析和在对系统振荡的分析中, 如 何提高负荷模型对系统激励变化的响 应精度, 以 及在中长期问 题中 考虑的负荷模 型变结构问题,都需要加强对负荷模型的研究。 大量的研究结果表明负荷特性对电 力系统仿真结果有重要影响, 其表现在不 同的负荷特性对电力系统的暂态稳定、 小干扰稳定、 电压稳定和低频振荡具有不 华北电力大学 ( 北京) 硕士学位论文 第一章绪论 同程度的影响,在临界情况下,计算结果可能发生质的变化。参考文献 【 1 文献【 2 1 通过比 较动态负荷和静态负荷模型在计算茂湛系统送出截面功率 极限计算和广州水贝变电站事故仿真的两个实际算例, 证明了动态负荷模型可以 比静态负荷模型更真实地反映电力系统地动态过程。 由 此可见, 负荷模型对提高电力系统仿真的准确性和可靠性, 对提高电力系 统规划设计的经济性具有重要意义。 所以, 如何建立符合实际的负荷模型并将之 实用,这一直是负荷建模的研究内容和目标。 总体上说,我国现有的电力系统过于强调安全稳定运行,负荷特性的描 述相当悲观。往往在相同等级的输送线路上,我国线路规划的稳定功率极限 要比外国低的很多。 2 0 0 3 年9 月1 日, 上海一个主要供电 机组跳p ip , 紧急从 安徽的两条5 0 0 k v 输电线路向上海送电, 结果两条输电线路超过稳定极限1 5 %运行长达2 个多小时,整个系统未出现异常。由此可见,我国在进行电力 系统规划设计时,电力系统负荷模型取得相当保守,这使得电力设备得不到 充分利用。 为了确保电力系统的安全稳定运行,在地区级的电力系统稳定分析、运 行和规划设计中采用了过于保守的负荷模型。例如在东北地区,所有的变电 站负荷均采用了5 0 %的恒阻抗加上5 0 %的电动机的静态负荷模型; 而在华北 地区, 所有的变电站负荷则采用了4 0 %的恒阻抗加上6 0 % 恒功率模型。 像这 样忽视了电力负荷的时变性、变结构性和不同地域特性的差异性的特点而建 立一个所谓 “ 通用”模型,其结果肯定是极为保守和不准确的,这样造成的 后果就如上所述:在规划设计方面导致资金的浪费,在运行方面导致了设备 得不到充分利用。 一方面是我们可以通过各种方式 ( 测量、录波和统计)得到大量有关负 荷信息的数据,另一方面却是我国整体负荷特性描述相当保守;一方面是研 究中不同地点采用不同的负荷模型,另一方面却是在实际分析中一个大地域 所有的负荷变电站采用相同的负荷模型:说明了研究和实用之间相互脱节。 目 前负荷建模研究大多集中在辨识方法和追求对单组数据的拟合效果上,对 负荷特性如何实用化,对负荷的时变性和地域特性的研究较少。 1 . 1 . 2 现行的电力负荷建模研究的方法和存在的问题 现有的负荷建模研究方法有两大类:统计综合法和总体测辨法。 统计综合法基本思想是:先在实验室内确定每种典型负荷的平均特性方程, 然后在一个负荷点上统计一些特殊时刻负荷 如冬季峰值负荷, 夏季峰值负荷) 的 组成, 即每种典型负荷所占的百分比, 以 及配电 线路和变压器的数据, 最后综 华北电力大学 ( 北京) 硕士学位论文 第一章绪论 合这些数据得出该负荷点的负荷模型。 e p r i 经过多年的努力发表了 许多研究报 告,并且研制了到目前为止统计综合法负荷建模中最具影响的软件包 e p r i l o a d s y n , 该软件使用时虽然需要三种数据: 负荷组成, 即各类负荷 ( 民 用, 商 业,工业等)所占的比例;各类负荷中各用电设备 ( 荧光灯,电动机,空调等) 所占的比 例;各用电设备的平均特性, 但由 使用者必须提供的只有第一种数据, 后两种数据可以 利用该软件包所给的典型值。 在 1 9 9 5年发表的文献 【 2 1中, w e n - s h i o w k a o 采用该软件建立的综合负荷模型( 动态+ 静态) 对一个三相母线 接地事故和一个低频振荡事故进行仿真仍取得了比 较满意的效果。 但是该方法存在着很多不足: a )各类元件的平均特性的确定,如电 动机群的等值,另外,负荷模型的参 数确定与所给的激励大小有关,不同的激励下得到的参数也就不一样。 b )负荷元件组成复杂繁多, 统计工作费时,费力,而且难以统计准确。 e )负荷具有很强的随机性, 变结构性和时 变性,即统计综合法不适合研究 负荷的时变性。 此外统计综合法得到负荷模型参数的方法过于简单,通常是简单的加权平 均,现有的方法主要有k v a加权等值法和初始功率不变法等。 这些方法的假设 条件过于理想, 方法过于简单, 结果误差比 较大。由于上述困难, 近年来, 较少 见到有关的文献和实际应用。 总体测辨法基本思想是: 通过现场实验和在线捕捉电 力系统的自 然扰动获得 负荷所在母线的电压、 频率、电流、 有功和无功数据, 然后根据系统辨识理论确 定综合负荷模型。 这一方法无需过多的负荷信息, 辨识结果具有真实性, 随 着计 算机, 通讯技术和系统辨识理论的发展, 该建模方法变得更加简单、 易行。 总体 测辨法所获得的模型参数是以模型响应能最好拟合所观测到的负荷响应数据为 目 标, 所以 负荷模型具有符合实际的 特点。 该方法现在是发展较快,日 前占 主导 地位的负荷建模研究方法。 基于实测负荷特性数据的 模型结构与参数的辨识是总 体测辨法负荷建模的两个重要的问题。 目 前现在国际上通用的负荷模型结构是一 个组合式的负荷模型 ( 动态部分+静态部分) 。 同样的,该方法也存在着很多不足: ( 1 ) 模型的通用性问题, 即由某负荷点数据建立的负荷模型表现出专有 性, 难以 灵活地推广至其它负荷点。 这个问题也是负荷模型研究走 向实用化的关键。 ( 2 ) 模型对负荷时变性和变结构性的适应问题, 基于实测数据所建模型 可以较好地描述当时地负荷行为, 但难以 描述随时间、 季节、 气候 变化后地负荷行为。也就是说,基于实测数据所建模型仅能准确描 华北电力大学 ( 北京)硕士学位论文 第一章绪论 述实测数据所采集那一刻的负荷行为。而不能适应其它。 c 3 ) 建模所需激励强度的问题, 研究表明在小激励下建立的负荷模型不 一定能适应大激励的 情况下, 总体测辨法负荷建模需要足够的激励 程度, 这与电力系统安全运行的要求相矛盾。 缺乏充分的激励数据, 给该方法建模带来很大困难。 1 . 2 聚类分析方法的引入及其理论依据 1 .2 . 1 实用化负荷建模研究 如上所述,目 前负荷建模研究存在着研究与实用严重脱节的现象, 并且研究 方法上也存在有待改进的地方。 这需要对当前电 力负荷建模研究工作的方向 和方 法进行调整和改进, 需要采用实用化负荷建模思想, 建立实用化的负荷模型, 将 负荷建模研究的成果真正用在我国的电力系统建设上,为提高我国电 力系统运 行、规划和设计的水平和负荷描述能力服务。 对于一个大区域的电力系统分析人员而言, 如果该区域的所有的负荷变电站 均采用同一种负荷模型, 该负荷模型必定是非常保守和粗糙的。 而如果将每个负 荷变电站均根据总体测辨法建立起相当 精确的负荷模型, 这需要大量的设备和资 金的投入, 这种想法也是不切合实际的, 而且也是没有必要的。 通过对两种传统 方法的分析, 我们很容易发现, 统计综合法的优势在于它能对一个地区的整体负 荷状况进行把握, 而总体测辨法的优势在于它能对一个具体的测量点负荷特性的 把握。 基于此, 我国学者结合我国实际 情况, 综合了 两种传统方法的特点, 提出了 综合测辨法的思想。 这种方法以总体测辨法为主, 吸收了统计综合法优点, 可望 在较短的时间内, 以 较少的人力和物力得到系统内 所有变电站一定精度的负荷模 型, 具有一 定的实用性和先进性。 ( 文献 1 3 1 ) 这种方法有很多种思路,如文献 【 3 1 所提出的就是其中一种思路。本文所 采用的思路是: 对一个大的地域来说, 先采用统计综合法的方法调查出该地域几 种最主要的负荷成分 ( 如工业、农业、商业等) ,并统计该地域所有变电站的负 荷成分百分比, 每个变电 站的负荷统计数据我们称之为样本。 对得到的样本进行 分类分析, 将之分成合适的类数; 再采用总体辨识法为每个类别建立一个统一的 负荷模型。 这样, 在整个地区只用采用几个负荷模型, 就能“ 具有一定精度” 的 覆盖该地区所有负荷的负荷特性。 这就是实用化建模的思路, 也是本文所做工作 的最终目的。 本文所做的工作就是将聚类分析方法引入到实用化负荷建模的研究中, 对得 华北电力大学 ( 北京) 硕士学位论文 第一章 绪论 到的大量负荷统计数据进行聚类分析, 根据其特性, 将其分为几个大类, 为下一 步每类建立一个通用的实用负荷模型打下基础。 1 . 2 . 2聚类分析法的引入及其定义 实用化负荷建模研究的目的是为了应用。它不要求建立起每个变电站负 荷每时每刻都非常精确的负荷模型,这不仅是没有必要的而且还是不现实 的。实用化负荷建模的原则就是在保证一定精度的前提下 “ 粗线条”地、突 出本质地描述负荷的行为。它建立的负荷模型应该具有良好的内插和外推能 力,能综合描述不同负荷组成能力。要做到这一点,就有必要对所得到的大 量数据 ( 统计、测量和录波等)进行有效的分析和处理。近些年来,为了更 有效地应用和处理电力系统中得到的大量数据,人们引入了多元数理统计技 术、模式识别等相关的理论来对数据进行信息分析。聚类分析是一种新兴的 多元统计技术,也是一种模式识别的技术。人们把它应用在电力系统中需要 处理大量数据的地方,并取得的良好的效果。 聚类分析属统计学的范畴,是当代分类学与多元分析的结合。它和判别 分析都是统计学中常用的分类统计方法。 但两者在解决问题的对象上和处理 方法上大相径庭。 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性 质差别较大的归为不同的类。聚类分析事先并不知道事物类别的面貌,甚至 连共有几个类别也不确定,分类过程中没有任何指导信息,完全是一种数据 驱动的方法,它寻求的是在解释空间中找到一个与表示空间的结构相对应分 类方案。 属于一种演绎的思想。它常被应用于人们对不甚了 解的事物的初始 认识上。 而判别分析则先根据已知类别的事物的性质, 利用某种技术建立函数式, 然后对未知类别的新事物进行判断以将之归入已知的类别中。判别分析事先 己知事物的种类特征和种类数目, 由此而总结出分类方法。 它在分类过程中, 有信息进行指导分类,它寻求的是在表示空间中找到一个与解释空间的结构 相对应的分类方案。属于一种归纳的思想。它常被应用于那些已知特征的事 物范畴中未知样本的分类。 聚类分析和判别分析常常属于人们对事物认识的两个阶段。对于一种未 知事物,人们常常先采用有效的聚类分析方法,对其进行按己知特性分类, 然后对每一类进行具体分析, 提炼出特征。 确定事物的种类特征和种类数目, 再将结果运用于判别分析。也就是一种演绎和归纳的过程。 现在很多学者在具体应用聚类分析时, 常常把判别分析方法也归入到聚 华北电 力大学 北京)硕士学位论文 第一章绪论 类分析中去,作为聚类分析中的一种方法 ( ( 4 5 ) 聚类分析和判别分析同时也属于现代模式识别理论的范畴, 分类的过程 也就是类别识别的过程。从本质上讲,模式识别这门学科实际上是数据处理 及信息分析的一门学科,从功能上讲,可以认为它是人工智能的一个分支。 针对不同的对象和不同的目的,可以用不同的模式识别理论、方法。目 前主流的技术是:统计模式识别、句法模式识别、模糊数学方法、神经网络 法、人工智能方法等。其中聚类分析法属于统计模式识别的范畴。模式识别 是一门交叉学科,它的普及促进了很多特定领域方法学的发展,丰富了与其 他学科的联系。同时新兴学科的发展,反过来促进和拓宽了模式识别的领域 和发展。比如随着灰色理论的发展,灰色聚类分析法的广泛应用,不仅促进 了灰色理论的发展,而且还丰富了模式识别的理论。 目前,聚类分析在电力系统中的应用一般在以下一些方面: 电气设备的故障诊断 ( 包括变压器、线路故障、发电气轮机等) 。参 考文献 7 1 e 9 1 ( 1 3 1 4 7 1 1 6 用于电力负荷短期预测。1 1 2 1 用于电力负荷模式的分类。【 巧】 1 . 2 .3 聚类分析在负荷数据处理中应用及依据 将负荷建模研究的成果实用化的问题,很早就引起了人们的注意,聚类 分析作为一种有效的数据处理方法,已经被人引入到了负荷建模的研究中, 章健博士在文献 【 1 1 】中,提出了要将负荷建模研究走向实用化,就要对负 荷特性进行分类和综合。文献 【 1 1 1对河南省焦作市东郊变电站采集的具有 不同负荷水平和电压扰动的负荷数据分类和综合分析,取得了较好的结果。 文献 【 1 0 1 则采用了聚类分析方法 ( 采用k o h o n e n神经网络) 对河北沧州 于庄变电站采集的1 9 9 6 . 1 9 9 7 和1 9 9 8 年的负荷数据进行聚类和综合的分析, 也取得了较好的效果。 以上的分析结果充分说明了负荷特性具有一定的重复性,负荷特性是有 规律可循的。虽然聚类分析后,分属于同类的负荷数据具体反映的负荷特性 也有差异。但也应该认识到属于同一类的负荷具有相对稳定的性质和共同的 特点。而这也就是对负荷数据进行聚类分析的理论基础。 但是,以上分析有以下不足: 以上分析解决的均是同一测量点, 不同时间, 不同电压水平下负荷模 型实用性问题。 单独一个负荷测量点负荷模型精度的提高无法改变该 区域范围内整体负荷模型精度的改善。 华北电 力大学 ( 北京)硕士学位论文 第一章绪论 以上分析中最终聚类数目的确定,往往采用的是人为主观的判断。 , .3 本文所做的工作 针对以上问题:本文做了以下工作: ( 1 ) 引入聚类分析法对同一地域不同地点变电站的负荷统计数据进行聚 类分析。 ( 2 ) 比较了四种聚类分析方法对负荷统计数据的效果, 确定谱系数聚类分 析法中平均距离法比较适合本文数据的分析。 ( 3 ) 采用谱系数聚类分析法中的平均距离法对全东北网四个不同地域( 黑 龙江、吉林、辽宁和内蒙古北部)的全部变电站 ( 共2 3 4 个)负荷成 分统计数据 ( 分夏冬两季)进行分析。并且采用多元统计学相关理论 对各个地域不同季节负荷统计数据的最终聚类数目 进行判定和分析。 最终将各个地域不同季节统计数据聚成比较适用的聚类数目。 ( 4 ) 用程序实现上述功能,为以后的分析和工作的展开提供了工具。 , ,4负荷统计数据的来源和内容 本文所分析的数据来源于东北电力调度中心向国家电网公司申请报批的 重大项目“ 大区域电网负荷测试技术及模型完善研究” 。其中东北电网负荷 实测及建模研究则是该项目的重要组成部分,负荷统计调查是其研究的基 础。 具体的调查方式和内容见附录a中的说明。 该项目是与华北电力大学电 力系统稳定与控制研究所合作研究的,华北电力大学电力系统稳定与控制研 究所从2 0 世纪8 0 年代直至现在一直致力于负荷建模实用化的研究,并取得 了丰硕的成果。为了建立全东北网具有一定精度的实用化负荷模型,具体研 究中将采用上述的综合测辨法。为了此次研究工作的顺利进行,东北电管局 投入了大量的人力和物力,在不少变电站都安装了负荷特性记录仪,并承诺 做电力系统短路实验。从长远来讲,该项目 对全国联网以及东北电网的安全 稳定运行具有及其重要而深远的意义。 该统计数据基本上于2 0 0 3 年7 月1 5 号统计完成, 并汇总到北方交通大学的 黄梅老师, 黄老师将数据进行二次处理, 具体做法是将每个变电站中所有负荷线 各种不同负荷成分分别加权平均得到了 相应变电 站的几种典型负荷的成分百分 比。 最终得到了全东北网2 3 4 个负荷变电站冬季和夏季负荷成分的统计表。 该数 据表格就是本文所做的聚类分析工作的 基础。 为了进行有效的分析,本文对数据进行了下列的处理方式: 华北电力大学 ( 北京) 硕士学位论文 第一章绪论 考虑到一个变电站的负荷成分构成受到多方面的影响,不仅受到环境、 气候和资源的影响,还要受到省级政府的全局规划和政策方面的影响, 因此在具体分析中把东北电网按其不同省份分成四个部分进行分析。分 别是:黑龙江省、吉林省、辽宁省和内蒙古北部地区。再考虑到冬夏的 差别,这样,我们就可以吧所得到的数据分成了八张负荷统计数据表, 后面的分析均是基于这八张数据表格。 对于没有统计数据的负荷变电站不参与聚类分析。 由于统计方面的原因, 有四个变电站负荷统计数据没有及时采集到,同时还有些变电 站只有冬 季负荷数据或是只有夏季负荷数据。对于这样的变电站,在聚类中采用 了 剔除的方法。因为,在聚类分析中零记录的数据也要在样本空间中占 据位置,这样就会对聚类分析结果产生影响。 华北电力大学 ( 北京)硕士学位论文 第二章 聚类分析及其方法简介 第二章 聚类分析及其方法简介 2 . 1引台 聚类分析是一种新兴的多元统计方法, 是当代分类学与多元分析的结合。 聚 类分析是将分类对象置于一个多维空间中, 按照它们空间关系的亲疏程度进行分 类。 通俗的讲, 聚类分析就是根据事物彼此不同的属性进行辨认, 将具有相似属 性的事物聚为一类,使得同一类的事物具有高度的相似性。 在实际研究中,既可以对样本个体进行聚类,也可以对研究变量进行聚类, 对样本个体进行聚类通常称为q型聚类, 对 研究 变量进行的 聚类称为r型 聚类。 本文采用的是对样本个体进行聚类分析。 由于对于整个东北网的负荷变电站而言, 我们对每个变电站负荷乃至每个区 域 ( 比如一个省份)的负荷特性了解并不清晰。 我们甚至不知道在每个省内, 它 所属的 变电 站负荷应该能分几类, 每一类会具有什么特性。 因 此, 我们在分析中 采用了聚类分析的思想, 而没有采用判别分析的思想。 聚类分析与判别分析相比 具有以下优点: 通过聚类分析,可以获得所研究样本的有用的概括和解释。 通过聚类分析,可以为一个指导学习的统计分类提供质心估计。 2 .2 聚类方法的介绍 无论采用何种聚类分析方法,必须要对样本和变量之间的相似性进行度量。 距离常用来度量样本间的相似性, 相似系数常用来度量变量之间的 相似性。 2 .2 . 1 距离 设a jj (_ = 1 ,2 , . . . , n ; j 二 1 , 2 , . - - , p ) 为 第x 个 样 品 的 第j 个 指 标的 观 测 数 据。 定 义d y 为 样 品x 3 与x i 的 距 离 。 常 用 的 距 离 有 : 明氏 距离 ( m i n k o w s k i ) 、 (。, 二 客 1、 一 。 i0)lg 华北电力大学 ( 北京) 硕士学位论文 第二章 聚类分析及其方法简介 二1 时, 二2时, d u ( 1 ) d ( 2 ) 一 k=l 、 一 、 一称 为 绝 对 值 距 “ 。 一 (睿 lx - xjkl2)1/2l ,k=1称 “ 欧 氏 距 “ qq 当当 当 4 二 二 时, d ( o o ) = i517 ka x 、 一 、 称 为 切 七 匕 雪 夫 距 离 马氏距离 ( m a h a l a n o b i s ) d y ( m ) 二 ( x / 一 x , j y一 ,( x , 一 x j ) 其 中 x , 为 样 本 x , 的 p 个 指 标 组 成 的 向 量 , 艺 为 协 方 差 矩 阵 兰氏距离 ( c a n b e r r a ) 1 川、 一 x jk l p k1 x /k 十x i k 斜交空间距离 、 = cp2i 1 ( 一。 )(x,,一、 寸 其中rk , 是 变量x k 与 变量x , 间 的 相 关 系 数。 在众多的距离中,用的最多的是明氏 距离中的欧氏距离,有的软件如 ( s p s s ) 和书籍采用的是欧氏平方距离, 即将欧氏 距离加以平方。 为了和s p s s 软件的结果进行比较, 后面的程序采用的也是欧氏平方距离, 本质上, 欧氏 平方距离和欧氏距离没有什么不同,只是随着特征向量之间分离得越来越 远,欧氏平方距离得增长速度要快些。 在量纲取定的条件下,两个样本越相似,它们之间的距离d ( d就越小, 反之亦然, 值得注意的是量纲选取不同 会改变某特征的判断依据性。因此当 样本的不同特征值的量纲差别很大时, 会对聚类结果造成很大的影响。 这就 需要将各种特征值进行标准化。 标准化的方法有很多种( 参考文献c 4 , 5 ) , 它们可以保证比例的不变性或至少可以试图使距离度量方法在各种特征下 的贡献达到一个最佳的平衡。由于本文中分析的数据量纲均为一致。 所以本 文中的数据不必标准化。 2 . 2 . 2 聚类方法 华北电力大学 ( 北京) 硕士学位论文 第二章 聚类分析及其方法简介 经典的聚类方法有谱系数聚类分析法, 动态聚类分析法, 由于新的理论不断 提出,现在又有了模糊聚类分析和灰色聚类分析。下面对这些方法做个介绍。 . 谱系数聚类分析法 ( 又叫系统聚类分析法) 这种方法理论比较成熟 1 . 条件与约定 设 待 分 类 样 本 特 征 矢 量 集 为 戈 , 凡, , 吞 , 研 k ) 表 示 第k次 合 并 时 的 第i 类。 2 .基本思想 首先,视n个样本各自 成为一类,后计算类与类之间距离,选择距离最 小的一对合并成一个新类,计算在新的类别划分下各类之间的距离,再 将距离最近两类合并, 类结果是没有意义的, 3 .算法步骤 1 )初始分类, 令 k 二 直至所有样本聚成一类为止。将所有样本聚成一 再根据一定的原则确定最终的种类个数。 0 , 侮 个 样 本自 成 一 类, 即研 。 , = 戈 ( i = 1 , 2 , 二 , n ) 2 ) 计 算 各 类 间 的 距 离 几, 由 此 生 成 一 个 对 称 的 距 离 矩 阵 d (k ) 二 ( 几 ) 。 二 其中m为类的个数 ( 初始时,m= n) 3 ) 找 出 前 一 步 求 得的 矩 阵 d (k ) 中 最 小 元 素, 设 它 是 研 k ) 和司 k ) 间 的 距 离 , 将 研 k ) 和 g j(k ) 两 类 合 并 成 一 类 , 于 是 产 生 新 的 聚 类 司 k + 1) , 侧 k + 1) , ,令 k =k +1 , m=m一1 ; 4 )检查聚类后的个数,如果类数m大于2 ,转至 ( 2 ) ,否则,停止。 4 .谱系数聚类法的分类 谱系数聚类法除了要定义事物之间的亲疏程度指标,还要定义类与 类之间亲疏程度指标并且要导出求取类间亲疏指标值的递推公式。 类与 类之间亲疏程度指标不同, 则求取类间亲疏指标值的递推公式也就不同。 这样就有很多种不同的谱系数聚类法,其中 几种介绍如下: 1 )重心距离法 从物理观点看,若一个类空间位置要用一个点表示,那就用重心来 表 示。 设 类w p , w e 重 心 分 别 为 x p , x q 它 们 分 别 有。 ; 和、 个, 将w p 华北电力大学 ( 北京) 硕士学位论文第二章 聚类分析及其方法简介 和巩合 并 为巩, 则 不有 n , 二 n p + n , 个 样 本 , 易 知班的 重 心 戈 = 卫一 ( n p x x , + n g x x . ) n . * n 4 设另一类w k 的 重心为x k , 则它与w , 的 距离平方是 此= ( x * 一 x ,) ( x 、 一 x , ) = x , - 卫-( n n x x 。 十 。 。 、 戈 ) 戈 一生( n , x x p 、 。 。 、 戈 ) 1 n , +n , n p 十n q 2 ) 平均距离法 两 类w , 和 w q 之 间 距 离 平 方 也 可 定 义 为 这 两 类 元 素 两 两 之 间 平 均 平 方 距 离,即 d a 1 、 “ 、 溉 设w , = w , j w q i类 平 均 距 离 递 推公 式 为 。 ,月 。 2n o。 2 lk f = lk o 十lk a n p + 气n p + 气 相比而言,谱系数聚类法种运用该指标效果较好。 3 )其它方法 其它方法还有最近距离法,最远距离法,中间距离法,离差平方和 法等。因为后面程序中采用的是以上两种谱系数聚类分析法,其它 的方法就不再做介绍了。 . 动态聚类分析法 1 .基本思想 动态聚类的原理是先对分类事物作一个初始的粗糙的分类, 然后在根 据某种原则对初始分类进行修改, 直至准则函数取得极值或者是分类被认 为比较合理为止。 2 . 基本步骤 1 )建立初始聚类中心,进行初始聚类。 2 )计算模式和类的距离,调整模式的类别。 华北电力大学 ( 北京) 硕士学位论文 第二章 聚类分析及其方法简介 3 )计算各聚类的参数,删除合并或分裂一些聚类。 4 )从初始聚类开始,运用迭代算法动态地改变模式地类别和聚类中心使 准则函数取得极值或设定地参数达到设计要求时停止。 3 . c均值聚类算法 c均值聚类算法是一种常用的动态聚类分析方法,动态聚类分析方法还 包括其它的方法, 因为后面的分析用到了c 一均值聚类算法, 因此这里只介 绍c均值聚类算法。 1 )条件及约定 设 待分 类 样 本 特 征 矢 量 集 为 xx z , . . . , x n , 类的 数目c 是 事 先 取 定 的。 2 )基本思想 该方法取定c类和选取 c个初始聚类中心,按最小距离原则将各样 本分配到c类中某一类中,之后不断计算类心和调整各样本的类别, 最终使各样本到其判属类别中心的距离平方之和最小。 3 )算法步骤 任选c 个样 本特征 矢 量作 为 初始 聚 类中 心, 刁 o ) 炭 0) , , 澎 o ) , 令k =0 ; 将 待 分 类 的 样 本 特 征 矢 量 集 x , 中 的 样 本 逐 个 按 最 小 距 离 原 则 分 ” 给 c 类 中 的 某 一 类 , 即 如 果 、 一 m in 4 (k ) 1 , 一 1,2,.一 、 , 则 判 x , “ 不 (k+ l) 。 式 中 d ,j(k ) 表 示 戈 和 叼 k ) 的 中 心 z i(k ) 的 距 离 , 上 角 标 表 示 迭 代 次 数 , 于 是 产 生 新 的 聚 类 叼 k + ll ( j = 1 , 2 , . . . , c ) 计算重新分类后的各类心。 刁 k + 1) 二 n j(k + l) 二 艺 x , 1 二 1 , 2 , . 一 c e 叼x a ) 式 中 n (k + 1) 为 叼k + i) 类 中 所 含 样 本 的 个 数 。 因 为 这 一 步 采 取 平 均 的 方 望f t * ( a r m ) 6a t * 1n e s c一一 一 一 一 法计 算调 整后 各类中 心, 且定 为c 类, 故 称为c 一 均值 法。 如 果 才. i, 一 对) ( i = 1 , 2 ,. 二 , c ) 则 结 束 , 否 则 k = k + 1 转 至 到 。 4 )性能 c 一 均 值法 是以 确定的 类 数 及 选定 的 初 始聚 类中 心为 前提, 使各 样 本 到 其 所判属 类别中 心 距离 平方 之 和最 小的 最 佳 聚 类。 受 其前 提 影响, 结果为局部最优, . 灰色聚类分析法 灰 色 聚 类 分 析 属于 灰 色 系 统 理 论中 灰 色 评 估 范 畴 , 灰 色 系 统 理 论 是 一 种 新的 分析 系统的 理论, 它以“ 部 分 信 息已 知, 部 分 信息 未知” 的“ 小 样本,. “ 贫 信息” 不 确定 系统为 研究 对 象, 主 要 使 通 过 对“ 部分” 已 知 信息的 生 成、 开 发, 提 取 有 价 值的 信息, 实 现 对 系 统 运 行 行 为 的 正 确 认 识和 有效 控 制, 有 很 多 系 统 可以 看 成 是 贫 信 息 不 确 定 系 统, 因 此, 这 一 新 的 理 论 具 有 十 分 广阔 的发展前景。 灰 色聚 类分析 法有两 种: 灰 色关 联 度聚 类分 析 法 和灰 色白 化 权聚 类分 析 法。 1 灰色白 化权聚类分析法 1 )条件及约定 设 待 分 类 样 本 特 征 矢 量 集 为 x , x z , . . ., x n , 灰 类 的 数目 c 是 事 先 取 定 的。 2 )基本思想 该方 法取 定 c个灰 类, 然 后 对 样 本的 每个 聚 类指 标根据 其取 值范围 建立 起与 每个灰 类相对 应的白 化 权函 数。 白 化 权函 数是 用来 描 述样 本在 某 个 聚 类 指 标下 的 数 据属 于 某 一 灰 类的 概 率。白 化 权函 数 一 般 是 梯 形 形 状 , 当 某 一样本在某个聚类指标 下的 数 据正 好落 在该指 标的 某种灰类的 取值 范围内 时, 则该 样 本在这 种聚 类 指 标 下的 该 种灰 类的白 化权函 数取 值 就是 t o 相当 于 落 在梯形的 上 底上, 如 果 在这 种灰 类的 取值范围 之外, 则 取其 它值,相当于值落在梯形的两个腰上或者为零。 华北电力大学 ( 北京)硕士学位论文第二章 聚类分析及其方法简介 x l x z x 3 x 4 白化权函数 3 )算法步骤 根据己知信息和经验,确定所要划分灰类的个数 c及聚类数据向量, 必要的话,聚类数据要进行标准化。设聚类数据向量为d l ( i = 1 , 2 , . 二 , n , j = 1 , 2 , 一, m, ) n表 示 样本 数, m表 示聚 类指 标 数。 根 据 取 值 的 大 致 范 围 , 建 立 起 每 种 灰 类 每 个 聚 类 指 标 的 白 化 权 函 数 a f l, ( t = 1 , 2 , 一, c , j 二 1 , 2 , . . . , m, ) 设 %( t = 1 , 2 , 二 , c , j 二 1 , 2 , . . . , m , ) 为 指 标j 的 t 灰 类 权 重】 ct o 为 灰 色 聚 类 权 ,cr i 为u 9 的 向 量, 则6 , 二 ( q ,, , 17 ,2 . , u !c ) 二 艺f 1 ( d , ) x 1711 , l _ ,z ( d l ) x ,7 2 j , . . . , y 片( d ) x 77,i 取其最大的灰色聚类 权作为样本所属的灰类。 4 )性能 灰色白 化权聚类分析是以 知道所要划分的类别数 ( 灰类数)为前提的, 聚类分析效果的好坏取决于白 化权函数建立的准确程度,而白化权函数建立 的准确程度取决于对样本信息的掌握程度。因此在对样本信息掌握不多的情 况下,采用该方法并不能取得好的效果。本文的聚类分析方法中,并没有选 择该方法。 2 . 灰色关联度聚类分析 灰色关联分析是定量地比较或描述系统之间或系统中各因素之间,在发 展过程中随时间而相对变化地情况, 即分析样本序列曲 线地几何形状, 用它们 变化地大小、 方向与速度等地接近程度, 来衡量它们之间关联性大小。 如果两 比较序列地变化态势基本一致或相似, 其同步变化程度较高, 即可以认为两者 华北电 力大学 ( 北京) 硕士学位论文 第二章 聚类分析及其方法简介 关联程度较大; 反之, 两者关联程度较小。 这种用于度量系统之间或因素之间 随样本变化关联性大小的尺度,称为关联度。 【 6 】 8 l 灰色关联度聚类分析就是以灰色关联度为分析基础的一种聚类分析方 法。 在量纲一致的前提下, 可以认为关联度大的样本之间相似性也大。 可以聚 为一类。 1 ) 条件与约定 设 待 分 类 样 本 特 征 矢 量 集 为 戈 , x z , 一 , 芍 , 2 ) 基本思想 先求出两两样本之间的灰色关联度,形成灰色关联度矩阵,以 此为分析基 础,设定一个槛值, 把两两样本之间关联度均大于槛值的样本归为一类。 3 ) 算法步骤 假设槛值为h o l d ,目 标聚类数目 为c a 求 出 两 两 样 本 之间 对 应 聚 类 指 标 的 关 联 系 数 设 样 本x 对 样 本x , 的 关 联 系 数 为 y ( m ) , m 表 示 样 本 x , 与 样 本 x i 比 较 关 联 性 的 对 应 的 聚 类 指 标 值。m是聚类指标的数目。即: a (二 ) 一 x j (m ) - x ;( m )i m e 1,二 、 、 a m ; = m in m in a , ( m )j a . _ = m a x m a x a y ( m )j 则 ;, ( m ) 为 fl户勺 润引0 山了 y ( - ) = a m , + a m . x k a ,; ( m ) + a .x k 二 e 1 , . . . 其中k 是事先确定的值, k e 0 , 1 1 一般情况下取见参考文献【 9 】 求 出 样 本 之间 的 关 联 度r, 并 形 成 关 联 度 矩阵。 “ 一 m 孕 (j ) 从第一行开始分析,把关联度大于槛值的样本,并且相互间的关联度也 华北电力大学 ( 北京)硕士学位论文第二章 聚类分析及其方法简介 大于槛值的样本,归为一类。 如果最后得到的聚类数目 小于目 标聚类数目,则调大槛值,回到:否 则调小槛值,回到。 4 )性能 灰色关联度聚类分析法, 计算简单, 原理简单, 与谱系数聚类分析法相 比, 不用多次迭代计算分析矩阵。 与灰色白 化权聚类分析相比, 不用对待分 析样本信息了解太多。 缺点在于, 它的聚类结果是由 槛值控制, 不易直接得 到目 标聚类数目。本文中采用了这种聚类分析方法,并用程序加以实现。 2 . 3 聚类方法的有效性及聚类类数的判断标准 2 . 3 . 1 聚类方法的有效性 基于模式相似准则而建立的聚类方法有效性, 从根本上讲, 首先取决于模式 特征点在特征空间中分布情况和聚类分析算法。 文献 【 1 ) c p 5 8 页)举例说明了,对于在空间排列如丝状的数据如果采用的 是用两个聚类中相距最近的两个样本之间的相异程度来衡量两个聚类之间的相 异程度, 则会取得比较好的结果。 如果运用的是两个聚类中相距最远的两个样本 之间的相异程度来衡量聚类之间的相异程度的话,则取得的结果不会太理想。 理论上讲, 不同的聚类分析方法, 由 于采用的类与类之间的亲疏指标不一样, 即使对于相同的样本分析, 得到结果也有可能不同。 例如文献 【 4 5 3 页所举的 例子, 针对“ 十“ 字型数据, 欧几里得距离尺度和绝对值距离尺度下得到的聚类 结果大相径庭。 所以在实际的聚类分析时, 得到的 解有可能因为尺度数值范围或 特征标准的不同而产生非常大的差异。 对于评判一种聚类方法的好坏, 一种简单的方法就是拿已知的典型情况来进 行验证, 如果, 这种聚类方法能够支持这种典型情况, 一般来说就可以 认为它是 一个好的聚类方法 ( 对这种情况来说) 。从理论上,对于一类问题,一个好的聚 类方法要能产生高质量的聚类结果, 这些聚类结果具备以 下两个特点 ( 【 5 l ) : 高的类内相似性。 低的类间相似性。 华北电力大学 ( 北京) 硕士学位论文第二章 聚类分析及其方法简介 另外, 聚类效果的好坏还和特征值的选取和量纲的选取有关。 特征值选取不 当会造成分类无效, 选取不足可能使不同类别的模式判为一类, 选取过多可能增 加分析负担并使分析效果差。 2 . 3 . 2 聚类类别的确定 正如上面所述, 聚类分析可以将n 个样本从n 类聚到1 类。 对聚类分析的应 用最终还是希望得到一个合适的、 具有相似特性的样本能聚成一类的一个确定的 类别数。一些决定类数的方法来自 统计的方差分析的思想。这里介绍四种方法: ( 参考文献 1 1 ) 假设: 设 观测个数为n , 变量 个数为v , g为 在某一 聚类水平上的个数, 气 为 第t 个 观 m , 吼是 当 前( 水 平 g ) 第 k 类 , 从为 c x 中 的 观 测 个 数 , x 为 均 值 向 量 , 耳 为 类 c r 中 的 均 值 向 量( 中 心 ) , 11x 11 为 欧 氏 长 度 , t 一 艺ii: 一 刁为 总 离 差 平 方 和 w 一 ,z jlx- x k 112 t a c x me k类 内 离 差 平 方 和 , p g = z w / ) 7 聚 类 水 平 。 对 应 的 各 类的 类内 离差 平 方和的总 和。 假设 某 一 步 聚 类 把类 在把 类c k 和 类c : 合并为 下 一 个 水 平的 类c m , 则定 义b rvl = w m - w k - w l 为 合并导 致的 类内 离差 平方 和的 增 量。 .r 2 统计量 ( r s q ) r 2 二 1 - 鱼 t 其 中p c, 为 分 类数为 个类时的 总 类内 离 差 平 方 和, t 为 所 有变量的 总 离差 平 方 和。 r 2 越大, 说明分为g个类时每个类内的离差平方和都比较小, 也就是分为g 个类是合适的。 但是, 显然分类越多, 每个类越小, r 2 越大, 所以我们只能取g 使得r 2 足够大,但g本身比较小,而且r 2 不再大幅度增加。 二.伪 f 统计量 ( p s f ) 华北电力大学 ( 北京) 硕士学位论文 第二章 聚类分析及其方法简介 f = ( t 立 c ) i ( g - 1 ) 凡/ ( n 一 g ) 伪f 统计量评价分为g个类的效果, 如果分为g个类合理, 则类内离差平方 和 ( 分母) 应该较小, 类间平方和 分子) 相对较大。 所以应该取伪f 统计量较 大而类数较小的聚类水平。 在聚类过程中, 当伪f 统计量在出 现峰值时所对应的 分类数较合适。 三.半偏统计量 ( s p r s q ) 在 把 类c k 和 类q合并为 下一 个 水 平的 类c m 时, 定 义半 偏相 关统 计 量定 义为 r 2 = b. l t 其中b k l 为合并类引 起的 类内 离差平方和的 增量。 半偏相关越大, 说明 这两 个类越不应该合并。所以如果由g+ 1 类合并为g类时,如果半偏相关很大就应 该取g 十 1 类。 在聚类分析中,它表示每一次合并对信息的损失程度。 ( 参考文献 1 1 0 1 ) 四.伪t 2 统计量 ( p s t 2 ) t 2 = 气 1 ( ( w k + w l ) i ( n k + n i. 一 2 ) ) 用 此 统计 量评 价合并 类c k 和 类c , 的 效 果, 该 值大 说明 不应合 并 这两 个 类。 所以 应该取合并前的水平。 在确定东北网统计负荷聚类的最终类别数目 时,四种判断量都得到采用。 2 . 4本 章 总 结 本章介绍了: 几种常用的在以后聚类分析程序中所采用的聚类分析方法, 并将它们进行了 比较分析。 介绍了聚类分析方法有效性的判断标准。 介绍了聚类分析方法中最终聚类数目 确定的判定标准。 华北电力大学 北京) 硕士学位论文 第三章 聚类分析方法的比较和分析 第三章 聚类分析方法的比较和分析 3 ., 聚类分析方法结果比较 正如前一章所述, 不同的聚类分析方法可能会得出不同的聚类效果。 究竟哪 种方法更能与我们所要的分析数据实际相附 和。 更能有效地判别出 样本的 特性, 这是本章所要探讨的问题。 本章对四种聚类分析方法( 谱系数重心聚类分析法、 谱系数平均距离分析法、 动态聚类分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论