版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于关联规则算法的电站数据挖掘数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。数据挖掘是多学科和多种技术交叉结合的新领域,它综合了机器 学习、数据库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、 可视化等领域的有关技术,因而数据挖掘的方法极其丰富。电厂的历史数据库中存储了大量的数据,这些数据的背后隐藏了许多对提高 电厂的生产效率、经济安全性有积极的指导意义的信息。火电厂的过程运行参数 具有强关联性,本文用基于关联规则的数据挖掘技术进行数据开采,通过使用 weka数据
2、挖掘平台对电厂的实时运行数据进行挖掘,了解数据挖掘的目的、过 程,理解数据挖掘的结果,并能够根据所学知识,对挖掘的过程参数和结果数据 进行分析,以发现数据隐藏的更深层次的规律,充分发挥大量历史数据对电力生 产的指导作用。1关联规则算法描述关联规则的挖掘是数据挖掘领域一个非常重要的研究课题,己经广泛地用于 各种数据分析。关联规则挖掘技术用来发现所有可能的规则,用这些规则来解释 某些属性的出现和另一些属性的出现的相关性。一条形如X nY”的关联规则表 示:对于一部分事务,在特定的概率下属性集X的一个值决定了属性集Y的 一个值。这就是说,关联规则目的就是发现数据库属性之间的并发模式。例如, 从一家超
3、市的顾客购物数据记录中得出一条关联规则“在10%的事务中,85% 的顾客买了牛奶也会买酸乳酪。”1.1基本概念设I ,七是项的集合,任务相关的数据D是数据库事务的集合,每个 事务T是项的集合,使得TWI。每个事务有一个标识符,称作口。设A是一 个项集,事务T包含A当且仅当AcTo关联规则是形如AnB的蕴含式,其中AuI, BuI, AEB=。规则U AnB 在事务集D中成立,具有支持度s,其中s是D中事务包含AUB(即A和B两 者)的百分比,它是概率P(AUB)。规则AnB在事务集D中具有置信度c,如果 D中包含A的事务同时也包含B的百分比是c,这是条件概率P(BIA),即:s = suppo
4、rt(A n B) = P( A J B)c = confidence( A n B) = P(B I A)同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称 作强规则。为方便计,用0%和100%之间的值而不是用0到1之间的值表示 支持度和置信度。项的集合称为项集(itemset),包含k个项的项集称为k一项集。项集的出现 频率是包含项集的事务数,简称为项集的频率、支持计数和计数。项集满足最小 支持度min_sup,如果项集的出现频率大于等于min_sup与D中事务总数的 乘积。如果项集满足最小支持度,则称它为频繁项集(frequent itemset),频繁
5、k- 项集的集合通常记为Lk。关联规则的挖掘是一个两步的过程:找出所有频繁项集:这些项集出现的频繁性至少和预定义的最小支持计 数一样。由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信 度。1.2关联规则的分类关联规则分类方法包括:根据规则中所处理的值类型:如果规则考虑的关联是项的存在与不存在 则它是布尔关联规则。如果描述的是量化的项或属性之间的关联,则它是量 化关联规则。根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个 维,则它是单维关联规则。如果规则涉及两个或多个维,则它是多维关联规 则。根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽 象层发现规则
6、,称所挖掘的规则集由多层关联规则组成。反之,如果在给定 的规则集中,规则不涉及不同抽象层的项或属性,则该集合包含单层关联规 则。根据关联挖掘的各种扩充:关联挖掘可以扩充到相关分析,那里可以识 别项是否相关,还可以扩充到挖掘最大频繁模式和频繁闭项集。最大模式是 频繁模式p,使得p的任何真超模式都不是频繁的,其中如果b是a的 于模式,即如果a包含b,称a是b的超模式。如果a真包含b,则称 a是b的真超模式。频繁闭项集是一个频繁的闭的项集,其中项集c是闭 的,如果不存在c的真超集c,使得每个包含C的事务也包含七。使用最 大模式的频繁闭项集可以显著地压缩挖掘所产生的频繁项集数。1.3 Apriori
7、算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法的 名字基于这样的事实:算法使用频繁项集性质的先验知识,它采用一种称作逐层 搜索的迭代方法,k一项集用于搜索(k+l)一项集。首先,找出频繁1一项集的集 合,该集合记作L1, L1用于找频繁2一项集的集合L2,而L2用于找L3,如 此下去,直到不能找到频繁k项集。找每个Lk需要一次数据库扫描,为提高 频繁项集逐层产生的效率,一种称为Apriori性质的重要性质用于压缩搜索空间。Apriori性质是指:频繁项集的所有非空子集都必须也是频繁的,它基于如 下观察:如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即
8、 P(I)min_sup。如果项A添加到I,则结果项集(即IUA)不可能比I更频繁出 现,因此,IUA也不是频繁的,即P(IUA)1,重复执行步骤(4)、(5)、(6);由Lk执行连接和剪枝操作,产生候选(k+l)一项集的集合Ck+1;根据最小支持度min_sup,由候选(k+1)-项集的集合Ck+1产生频繁(k+1)-项集的 隹合T .集合 Lk+1;若气N,则k=k+1,跳往步骤(4);否则,跳往步骤(7);根据最小置信度min_conf,由频繁项目集产生强关联规则,结束。2使用关联规则对电站数据分析2.1数据描述本文选取的数据为某电站的实际运行数据。该数据集共有162条记录,每一 条记录
9、有17个属性,分别为:序号、开始时间、结束时间、时间长度、负荷特 征ID、循环水进口温度、负荷、主蒸汽压力、主蒸汽温度、再热蒸汽温度、再 热蒸汽压力、给水温度、排汽压力、排烟温度、凝汽器真空温度和供电煤耗。除 了序号、时间和负荷特征ID外,其他数据均保留到小数点后4位。其中,排汽 压力和凝汽器真空度为负值。227条记录中:循环水进口温度的最大值为:24.8070,最小值为:13.2708;负荷的最大值为:600.5277,最小值为:300.1253;主蒸汽压力最大值为:17.1801,最小值为:15.1954;主蒸汽温度最大值为:542.7240,最小值为:533.4899;再热蒸汽温度最大值
10、为:541.0474,最小值为:518.7255;再热蒸汽压力最大值为:3.3629,最小值为:1.5906;给水温度最大值为:279.5667,最小值为:238.3696;排汽压力最大值为:-91.6119,最小值为:-98.1801;排烟温度最大值为:135.4093,最小值为:92.8806;排汽温度最大值为:321.9489,最小值为:306.7930;凝汽器真空度最大值为:-92.4553,最小值为:-98.4330;供电煤耗最大值为:355.9414,最小值为:322.6320;2.2算法选择电站各设备之间的关系在大量的生产历史数据中表现为运行参数、负荷、性 能指标等数据项之间的关
11、联关系,将这种关系定量化就得到反映机组运行实际情 况的定量关联规则在特定负荷和相同外部条件下,选择相应性能指标最优时机组 所对应的运行参数用以指导实际运行,这样得到的参数最优值在实际运行中可以 达到或基本达到,也最能反应生产实际运行水平。因此关联规则完全可以作为一 种分析电站运行数据的有效方法来为电站经济运行水平分析提供参考根据所选的数据,希望找到提高机组效率的方法,即如何用更少的煤发更多 的电,降低煤耗率。煤耗率就是每生产或供应1KW.H电能所需要消耗的燃煤量, 而煤耗率与负荷、循环水进口温度、主蒸汽温度、给水温度、排气压力、排烟温 度等有关系,因此我们可以使用关联规则的算法对影响煤耗的因素
12、进行分析。2.3数据处理本文主要通过利用Weka中提供的Apriori算法对所给数据进行关联规则分 析。这里首先需要将.xlsx格式的excel数据存为.csv文件,因为Weka不识别中 文,因此将表格中的循环水进口温度、负荷、主蒸汽压力等均转化为英语描述代 替。导入数据:将.csv数据文件导入weka中,可以看出总共有162条记录。Pt* Afreet ECLusifj,Llust trASE DCLQ.tBLtti*LbTit | VleuoLieExplorer| ui |回 瓯Currait relationRelation: IrsjHor.E1 Hiiunbern Asi hI:
13、t ire3end tine4Lnngtli5Circul atiiiE Tater jnle-t tenperature6J-La ad1-ILIL E trpr tEUTi8-ilh e ti*teuptritw;*9Re hee te Bel t sriper-atari10RcllC at S t4 Del pTSSHL.Fc d* att mipcr-atur12ExhmsLsurI M-R.St btis-ticMS 站 riuri1i riuri2Z7ito era5tdD*vAS. 213He 总:nwroerVlnzEiBE-: D toKI数据预处理:本文采用关联规则挖掘,
14、所以需要对数值型的数据先离散 化。去掉无意义的“序号”、“开始时间”、“结束时间”和“时间长度”这些属性, 然后将他们离散化为5段,以供电煤耗(Coal consumption)属性为例,离散 化后的结果和柱状图如下所示:Type: Hominal Uni que: 1 (1%)Selected a_ttributeITam e: C oal consumpt i oneei ng: 0 (0%)Di st iziet: 5Ila.LaelCouiLtWei ght1(-inf-32. 293.2323.02C329- 293BB-33.&767. 03(335.95576-3 4.5353.
15、04(342.61764-3 4.IS18.05G19. 279E2-ixi)J1i. a关联规则数据挖掘:采用weka的Apriori关联规则算法进行数据挖掘 分析。设置相关参数如下:最小支持度阈值=0.1,最小置信度阈值=0.9,显示规则数量二10weka. assoeiations. AprioriAboutClass implementing an Apriori-type algorithm.MoreCapabili ti es软件列出前10条置信度最大的关联规则如下:Best rules found:Load=(-inf-360.20578 81=Reheat steam pres
16、sure=(-inf-1.94506 81 conf:(1)Fedwater temperature=(-inf-246.60902 80 = Reheat steam pressure = (-inf-1.94506 80 conf:(1)Load=(-inf-360.20578 Fedwater temperature=(-inf-246.60902 79 = Reheat steam pressure=(-inf-1.94506 79 conf:(1)Fedwater temperature=(-inf-246.60902 80 = Load=(-inf-360.20578 79conf
17、:(0.99)Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 80 =Load=(-inf-360.20578 79conf:(0.99)Fedwater temperature=(-inf-246.60902 80 = Load=(-inf-360.20578 Reheat steampressure=(-inf-1.94506 79conf:(0.99)Load=(-inf-360.20578 81 = Fedwater temperature=(-inf-246.60902 79conf:(
18、0.98)Load=(-inf-360.20578 Reheat steam pressure=(-inf-1.94506 81 = Fedwatertemperature=(-inf-246.60902 79conf:(0.98)Load=(-inf-360.20578 81 = Reheat steam pressure=(-inf-1.94506 Fedwatertemperature=(-inf-246.60902 79conf:(0.98)Reheat steam pressure=(-inf-1.94506 88 = Load=(-inf-360.20578 81conf:(0.9
19、2)分析上面的规则可以发现“=”右侧没有属tt“Coal consumption ”,也就 是不能从上面的规则中分析各个因素对煤耗的影响。为了继续挖掘相关因素对煤 耗的影响,使用了该软件提高的命令模式。在“Simlpe CLI”模块中输入如下的命令:java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:wekadzsj.arff软件可以自动列出满足条件的频繁项集。下面选取部分频繁项集列出如下:Size of set of large itemsets L(1): 21Lar
20、ge Itemsets L(1):Circulating water inlet temperature=(20.19252-22.49976 65Load=(-inf-360.20578 81Load=(360.20578-420.28626 43Main stream temperature=(539.03036-540.87718 139Reheat steam pressure=(-inf-1.94506 88Fedwater temperature=(-inf-246.60902 80Exhaust steam temperature=(318.91772-inf) 56Coal c
21、onsumption=(329.29388-335.95576 67Coal consumption=(335.95576-342.61764 53Size of set of large itemsets L(2): 41Large Itemsets L(2):Load=(-inf-360.20578 Reheat steam pressure=(-inf-1.94506 81Load=(-inf-360.20578 Fedwater temperature=(-inf-246.60902 79Load=(-inf-360.20578 Coal consumption=(335.95576-
22、342.61764 41Mainstreamtemperature=(539.03036-540.87718Coalconsumption(329.29388-335.95576 54Mainstreamtemperature=(539.03036-540.87718Coalconsumption(335.95576-342.61764 49Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 80Reheat steam pressure=(-inf-1.94506 Coal consumption
23、= (335.95576-342.61764 43Fedwater temperature=(-inf-246.60902 Coal consumption = (335.95576-342.61764 41Size of set of large itemsets L(3): 24Large Itemsets L(3):pressure=(-inf-1.94506Fedwaterpressure=(-inf-1.94506 FunnelLoad=(-inf-360.20578 Reheat steam temperature=(-inf-246.60902 79Load=(-inf-360.
24、20578 Reheat steam temperature=(118.39782-126.9035641Load=(-inf-360.20578 Reheat steam pressure=(-inf-1.94506 Coal consumption=(335.95576-342.6176441Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 Coal consumption=(335.95576-342.6176441Size of set of large itemsets L(4): 8La
25、rge Itemsets L(4):Load=(-inf-360.20578 Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 Coal consumption=(335.95576-342.61764 41Size of set of large itemsets L(5): 1Large Itemsets L(5):Load=(-inf-360.20578 Main stream pressure=(-inf-15.59234 Main stream temperature=(539.03036
26、-540.87718 Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 46从满足条件的频繁项集可以看出:Load, Reheat steam pressure, Fedwater temperature与煤耗的关联度较大。我们可以采用前面算法描述中提出的求置信度 的方法分别分析这些因素对煤耗的影响。c = confidence(A n B) = P(B | A)=包含人和8的元组数包含人的元组数Load=(-inf-360.20578=Coal consumption=(335.95576-342
27、.61764此规则的置信度为:c = 41 = 0.51=Coal consumption81Main stream temperature=(539.03036-540.87718=(329.29388-335.95576此规则的置信度为:c =旦=0.39=Coal consumption=139Main stream temperature=(539.03036-540.87718(335.95576-342.61764此规则的置信度为:c =兰9 = 0.35139Reheat steam pressure=(-inf-1.94506 =Coal consumption(335.955
28、76-342.61764 此规则的置信度为:c = 43 = 0.4988Fedwater temperature=(-inf-246.60902=Coal consumption(335.95576-342.61764此规则的置信度为:c = 41 = 0.51=80Load=(-inf-360.20578Reheat steam pressure=(-inf-1.94506Coal consumption= (335.95576-342.61764此规则的置信度为:c =们=0.5180Load=(-inf-360.20578 Fedwater temperature=(-inf-246.
29、60902 =Coal consumption(335.95576-342.61764此规则的置信度为:c =曳= 0.5279Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 =Coal consumption(335.95576-342.61764此规则的置信度为:c = 41 = 0.5180Load=(-inf-360.20578 Reheat steam pressure=(-inf-1.94506 Fedwater temperature=(-inf-246.60902 =Coal consumption(335.95576-342.61764此规则的置信度为:c =冬=0.52792.4结果分析针对上述结果分析,以第一条规则为例,当负荷属于(-inf-360.20578范围时, 煤耗属于(335.95576-342.61764的置信度为51%。上述9条规则的置信度都不高, 这应该也是在最初软件自动给出的规则中为什么不能找到各个因素对煤耗影响 的原因,因为自动给出的都是置信度比较高的规则。对于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中职心理学(人际交往心理)试题及答案
- 2025年中职水上运输(港口物流)试题及答案
- 2025年高职计算机与网络技术(软件开发)试题及答案
- 2025年大学历史学(世界古代史纲要)试题及答案
- 2025年大学建筑装饰工程技术(建筑装饰工程技术)试题及答案
- 2025年中职(机电一体化技术)机电设备维护试题及答案
- 2025年高职(食品检测技术)食品添加剂检测阶段测试题及答案
- 2025年大学(风景园林)园林规划设计综合测试试题及答案
- 2025年大学汉语言文学(外国文学经典解读)试题及答案
- 2025年高职(纺织服装智能制造)智能裁剪技术综合测试题及答案
- 2026年内蒙古化工职业学院高职单招职业适应性考试参考题库及答案详解
- 中国肺血栓栓塞症诊治、预防和管理指南(2025版)
- 2025中北京铁路局集团招聘934人(本科及以上)笔试参考题库附带答案详解(3卷合一)
- 仓储管理人员考核细则及绩效标准
- 牛黄对肝功能影响研究-洞察及研究
- 泰康培训课件
- 电子签名系统安全预案
- (零模)2026届广州市高三年级调研测试物理试卷(含答案)
- 车辆保养套餐服务协议
- 大型电泳线施工方案设计
- 注册测绘师测绘综合能力试卷真题及答案(2025年新版)
评论
0/150
提交评论