




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种关联规则增量式挖掘算法研究摘 要: 现有关联规则更新算法都是基于支持度-置信度框架而提出的,仅针对大于最小支持度闭值的频繁项集进行挖掘。为了提高告警关联规则的完整性和准确性,在相关度aarsc算法基础上,提出了一种增量式挖掘uaarsc算法(updating-aarsc)。该算法对增量计算进行了改进,可以发现频繁和非频繁告警序列间的关联规则。关键词: 关联规则; 数据发掘; 滑动窗口; 增量计算an algorithm of associative rule increment miningliu zaoxin(department of information engineering, jiangxi professional training college of transportation, nanchang, jiangxi 330013, china)abstract: the existing algorithms of association rule update are based on the framework of support-confidence and they mine only the frequent closure of the set value greater than the minimum support. to enhance the completeness and accuracy, the author presents in this paper an increment mining uaarsc algorithm based on the correlative aarsc algorithm. the algorithm improves incremental computation and may find the associative rules between the frequent and non-frequent alarm sequences.key words: associative rules; data mining; sliding window; incremental computation0 引言数据挖掘是从大量、不完整、有噪声的随机数据中,提取隐含在其中、人们不知道但又潜在有用的信息和知识的过程。agrawal等人提出了挖掘关联规则的一个重要方法apriori算法1。为了挖掘具有时序特征的告警关联规则问题,hatonen等在apriori算法基础上提出了基于滑动窗口的winepi算法2,并在tasa(telecommunications alarm sequence analyzer)系统中采用了该算法3。这些算法的处理过程一般分为两个阶段:利用支持度发现频繁告警序列;利用置信度产生关联规则。为了提高算法的效率、减少数据库访问次数,避免在第一阶段中生成大量候选项目集,han等人提出了基于fp树生成频繁项目集的fp-growth算法,该算法将频繁项集压缩保存在一棵fp-tree中,在一定程度上提高了频繁项集的存取速度,从而提高了挖掘频繁项目集的效率。以上算法都是在高支持度,高置信度的条件下,挖掘出告警关联规则。但在挖掘电信网络告警关联规则时,以高支持度和高置信度为条件的算法具有一定局限性。如在分析某省电信网管告警数据库连续6万条告警记录时发现,该数据库中共有1738个网元上报告警:其中1个网元上报8521次告警,1个网元上报4729次告警,14个网元上报告警次数在10002000之间,12个网元上报告警次数在5001000之间,而上报告警次数小于100次的网元有1669个,若在上述告警数据库中采用apriori、winepi或fp-growth算法产生关联规则,即使支持度设定为1%也只能发现28个网元之间的告警关联关系,甚至设定为0.1%(己经很低了)仍然无法发现告警次数小于100的1669个网元之间的关联关系。而这些非频繁的告警序列之间也会存在一些关联规则,这些告警间关联规则在实际工作中对网管人员解决故障有很大的帮助。因此,挖掘在高置信度和低支持度(或者不考虑支持度)条件下的告警关联规则具有重要的实际意义。在实际网络中非频繁告警的种类是巨大的,而且具有很强的随机性,挖掘这些告警间的关联规则,对于网络管理具有很大的实际意义。本文在分析以高相关度、高置信度为条件,在基于相关度统计的告警关联规则挖掘aarsc算法(alarm association rules algorithm based on statistical correlation)的基础上,为了适应告警数据动态增加的特点,提出了一种增量式挖掘uaarsc算法(updating-aarsc)。uaarsc算法可以发现频繁和非频繁告警序列间的关联规则,从而提高了告警关联规则的完整性和准确性。1 关联规则的增量式更新算法目前关联规则的更新算法,如fup算法4、fup2算法5和iua算法6都是基于支持度-置信度框架下提出的,仅针对大于最小支持度闭值的频繁项集进行挖掘。我们这里在基于相关度aarsc算法基础上,提出一种在数据库增加时的增量式挖掘uaarsc(updating-aarsc)算法。1.1 算法框架设数据库为d,新增数据库为d。由于计算cov(x,y)和x在aarsc算法中耗时较多,因此在增量式挖掘算法中针对这两部分进行改进。下面分别介绍增量计算cov(x,y)和x的方法。算法中的符号说明。如表1所示。表1 算法中符号说明&数据库d&数据库d&数据库dd&窗口数&n1&n2&n1n2&均值&i0&i1&i&我们以i0表示告警次在dd与d中的均值差,即i0=ii0;i1表示告警次在dd与d中的均值差,即i1i一i1。 增量计算cov(x,y)这部分耗时最大,在dd数据库中的相关系数为cov(x,y)=+= 增量计算xx=因此在数据库dd中计算结果为分别在d和d上计算cov(x,y)和x的结果。再加上一个常数。通常来讲,n1n2,因此每次都只需要计算很少的数据量。1.2 算法描述增量挖掘uaarsc算法的基本描述如下。输入: 告警数据库d; 告警增量数据库d; 最小相关度mincor; 最小置信度minconf; 滑动窗口win和滑动步长step。输出:s中满足mincor和minconf的关联规则。方法: cov2l,aver=computecorr(d,mincor,win,step) cov2lold=cov2l,averold=aver; cov2l,aver=computercorr(d,mincor,win,step) average=mean(dd,averold,aver), averlaverageave, aver2averageaverold 将两次挖掘结果,根据均值,调整、组合 根据mincor和minconf,挖掘二项关联规则 生成多项集2 实验及其分析实验采用的测试数据是某省电信公司连续二周的告警数据(15万条记录)。实验中将告警类型标识和告警发生时间(单位/秒)作为关键字进行挖掘。告警时间窗设为5min,滑动步长设为2min;最小支持度1%,最小相关度0.5。实验1:告警记录分别设为3、6、9、12、15万条记录;采用winepi算法、aarsc算法及其更新uaarsc算法(等量增加)分别进行挖掘。在执行效率方面,比较的结果如图1所示。图1 执行时间比较相关矩阵aarsc算法比winepi的执行速度要快,主要是因为winepi算法产生频繁候选集时,长度每增加一个,都要扫描一次数据库,所以时间开销很大;基于相关矩阵aarsc算法只需扫描一次数据库,然后进行矩阵运算即可,因此执行时间比winepi少;从图1可以看出,由于uaarsc算法利用前次的挖掘结果,仅需要计算增量部分的告警数据,因此执行效率最高。实验2:用五种不同的增量交易数据库,以5万条记录为基准,分别增加4、3、2、1万条记录,比较更新算法在执行效率方面的优势。结果如图2所示。图2 增量数据执行时间比较数据库记录增加时,增量式挖掘算法在系统执行时间上有较大改进。主要是因为随着数据库记录的增加,winepi和相关矩阵算法都要重新挖掘数据库,而增量式挖掘算法只对新增数据进行挖掘,因此算法的效率有显著提高。如图2中告警记录为15万,新增1万条告警记录时,更新算法只需挖掘新增数据,然后与原有数据合并,产生关联规则,而其他算法都只能重新挖掘15万条告警记录,因此算法效率有很大差别。3 结束语本文针对实际网管系统数据逐渐更新的情况,提出了增量式更新算法,从理论推导和实验结果两方面证明了增量式挖掘更加有利于实际电信网络中告警关联规则的挖掘。参考文献:1 agrawal r,t.imielinski,and a.swami.mining association rulesbetween sets of items in eeedings of the 1993 acm sigmod conference,washington,d.c.,may 1993:2072162 k.hatonen,m.klemettinen,h.mannila,p.ronkainen.knowledgediscovery from telecommunication network alarm databases ceesing of the 12th intemational conference on data engineer,(icde96) new orleans,louisiana,feb.1996:1151223 k. hatonen, m.klemettinen,h.mannila,portland,oregon.tasa:telecommunications alarm sequence analyzer or how to enjoy faults in your network a.ieee/ifip 1996 network operations and management symposium(noms96)c.,kyoto,japan,april 1996:5205294 cheung d.w.et al.maintenance of diseovered association rules inlarge databases:an incremental updating techniquec.in:proeeedings of the 1996 international conference on data engineering,new orleans,louisiana,1996:1061145 cheung d.w.et al.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 森林防火知识培训讲话稿课件
- 鼻饲护理试题及答案
- 2025年IT企业面试笔试全真模拟题库
- 2025年注册验船师资格考试(A级船舶检验专业案例分析)复习题及答案二
- 2025年云计算开发工程师面试宝典与模拟题集
- 2025年汽车制造商招聘生产线工人模拟题及面试指南
- 2025年房地产行业营销策划岗位招聘笔试模拟题
- 2026届上海南洋模范化学高三上期末学业质量监测试题含解析
- 江苏省常州市常州高级中学分校2026届化学高三第一学期期末监测模拟试题含解析
- 桥式起重机司机培训课件
- 2025年安徽省淮南市【辅警协警】笔试模拟考试题(含答案)
- 废气处理活性炭吸附操作规范
- 2025年体育教练员执业能力考试试题及答案解析
- 2025年住培结业考试题库及答案
- 2025年重庆辅警管理知识模拟100题及答案
- 创伤急救基本知识培训课件
- DB42∕T 2151-2023 应急物资储备库建设规范
- 2025年二级建造师继续教育题库及参考答案(完整版)
- 2025年农业农村科技基础知识考试题库(附含答案)
- 胶水储存管理办法
- 精神患者家属健康教育讲座
评论
0/150
提交评论