付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘课程报告FP-tree算法的思考与实现指导老师:蒋良孝姓名:赵冠豪班级:086131学号:学1310025622015年10月FP-tree算法的思考与实现FP-Tree算法的思考与实现1 .发现问题在学习数据仓库与数据挖掘课程中,有关关联分析的算法,首先是在1994年R.Agrawal和R.Srikant提出的布尔关联规则挖掘频繁项集的原创性算法一一Apriori算法,一种使用候选产生发现频繁项集的算法。下面以课本P151页例5-3来进行Apriori算法的演示。AllElectronics某分店的业务数据TID商品ID的列表T100I1,I2,I3T200I2,I4T30
2、0I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3假设候选项集和频繁项集的产生,最小支持计数为2那么根据Apriori算法进行演示:L1扫描D,对每个候选计数项集支持度计数I1I2I3I4I567622项集支持度计数比较候选支持度计数与最小支持36I27I36I42I52C1FP-tree算法的思考与实现L3C2项集支持度计数L2支持度计数I1,124项集I1,13I1,14I1,15I2,I34124由L1产生候选C2,并扫描D对每个候选计数比较候选支持度计数与最小支持度计数AI1,I2I1,I3I
3、1,I544212,I4I2,I5I3,I4I3,I5I4,15220I2,I312,I4I2,I542210C3由L2产生候项集支持度计数诜C3并扫描D对每个候选I1,I2,I32计数BI1,I2,I52比较候选支项集支持度计数持度计数与最小支持度I1,I2,I32计数I1,I2,I52通过此演示,我们可以清晰地发现:虽然在许多情况下,Apriori的候选产生-检查方法显著压缩了候选项集的大小,并导致很好的性能。然而,Apriori算法的每次迭代都会扫描事务数据库,并且每次每次都会产生大量候选项集,这是Apriori算法的致命缺陷。例如,如果有10A4个频繁1项集,则Apriori算法需要产
4、生多达10A7个候选二项集。此外为发现长度为100的频繁模式,如a1,a2,a100,必须产生总过多达2A100大约为10A30个候选。再如,Apriori算法需要不断重复扫描数据库,通过模式匹配检查一个很大的候选集合。检查数据库中的每个事务来确定候选项集的支持度的开销非常大。因此我们可以得到一个很清晰的结论,在一般情况下,我们在使用Apriori算法(使用候选产生发现频繁项集的方法)进行关联分析时,想要找到感兴趣的规则,开销是非常大的,而这正是Apriori算法在实际运用中要改善的问题。FP-tree算法的思考与实现2 .分析问题经过上面的分析我们可以确定,Apriori算法的两大限制:产生
5、大量的候选集;。2重复扫描事务数据库。那么我们分析如何提高Apriori算法的效率时,就有着两大分析方向。一是考虑降低是事务数据库的扫描次数,如能不能先扫描一次事务数据库,然后进行分类划分,找出局部频繁项集,然后在进行下次扫描。二是考虑如何压缩候选集,在产生的时候就进行剔除,或者对未来要产生的候选项集,增加一个规则,压缩未来迭代扫描的事务数。显然无论是降低扫描的事务数据库的次数,还是压缩产生的候选集,都是针对于Apriori算法本身的调整,这就不可能在本质上解决Apriori算法的效率低下问题。在思考这个问题时,我很容易想到,既然是产生大量的候选项集,那么一个很直接的办法就是:能不能不产生候选
6、集,而直接发现频繁项集,从而找出感兴趣的关联规则呢。如果我们不产生大量的候选集,那么扫描事务数据库进行匹配的次数也自然就会大大降低。我在思考过程中,想到老师上课讲到的一句话“把条件进行简单化处理,先找出一个可行解”,这样思维就大大开阔。联系到数据仓库与数据挖掘在开始的课程“分类”中的第一个方法:决策树,显然关联分析是进行名词性布尔值的分析,而决策树的应用范围也正是名词性数据的分类。我们来对比下,在决策树算法中,我们根据元组的信息增益的大小来进行生成树的判断依据。类比决策树算法,我们可以利用关联分析中事务发生的支持计数的大小来代替嫡减值。根据我在算法导论中所学习到的思想一一递归算法中的分治策略,
7、再加上决策树这个“先例”的借鉴,我对于提高Apriori算法的效率有了一个较为清晰的方向。首先,对于事务数据库中的所有事务都是由一项集构成的,所以我们可以根据在整个事务数据库中所有的一项集的支持计数来进行排序(类似决策树中对于每个元组的嫡减值计算)。接着,参考决策树算法中树的生成方法和分治策略思想,我们在扫描事务数据库的一个事务时,根据第一步的排序顺位,进行调整,将该事务的所有项都有序化,依照顺序建立一棵树,下次的事务按照这个方法继续对前面的树的节点值进行修改、增加节点或者生成另一棵树,这样我们就可以保证越靠近树根的支持计数越高,而叶子节点的支持计数越低,十分有利于降低我们在挖掘有趣规则时的开
8、销。3 .解决问题经过上面的分析后,我们对于怎么提高Apriori算法的有了一个有效的解决办法。而且在2000年针对Apriori算法的固有缺陷,J.Han等人提出了不产生候选频繁项集的方法即FP-tree算法。该算法直接将事务数据库压缩成一个频繁模式树,然后通过这棵树生成关联规则。而这个算法和我上面分析时提出的思想大致相同,下面我们仍然根据书上的例子进行FP-tree算法的演示:第一步,进行事务数据库的扫描,得到每个一项集的支持计数,然后进行排序。所有一项集的计数:11,6,12,713,6,14,2,15,2;按照支持计数进行排序I2I1I3I4I576622FP-tree算法的思考与实现
9、第二步,扫描事务数据库的每个事务,生成树。第三步,进行强关联规则的挖掘。挖掘前,先进行一下解释和定义:由每个长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基(一个“子数据库”,由FP树与后缀式一起出现的前缀路径集组成),然后,构造它的(条件)FP树,并递归地对该树进行挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。首先考虑I5L中的最后一项,而不是第一个。I5出现在树最深层的叶子节点上,并且有两个叶子节点,我们把这两条路径列出来I2,I1,I5:1,I2,11,13,15:1,显然I5的前缀路径是I2,I1:1,I2,I1,I3:1,形成I5的条件模式基,而它的条件FP
10、树显然只包含I2,I1:2(I3只出现一次,小于最小支持计数2)。因此次路径产生的频繁模式的所有组合:I2,I5:2,I1,I5:2,I2,I1,I5:2。那么基于I5的所有条件模式产生的频繁模式都找到了。同样的方法进行I4,I3I1的迭代,得到下表:I5I2I1项条件模式基条件FP树产生的频繁模式1,<I2:2,I1:2>I2I5:2,I1I5:2I2I1,I3:1I2I1I5:2I4I2I1:1<I2:2>I2I4:2I2:1I3I2I1:2<I2:4,I1:2>I2I3:4,I1I3:4I2:2,I1:2<I1:2>I2I1I3:2I1I2
11、:4<I2:4>I2I1:4FP-tree算法的思考与实现4.得出结论根据上面的算法演示,我们接下来进行试验测试。首先根据上机时老师讲到的利用Myeclipse将weka当做一个项目文件,在java平台运行。由于我只是实现了FP-tree算法,weka平台自带的数据所以我直接运用weka平台进行数据测试,测试数据为supermarket.arffOsupermarket2-015/9/910:32ARFFDataFile首先我先用Apriori算法进行测试,supermarket.arff。979KB大小的数据),从点击Start开始,到运行处结果,大概用了8s。测试结果如下图:C
12、l-EfvClusttEBSE4Clltt-2:fid<lCi.tCl.lLiul«xV.匕StwcSIgpR*£L111IieE(righlisrjs-jJlLxnaca£JiwBema.'tirRgHglWU&QZzk-jj±fltapi*C4«&xfka.由一口工工司二i1二二m,、1£=”>!-Il*0T<Y3g-方5*3$-UL。-MCL1-£217FL12L21mt匚zJiMiteaorlSLed=3±2cla.Ljrnn加工£l.1Ld-L)Jig-
13、E(rigk.,2;E!5-JjirLafiMix1tOJT,dJM咽R:D.LS上3L.JL-2mMiriEW,MtricCechfiderm>rQQ斯HibitTnfrcl?3ptTfarrM:11-c-sratEJstsof1昼二>3七12t*!n3St3:SLM中工匚鲁工】口”Lfl>£<HSiretrfaetqtUrgeL"?ret3L(2)73E0SizeafactDt1Ergi=LtiEirjicts910q£匕g£1:号“-2L(Oi£3351zeM际叮1VSHELeiraew75N二口5Siteofje
14、tK15rgeLtrseM1f(Efc:1BeatrolesfgBd:.ri-nrr?-T;TroaenTrar-rnr3al-riflft7号>Xireada.nd皿土cale-c-D2!?f:E?用匚口二f:fl.3?!705caa£:(O-SUCTtif:l(L82j&ji£i:LS4|4rbiseuzt.j-:.frult-t;七二”亡8mLTigbittedaadcifllre-5s.RHHty目,*匕*4三tfrkl.ts't匚EfLilE力:gh2E1=>iea-1iLdcake=t7?&后dB13CUiW-t£F
15、£:£3Vt5CaElej-tT£Zi*-SL13t"7->I7.bikingi-wd>=tbziieuie*=><vee-L«b3*jL=t1t口匚二Wiigh7?3=>I匕£f-U=ti;口匚aLBiqhS5c>brwadwnic*tfE7zenf?od3-tfru二total-h-ghES4一,breidsndsbke-t10.frczEQfz-Dds=tfzuit=ttQtal-=h-gh9£9=>上eaWezid二eNu二t巴一7FP-tree算法的思考与实现接着我利用FP
16、Growth算法进行了测试,耗时不到1s。测试结果如下:JT4CM-IWErlG2ktyCllf-StfLltnbuC4iSblem1l:4-户-r1-c-I*2r*力弧0中口Dtpl-lZ*jg:wata.uriDUJitJiF£±nv*h.J-1-皤<*<O.>3U&31.4-JCa.lru»a.CMi4F27USUm3i211LZivfcheAitribuxaB3&lku<x?"Jlsjacjfl'urDEdlvl-Jf=XL'z.FAlzsiacr二|F?arcwth,mg目L4rjlea.
17、di.45和<copICImMnHSLCrvEM-Hs*di一串bivwEvtw睢lBhcftili"他74»W«ii"?3iml'BdVhNiJli.ai3>ki436,w«vi|3.312.Znut-.tM-iinjnwds.LIbitzlcb=Ts-zrrjilfcffhl-Mi=>rtreKSnodtBH=n;¥3flmr-r*u?2S>1'e;才二Oliedov:il.ZT:I-.支工3V->boJilbgihevla««rtxieaJxKlff-t,11mU
18、m/J炉一上d/U&睚VjI号”一口。柏奴J*UR”3.J,1cHeh/nEM”。i.L口ME-tvseuclew,BUCCilXW.14LFj61;tL5-、卜口432口smcl:TWROAf:傅,铝”ICFUQ-I二的:心»9-raxttit-Tp<z-EyanadEl=-air-tr=talh_xi:=>r=n*J«=J=UH-j=TTBo=j=n±口-Rl|>li±x:|3.3)Lav:3,D4*fE=rr:-t3.L3%5*¥3?Ml:Lts2,Ereztaniaiuah附出gj:"ITs>E
19、r,4derf曰*1卜"3<en£:LiEt:U.l(i1司;i3.»6|i-i1”74iL”:tYPlY.匚ME.-:-'')"''-匚-=->"ItJ5!J'-1-"''h'='.-,r"='''.r-:A-LIlLUlt-TbL3EULL3-C,Z1L£l-tiliSiJ:S14?|3千时口口UiB-J.Efrg<>:£j£ifLLD-Ki>HEC.|L_26Jil
20、EV_>;a_4|CDQn':131¥jIfTEUM露vaffiUHiliimifHi»hfUMiH#El>4«,3DrMd«ndKiMrcft|37Fl-4WfeKird.Vl>>iiTia1.24yriiiwiE3rSraitEjfrrEEZfoods-t-PT?GiZ.vhi#i|="Ml|breadandDaief二;C-T<ccn*rUFe;|1.Zfl«len+lccet;2,flZI我分别选取两个算法生成的频繁项集的最强关联规则的项集如下:Apriori算法:1.biscuits=tfro
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某省市樱花节开幕式策划方案
- 智慧病房管理系统平台项目建设方案
- 日处理5万吨污水处理厂及配套管网项目可行性研究报告模板拿地申报
- 2025北京四中高二(上)期中数学试题及答案
- 脑梗死护理规范考核试题及答案解析
- 2026北京海淀区初三一模化学试题含答案
- 2026七年级道德与法治下册 青春岁月珍惜态度
- 医院电子化审批制度流程
- 医院防肺炎疫情工作制度
- 卒中中心各项工作制度
- 2025年江苏省宿迁市泗阳县初中学业水平第二次模拟数学测试题
- 2025年苏州市公务员考试行测真题附答案详解
- 【真题】七年级数学下学期期末试卷(含解析)湖南省长沙师大附中集团2024-2025学年
- 2025年广西公需科目答案
- 中医消化内科试题及答案
- 监狱文化课件
- 多轴加工项目化教程课件 项目一 任务1-2基于UG NX多轴加工刀路相关知识介绍
- GB/T 43650-2024野生动物及其制品DNA物种鉴定技术规程
- 2023年湖南省衡阳市中考物理真题卷(含答案与解析)
- 2017版银皮书(中英文完整版)FIDIC设计采购施工交钥匙项目合同条件
- 大型水利工程运行与安全管理 图文并茂
评论
0/150
提交评论