




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Apriori算法,2012年11月15日,讲述顺序,数据挖掘,Apriori算法,关联规则,Apriori算法,数据挖掘,关联规则挖掘,三者关系,了解数据挖掘算法所处位置,数据挖掘算法功能,根据所挖掘知识的类型不同:为了反映同类事物共同性质的为了反映事物各方面特征的为了反映不同事物之间属性差别的为了反映事物之间依赖或关联的根据历史的和当前的数据推测未来数据揭示事物偏离常规的异常现象,为了反映事物之间依赖或关联的,典型案例-啤酒与尿布,更多举例,e.g:在购买铁锤的顾客当中,有70的人同时购买了铁钉。,更多举例,e.g:年龄在40岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。,关联规则挖掘,关联规则(AssociationRule)挖掘是从事务数据库、关系数据库和其它信息存储中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。,关联规则挖掘步骤,一般分为2个步骤:依据支持度找出所有的频繁项集。(频度)依据置信度产生关联规则。(强度),性能瓶颈!,先验算法,基本概念,项,项集,频繁项集,事务,关联规则,置信度,支持度,由此我们引出之后需要的几个概念:,关联规则挖掘举例,最简单的关联规则挖掘单维、单层、布尔关联规则挖掘,Minsup=50%,Mincon=50%,满足频繁项集如表,只有AC关联分析有意义Support(A=C)=50%Confidence(A=)P(C/A)=66.7%,找出频繁项集在频繁项集中找出满足置信度的项集,Apriori(先验)算法先验释义:由原因推结果,Apriori算法,Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。,按照所处理的值类型不同进行关联规则分类:布尔关联规则,如事务向量(001101100)对每种商品可以用一个布尔量来表示该种商品是否被购买,则每个购物篮可以用一个布尔向量来表示量化关联规则,如AgeX,”30-39”incomeX,”40k48k”=buysX,”computer”,Apriori使用一种称作逐层搜索的迭代方法,“K-1项集”用于探索“K项集”。首先,找出频繁“1项集”的集合。该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3,如此下去,直到不能找到“K项集”。找每个LK需要一次数据库扫描。,Apriori算法,Apriori算法目的意义,Apriori算法主要为了提高数据访问效率,提升发现频繁项集的速度,核心:连接步和剪枝步,连接步自连接原则:前k-2项相同字典顺序连接剪枝步利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的。过滤候选项集。减少工作量。,步骤1:发现频繁项集,频繁项集发现过程:(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集重复步骤(1)(5)直到不能发现更大频集,步骤2:产生关联规则,根据前面提到的置信度的定义,关联规则的产生如下:(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果则输出规则“SLS”。注:LS表示在项集L中除去S子集的项集。,举例,Apriori算法伪代码,(1)L1=find_frequent_1_itemsets(D);(2)for(k=2;Lk-1;k+)(3)Ck=apriori_gen(Lk-1);(4)foreachtransactiontD/scanDforcounts(5)Ct=subset(Ck,t);/getthesubsetsoftthatarecandidates(6)foreachcandidatecCt(7)c.count+;(8)(9)Lk=cCk|c.countmin_sup(10)(11)returnL=kLk;,连接步和剪枝步,第1步:连接(join)Procedureapriori_gen(Lk-1:frequent(k-1)itemset)1)foreachitemsetl1Lk-12)foreachitemsetl2Lk-13)if(l11=l21)(l1k-2=l2k-2)(l1k-1l2k-1)then4)c=l1l2;/连接,产生候选集5)ifhas_infrequent_subset(c,Lk-1)then6)deletec;/修剪,去掉无用的候选项7)elseaddctoCk;8)9)returnCk;,连接步和剪枝步,第2步:剪枝(prune)procedurehas_infrequent_subset(c:candidatekitemset;Lk-1:frequent(k-1)itemset);/使用先验知识1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年甘肃省定西市人力资源有限公司招聘工作人员考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025辽宁抚顺新抚钢有限责任公司招聘拟聘用人员模拟试卷及答案详解(考点梳理)
- 2025河北中核二四劳务有限公司招聘200人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025年长春中医药大学附属医院公开招聘高层次及急需紧缺人才1号(24人)模拟试卷附答案详解(完整版)
- 滑膜炎的课件
- 德克士仓储培训课件
- 2025湖州安吉县城市建设投资集团有限公司下属子集团招聘11人考前自测高频考点模拟试题带答案详解
- 碗碗和大嘴课件
- 教育领域质性研究伦理审查标准
- 揭阳公考面试试题及答案
- 2025年银行从业资格考试公共基础真题及答案
- 2025年辅警考试真题及答案
- 2025-2026学年统编版五年级上册语文第二单元过关试卷附答案(三套)
- 2025年三力测试题试题及答案
- 常用食品包装技术与设备
- 2021届语文大总复习课时作业36文学类文本阅读-小说(二)含解析
- 2023年学宪法讲宪法知识竞赛题含答案
- 思想道德与法治基础:第一章 领悟人生真谛 把握人生方向
- 2022年DISC职业性格测试(40题附完整分析)
- 《星际穿越》-课件
- 小学竖笛社团活动计划及活动总结
评论
0/150
提交评论