已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Apriori算法,2012年11月15日,讲述顺序,数据挖掘,Apriori算法,关联规则,Apriori算法,数据挖掘,关联规则挖掘,三者关系,了解数据挖掘算法所处位置,数据挖掘算法功能,根据所挖掘知识的类型不同:为了反映同类事物共同性质的为了反映事物各方面特征的为了反映不同事物之间属性差别的为了反映事物之间依赖或关联的根据历史的和当前的数据推测未来数据揭示事物偏离常规的异常现象,为了反映事物之间依赖或关联的,典型案例-啤酒与尿布,更多举例,e.g:在购买铁锤的顾客当中,有70的人同时购买了铁钉。,更多举例,e.g:年龄在40岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。,关联规则挖掘,关联规则(AssociationRule)挖掘是从事务数据库、关系数据库和其它信息存储中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。,关联规则挖掘步骤,一般分为2个步骤:依据支持度找出所有的频繁项集。(频度)依据置信度产生关联规则。(强度),性能瓶颈!,先验算法,基本概念,项,项集,频繁项集,事务,关联规则,置信度,支持度,由此我们引出之后需要的几个概念:,关联规则挖掘举例,最简单的关联规则挖掘单维、单层、布尔关联规则挖掘,Minsup=50%,Mincon=50%,满足频繁项集如表,只有AC关联分析有意义Support(A=C)=50%Confidence(A=)P(C/A)=66.7%,找出频繁项集在频繁项集中找出满足置信度的项集,Apriori(先验)算法先验释义:由原因推结果,Apriori算法,Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。,按照所处理的值类型不同进行关联规则分类:布尔关联规则,如事务向量(001101100)对每种商品可以用一个布尔量来表示该种商品是否被购买,则每个购物篮可以用一个布尔向量来表示量化关联规则,如AgeX,”30-39”incomeX,”40k48k”=buysX,”computer”,Apriori使用一种称作逐层搜索的迭代方法,“K-1项集”用于探索“K项集”。首先,找出频繁“1项集”的集合。该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3,如此下去,直到不能找到“K项集”。找每个LK需要一次数据库扫描。,Apriori算法,Apriori算法目的意义,Apriori算法主要为了提高数据访问效率,提升发现频繁项集的速度,核心:连接步和剪枝步,连接步自连接原则:前k-2项相同字典顺序连接剪枝步利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的。过滤候选项集。减少工作量。,步骤1:发现频繁项集,频繁项集发现过程:(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集重复步骤(1)(5)直到不能发现更大频集,步骤2:产生关联规则,根据前面提到的置信度的定义,关联规则的产生如下:(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果则输出规则“SLS”。注:LS表示在项集L中除去S子集的项集。,举例,Apriori算法伪代码,(1)L1=find_frequent_1_itemsets(D);(2)for(k=2;Lk-1;k+)(3)Ck=apriori_gen(Lk-1);(4)foreachtransactiontD/scanDforcounts(5)Ct=subset(Ck,t);/getthesubsetsoftthatarecandidates(6)foreachcandidatecCt(7)c.count+;(8)(9)Lk=cCk|c.countmin_sup(10)(11)returnL=kLk;,连接步和剪枝步,第1步:连接(join)Procedureapriori_gen(Lk-1:frequent(k-1)itemset)1)foreachitemsetl1Lk-12)foreachitemsetl2Lk-13)if(l11=l21)(l1k-2=l2k-2)(l1k-1l2k-1)then4)c=l1l2;/连接,产生候选集5)ifhas_infrequent_subset(c,Lk-1)then6)deletec;/修剪,去掉无用的候选项7)elseaddctoCk;8)9)returnCk;,连接步和剪枝步,第2步:剪枝(prune)procedurehas_infrequent_subset(c:candidatekitemset;Lk-1:frequent(k-1)itemset);/使用先验知识1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交通出行安全教育课件
- 2025年中煤集团面试试题题库及答案
- Unit8SectionA(3a~3b)课件人教版(2012)九年级英语全册
- 2025年石材养护基础知识题库及答案
- 2025年池州市投资控股集团招聘69人考前自测高频考点模拟试题附答案
- 2025年甘肃省水务投资集团有限公司急需紧缺人才招聘38人模拟试卷附答案
- 2025内蒙古三峡陆上新能源总部社会招聘49人(第一批)笔试参考题库附答案
- 2025年四川德阳三星堆开发建设有限公司下属子公司第一次面向笔试备考试题附答案
- 2025年安徽泰康教育投资有限公司招聘19人笔试备考试题附答案
- 2025中国神华煤制油化工有限公司鄂尔多斯煤制油分公司社会招笔试备考试题附答案
- 2025年河北保定市公安局招聘警务辅助人员48名考试笔试备考题库及答案解析
- 注意缺陷多动障碍儿童社交技能培养方案
- 小学高级数学教师评审答辩资料范本
- 市政管道高压水射流清淤施工方案
- 江苏省苏州市阳光调研2025-2026学年高一上学期期中考试化学试题(含答案)
- 国防安全主题课件
- 2025-2026学年第一学期浙江省宁波市余姚市六校期中联考七年级语文试卷(含答案)
- 2025广东广州市越秀区流花街招聘党建工作指导员1人笔试考试参考题库及答案解析
- 教资考试论述题含答案
- 2025年国家开放大学(电大)《教育科学研究方法》期末考试复习题库及答案解析
- 阿尔茨海默症医疗护理查房
评论
0/150
提交评论