啤酒和尿布的故事_第1页
啤酒和尿布的故事_第2页
啤酒和尿布的故事_第3页
啤酒和尿布的故事_第4页
啤酒和尿布的故事_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

讲述人:汪金祥序号内容金额问题1置信度的实际意义是啥?问题2:规则ABC-->D的置信度是0.667,那么AB->CD,A->BCD的置信度是多少?回答1解释ABE,ACE,BDE为什么不能被当做候选3项集回答2回答游戏题目中的答案分红包5元10元5元20元

玩转分享故事背景:“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象——

原因:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布就经常出现在一个购物车里了。

好吧,专业点。。。在购买铁锤的顾客当中,有70%的人同时购买了铁钉。场景1在买了一台PC之后,下一步会买啥???场景2Apriori算法数据挖掘关联规则挖掘好吧,学术点。。。数据挖掘的分析方法聚类K-means分类KNN关联规则AprioriFP-growth预测ID3C45关联规则挖掘关联规则挖掘(AssociationRule)发现一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则挖掘步骤一般分为2个步骤:依据支持度找出所有的频繁项集。

(频度)依据置信度产生关联规则。性能瓶颈!①支持度在M条交易集中,对于关联规则R:AB,其中A

I,B

I,并且AB=

。规则R的的支持度(Support)是交易集中同时包含A和B元素的交易数与所有交易数之比。基本概念IDItems1000A,B,C,D2000B,C,E3000A,B,C,E4000B,D,E5000A,B,C,D基本概念②置信度在M条交易集中,对于关联规则R:A

B,其中A

I,B

I,并且A

B=

。规则R的置信度(Confidence)是指包含A和B的交易数与包含A的交易数之比一般来说,只有支持度和置信度均较高的关联规则才是用户感兴趣的、有用的关联规则。基本概念③如果事件A中包含k个元素,那么称这个事件A为k项集;事件A满足最小支持度阈值的事件称为频繁k项集。④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则Apriori使用一种称作逐层搜索的迭代方法。首先,找出频繁“1项集”的集合。该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3,“k-1项集”用于探索“k项集”。如此下去,直到不能找到“k项集”。找每个Lk需要一次数据库扫描。

Apriori算法频繁项集发现过程:(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集重复步骤(1)~(5)直到不能发现更大频集

发现频繁项集IDItems1000A,B,C,D2000B,C,E3000A,B,C,E4000B,D,E5000A,B,C,DItemsetSup.countABCDEC1L1ItemsetABCDEC2ItemsetSup.countABBCADAE

BCBDBECDCEDE

L2ItemsetABBCADBCBDBECDCEC3ItemsetSup.countABCABDABEACDACEADEBCDBCEBDESupport=0.4;Confidence=0.635433314323213232222L35元ItemsetABCABDBCDBCEACDL3ItemsetABCDItemsetSup.countABCDC4L4Support=0.4;Confidence=0.62IDItems1000A,B,C,D2000B,C,E3000A,B,C,E4000B,D,E5000A,B,C,DItemset_1ABCDEItemset_2ABACADBCBDBECDCEItemset_3ABCABDBCDBCEACDItemset_4ABCD频繁项集L1A:3B:5C:4D:3E:3L2AB:3AC:3AD:2BC:4BD:3BE:3CD:2CE:2L3ABC:3ABD:2BCD:2BCE:2ACD:2L4ABCD:2Support=0.4;Confidence=0.6110.6670.800.600.600.500.5010.6670.500.500.6670.667可能产生大量的候选集可能需要重复扫描数据库Apriori算法局限性IDItems1000A,B,D2000A,C,E3000A,B,C,E4000C,D,E5000A,B,C,D6000A,B7000B,E游戏答对领红包20元提到要点:问题1:置信度的实际意义是啥?5元问题2:规则ABC-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论