大数据应用基础-关联规则.ppt_第1页
大数据应用基础-关联规则.ppt_第2页
大数据应用基础-关联规则.ppt_第3页
大数据应用基础-关联规则.ppt_第4页
大数据应用基础-关联规则.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关联规则,什么是关联规则?,经典例子:发现了买尿布的顾客经常也会买啤酒后,超市把两者摆在一起,从而提高了两者的销量。具体原因是:年轻的父亲下班回家的路上需要给孩子买尿布,但他们又没空去酒吧,所以就通常也给自己买一些啤酒。,关联规则基本概念,关联规则(associationrule)的主要目的是找出数据集中的频繁模式(frequentpattern),即多次重复出现的项(item)之间的“关联”(association)。关联规则和聚类一样,都是无监督的学习。它们都不用来预测。应用关联规则最经典的案例就是购物篮分析(basketanalysis)。通过分析顾客购物篮中商品之间的关联,可以看出顾客的购物习惯。,关联规则在传统零售业的应用,购物篮分析对于传统零售商非常有用,因为他们可以通过把顾客经常同时购买的商品摆在一起,从而方便顾客选取。这也叫做交叉销售。,关联规则在传统零售业的应用,找到关联规则后,超市可以:把两三种商品摆在一起;把两种商品打包销售;把其中一种商品价格提高一点,因为顾客会不太在意那种商品的价格;把两种商品分开放置,迫使顾客必须走过通道寻找所要购买的东西,这时谷歌可能会看到并购买其他东西。,关联规则在电商中的应用,不仅是传统零售业,在电商中同样有交叉销售,比如根据用户已经购买的商品,进行商品推荐,或者把两种商品捆绑销售。但是,关联规则主要适用于传统零售,而不是电商。,关联规则主要用于传统零售而非电商,关联规则主要适用于传统零售,而不是电商。这是因为:电商重视长尾,哪怕某些商品的购买者人数并不多,也完全可以给购买它们的顾客推荐另一些商品。由于购买数据稀疏,关联规则难以做到为每个顾客推荐商品。而对于传统零售,如果某件商品销量低,对它做促销、广告就得不偿失。这就是为什么要限制规则数量。,关联规则的其他应用,把文档(例如网页、推特)当做购物篮,把词汇当做item。我们可以发现哪些词汇之间共同出现的频率较高。把病人当做购物篮,把生物标志物(例如血蛋白、基因)或疾病当做item。经常共同出现的一组生物标志物(biomarker)可以作为疾病诊断的方法。,基本原理啤酒加尿布:经典的购物篮分析案例,超市发现:在所有购买了尿布的顾客中,有40%的人同时还买了啤酒,超市会发现很多关联规则,超市分析了很多商品之间的关联性。尿布加啤酒是所发现的关联规则中的一个。,超市会发现很多关联规则,购物篮中的商品也叫做项(item)。购物篮中多个项组成的集合叫做项集(itemset)。大型超市的数据中可能有10万个项,几百万个购物篮(可以是以一笔交易即一张购物小票的形式)。,超市处理不了过多的关联规则,必须限定关联规则的数量,否则如果给超市经理提供一百万条关联规则,他们根本阅读不过来。,关联规则有效性的两个指标,判断关联规则是否有效,最常用的两个指标是:置信度(Confidence)支持度(Support)为了筛选出那些具有较高置信度和支持度的规则,需要给这两个指标分别设定一个阈值。达到了阈值的规则才是有效规则。,支持度:在所有顾客中,同时购买了尿布和啤酒的人所占的比重。如果支持度太小,说明这个规则只是偶发事件,不具有普遍性和商业价值,或者说这两件items只出现在很少的购物篮中。置信度:在购买了尿布的顾客中,也购买了啤酒的人所占的比重。如果置信度太低,则从X(购买尿布)就很难可靠地推断出Y(购买啤酒)来。,用于进一步筛选关联规则的指标:提升度,除了支持度和置信度以外,还有一个指标很重要。这是因为,仅根据支持度和置信度所发现的简单关联关系可能并不实用。,用于进一步筛选关联规则的指标:提升度,规则提升度(Lift)。这个指标反映了规则的价值。提升度能说明规则对后项的预测比没有规则要好多少。当Lift大于1时,意味着X的出现对Y的出现有促进作用;当它小于1时,表明X的出现降低了Y出现的可能性。Lift越大越好。,用于进一步筛选关联规则的指标:提升度,提升度有助于找到那些可能是意外发现的规则,而不是本来就知道的规则。可以避免向顾客推荐热销商品。正如啤酒加尿布的例子一样。,最常用的关联规则算法Apriori,在各种关联规则算法中,最常用的是Apriori算法。它分两步:生成频繁项目集。频繁项目集是支持度高于最小支持度阈值的项目的集合。从上一步得到的频繁项目集中生成所有的可信关联规则。这里,可信关联规则是指置信度大于最小置信度阈值的规则。,关联规则的分类,分析简单关联关系的技术成为简单关联规则。而分析序列关联关系的技术则称为序列关联规则。序列关联关系的例子:购买了洗衣机的顾客中,一段时间内会有40%的人购买洗衣粉。知道这种规则后,我们可以在客户购买了洗衣机后的合适时间间隔后,向其推荐洗衣粉。序列关联规则的最常见算法是Sequence算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论