关联规则分析及应用ppt课件_第1页
关联规则分析及应用ppt课件_第2页
关联规则分析及应用ppt课件_第3页
关联规则分析及应用ppt课件_第4页
关联规则分析及应用ppt课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Data Mining关联规那么分析及运用2019-10-121目录目录根本概念根本概念关联规那么发掘过程关联规那么发掘过程分类分类关联规那么的价值衡量关联规那么的价值衡量4123发掘算法发掘算法关联规那么的运用关联规那么的运用562019-10-122绪论绪论p在购买铁锤的顾客当中,有70的人同时购买了铁钉。p年龄在40 岁以上,任务在A区的投保人当中,有45的人曾经向保险公司索赔过。p p在超市购买面包的人有70%会购买牛奶2019-10-123绪论绪论2019-10-124一、根本概念一、根本概念设 I=I1,I2,In 是项的集合。义务相关数据D:是事务或元组的集合。事务T:是项的集合

2、,且每个事务具有事务标识符TID。项集A:是T 的一个子集,加上TID 即事务。项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集I1,I2。支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。2019-10-125一、根本概念一、根本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABInInn=1,2,n=1,2,指详细工程,如指详细工程,如购物篮分析中:购物篮分析中:I1=I1=

3、苹果苹果I2=I2=面包面包I3=I3=牛奶牛奶I4=I4=尿布尿布I5=I5=啤酒啤酒Support-Support-count(I1)=6count(I1)=62019-10-126一、根本概念一、根本概念v关联规那么:形如 A = B 的蕴涵式,其中A I , BI,并且 AB =。v支持度:关联规那么在D中的支持度(support)是D中事务同时包含A、B的百分比,即概率。规那么代表性、重要性衡量v Support(A B)=P ( A B )v = support _ count(AB)v count (T)v频繁项集:假设一个项集的支持度大于等于某个阈值。2019-10-127一、

4、根本概念一、根本概念v置信度置信度c:是包含是包含A的事务中同时又包含的事务中同时又包含B的百分比,的百分比,即条件概率。即条件概率。规那么准确性衡量规那么准确性衡量v confidence ( A B ) = P ( B | A)v强关联规那么:同时满足用户定义的最小支持度强关联规那么:同时满足用户定义的最小支持度阈值阈值min_sup和最小置信度阈值和最小置信度阈值(min_conf)的的规那么称为强规那么。规那么称为强规那么。2019-10-128=9support _ count ( A U B )support_count ( A)二、关联规那么发掘过程二、关联规那么发掘过程两个步骤

5、:找出一切频繁项集。 由频繁项集生成满足最小信任度阈值的规那么。发掘方式:2019-10-129min_supmin_conf产生频繁项集生成强关联规那么规那么评价用户Database二、关联规那么发掘过程二、关联规那么发掘过程关联规那么发掘举例:关联规那么发掘举例: 假定数据包含频繁项集假定数据包含频繁项集M=I1,I2,I5。可以由。可以由M 产生哪些关联规那么?产生哪些关联规那么?2019-10-1210二、关联规那么发掘过程二、关联规那么发掘过程v M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。那么结果关联规那么如下,每个都列出置信度。2019-10-1211

6、项集项集支持度支持度计数计数67622I1I2I3I4I5项集项集支持度计支持度计数数I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2项集项集支持度支持度计数计数I1,I2,I32I1,I2,I52二、关联规那么发掘过程二、关联规那么发掘过程I1 I2 I5,I1 I5 I2,I2 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,2019-10-1212confidence = 2/4 = 50 % confidence = 2/2 = 100 %confidence = 2/2 = 100 %confidence = 2/6

7、= 33%confidence = 2/7 = 29%confidence = 2/2 = 100 %二、关联规那么发掘过程二、关联规那么发掘过程假设最小置信度阈值为70%,那么只需第2、3、6个规那么可以作为最终的结果输出,由于只需这些是产生的强关联规那么。2019-10-1213I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence = 2/2 = 100 %confidence = 2/2 = 100%confidence = 2/2 = 100%二、关联规那么发掘过程二、关联规那么发掘过程对强关联规那么的批判:eg:2019-10-1214项目项目打篮球打篮球不打篮

8、球不打篮球合计合计喝麦片200017503750不喝麦片10002501250合计300020005000 在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。打篮球 = 喝麦片粥 40%, 66.7%是错误的,由于全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。打篮球 = 不喝麦片粥 20%, 33.3%这个规那么远比上面那个要准确,虽然支持度和置信度都要低的多。二、关联规那么发掘过程二、关联规那么发掘过程兴趣度作用度:描画了项集A对项集B的影响力的大小,即A与B的相关程度。 P(AB) P(A)P(B)假设I(A B)=1,即P(A)

9、P(B)=P(AB),A与B相互独立;假设I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。小结:只需兴趣度大于1,该规那么才具有实践价值。2019-10-1215I(A B)=三、关联规那么的分类三、关联规那么的分类p基于规那么中处置的变量的类别基于规那么中处置的变量的类别p布尔型:布尔型关联规那么处置的值都是离散的、布尔型:布尔型关联规那么处置的值都是离散的、种类化的,它显示了这些变量之间的关系;种类化的,它显示了这些变量之间的关系;pB. 数值型:数值型关联规那么可以和多维关联或数值型:数值型关联规那么可以和多维关联或多层多层 关联规那么结合起来,对数值型字段进

10、展关联规那么结合起来,对数值型字段进展处置。处置。p eg: 性别性别=“女女=职业职业=“秘书秘书 p 性别性别=“女女=avg收入收入=23002019-10-1216三、关联规那么的分类三、关联规那么的分类p基于规那么中处置的变量的类别基于规那么中处置的变量的类别p布尔型布尔型:布尔型关联规那么处置的值都是离散的、布尔型关联规那么处置的值都是离散的、种类化的,它显示了这些变量之间的关系;种类化的,它显示了这些变量之间的关系;pB. 数值型数值型 :数值型关联规那么可以和多维关联或数值型关联规那么可以和多维关联或多层多层 关联规那么结合起来,对数值型字段进展处关联规那么结合起来,对数值型字

11、段进展处置。置。p eg: 性别性别=“女女=职业职业=“秘书秘书 p 性别性别=“女女=avg收入收入=23002019-10-1217三、关联规那么的分类三、关联规那么的分类p基于规那么中数据的笼统层次:基于规那么中数据的笼统层次:p单层关联规那么单层关联规那么:一切的变量都没有思索到现实的一切的变量都没有思索到现实的数据是具有多个不同的层次的;数据是具有多个不同的层次的;p多层关联规那么多层关联规那么:对数据的多层性曾经进展了充分对数据的多层性曾经进展了充分的思索。的思索。p 层:大类能否细分的问题,如上衣可以细分为层:大类能否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。衬衣、夹克

12、、风衣等。peg: IBM台式机台式机=Sony打印机打印机p 台式机台式机=Sony打印机打印机2019-10-1218三、关联规那么的分类三、关联规那么的分类2019-10-1219分层例如:三、关联规那么的分类三、关联规那么的分类2019-10-1220p基于规那么中数据的维数:基于规那么中数据的维数:p单维关联规那么单维关联规那么:只涉及到数据的一个维,如用户只涉及到数据的一个维,如用户购买的物品;购买的物品;p多维关联规那么多维关联规那么:要处置的数据将会涉及多个维。要处置的数据将会涉及多个维。p p eg: 啤酒啤酒=尿布尿布p 性别性别=“女女=职业职业=“秘书秘书TID姓名姓名

13、性别性别职业职业购买物品购买物品月工资月工资001张三女秘书尿布3000002李四男工程师啤酒、尿布5000四、关联规那么的价值衡量四、关联规那么的价值衡量对关联规那么的评价与价值衡量涉及两个层面:对关联规那么的评价与价值衡量涉及两个层面:A.A.系统客观的层面系统客观的层面 运用运用“支持度和信任度框架能够会产生一些支持度和信任度框架能够会产生一些不正确的规那么。不正确的规那么。B.B.用户客观的层面用户客观的层面只需用户才干决议规那么的有效性、可行性。只需用户才干决议规那么的有效性、可行性。假设把某些约束条件与算法严密结合,既能提高数假设把某些约束条件与算法严密结合,既能提高数据发掘效率,又能明确数据发掘的目的。据发掘效率,又能明确数据发掘的目的。 2019-10-1221五、关联规那么的发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论