版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2012-10-12,1,Data Mining关联规则分析及应用,2012-10-12,2,目录,基本概念,关联规则挖掘过程,分类,关联规则的价值衡量,4,1,2,3,挖掘算法,关联规则的应用,5,6,2012-10-12,3,绪论,在购买铁锤的顾客当中,有70的人同时购买了铁钉。 年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。 在超市购买面包的人有70%会购买牛奶,2012-10-12,4,绪论,2012-10-12,5,一、基本概念,设 I=I1,I2,In 是项的集合。 任务相关数据D:是事务(或元组)的集合。 事务T:是项的集合,且每个事务具有事务标识符
2、TID。 项集A:是T 的一个子集,加上TID 即事务。 项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集I1,I2。 支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。,2012-10-12,6,一、基本概念,D,T,A,B,In(n=1,2,)指具体项目,如购物篮分析中: I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒 Support-count(I1)=6,2012-10-12,7,一、基本概念,关联规则:形如 A = B 的蕴涵式,其中A I , BI,并且 AB =。 支持度:关联规则在D中的支持度(sup
3、port)是D中事务同时包含A、B的百分比,即概率。规则代表性、重要性衡量 Support(A B)=P ( A B ) = support _ count(AB) count (T) 频繁项集:若一个项集的支持度大于等于某个阈值。,2012-10-12,8,一、基本概念,置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则准确性衡量 confidence ( A B ) = P ( B | A) 强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。,=,9,2012-10-12,9,二、关联规则挖掘过程,两个步骤:
4、找出所有频繁项集。 由频繁项集生成满足最小信任度阈值的规则。 挖掘模式:,min_sup,min_conf,2012-10-12,10,二、关联规则挖掘过程,关联规则挖掘举例: 假定数据包含频繁项集 M=I1,I2,I5。可以由M 产生哪些关联规则?,2012-10-12,11,二、关联规则挖掘过程,M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。,6 7 6 2 2,I1 I2 I3 I4 I5,2012-10-12,12,二、关联规则挖掘过程,I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2
5、I1 I5, I5 I1 I2,confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 % confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %,2012-10-12,13,二、关联规则挖掘过程,如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为只有这些是产生的强关联规则。,I1 I5 I2, I2 I5 I1, I5 I1 I2,confidence = 2/2 = 100 % conf
6、idence = 2/2 = 100% confidence = 2/2 = 100%,2012-10-12,14,二、关联规则挖掘过程,对强关联规则的批评: eg:,在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。 打篮球 = 喝麦片粥 40%, 66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。 打篮球 = 不喝麦片粥 20%, 33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。,2012-10-12,15,二、关联规则挖掘过程,兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B
7、的相关程度。 P(AB) P(A)P(B) 若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立; 若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。 小结:只有兴趣度大于1,该规则才具有实际价值。,I(A B)=,2012-10-12,16,三、关联规则的分类,基于规则中处理的变量的类别 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; B. 数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=职业=“秘书” 性别=“女”=avg(收入)=2300,2012-10
8、-12,17,三、关联规则的分类,基于规则中处理的变量的类别 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; B. 数值型 :数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=职业=“秘书” 性别=“女”=avg(收入)=2300,2012-10-12,18,三、关联规则的分类,基于规则中数据的抽象层次: 单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的; 多层关联规则:对数据的多层性已经进行了充分的考虑。 层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。 eg: IBM台式机
9、=Sony打印机 台式机=Sony打印机,2012-10-12,19,三、关联规则的分类,分层示例:,2012-10-12,20,三、关联规则的分类,基于规则中数据的维数: 单维关联规则:只涉及到数据的一个维,如用户购买的物品; 多维关联规则:要处理的数据将会涉及多个维。 eg: 啤酒=尿布 性别=“女”=职业=“秘书”,2012-10-12,21,四、关联规则的价值衡量,对关联规则的评价与价值衡量涉及两个层面: A.系统客观的层面 使用“支持度和信任度”框架可能会产生一些不正确的规则。 B.用户主观的层面 只有用户才能决定规则的有效性、可行性。 如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。,2012-10-12,22,五、关联规则的挖掘算法,Apriori算法 挖掘或识别出所有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食堂厨师菜品考核制度
- 小型水利工程考核制度
- 如何加入绩效考核制度
- 两站两员工作考核制度
- 调整完善绩效考核制度
- 乡镇劳动纪律考核制度
- 商场招商绩效考核制度
- 银行电话客服考核制度
- 五矿证券绩效考核制度
- 集团财务总监考核制度
- 《装配整体式钢骨架混凝土结构技术规程》
- 电动汽车安全驾驶指南
- 《危险化学品安全法》知识培训
- 2024年上海虹口区初三二模中考数学试卷试题(含答案详解)
- 企业开工第一课安全培训
- 离婚协议书范文一子女无财产无债务
- 标准常见问题手册FAQ模板V10
- 湘教版高中数学选择性必修第一册综合检测卷含答案
- DL∕T 1396-2014 水电建设项目文件收集与档案整 理规范
- 供排水安全生产培训
- 辊道输送线技术方案
评论
0/150
提交评论