




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息技术局数据分析团队 IT 关联规则算法介绍关联规则算法介绍 信息技术局数据分析团队信息技术局数据分析团队信息技术局数据分析团队信息技术局数据分析团队 2012-3-28 信息技术局数据分析团队 IT 关关联规则联规则联规则联规则 算法介算法介绍绍绍绍及及实现实现实现实现 2. 1. 关联规则算法总体介绍 该算法的R语言实现 1.1什么关联规则算法? 1.2三个关键概念 1.3用途范围 信息技术局数据分析团队 IT 1.1什么是关联规则挖掘 定义:关联规则反映一个事物与其他事物之间的相互依 存性和关联性。如果两个或者多个事物之间存在一定的 关联关系,那么,其中一个事物就能够通过其他事物预 测到。 典型的关联规则发现问题是对超市中的货篮数据( Market Basket)进行分析。通过发现顾客放入货篮中的 不同商品之间的关系来分析顾客的购买习惯。 信息技术局数据分析团队 IT 背景: 首先被Agrawal在1993年的SIGMOD会议上提出 在事务、关系数据库中的项集和对象中发现频繁模式、关 联规则、相关性或者因果结构 目的: 发现数据中的规律 超市数据中的什么产品会一起购买? 啤酒和尿布 在买了一台PC之后下一步会购买? 信息技术局数据分析团队 IT 支持度 如果项集X是事务T的一个子集,则称T包含X。对于一个 规则XY的支持度是指“T中包含XY的事务的百分比”。设n是T 中的事务的数目。对于规则XY的支持度计算如下: 支持度= 置信度 对于一个规则XY的置信度是指“T中既包含X也包含Y的 事务占所有包含X的事务的百分比”。 置信度= 信息技术局数据分析团队 IT 最小支持度minsup。即用户规定的关联规则必须满足的最小支 持度,它表示了一组物品集在统计意义上的需满足的最低程度。 最小置信度minconf。即用户规定的关联规则必须满足的最小置 信度,它反应了关联规则的最低可靠度。 数据集中的任意一项集Ix,如果 Support(Ix)min-sup,则称项集Ix 为非频繁项目集。 数据集中的任意一项集Ix,如果 Support(Ix)min-sup,则称项集Ix 为频繁项目集。 信息技术局数据分析团队 IT 例如:啤酒和尿布的关联关系 推断客户的潜在消费需求 制定产品组合销售策略 信息技术局数据分析团队 IT 2. 1. 关联规则算法总体介绍 R语言实现 2.1生成标准数据集 2.2计算过程 2.3选择规则集 关关联规则联规则联规则联规则 算法介算法介绍绍绍绍及及实现实现实现实现 信息技术局数据分析团队 IT 购物篮格式数据集 A m、n、l、p B m、n C n、l 单一格式数据集 A m A n B m 信息技术局数据分析团队 IT library(arules) #加载arules程序包 data(Groceries) #调用数据文件 frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen =10) #求频繁项集 inspect(frequentsets1:10) #察看求得的频繁项集 inspect(sort(frequentsets,by=“support“)1:10) #根据支持度对 求得的频繁项集排序并察看 信息技术局数据分析团队 IT rules=apriori(Groceries,parameter=list(support=0.01,confidence=0 .01) #求关联规则 summary(rules) #察看求得的关联规则之摘要 x=subset(rules,subset=rhs%in%“whole milk“&lift=1.2) #求所需 要的关联规则子集 inspect(sort(x,by=“support“)1:5) #根据支持度对求得的关联 规则子集排序并察看 信息技术局数据分析团队 IT 以置信度为核心 兼顾支持度 结果集示例: lhs rhs support onfidence lift 1 36-817aa = 36-818aa 0.11283015 0.74416910 4.344507 2 36-818aa = 36-817aa 0.11283015 0.65870968 4.344507 3 36-628aa = 36-62aa 0.10343684 0.98113208 6.131398 信息技术局数据分析团队 IT 数据字段清洗规则 该分析方法的总结 1、针对多指标综合分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子宫腺肌病课件
- 工业用温度计课件
- 工业煤气安全规程培训课件
- 年后安全教育培训课件
- 威海化工安全培训课件
- 平顶山保洁安全培训课件
- 平面设计要素课件
- 平面设计基础培训课件
- Estradiol-3-d3-β-D-Glucuronide-sodium-生命科学试剂-MCE
- 2024年南昌师范学院招聘笔试真题
- 【知识解析】分析生态脆弱区成因的基本思路
- 学前教育专业钢琴弹唱PPT全套教学课件
- 清华大学风景介绍
- SB/T 11004-2013电子提单(物权凭证)使用规范
- GB/T 16294-2010医药工业洁净室(区)沉降菌的测试方法
- GB/T 14486-2008塑料模塑件尺寸公差
- 《国际公法》全册配套完整课件
- 第三单元名著导读《朝花夕拾-二十四孝图》课件(15张PPT) 部编版语文七年级上册
- 特种设备管理台帐(5个台账)
- l领导干部心理健康知识讲座课件
- 经口鼻吸痰技术新版
评论
0/150
提交评论