关联规则与关联分析课件.ppt

上传人：优*** IP属地：广东上传时间：2020-01-29 格式：PPT 页数：39 大小：5.24MB 积分：35 举报 版权申诉

已阅读5页，还剩34页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第四章关联规则与关联分析摘要关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支本章主要介绍了关联规则挖掘的基本概念及其分类以单维单层布尔关联规则的挖掘理论为切入点介绍关联规则挖掘理论模型以及算法方面的内容并简单扼要介绍了多层关联规则挖掘多维关联规则挖掘的相关内容最后通过一个实例给出了关联分析的医学应用什么是关联规则挖掘关联规则挖掘从事务数据库关系数据库和其他信息存储中的大量数据的项集之间发现有趣的频繁出现的模式关联和相关性应用购物篮分析分类设计捆绑销售等尿布与啤酒典型关联分析案例采用关联模型比较典型的案例是尿布与啤酒的故事在美国一些年轻的父亲下班后经常要到超市去买婴儿尿布超市也因此发现了一个规律在购买婴儿尿布的年轻父亲们中有30 40 的人同时要买一些啤酒超市随后调整了货架的摆放把尿布和啤酒放在一起明显增加了销售额同样的我们还可以根据关联规则在商品销售方面做各种促销活动购物篮分析如果问题的全域是商店中所有商品的集合则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买则每个购物篮都可以用一个布尔向量表示而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式这些模式就可以用关联规则表示 0001001100 这种方法丢失了什么信息关联规则的两个兴趣度度量支持度置信度关联 association 两个或多个变量的取值之间存在某种规律性关联规则 associationrule 指在同一个事件中出现的不同项的相关性关联分析 associationanalysis 用于发现隐藏在大型数据集中的令人感兴趣的联系所发现的联系可以用关联规则或者频繁项集的形式表示关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识应用购物篮分析生物信息学医疗诊断 Web挖掘科学数据分析分类设计捆绑销售和亏本销售分析购物篮事务的例子第一节关联规则基本概念和关联规则挖掘分类关联规则的基本概念关联规则挖掘的基本过程与分类关联规则的基本概念令I i1 i2 id 是购物篮数据中所有项的集合而T t1 t2 tn 是所有事务的集合每个事务ti包含的项集都是I的子集在关联分析中包含0个或者多个项的集合被称为项集 itemset 如果一个项集包含k个项则称它为k 项集例如啤酒尿布牛奶是一个3 项集空集是指不包含任何项的项集事务的宽度定义为事务中出现项的个数如果项集X是事务tj的子集则称事务tj包含项集X 项集的一个重要性质就是它的支持度计数即包含特定项集的事务个数数学上项集X的支持度计数 X 可以表示为 X ti X ti ti T 关联规则是形如X Y的蕴含表达式其中X和Y是不相交的项集关联规则的强度可以用它的支持度 support 和置信度 confidence 度量支持度确定了规则可以用于给定数据集的频繁程度而置信度确定了Y包含X的事务中出现的频繁程度规则度量支持度和置信度 Customerbuysdiaper Customerbuysboth Customerbuysbeer 对所有满足最小支持度和置信度的关联规则支持度s是指事务集D中包含的百分比置信度c是指D中包含A的事务同时也包含B的百分比假设最小支持度为50 最小置信度为50 则有如下关联规则A C 50 66 6 C A 50 100 关联规则挖掘的基本过程与分类关联规则挖掘的基本过程关联规则挖掘的分类关联规则挖掘的基本过程给定事务的集合T 关联规则发现是指找出支持度大于等于minsup 并且置信度大于等于minconf的所有规则其中minsup和minconf是对应的支持度和置信度的阈值原始关联规则挖掘方法计算每一个可能规则的支持度和置信度但是这种方法由于过高的代价而让人望而却步关联规则挖掘任务的步骤找出所有频繁项集其目标是发现满足最小支持度阈值的所有项集这些项集称作频繁项集 frequentitemset 由频繁项集产生强关联规则其目标是从上一步发现的频繁项集中提取所有高置信度的规则这些规则称作强规则 strongrule 关联规则挖掘分类 1 关联规则有多种分类根据规则中所处理的值类型布尔关联规则量化关联规则规则描述的是量化的项或属性间的关联性根据规则中涉及的数据维单维关联规则仅涉及buys这个维多维关联规则关联规则挖掘分类 2 根据规则集所涉及的抽象层单层关联规则多层关联规则在不同的抽象层发现关联规则根据关联挖掘的各种扩充挖掘最大的频繁模式该模式的任何真超模式都是非频繁的挖掘频繁闭项集一个项集c是频繁闭项集如果不存在其真超集c 使得每个包含c的事务也包含c 最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频繁项集由事务数据库挖掘单维布尔关联规则最简单的关联规则挖掘即单维单层布尔关联规则的挖掘最小支持度50 最小置信度50 对规则A C 支持度 50 置信度 2020 1 29 20 可编辑 Apriori算法 1 Apriori算法是挖掘布尔关联规则频繁项集的算法Apriori算法利用的是Apriori性质频繁项集的所有非空子集也必须是频繁的模式不可能比A更频繁的出现Apriori算法是反单调的即一个集合如果不能通过测试则该集合的所有超集也不能通过相同的测试 Apriori性质通过减少搜索空间来提高频繁项集逐层产生的效率 Apriori算法 2 Apriori算法利用频繁项集性质的先验知识 priorknowledge 通过逐层搜索的迭代方法即将k 项集用于探察 k 1 项集来穷尽数据集中的所有频繁项集先找到频繁1 项集集合L1 然后用L1找到频繁2 项集集合L2 接着用L2找L3 直到找不到频繁k 项集找每个Lk需要一次数据库扫描 Apriori算法步骤 Apriori算法由连接和剪枝两个步骤组成连接为了找Lk 通过Lk 1与自己连接产生候选k 项集的集合该候选k项集记为Ck Lk 1中的两个元素L1和L2可以执行连接操作的条件是Ck是Lk的超集即它的成员可能不是频繁的但是所有频繁的k 项集都在Ck中为什么因此可以通过扫描数据库通过计算每个k 项集的支持度来得到Lk 为了减少计算量可以使用Apriori性质即如果一个k 项集的 k 1 子集不在Lk 1中则该候选不可能是频繁的可以直接从Ck删除 Apriori算法示例 DatabaseTDB 1stscan C1 L1 L2 C2 C2 2ndscan C3 L3 3rdscan 最小支持计数 2 使用Apiori性质由L2产生C3 1 连接 C3 L2L2 A C B C B E C E A C B C B E C E A B C A C E B C E 2 使用Apriori性质剪枝频繁项集的所有子集必须是频繁的对候选项C3 我们可以删除其子集为非频繁的选项 A B C 的2项子集是 A B A C B C 其中 A B 不是L2的元素所以删除这个选项 A C E 的2项子集是 A C A E C E 其中 A E 不是L2的元素所以删除这个选项 B C E 的2项子集是 B C B E C E 它的所有2 项子集都是L2的元素因此保留这个选项 3 这样剪枝后得到C3 B C E 由频繁项集产生关联规则同时满足最小支持度和最小置信度的才是强关联规则从频繁项集产生的规则都满足支持度要求而其置信度则可由一下公式计算每个关联规则可由如下过程产生对于每个频繁项集l 产生l的所有非空子集对于每个非空子集s 如果则输出规则多层关联规则挖掘多层关联规则可以分为同层关联规则和层间关联规则同层关联规则是指处于同概念层的关联规则层间关联规则是指不同概念层的关联规则多层关联规则基本上可以沿用支持度置信度的框架但是在设置问题上有一些要考虑的东西统一的最小支持度对于不同层次都使用一个最小支持度这样对于用户和算法实现来讲都比较容易但是弊端也是显然的递减的最小支持度每个层次都有不同的最小支持度较低层次的最小支持度相对

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关联规则与关联分析课件.ppt

文档简介

温馨提示

最新文档

评论

关联规则与关联分析课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档