




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python数据挖掘实战》✩精品课件合集《Python数据挖掘实战》
第九章关联规则挖掘二、
Apriori算法
一、关联规则挖掘概述主要内容三、FP-growth算法四、Eclat算法一、关联规则挖掘概述
关联(Association)反映数据集(常使用事务数据集、交易数据集或关系数据集)的某个项目与其它项目之间相互依赖关系。如果两个或多个项目在数据集中频繁的同时出现,就认为它们之间存在相关性。
一、关联规则挖掘概述
关联(Association)反映数据集(常使用事务数据集、交易数据集或关系数据集)的某个项目与其它项目之间相互依赖关系。如果两个或多个项目在数据集中频繁的同时出现,就认为它们之间存在相关性。
关联规则挖掘(AssociationRulesMining)又称为“关联规则分析”或“关联挖掘”,是一种旨在从各种数据集中发现关于项目的频繁出现模式(frequentpattern)、相关关系或因果结构,并形成蕴含式的关联规则的技术。
在商品销售、医疗诊断、网站优化等领域具有广泛的应用。例如,“啤酒和尿布”的故事。一、关联规则挖掘概述
1.关联规则挖掘中的几个基本概念:事务数据(TransactionData)
与一次活动或事件(例如,顾客的一次超市购物行为、用户对网站的一次访问)相关的数据集合,它由项目(Items)集合与事务标识(TID)组成。
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
一、关联规则挖掘概述
2.关联规则挖掘算法
关联规则挖掘的目标是找出满足最小支持度(min_sup)、最小置信度(min_confidence)以及提升度阈值的强关联规则。通常,关联规则挖掘分为两个步骤:
(1)产生所有的频繁项集:找出满足最小支持度阈值的频繁1项集、频繁2项集、频繁3项集…
(2)由频繁项集产生强关联规则:利用频繁项集产生满足最小置信度或者提升度要求的强关联规则。
二、Apriori算法
Apriori算法由学者Agrawal和R.Srikant在1994年提出,它通过连接和剪枝操作,采用自下而上的策略,从频繁1项集开始,逐层地搜索频繁项集,最后产生关联规则。Apriori算法的主要分为两个阶段:
(1)产生频繁项集;
(2)基于频繁项集产生强关联规则。
为了提高搜索频繁项集的效率,它使用了一种称为“先验原理”的重要性质。二、Apriori算法
1.先验原理
二、Apriori算法2.产生频繁项集
二、Apriori算法2.产生频繁项集
二、Apriori算法Apriori算法挖掘频繁项集的过程:二、Apriori算法
例子分析:Apriori算法挖掘频繁项集的过程。(min_sup=0.5)二、Apriori算法二、Apriori算法3.生成关联规则
二、Apriori算法3.生成关联规则
二、Apriori算法
二、Apriori算法
二、Apriori算法
二、Apriori算法被剪枝的规则二、Apriori算法4.基于Python的算法实现
第三方的mlxtend库的frequent_patterns模块提供了Apriori算法的Python实现。该库的安装命令为:pipinstallmlxtend
使用的主要的函数包括:1.apriori()函数:用于挖掘频繁项2.association_rules()函数:用于生成满足置信度要求的强关联规则二、Apriori算法apriori()函数要求输入的DataFrame对象的值必须为0/1或者True/False这样的二元数据。mlxtend库的preprocessing模块提供了TransactionEncoder()函数能轻松实现该编码过程。te=TransactionEncoder()item_array=te.fit(itemSetList).transform(itemSetList)
二、Apriori算法apriori()函数的基本语法:apriori(df,min_support=0.5,use_colnames=False)它的主要参数包括:二、Apriori算法association_rules()函数的基本语法:
association_rules(df,metric=‘confidence’,min_threshold=0.8)它的主要参数包括:二、Apriori算法Python实现:Apriori算法挖掘关联规则的过程。(min_sup=0.5,min_confidence=0.5,min_lift=1.0)三、FP-growth算法
FP-growth是美籍华人韩家炜2000年提出的一种基于树结构的关联规则挖掘算法。它首先构造频繁模式树(FP-tree),然后在FP-tree上遍历生成关联规则,在此过程中无需产生候选项集,只需要扫描事务数据集2次,大大提升了算法效率。FP-growth算法将事务数据集压缩存储在一棵FP-tree中,采用分而治之的策略,在树中快速挖掘频繁项集。该算法的步骤可以分为2个主要阶段:1.构建FP-tree2.挖掘FP-tree树和条件FP-tree获得频繁项集:三、FP-growth算法构建频繁模式树(FP-tree)(1)清洗和排序数据
首先,扫描事务数据集,找出频繁1项集,并按支持度降序排序。
然后,按序对事务数据集中的项目进行重排。三、FP-growth算法(2)利用排序后的事务数据集构造FP-tree首先,创建FP-tree的根节点,标记为{NULL}然后,第二次扫描事务数据集,逐条地把排序后的事务记录插入到FP-tree中。三、FP-growth算法(2)利用排序后的事务数据集构造FP-tree首先,创建FP-tree的根节点,标记为{NULL}然后,第二次扫描事务数据集,逐条地把排序后的事务记录插入到FP-tree中。最终的FP-tree树三、FP-growth算法(2)利用排序后的事务数据集构造FP-tree首先,创建FP-tree的根节点,标记为{NULL}然后,第二次扫描事务数据集,逐条地把排序后的事务记录插入到FP-tree中。三、FP-growth算法2.挖掘FP-tree树和条件FP-tree获得频繁项集基本步骤:(1).将FP-tree分割为若干个条件FP-tree(2).递归挖掘每棵条件FP-tree
三、FP-growth算法(1).将FP-tree分割为若干个条件FP-tree获得频繁1项集的条件模式基
对于已有的FP-tree树中所有的频繁1-项集;按照支持度计数的倒序,依次找出每一个频繁1-项集的条件模式基。
以每一个频繁1-项集作为后缀,从FP-tree上找出所有从叶子节点到根节点的路径,这些路径就构成了以该1-项集(为后缀)的条件模式基。
例如,频繁1-项集{A}的条件模式基如下:三、FP-growth算法获得条件FP-tree
显然,条件模式基表示了以某个频繁项集为后缀的事务数据集合,我们按照此前生成FP-tree的方法,使用该事务数据集构建以某个后缀项集的条件FP树。
例如,频繁1-项集{A}的条件FP-tree
其中,{B},{C}由于不满足最小支持度阈值而被删除。
这样,FP-tree树被分割为多个条件FP-tree。三、FP-growth算法(2)
递归挖掘每棵条件FP-tree
我们可以以深度优先的方式对于每一棵条件FP-tree生成它的更长后缀的条件模式基,继而递归地生成更长后缀的条件FP-tree。
例如,对于上图中项头表中的项目{C},我们可以从图上生成以{C,A}为后缀的条件模式基(在此例中为空集),并用它来绘制{C,A}为后缀的条件FP-tree。依此递归地生成条件FP-tree,直到树为空为止。
三、FP-growth算法
这样,在递归过程中的所有用来生成条件FP-tree(包括最后一层的空树)的后缀项集,就是我们要搜索的频繁项集。
对一棵FP-tree而言,由于采用了深度优先的方式,在其上挖掘出的频繁项集(后缀)是逐渐增长的,这也是算法名称中“growth(增长)”的由来。三、FP-growth算法3.基于Python的算法实现
第三方的mlxtend库的frequent_patterns模块提供了FP-growth算法的Python实现。其中,挖掘频繁
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年超声科小器管试题及答案
- 2025年上海素描五级考试题目及答案
- 2025年临床三基生理试题及答案
- 2025年校区协作考试题及答案
- 2025年简单摄影试题及答案
- 2025年专业分析面试题库及答案
- 汽车维修工高级试题及参考答案
- 2025年中药师证考试题库及答案
- 2025年父女脑力测试题及答案
- 2025年热能综合考试题及答案
- iOS基础知识培训课件
- 无人机教员聘用协议书
- 车务管理竞聘
- (2025)燃气调压器项目可行性研究报告写作范本(一)
- 《幕墙工程设计与施工技术》课件
- 网络安全态势建模-深度研究
- HY/T 0382-2023海岸带生态系统减灾功能评估技术导则红树林和盐沼
- 无人机基础知识
- 江华瑶族自治县耕地保护国土空间专项规划(2021-2035年)
- 轿车运输合同模板
- 工程数据分析与应用
评论
0/150
提交评论