关联规则模型及应用PPT课件

上传人：优*** IP属地：广东上传时间：2020-04-21 格式：PPT 页数：37 大小：839KB 积分：35 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 数据挖掘技术与应用陈燕教授第5章关联规则模型及应用大连海事大学 2 本章提纲 3 5 1关联规则的基础理论 5 1 1关联规则的定义与解释 5 1 2关联规则在知识管理过程中的作用 4 5 1 1关联规则的定义与解释关联规则 AssociationRules 是指在大型的数据库系统中迅速找出各事物之间潜在的有价值的关联用规则表示出来经过推理积累形成知识后得出重要的相关联的结论从而为当前市场经济提供准确的决策手段关联规则的应用已经比较广泛如条形码的应用已使大型零售商品的组织问题成为现实从决策领域到通讯报警系统的应用以及诊断和预测等相关领域 5 5 1 1关联规则的定义与解释关联规则的研究和应用是数据挖掘中最活跃和比较深入的分支目前已经提出了许多关联规则挖掘的理论和算法最为著名的是R Agrawal等提出的Apriori及其改进算法为了发现有意义的关联规则需要给定两个阈值最小支持度 MinimumSupport 和最小可信度 MinimumConfidence 6 5 1 1关联规则的定义与解释挖掘出的关联规则必须满足用户规定的最小支持度它表示了一组项目关联在一起需要满足的最低联系程度挖掘出的关联规则也必须满足用户规定的最小可信度它反映了一个关联规则的最低可靠度在这个意义上数据挖掘系统的目的就是从数据库中挖掘出满足最小支持度和最小可信度的关联规则 7 5 1 2关联规则在知识管理过程中的作用知识管理是一个过程通过这一过程可以学习新知识和获得新经验并将这些新知识和新经验反映出来进行共享以用来促进增强个人的知识和机构组织的价值如果我们将数据管理中的数据提取作为数据仓库的低层管理过程的话那么数据库知识发现 KnowledgeDiscoveryinDatabases KDD 的过程则可作为数据仓库的高层管理的过程而关联规则又作为数据仓库的主要内容出台所以关联规则作为知识管理过程的重要内容 8 5 1 2关联规则在知识管理过程中的作用知识管理过程及其发展 9 5 1 2关联规则在知识管理过程中的作用知识管理的基础内容包括从系统继承过来的模型与知识在未来的发展趋势中也可以根据模型的集成进行模型的推理知识的推理等推导过程来产生规则和获得知识这个阶段产生的规则应该是信息集成后的规则当然知识集成是按照新的更高更复杂的问题需求而集成的这个阶段的基础应该是KDD处理后的结果也就是说KDD作为知识集成阶段的基础因此知识管理是以DBS为基础应用多种知识发现和决策支持理论与技术方法而模型的挖掘与知识的挖掘模型的集成与知识的集成阶段将是知识管理的未来发展趋势 10 5 1 2关联规则在知识管理过程中的作用关联规则在大型的数据库系统中为我们提供了各属性项之间的潜在的有价值的联系使用关联规则也能找出其它主题的大型数据库中的各属性之间的潜在的间接的关联这对于分析各类事物将要导致其它的潜在的发展趋势是十分重要的在KDD中利用关联规则算法解决这一类问题是目前挖掘潜在的相联的各事物间关系较好的方法关联规则在知识管理中起着一种桥梁的作用在数据仓库系统中属于数据挖掘和DSS的技术 11 5 1 2关联规则在知识管理过程中的作用关联规则在知识管理中的桥梁作用 12 5 2关联规则的基础理论 5 2 1关联规则算法的相关概念 5 2 2关联规则算法的流程 13 5 2 1关联规则算法的相关概念 1 项集或候选项集项集Item Item1 Item2 Itemm TR是事物的集合 TR Item 并且TR是一个 0 1 属性的集合集合k Item Item1 Item2 Itemk 称为k项集或者k项候选项集假设DB包含m个属性 A B M 1项集1 Item A B M 共有m个候选项集 2项集2 Item A B A C A M B C B M C D L M 共有 m m 1 2 个项集依次 m项集m Item A B C M 有1个项集 14 5 2 1关联规则算法的相关概念 2 支持度支持度support简写sup 指的是某条规则的前件或后件对应的支持数与记录总数的百分比假设A的支持度是sup A sup A TR TR A n A B的支持度sup A B sup A B TR TR A B n 其中 n是DB中的总的记录数目 3 可信度可信度confidence简写conf 规则A B具有可信度conf A B 表示DB中包含A的事物同时也包含B的百分比是A B的支持度sup A B 与前件A的支持度sup A 的百分比 conf A B sup A B sup A 15 5 2 1关联规则算法的相关概念 4 强项集和非频繁项集如果某k项候选项集的支持度大于等于所设定的最小支持度阈值则称该k项候选项集为k项强项集 Largek itemset 或者k项频繁项集 Frequentk itemset 同时对于支持度小于最小支持度的k项候选项集称为k项非频繁项集定理频繁项集的反单调性设A B是数据集DB中的项集若A包含B 则A的支持度大于B的支持度若A包含于B 且A是非频繁项集则B也是非频繁项集若A包含于B 且B是频繁项集则A也是频繁项集 16 5 2 1关联规则算法的相关概念 5 产生关联规则若A B为项集 A Item B Item并且A B 一个关联规则是形如A B的蕴涵式当前关联规则算法普遍基于Support Confidence模型支持度是项集中包含A和B的记录数与所有记录数之比描述了A和B这两个物品集的并集在所有的事务中出现的概率有多大能够说明规则的有用性规则A B在项集中的可信度是指在出现了物品集A的事务T中物品集B也同时出现的概率有多大能够说明规则的确定性 17 5 2 1关联规则算法的相关概念产生关联规则即是从强项集中产生关联规则在最小可信度的条件门槛下若强项集的可信度满足最小可信度称此k项强项集为关联规则例如若 A B 为2项强项集同时conf A B 大于等于最小可信度即sup A B min sup且conf A B min conf 则称A B为关联规则 18 5 2 2关联规则算法的流程 R Agrawal等人在1993年设计了一个Apriori算法是一种最有影响力的挖掘布尔关联规则频繁项集的算法其核心是基于两阶段的频集思想的递推算法该关联规则在分类上属于单维单层布尔关联规则该算法将关联规则挖掘分解为两个子问题 1 找出存在于事务数据库中所有的频繁项目集即那些支持度大于用户给定支持度阈值的项目集 2 在找出的频繁项目集的基础上产生强关联规则即产生那些支持度和可信度分别大于或等于用户给定的支持度和可信度阈值的关联规则 19 5 2 2关联规则算法的流程第二步相对容易些因为它只需要在已经找出的频繁项目集的基础上列出所有可能的关联规则同时满足支持度和可信度阈值要求的规则被认为是有趣的关联规则第一个步骤是挖掘关联规则的关键步骤挖掘关联规则的总体性能由第一个步骤决定因此所有挖掘关联规则的算法都是着重于研究第一个步骤 20 5 2 2关联规则算法的流程 Apriori算法在寻找频繁项集时利用了频繁项集的向下封闭性反单调性即频繁项集的子集必须是频繁项集采用逐层搜索的迭代方法由候选项集生成频繁项集最终由频繁项集得到关联规则这些操作主要是由连接和剪枝来完成 Apriori算法最大的问题是产生大量的候选项集可能需要频繁重复扫描数据库因此为候选项集合理分配内存实现对大型数据库系统快速扫描的技术和方法是提高管理规则效率的重要途径面向大型数据库从海量数据中高效提取关联规则是非常重要的 21 5 2 2关联规则算法的流程 L1 Large1 itemsets 扫描所有事务计算每项出现次数产生频繁1 项集集合L1for k 2 Lk 1 k do 进行迭代循环根据前一次的Lk 1得到频繁k 项集集合LkbeginCk join Lkm Lkn join对每两个有k 1个共同项目的长度为k的模式Lkm和Lkn进行连接Ck prune Ck prune根据频繁项集的反单调性对Ck 进行减枝得到CkCk apriori gen Lk 1 产生k项候选项集Ckforalltransactionst Ddo 扫描数据库一遍beginCt subset Ck t 确定每个事务t所含k 候选项集的subset Ck t forallcandidatesc Ctdoc count 对候选项集的计数存放在hash表中endLk c Ct c count min sup 删除候选项集中小于最小支持度的得到k 频繁项集Lkendforallsubsets Lk 对于每个频繁项集Lk 产生Lk的所有非空子集sIfconf s Lk s min conf 可信度大于最小可信度的强项集为关联规则ThenOutput s Lk s 由频繁项集产生关联规则endend 得到所有的关联规则 22 5 3改进的Apriori关联规则方法 5 3 1动态存储空间的构建 5 3 2快速产生强项集的算法流程 5 3 3改进算法的时间复杂性分析 23 5 3 1动态存储空间的构建为了充分利用空间在程序设计中采用了合理分配内存的方法给出了计算长度k的强项集存储分配公式其中Ck表示k项侯选项集这个公式为动态运行机制开辟了准确的存储空间 24 5 3 1动态存储空间的构建设共有M个属性k 1时 1 项强项集共有m1个属性即 k 2时 2 项候选集为1 项强项集中属性的两两组合所以2 项候选集中所占空间为扫描数据库求2 项强项集 2 项强项集共有m2个属性即 k 3时 3 项候选集为2 项强项集中每次取出首位相同的两个项集做连接操作其中将首位相同的这些属性的集合用S3i表示相对应在2 项强项集中包含这些属性的项出现的次数分别合计为 3 项候选项集所占空间为扫描数据库求3 项强项集 25 5 3 1动态存储空间的构建同理依次求k 1项强项集 k 1项强项集共有mk 1个属性当求k项强项集时将 k 1 项强项集中各个项集前 k 2 个属性相同的这些属性的集合用Ski表示相对应在 k 1 项强项集中包含这些属性的项出现的次数分别合计为 k项候选项集所占空间为 26 5 3 2快速产生强项集的算法流程 1 扫描事务数据库中的每个事务产生候选1 项集的集合C1 2 根据最小支持度min sup 由候选1 项集的集合C1 产生强1 项集合L1 对于在事务数据库中出现次数比最小支持度min sup计数少的属性列进行逻辑标记在以后的各次扫描中跳过这些属性 3 求k项集令k 1 4 由Lk产生候选 k 1 项集的集合Ck 1 27 5 3 2快速产生强项集的算法流程 5 根据最小支持度min sup 由候选 k 1 项集的集合Ck 1 产生 k 1 强项集的集合Lk 1 方法是扫描数据库当执行到第i行时 1 若该行的项集长度小于 k 1 则对该行作出逻辑标记在以后的各次扫描中都可以跳过该行不再扫描 2 若该行的项集长度等于 k 1 确定该行项集的模式与候选项集中的模式进行匹配匹配成功则该项集的支持度计数器 1 对候选项集中的其它模式在本行中不再扫描匹配不成功则跳过本行 28 5 3 2快速产生强项集的算法流程 3 若该行的长度大于 k 1 将此行中与候选k 1项集模式相匹配的项集支持度计数器 1 将候选集Ck 1中所有项集的支持度与min sup进行比较产生Lk 1 6 若Lk 1 则k k 1 跳往步骤4 否则跳往步骤7 7 根据最小置信度min conf 由强项集产生关联规则结束 29 5 3 2快速产生强项集的算法流程快速产生强关联属性 Lk 的方法 30 5 3 3改进算法的时间复杂性分析 Apriori算法的时间复杂性为一般来说而p作为被删除的列 k作为强项集的长度对改进后的关联规则算法的时间复杂度的分析 1 在最坏的情况下当p k时有 2 当k p或者k p 属于一般的情况时满足因此共节省时间是一般地说 k p 31 5 3 3改进算法的时间复杂性分析在解决以上三个主要研究问题后总结改进的Apriori方法的计算步骤快速产生强关联属性的关联规则方法总体流程为 1 将DBS问题转换成抽象的DBS 将数据库中的数量相关的问题转换成逻辑相关的问题按照决策问题要求将数据库中的各个属性转换成多维逻辑属性 2 求强项集该问题可以分解为两个子问题 1 求出D中满足最小支持度min sup的所有强项集 2 利用强项集生成满足最小可信度min conf的所有关联规则 3 将抽象的DBS问题转换成DBS 表达关联规则 32 5 3 3改进算法的时间复杂性分析对步骤2的子问题 1 的求解是知识发现的关

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关联规则模型及应用PPT课件

文档简介

温馨提示

最新文档

评论

关联规则模型及应用PPT课件

文档简介

温馨提示

最新文档

评论

相关文档