版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关联规则挖掘的步骤关联规则挖掘是一个两步的过程:找出所有频繁项集由频繁项集产生强关联规则,这些规则必须大于或者等于最小支持度和最小置信度大于或者等于最小支持度的项集第1页/共16页关联规则挖掘的步骤关联规则挖掘是一个两步的过程:大于或者等于1Apriori算法Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小置信度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。第2页/共16页Apriori算法Apriori算法是一种经典的生成布尔型关2Apriori算法的重要性质性质1:频繁项集的子集必为频繁项集性质2:非频繁项集的超集一定是非频繁的假设项集{A,C}是频繁项集,则{A}和{C}也为频繁项集假设项集{D}不是频繁项集,则{A,D}和{C,D}也不是频繁项集第3页/共16页Apriori算法的重要性质假设项集{A,C}是频繁项集,则3Apriori算法举例现有A、B、C、D、E五种商品的交易记录表,找出所有频繁项集,假设最小支持度>=50%,最小置信度>=50%第4页/共16页Apriori算法举例现有A、B、C、D、E五种商品的交易记4Apriori算法举例_产生频繁项集K=1支持度<50K=2支持度<50支持度<50第5页/共16页Apriori算法举例_产生频繁项集K=1支持度<50K=25Apriori算法举例_产生频繁项集支持度<50支持度<50第6页/共16页Apriori算法举例_产生频繁项集支持度<50支持度<506Apriori算法举例_产生关联规则对于频繁项集{B,C,E},它的非空子集有{B}、{C}、{E}、{B,C}、{B,E}、{C,E}。以下就是据此获得的关联规则及其置信度。规则置信度ConfidenceBCE66.7%CBE66.7%EBC66.7%CEB1BEC66.7%BCE1置信度≥50%(最小置信度),都是强关联规则第7页/共16页Apriori算法举例_产生关联规则对于频繁项集{B,C,E7Apriori算法弊端需要多次扫描数据表如果频繁集最多包含10个项,那么就需要扫描交易数据表10遍,这需要很大的I/O负载产生大量频繁集若有100个项目,可能产生候选项数目第8页/共16页Apriori算法弊端需要多次扫描数据表第8页/共16页8FP-growth算法JiaweiHan等人在2000年提出了一种基于FP-树的关联规则挖掘算法FP_growth,它采取“分而治之”的策略,将提供频繁项目集的数据库压缩成一棵频繁模式树(FP-树)。仅两次扫描数据库。理论和实验表明该算法优于Apriori算法。第9页/共16页FP-growth算法JiaweiHan等人在2000年提9FP-growth算法第10页/共16页FP-growth算法第10页/共16页10其他关联规则挖掘算法约束性关联规则挖掘算法仅设置支持度和置信度阈值,缺乏用户控制,可能产生过多的规则,实际效果可能并不好。用户关心的是某些特定的关联规则,这需要把一些约束条件引入到挖掘算法中,从而筛选出符合约束条件的有用规则,提高算法的运行效率和用户满意度。增量式关联规则挖掘算法数据集不断增长,有新的数据加入后,重新挖掘很费时。增量式关联规则挖掘算法是当数据库变化后,在原挖掘结果的基础上生成新的关联规则,删除过时的关联规则。多层关联规则挖掘……第11页/共16页其他关联规则挖掘算法约束性关联规则挖掘算法第11页/共16页11关联规则的价值衡量客观上,使用“支持度和置信度”框架可能会产生一些不正确的规则。只凭支持度和置信度阈值未必总能找出符合实际的规则。例:歌曲A、歌曲C为小众歌曲,歌曲B为口水歌,共有10万个用户,有200个人听过歌曲A,这200个人里面有60个听过口水歌B,有40个人听过歌曲C。听过歌曲C的人数是300,听过口水歌B的人为50000。Confidence(A→B)=0.3,Confidence(A→C)=0.2但是10W人里面有5W听过歌曲B,有一半的用户都喜欢歌曲B,但听过歌曲A的人里面只有30%的人喜欢歌曲B听过歌曲A的人不喜欢歌曲B貌似A和B更相关矛盾的规则,如何评价?第12页/共16页关联规则的价值衡量客观上,使用“支持度和置信度”框架可能会产12关联规则价值衡量提升度Lift(AB)=Confidence(AB)/Support(B)=引入提升度Lift,以度量此规则是否可用。它描述的是:相对于不用规则,使用规则可以提高多少。Lift(A→B)=Confidence(AB)/Support(B)=0.3/0.5=0.6Lift(A→C)=Confidence(AC)/Support(C)=0.2/(300/100000)=66.7歌曲A与B负相关,A与C正相关。Lift大于1,表示使用这条规则进行推荐能提升用户听歌曲C的概率。Lift小于1,则表示使用这条规则来进行推荐,还不如不推荐,让顾客自行选择好了。Confidence(A→B)=0.3Confidence(A→C)=0.2Support(B)=0.5Support(C)=300/100000第13页/共16页关联规则价值衡量提升度Lift(AB)=Confidenc13关联规则的价值衡量主观上,一个规则的有用与否最终取决于用户的感觉,只有用户才能决定规则的有效性、可行性。所以,应该将需求和关联规则挖掘方法紧密地结合起来。例如使用“约束性关联规则挖掘算法”,将约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。第14页/共16页关联规则的价值衡量第14页/共16页14Theendjingwhale第15页/共16页Theend第15页/共16页15感谢您的观赏!第16页/共16页感谢您的观赏!第16页/共16页16关联规则挖掘的步骤关联规则挖掘是一个两步的过程:找出所有频繁项集由频繁项集产生强关联规则,这些规则必须大于或者等于最小支持度和最小置信度大于或者等于最小支持度的项集第1页/共16页关联规则挖掘的步骤关联规则挖掘是一个两步的过程:大于或者等于17Apriori算法Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小置信度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。第2页/共16页Apriori算法Apriori算法是一种经典的生成布尔型关18Apriori算法的重要性质性质1:频繁项集的子集必为频繁项集性质2:非频繁项集的超集一定是非频繁的假设项集{A,C}是频繁项集,则{A}和{C}也为频繁项集假设项集{D}不是频繁项集,则{A,D}和{C,D}也不是频繁项集第3页/共16页Apriori算法的重要性质假设项集{A,C}是频繁项集,则19Apriori算法举例现有A、B、C、D、E五种商品的交易记录表,找出所有频繁项集,假设最小支持度>=50%,最小置信度>=50%第4页/共16页Apriori算法举例现有A、B、C、D、E五种商品的交易记20Apriori算法举例_产生频繁项集K=1支持度<50K=2支持度<50支持度<50第5页/共16页Apriori算法举例_产生频繁项集K=1支持度<50K=221Apriori算法举例_产生频繁项集支持度<50支持度<50第6页/共16页Apriori算法举例_产生频繁项集支持度<50支持度<5022Apriori算法举例_产生关联规则对于频繁项集{B,C,E},它的非空子集有{B}、{C}、{E}、{B,C}、{B,E}、{C,E}。以下就是据此获得的关联规则及其置信度。规则置信度ConfidenceBCE66.7%CBE66.7%EBC66.7%CEB1BEC66.7%BCE1置信度≥50%(最小置信度),都是强关联规则第7页/共16页Apriori算法举例_产生关联规则对于频繁项集{B,C,E23Apriori算法弊端需要多次扫描数据表如果频繁集最多包含10个项,那么就需要扫描交易数据表10遍,这需要很大的I/O负载产生大量频繁集若有100个项目,可能产生候选项数目第8页/共16页Apriori算法弊端需要多次扫描数据表第8页/共16页24FP-growth算法JiaweiHan等人在2000年提出了一种基于FP-树的关联规则挖掘算法FP_growth,它采取“分而治之”的策略,将提供频繁项目集的数据库压缩成一棵频繁模式树(FP-树)。仅两次扫描数据库。理论和实验表明该算法优于Apriori算法。第9页/共16页FP-growth算法JiaweiHan等人在2000年提25FP-growth算法第10页/共16页FP-growth算法第10页/共16页26其他关联规则挖掘算法约束性关联规则挖掘算法仅设置支持度和置信度阈值,缺乏用户控制,可能产生过多的规则,实际效果可能并不好。用户关心的是某些特定的关联规则,这需要把一些约束条件引入到挖掘算法中,从而筛选出符合约束条件的有用规则,提高算法的运行效率和用户满意度。增量式关联规则挖掘算法数据集不断增长,有新的数据加入后,重新挖掘很费时。增量式关联规则挖掘算法是当数据库变化后,在原挖掘结果的基础上生成新的关联规则,删除过时的关联规则。多层关联规则挖掘……第11页/共16页其他关联规则挖掘算法约束性关联规则挖掘算法第11页/共16页27关联规则的价值衡量客观上,使用“支持度和置信度”框架可能会产生一些不正确的规则。只凭支持度和置信度阈值未必总能找出符合实际的规则。例:歌曲A、歌曲C为小众歌曲,歌曲B为口水歌,共有10万个用户,有200个人听过歌曲A,这200个人里面有60个听过口水歌B,有40个人听过歌曲C。听过歌曲C的人数是300,听过口水歌B的人为50000。Confidence(A→B)=0.3,Confidence(A→C)=0.2但是10W人里面有5W听过歌曲B,有一半的用户都喜欢歌曲B,但听过歌曲A的人里面只有30%的人喜欢歌曲B听过歌曲A的人不喜欢歌曲B貌似A和B更相关矛盾的规则,如何评价?第12页/共16页关联规则的价值衡量客观上,使用“支持度和置信度”框架可能会产28关联规则价值衡量提升度Lift(AB)=Confidence(AB)/Support(B)=引入提升度Lift,以度量此规则是否可用。它描述的是:相对于不用规则,使用规则可以提高多少。Lift(A→B)=Confidence(AB)/Support(B)=0.3/0.5=0.6Lift(A→C)=Confidence(AC)/Support(C)=0.2/(300/100000)=66.7歌曲A与B负相关,A与C正相关。Lift大于1,表示使用这条规则进行推荐能提升用户听歌曲C的概率。Lift小于1,则表示使用这条规则来进行推荐,还不如不推荐,让顾客自行选择好了。Confidence(A→B)=0.3Confidence(A→C)=0.2Support(B)=0.5Support(C)=300/100000第13页/共16页关联规
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47486-2026血管芯片通用技术要求
- 土方开挖工程检验批质量验收记录表
- 项目安全员绩效考核评分表
- 财务印鉴管理制度
- 胸腔闭式引流的健康教育
- (辅导班)2026年新高三数学暑假讲义(基础班)第13讲 数列求和(解析版)
- 2025-2026学年平凉市高考考前模拟语文试题含解析
- 【浙江省杭州市事业单位考试综合应用能力(中小学教师类D类)备考重点解析】
- 【2025】鄂州鄂城社区工作者招考笔试试题
- 【2026】超星尔雅学习通《论文写作初阶(北京大学)》章节测试及答案
- DB31/T 875-2015人身损害受伤人员休息期、营养期、护理期评定准则
- GB/T 37507-2025项目、项目群和项目组合管理项目管理指南
- 镇级国土空间总体规划编制技术指南(试行)
- 项目部组织架构及岗位职责
- FZT 61001-2019 纯毛、毛混纺毛毯
- (高清版)JTGT 3383-01-2020 公路通信及电力管道设计规范
- 智能船舶与海洋工程智慧船舶技术创新与应用探索
- 《如何上好自习》课件
- 《供应链管理》期末考试复习题库(含答案)
- 软件正版化工作信息统计表样表
- 4-肠结核及结核性腹膜炎
评论
0/150
提交评论