版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/7/22,1,挖掘关联规则,2020/7/22,2,基本概念和路线图,频繁模式:频繁出现在数据集中的模式称为频繁模式。例如,项目集、子序列和子结构都是模式。频繁项目集挖掘导致在大型事务或关系数据集中发现项目之间有趣的关联或相关性。也就是说,挖掘频繁项集就是挖掘关联规则。1.购物篮分析:一个典型的“纸尿裤和啤酒”的相关分析案例在美国,一些年轻的父亲经常在下班后去超市买婴儿纸尿裤,超市也发现了一个规律。在购买婴儿尿布的年轻父亲中,30%的人想同时买一些啤酒。超市随后调整了货架位置,将尿布和啤酒放在一起,这大大增加了销售额。同样,我们也可以根据关联规则进行商品销售方面的各种促销活动。202
2、0/7/22,3,购物篮分析,如果整个问题是商店中所有商品的集合,那么可以使用布尔量来指示商品是否被顾客购买,并且每个购物篮可以由布尔向量(0001001100)来表示;通过分析布尔向量,我们可以得到商品频繁关联或同时购买的模式。这些模式可以使用关联规则来表达关联规则的两个兴趣度量,即支持度。2020/7/22,4,关联规则:基本概念,给定:项目集:I=I1,I2,在中,任务相关数据D是一组数据库事务,而每个事务T是一组项目。a,B是两个项目集,并且事务t包含一个当且仅当关联规则是以下含义:另外,该规则是在事务d中建立的,并且具有支持度和置信度c,2020/7/22,5,规则度量:支持度和置信
3、度,买尿布,买啤酒,两者都有,对于所有满足最小支持度和置信度的关联规则, 支持度S指的是包含在事务集D中的百分比。置信度C指的是包含A和B的事务在D中的百分比。假设最小支持度为50%,最小置信度为50%,则有以下关联规则:A C (50%,66.6%),C A (50%,100%),2020/7/22,K项集:包含K项的集。 牛奶、面包和黄油是三件套。项目集的频率是指包含项目集的事务的数量。如果项目集的频率大于最小支持度阈值,则这些项目集称为频繁项目集。频繁项集通常被记录为Lk关联规则挖掘。有两个过程:找出所有的频繁项集。大多数计算都集中在这一步。强关联规则由频繁项集生成,即满足最小支持度和最
4、小置信度的规则。如果不存在真正的超项集Y,Y和X在S中。如果X在S中是闭的和频繁的,那么项集X在数据集中是闭的频繁项集。如果X是频繁的,并且没有超项集Y,所以X Y和Y在S中是频繁的,那么X在S中称为最大频繁项集(或最大项集)。示例:2020年7月22日,关联规则挖掘路线图。关联规则可以分为几类:关联规则挖掘。ppt根据规则中处理的值类型的布尔关联规则对关联规则进行量化,多维关联规则根据规则中设计的数据维度,抽象层,规则集中涉及的单层关联规则,多层关联规则根据关联挖掘的各种扩展,挖掘最大的频繁模式(该模式的任何真正的超模式都是非频繁的),挖掘频繁闭项集(一个项集c是一个频繁闭项集。如果没有真正
5、的超集c(每个包含c的事务也包含c),2020/7/22,8,频繁项集挖掘方法,最简单的关联规则挖掘,即一维、单层和布尔关联规则挖掘。对于规则a1c,其支持度=50%可信,最小值=50%;Min _ con=50%,2020/7/22,9,Apriori算法,Apriori算法利用对频繁项集性质的先验知识,通过逐层搜索的迭代方法,即利用k-1项集来挖掘K项集,来穷尽数据集中的所有频繁项集。首先找到L1的频繁1-项集,然后找到L1的频繁2-项集L2,再找到L2的L3,直到找不到频繁k-项集。找到每个Lk需要数据库扫描。先验属性:频繁项集的所有非空子集也必须是频繁的。(模式出现的频率不能超过A)
6、Apriori算法是反单调的,也就是说,如果一个集合没有通过测试,该集合的所有超集都不能通过相同的测试。2020/7/22,10,Apriori算法示例,2020/7/22,11,关联规则由频繁项集生成,强关联规则同时满足最小支持度和最小置信度。从频繁项集生成的规则满足支持要求,它们的置信度可以通过以下公式计算:对于L的每个非空子集S,如果输出规则为“”(P155),每个关联规则可以通过以下公式计算。doc,2020/7/22,12,挖掘封闭频繁项目集,修剪策略1。项目合并如果每个包含频繁项目集的事务都包含项目集Y,但不包含任何真正的Y超集,则XY会形成一个封闭的频繁项目集,并且不必搜索那些包
7、含X但不包含Y的事务。如果频繁项集x是已发现的闭频繁项集y的适当子集,并且support _ count(x)=support _ count(y ),则集合枚举树中x和x的所有后代都不能是闭频繁项集。你可以修剪。例子:3 .项目跳过当首先在深度挖掘封闭项目集时,每个层都有一个与标题表和投影数据库相关联的前缀项目集x。如果一个本地频繁项p在不同层的多个头表中具有相同的支持,则可以从更高层的头表中安全地剪切出p。2020/7/22/13,挖掘各类关联规则。1.多级关联规则数据项通常形成概念层次结构底部的数据项,它们的支持度通常较低。在适当级别挖掘的数据项之间的关联规则可能非常有用。通常,事务数据
8、库中的数据也根据维度和概念层次进行存储。在多个抽象层中挖掘关联规则,并在不同的抽象层中进行转换。是数据挖掘系统应该提供的能力,所有,计算机,软件,打印机,计算机配件,台式机,笔记本电脑,金融,edu。颜色,鼠标,护腕,黑白,IBM,微软,惠普,索尼,麦角韦,麦角韦,2020/7/22,14,挖掘多层关联规则的方法,挖掘关联规则。多维关联规则:涉及两个或更多维度或谓词的关联规则;维度间关联规则:不包含重复谓词年龄(X, 19-25 )、职业(X,学生)=buys(X,计算机)混合维度关联规则:包含多个特定谓词年龄(X, 19-25 )=buys(X,软件)分类属性具有有限数量的不同值,并且属性数
9、值类型的值在值之间无序量化,并且值之间存在隐式顺序。2020年7月22日,16,多维关联规则,在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。k谓词集是包含k个共轭谓词的集。例如:年龄、职业、购买是多维关联规则的3谓词集挖掘技术,根据对数量属性的处理可以分为三种基本方法:1 .定量属性的静态离散化使用预定义的概念分层来静态离散化定量属性2。(动态)量化关联规则(2维量化关联规则)根据数据分布将量化属性离散化为“盒子”,2020/7/22/17,多维关联规则,量化属性用预定义的概念分层,数值属性值在挖掘前离散化。如果关系数据库中存在与任务相关的数据,找出所有频繁的k-谓词集将需要K
10、或k 1倍的表扫描数据立方体技术,非常适合挖掘多维关联规则。n维立方体的单元用于存储对应的n-谓词集的计数或支持。0-D多维数据集:用于存储任务相关数据的事务总数。如果包含感兴趣维度的数据立方体已经存在并具体化,挖掘将非常快,并且可以使用Apriori属性:频繁谓词集的每个子集也必须是频繁的,2020/7/22,18,多维关联规则,收入,年龄,71k80k,61k70k,51k60k,40 31k 40k,21k 30k,=20k,32 33 34 35 36 37 38,2020/7/22通常,规则(模式)被认为是有趣的。如果它出乎意料地可操作(用户可以使用规则做一些事情),在挖掘关联规则之
11、后,用户对哪些规则感兴趣?强关联规则有趣吗?2020/7/22,21,强关联规则不一定有趣,例如:min _ sup=30%,min _ conf=60%购买量(x,“游戏”)=购买量(x,“视频”)支持=40%,置信度66% p(视频)事实上,录像带与游戏呈负相关。A=B规则是欺骗性的,它只是一种概率估计,而不是衡量A和B之前相关性和隐含性的实际强度。从相关性分析到相关性分析,我们需要一个指标来衡量事件之间的相关性或相关性。当项集A的出现与项集B的出现无关时,P(AB)=P(A)P(B),即科拉。B 1表示A和B之间的正相关,科拉,B 1表示A和B之间的负相关。使用前面例子中的相关指数,可以
12、得出录像带和游戏之间的相关是P(游戏,视频)/(P(游戏)P(视频)=0.4/(0.750.6)=0.89的结论:录像带和游戏之间存在负相关, 2000充分利用各种约束知识类型来约束数据约束维度/层约束兴趣度约束规则约束来指定要挖掘的规则形式,它可以用元规则来表示,解释规则的前序和后序中谓词的最大和最小数量,或者属性、属性值和/或集合之间的关系,2020/7/22,24,关联规则的元规则引导挖掘, 元规则使用户能够解释他们感兴趣的规则的语法形式:当在等位电子数据库中挖掘时,元规则被用来表达顾客特征和他们购买的商品之间的关系(顾客的哪两个特征会购买教育软件? )P1 (x,y) p2 (x,w)
13、=buys (x,教育软件)y,w分别取赋值给谓词变量P1和p2的属性值。元规则形成用户想要探索的假设,而系统寻找匹配元规则的规则,例如:年龄(X,30-39)收入(X,42k-60k)购买(X,教育软件)假设我们想要以P1P2Pl=Q1Q2Qr的形式挖掘元规则,假设元规则中的谓词的数量是p=l, 然后找出符合模板的关联规则需要以下两个步骤:找出所有频繁p-谓词集Lp的支持度,并计算Lp中的l-谓词子集,然后计算从Lp,2020/7/22,25,分类和预测,2020/7/22,26导出的规则的置信度。 分类和预测是两种数据分析形式,用于提取描述重要数据类别或预测未来数据趋势的模型分类:预测类别
14、对象的分类标签(或离散值),并根据训练数据集和类别标签属性建立模型对现有数据进行分类;用于对新数据进行分类预测:建立连续函数值模型,如预测空置值或预测客户在计算机设备上的花费。典型的应用包括欺诈检测、市场定位、绩效预测、医疗诊断、2020/7/22/27、分类和预测例如,分类银行贷款官员需要分析数据以找出哪些贷款申请人是安全的。什么是高风险的(贷款申请人被分为“安全”和“高风险”两类)?我们需要构造一个分类器来预测类属号,例如,预测客户的类属类。构建预测器来预测连续值函数或有序值是安全的。常用的方法是回归分析,2020/7/22,28。数据分类是一个两步的过程。训练集由数据库元组(由n维属性向
15、量表示)及其相应的类号组成;假设每个元组属于预定义的类训练元组:训练数据集中的单元组学习模型可以以分类规则、决策树或数学公式的形式提供。2020年7月22日,数据分类是一个两步的过程。第二步是使用该模型对未来或未知的物体进行分类。首先,评估模型的预测精度。对于每个测试样本,将已知类别标签的准确性与该样本在给定测试集上的学习模型类别预测进行比较,后者是由模型正确分类的测试样本的百分比。测试集应该独立于训练样本集,否则会出现“过度拟合”的情况。2020年7月22日,30,第一步是建立模型,训练数据集,分类算法和分类规则。如果age=yonug,那么classifer=risky,2020/7/22,31,第二步是使用模型来分类,分类规则,测试集,新数据,(jhon,mid _ aged,low),risk,2020/7/。监督学习(用于分类)模型在被告知每个训练样本属于哪个类的指导下学习新数据。使用从训练数据集中获得的规则进行分类。无监督学习(用于聚类)每个训练样本的类别号是未知的,并且要学习的类别集或类别号也可能是预先未知的。数据中的类别号是通过一系列测量和观察建立或聚集的,2020/7/22,33,数据预测的两步过程,也是两步过程,类似于上述数据分类。对于预测,没有“类别标签属性”。要预测的属性是连续值,而不是离散值。这个属性可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业级3D扫描服务合同协议2026
- 1500吨宠物冻干食品透明工厂项目可行性研究报告模板-立项备案
- 市民烟花燃放违规处罚管理手册
- 海产捕捞增殖放流海域作业规范手册
- 医药药剂药剂科绩效考核手册 (标准版)
- 幼儿托管卫生消毒效果检测与评估指南 (标准版)
- 开学典礼主持词汇编15篇
- 工程项目的现场施工管理浅议-工程
- 舞台剧排练厅管理制度与行为规范手册
- 水产捕捞网具维护与保养手册
- 2026年过程装备资产管理与完整性的结合
- 2026江苏苏州市健康养老产业发展集团有限公司下属子公司招聘44人(第一批)笔试历年典型考点题库附带答案详解
- 2026广东江门开平市招聘事业单位工作人员53人考试参考试题及答案解析
- 医药经销商现场审计制度
- 物业管理安全生产检查自查表样例
- 电力5G通信模组测试规范
- (2025版)微针点阵射频临床应用专家共识
- 2025年注册会计师公司战略与风险管理试题测试题及答案
- 船舶防污染监督制度
- 2026年高考物理上海卷含解析及答案
- 2025年中国银行笔试题型及答案
评论
0/150
提交评论