2-关联规则.ppt_第1页
2-关联规则.ppt_第2页
2-关联规则.ppt_第3页
2-关联规则.ppt_第4页
2-关联规则.ppt_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/8/8,决策量化技术,1,二、关联规则挖掘,2020/8/8,决策量化技术,2,总目录,一、数据挖掘概述 二、关联规则挖掘 三、数据分类 四、聚类分析 五、序列模式挖掘 六、Web挖掘,2020/8/8,决策量化技术,3,二、关联规则挖掘,1、关联规则挖掘的概念 2、二值型关联规则挖掘 3、并行关联规则挖掘 4、数值型关联规则挖掘 5、多层次关联规则挖掘 6、关联规则的增量挖掘,2020/8/8,决策量化技术,4,什么是关联规则?,关联规则:描述数据库中各数据项之间存在的潜在关系,形式为X Y,其中X I,Y I,且X Y=,X称为规则头(antecedent),Y称为规则尾(con

2、sequent)。 项集之间的关联表示如果X出现在一条交易中,那么Y在这条交易中同时出现的可能性比较高。 关联规则就是希望发现事务数据库中不同商品(项)之间的关联,反映顾客的购买行为模式,比如购买某一商品对购买其他商品的影响。 例如,80%的顾客如果买了牛奶,通常也会买面包。 应用 发现所有* 面包的关联规则,促进面包的销售 发现所有牛奶 *的关联规则,了解终止牛奶的销售的影响 发现商场里货架A和货架B上商品之间的关联规则,调整商品的布置,提高销售量,2020/8/8,决策量化技术,5,关联规则的基本概念,Given: (1)事务/交易数据库 (2)顾客每次购买的商品构成一条事务 (3)每种商

3、品是一个数据项(简称项) I=ii,i2,im是全体数据项的集合 数据项集 (Itemset),简称为项集是由数据项构成的非空集合。项集X包含的元素个数称为项集的长度,长度为k的项集称为k阶项集(k_itemset) D为事务数据库,每个事务T有唯一的TID标识,对应一个项集T,有T I。 交易T包含项集X 当且仅当 X T,2020/8/8,决策量化技术,6,事务(交易)数据库的例子,预处理,2020/8/8,决策量化技术,7,支持数(度)、支持阈值与大项集,项集X在事务集合D中的支持数(support count)是D中包含X的事务数,记作X.sup或者support(X)。 X在D中的支

4、持度(support)就是X的支持数与D的总事务数之比,从统计的角度看,X的支持度就是X在D中出现的概率,用符号Pr(X)表示。 支持阈值表示项集在统计意义上的最低重要性,用符号s表示。如果事务数据库的事务量是固定的,常用最小支持数(minsup=s|D|,其中|D|是总事务数)代替支持阈值。 事先给定一个minsup(或s),如果项集X的支持数X.supminsup(或项集X的支持度Pr(X)s),则X称为大项集(large itemset) 或者频繁项集(frequent itemset)。,2020/8/8,决策量化技术,8,例子,令minsup=2,计算项集及其支持数。其中,果酱面包、

5、香蕉、酸奶、香蕉,果酱面包的支持数minsup,所以是大项集。,2020/8/8,决策量化技术,9,置信度与置信阈值,规则X Y的支持度定义为Pr (XY),表示X,Y同时出现的可能性。 规则X Y的置信度(confidence)定义为Pr(XY)/Pr(X)=support(XY)/support(X),表示D中包含X的事务同时也包含Y的可能性,记为conf(XY)。由于这个数值等于在X出现的条件下Y也出现的概率,因此规则的置信度也可以用条件概率符号Pr(Y|X)表示。 置信阈值表示规则在统计意义上应该满足的最低置信度,用符号minconf表示。,2020/8/8,决策量化技术,10,关联规

6、则挖掘,X Y是关联规则,给定支持阈值、置信阈值 支持度(support), s:包含X, Y的概率 置信度(confidence), c :一条包含X的交易也同时包含Y的条件概率 支持度和置信度不小于给定阈值 强关联规则: 对于给定的支持阈值和置信阈值,发现那些置信度和支持度都大于或等于相应阈值的规则称为强关联规则。,2020/8/8,决策量化技术,11,关联规则挖掘示例,规则 A C: support = support(A, C) = 50% confidence = support(A, C)/support(A) = 66.6% 规则 C A: support = support(A

7、, C) = 50% confidence = support(A, C)/support(C) = 100%,支持阈值 50% 置信阈值 50%,2020/8/8,决策量化技术,12,关联规则的类型,2020/8/8,决策量化技术,13,二值型关联规则 vs 数值型(量化)关联规则,二值型关联规则处理的数据都是离散的、分类化的,用来显示这些变量之间的关系。 buys(x, “面包”) buys(x, “牛奶”) 0.5%, 60% buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60% 在关联规则挖掘中加入数量信

8、息以及其它的交易信息(如商品的单价、一次购买的数量和总价等),得到的规则称为数值型关联规则;也可将关联规则扩展到关系数据库中,表示属性值之间的关联关系。 age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75%,2020/8/8,决策量化技术,14,单层关联规则 vs 多层关联规则,单层关联规则:所有的变量都是细节数据(原始的商品),没有层次的区分 多层关联规则:体现了数据的层次性(用概念树或者概念图表示),发生关联的数据可能位于同一层次(同层关联规则),也可能位于不同的层次(层间关联规则)。 IBM台式机 HP打印机(细节层次上的单层

9、关联规则) 台式机 HP打印机(较高层次和细节层次之间的层间关联规则) 台式机打印机(高层次上的同层关联规则),2020/8/8,决策量化技术,15,单维关联规则 vs 多维关联规则,单维关联规则只涉及数据表的一个字段,多维关联规则涉及数据表的多个字段。 buys(x,”啤酒“) buys(x,”尿布“):单维关联规则 gender(x,“女”) job(x,“秘书”):二维关联规则 age(x,“2030”) job(x,“学生”) buys(x,“笔记本电脑”):三维关联规则 根据是否允许同一个字段在规则中重复出现,多维关联规则又可以分为维间关联规则(不允许字段在规则中重复出现)和混合维关

10、联规则(允许字段在规则的左右部分同时出现)。 age(x,“2030”) buys(x,“笔记本电脑”) buys(x,“打印机”):混合维关联规则,2020/8/8,决策量化技术,16,特殊类型的关联规则,有约束的关联规则:对关联规则施加语义约束,限制规则左部或者规则右部必需包含某些字段或对规则形式进行约束 发现所有规则右部中包含“面包”的关联规则 发现单价在100元以上或者购买数量不小于10的商品之间的关联规则 否定关联规则:限制某些字段不出现在规则中 咖啡 茶叶:如果不购买咖啡,那么买茶叶的可能性较大 带权值的关联规则:将商品的价格或购买数量作为权值 洗涤剂 消毒柜,2020/8/8,决

11、策量化技术,17,其它领域的关联规则,空间关联规则 发现地理位置的关联性 85%的靠近高速公路的大城镇与水相邻 发现通常与高尔夫球场相邻的对象 时态关联规则 附加了时间维度,从交易数据集中找出相似的交易关联规则 交易序列的关联规则常常带有周期性,如季节性的购物高峰,这样的规则称为循环规则,即在一定时间间隔内周期性出现的规则,2020/8/8,决策量化技术,18,关联规则的应用,零售业:安排商品布局,提供购买建议 市场营销:分析顾客的购买行为和习惯 识别欺诈:发现异常事件 因特网:提高网络的响应速度,调度网络代理的缓存,发现用户的浏览模式 医学:预测一次手术、药物检验或药物治疗的效果,2020/

12、8/8,决策量化技术,19,关联规则挖掘的算法,关联规则挖掘AIS算法,Apriori算法,Hash算法,多层次关联规则,抽样算法,分区算法,分布算法,增量算法,数值型关联规则,提高效率算法,关联规则概念扩展,其它,序列模式,模糊关联规则,否定关联规则,有约束的关联规则,SETM算法,并行算法,带权值的关联规则,2020/8/8,决策量化技术,20,关联规则挖掘,1、关联规则挖掘的概念 2、二值型关联规则挖掘 3、并行关联规则挖掘 4、数值型关联规则挖掘 5、多层次关联规则挖掘 6、关联规则的增量挖掘,2020/8/8,决策量化技术,21,关联规则挖掘的两个步骤,大项集的搜索:搜索支持度不小于

13、指定支持阈值的项集 需要扫描数据库,是关联规则挖掘的主要步骤 根据搜索的方向、范围、目标和数据格式,可以构造不同的搜索算法 关联规则的生成:对每一个大项集L,检查L的每个非空子集X,生成规则XL-X,它的支持度为Pr(L),置信度为Pr(L)/Pr(X),只有那些大于或等于用户给定的置信阈值的规则才被保留下来。 根据支持度的性质,这个步骤可简化为先检验L的最大子集,只有当生成规则的置信度不小于置信阈值时才检验更小的子集。 例如,L=A,B,C,D,如果规则A B CD的置信度达不到置信阈值,则A BC D也达不到置信阈值(因为Pr(A B)Pr(A BC)。,2020/8/8,决策量化技术,2

14、2,大项集的搜索策略,2020/8/8,决策量化技术,23,关联规则挖掘的第一个算法:AIS,过程:AIS算法的基本思想是通过多次循环来计算大项集。 Ck: k阶候选项集 Lk : k阶大项集 首先,扫描数据库,得到一阶大项集。 然后,在第k(k1)次扫描时,对每条交易t,找到它所包含的所有k-1阶的大项集Lk-1,根据t中出现的数据项,把它们分别扩展成k阶项集,加入到k阶候选项集的集合中,同时对候选项集的支持数进行累加。例如,如果A,B,C,D是当前处理的交易,A B是它所包含的2阶大项集,由A B扩展得到A B C,A B D,作为3阶候选项集。 当完成一遍扫描后,就可以得到k阶候选项集的

15、支持数,那些支持数不小于最小支持数的项集就是k阶大项集。 开始下一次扫描,直到候选项集为空时,算法停止。,2020/8/8,决策量化技术,24,AIS算法示例,事务数据库 D,L2,minsup=3,minconf=80%,强关联规则是:E B,2020/8/8,决策量化技术,25,Apriori算法,AIS算法的瓶颈:候选项集是在扫描事务数据库时构造的,产生的候选项集中有很多并不是大项集,这样不仅会浪费计算时间,还会占用大量的存储空间。 Apriori算法:利用上次循环产生的大项集构造新的候选项集,然后扫描数据库,计算候选项集的支持数,扫描结束时得到大项集 依据:一个项集是大项集当且仅当它的

16、所有子集都是大项集。反之,如果一个项集的某个子集不是大项集,那么这个项集也不可能是大项集。 例如,如果AB是大项集, 那么A,B也是大项集,2020/8/8,决策量化技术,26,算法过程 扫描数据库,计算1阶大项集; 从2阶开始,每次循环利用上次循环产生的大项集构造新候选项集,然后计算每个候选项集的支持度,得到下一阶大项集; 重复以上步骤,直到某阶大项集为空。,2020/8/8,决策量化技术,27,Apriori算法示例,事务数据库 D,minsup=3,C3,itemset,B C E,2020/8/8,决策量化技术,28,问题(1): 如何产生候选数据项集?,假设数据项按顺序排列 Step

17、 1: 大项集自连接 Ck = Lk-1 Lk-1 Step 2: 削减 forall Ck 中的每个元素c do forall c的子集s do if (s不再大项集Lk-1中) then delete c from Ck,2020/8/8,决策量化技术,29,Apriori_gen示例,L3=abc, abd, acd, ace, bcd 自连接: L3 L3 abcd ,abce ,acde 削减: acde is removed because ade is not in L3 同理: abce 也要被删除。 C4=abcd,2020/8/8,决策量化技术,30,表1 交易数据库D,例

18、:,找出频繁项集Apriori算法,2020/8/8,决策量化技术,31,C1,L1,扫描D,对每 个候选计数,比较候选支持 度计数与最小 支持度计数,找出频繁1项集的集合L1,找出频繁项集Apriori算法,例:最小支持度阈值 为2,2020/8/8,决策量化技术,32,L1,C2,由L1产生 候选C2,Lk-1用于产生候选Ck,找出频繁项集Apriori算法,连接也可将关联规则扩展到关系数据库中,表示属性值之间的关联关系。 age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75%,2020/8/8,决策量化技术,61,单层关联规则

19、vs 多层关联规则,单层关联规则:所有的变量都是细节数据(原始的商品),没有层次的区分 多层关联规则:体现了数据的层次性(用概念树或者概念图表示),发生关联的数据可能位于同一层次(同层关联规则),也可能位于不同的层次(层间关联规则)。 IBM台式机 HP打印机(细节层次上的单层关联规则) 台式机 HP打印机(较高层次和细节层次之间的层间关联规则) 台式机打印机(高层次上的同层关联规则),2020/8/8,决策量化技术,62,单维关联规则 vs 多维关联规则,单维关联规则只涉及数据表的一个字段,多维关联规则涉及数据表的多个字段。 buys(x,”啤酒“) buys(x,”尿布“):单维关联规则

20、gender(x,“女”) job(x,“秘书”):二维关联规则 age(x,“2030”) job(x,“学生”) buys(x,“笔记本电脑”): 三维关联规则,2020/8/8,决策量化技术,63,关联规则挖掘的两个步骤,大项集的搜索:搜索支持度不小于指定支持阈值的项集 需要扫描数据库,是关联规则挖掘的主要步骤 根据搜索的方向、范围、目标和数据格式,可以构造不同的搜索算法 关联规则的生成:对每一个大项集L,检查L的每个非空子集X,生成规则XL-X,它的支持度为Pr(L),置信度为Pr(L)/Pr(X),只有那些大于或等于用户给定的置信阈值的规则才被保留下来。,2020/8/8,决策量化技

21、术,64,AIS算法示例,事务数据库 D,L2,minsup=3,minconf=80%,强关联规则是:E B,2020/8/8,决策量化技术,65,Apriori算法,AIS算法的瓶颈:候选项集是在扫描事务数据库时构造的,产生的候选项集中有很多并不是大项集,这样不仅会浪费计算时间,还会占用大量的存储空间。 Apriori算法:利用上次循环产生的大项集构造新的候选项集,然后扫描数据库,计算候选项集的支持数,扫描结束时得到大项集,2020/8/8,决策量化技术,66,算法过程 扫描数据库,计算1阶大项集; 从2阶开始,每次循环利用上次循环产生的大项集构造新候选项集,然后计算每个候选项集的支持度,

22、得到下一阶大项集; 重复以上步骤,直到某阶大项集为空。,2020/8/8,决策量化技术,67,Apriori算法示例,事务数据库 D,minsup=3,C3,itemset,B C E,2020/8/8,决策量化技术,68,Apriori算法的瓶颈,Apriori algorithm的核心 根据频繁(k-1)-itemsets产生候选k-itemsets 每次循环扫描数据库,计算候选k-itemsets的支持度 Apriori的瓶颈 大量的候选项集(尤其是C2) n 个大1-itemset n*(n-1)/2 个候选2-itemsets 多次扫描数据库 需要扫描n+1次,n 是大项集的最大长度

23、,2020/8/8,决策量化技术,69,Apriori算法的改进策略,2020/8/8,决策量化技术,70,AprioriTid算法,原理: 如果一个事务不包含k阶大项集,那么也必然不包含k+1阶大项集,因此,将这些事务删除后,下一次循环就可减少扫描事务量,而不影响候选项集的支持数,2020/8/8,决策量化技术,71,AprioriTid算法示例,事务数据库 D,minsup=3,2020/8/8,决策量化技术,72,关联规则挖掘,1、关联规则挖掘的概念 2、二值型关联规则挖掘 3、并行关联规则挖掘 4、数值型关联规则挖掘 5、多层次关联规则挖掘 6、关联规则的增量挖掘,2020/8/8,决

24、策量化技术,73,Count 分布(CD)算法,过程 每个处理器分配一部分数据 每个处理器的内存复制全部候选项集 每个处理器独立执行Apriori算法,扫描本地数据,计算局部支持度,通过处理器之间的通讯得到全局支持度,2020/8/8,决策量化技术,74,Count 分布(CD)算法优缺点 各处理器独立计算,只在循环结束时交互支持度,降低了通讯量 内存利用率低,各处理器存储各自的候选项集,如果候选项集数量很大时,必须分几次装入内存,造成数据库的多次扫描 适应于项数小和min_support大的情形,2020/8/8,决策量化技术,75,关联规则挖掘,1、关联规则挖掘的概念 2、二值型关联规则挖

25、掘 3、并行关联规则挖掘 4、数值型关联规则挖掘 5、多层次关联规则挖掘 6、关联规则的增量挖掘,2020/8/8,决策量化技术,76,数值型关联规则,分类型变量 有限取值,无序 数值型变量 连续,有序,2020/8/8,决策量化技术,77,方法,将数据转化为布尔型数据 每个分类型数值映射为一个变量 对每个连续型变量分段,每段映射为一个变量,如何对数值型属性分段? 主要问题是区间的划分和合并 先对数值型属性细分,计算每个区间的支持度,再合并相邻的区间,直到支持度超过一个指定的阈值为止。,2020/8/8,决策量化技术,78,关联规则挖掘,1、关联规则挖掘的概念 2、二值型关联规则挖掘 3、并行

26、关联规则挖掘 4、数值型关联规则挖掘 5、多层次关联规则挖掘 6、关联规则的增量挖掘,2020/8/8,决策量化技术,79,概念层次树,概念层次树是一棵从一般概念到具体概念的层次关系树,树的根结点是最一般的概念,树的叶结点是最具体的概念即原始数据。 设a,b是两个概念,若b是以a为根的子树中的结点,则称b是a的后代或a是b的祖先。如果a是b的直接祖先,则a称是b的父亲,或b是a的儿子。,2020/8/8,决策量化技术,80,多层次关联规则,为什么挖掘多层次关联规则? 数据项之间经常存在概念层次 层次越高,数据项的支持度也越大 某些高层次上的规则或许能显示有用的信息,2020/8/8,决策量化技

27、术,81,多层关联规则,项通常具有层次 底层的项通常支持度也低 某些特定层的规则可能更有意义,2020/8/8,决策量化技术,82,多层关联规则支持度不变 vs. 支持度递减,支持度不变: 在各层之间使用统一的支持度 一个最小支持度阈值. 如果一个项集的父项集不具有最小支持度,那他本身也不可能满足最小支持度。,如果支持阈值 太高 丢失底层关联规则 太低 生成太多的高层关联规则 支持度递减: 随着层次的降低支持度递减,2020/8/8,决策量化技术,83,支持度不变,支持度不变多层挖掘,牛奶 support = 10%,酸奶 support = 6%,脱脂奶 support = 4%,层 1 m

28、in_sup = 5%,层 2 min_sup = 5%,2020/8/8,决策量化技术,84,支持度递减,支持度递减多层挖掘,酸奶 support = 6%,脱脂奶 support = 4%,层 1 min_sup = 5%,层 2 min_sup = 3%,牛奶 support = 10%,2020/8/8,决策量化技术,85,多层关联:冗余过滤,由于“祖先”关系的原因,有些规则可能是多余的。 例子 牛奶 白面包 support = 8%, confidence = 70% (1) 酸奶 白面包 support = 2%, confidence = 72% (2) 我们称第一个规则是第二个

29、规则的祖先 参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。,2020/8/8,决策量化技术,86,2020/8/8,决策量化技术,87,挖掘多层次关联规则,同层关联规则 处于同概念层的关联规则,挖掘在特定概念层上逐层展开,需对项的每个层次进行处理,一般采用自顶向下的策略。对每一层,可以使用类似于单层关联规则挖掘的发现频繁项集的任何算法;算法:ML-T2、ML_T1LA、ML-SH、ML-T2+等 层间关联规则 跨越层边界,规则中的项不要求属于同一概念层。算法:ML-CH等,2020/8/8,决策量化技术,88,同层关联规则的挖掘步骤,对概念层次树进行编

30、码 将事务的项用对应的编码代替,构成编码数据库 从高到低依次搜索各层的大项集 由各层的大项集分别生成关联规则,2020/8/8,决策量化技术,89,概念层次树及事务的编码,先对根结点编码,再按照从上到下的顺序对每层的结点逐层编码。一个概念的子结点的序号为:1,2,3。子结点代码=父结点代码+子结点在子树中的序号,依此类推 把数据库中的值用其编码代替,2020/8/8,决策量化技术,90,层交叉过滤,如果数据项A是非频繁的,那么A的后代也是非频繁的 如果某个数据项是非频繁的,那么包含其后代的数据项集也必定是非频繁的 利用上层大项集对下层事务进行消减 ML_T1L2算法、ML_T1LA算法等,20

31、20/8/8,决策量化技术,91,层交叉过滤,体育类商品 (支持度10),篮球,足球,层2 支持阈值 3%,层1 支持阈值 12%,一个第i层的k项集被考察,当且仅当它 在第(i-1)层的父节点k项集是频繁的。,2020/8/8,决策量化技术,92,ML_T2算法,ML_T2算法32采用交易削减的方法,减小了扫描的数据量,从而提高算法的效率。该算法按照概念层次从高到低的顺序,搜索每层的大项集。,2020/8/8,决策量化技术,93,ML_T2算法步骤:,在最高概念层次上,函数get_large_1_itemset扫描T1(原始数据库D),得到一阶大项集; 由函数get_filtered_tab

32、le利用一阶大项集对T1过滤,删除每条交易中祖先不属于大项集的项,如果某交易所有的项都被删除,那么该交易也被删除,最终得到削减的数据库T2。 然后,利用Apriori算法通过循环得到各阶大项集。 从第2层开始,算法扫描T2,依次得到每层的大项集。当达到了最大层次数或者某层上的1阶大项集为空时,算法停止。,2020/8/8,决策量化技术,94,ML_T2算法示例,T1,2020/8/8,决策量化技术,95,ML_T1LA算法,ML_T1LA算法与ML_T1算法的过程基本相同,区别是ML_T1LA在每层都执行类似的交易削减。在任意的p层上,得到一阶大项集后,对数据库Tp进行过滤,得到Tp+1,从而

33、实现逐层减小扫描的数据量,但这种方法只在每层所过滤掉的数据量较大时比较有效.,2020/8/8,决策量化技术,96,ML_T1LA算法示例,T1,2020/8/8,决策量化技术,97,层间关联规则的挖掘,定义2.17 层间关联规则又称为广义关联规则,形式为X Y,其中X,Y 是任意概念层次上的大项集,满足XY= ,且Y 不包括X 中的项的祖先。,2020/8/8,决策量化技术,98,定义2.18 设项集X=x1, x2,xk,Y= y1, y2,yk,其中yj 是xj 的祖先概念。如果已知Y 的支持度为Pr(Y),那么X 的期望支持度等于: EY (Pr(X)=(Pr(X1 )/ Pr(Y1

34、)*Pr( X2)/ Pr(Y2 )*.Pr( XK) /Pr(YK ) * Pr(Y),2020/8/8,决策量化技术,99,定义2.19 设X Y 是一条规则,Z 是X 的祖先,W 是Y 的祖先。如果已知规则Z W 的置信度为Pr(W|Z),那么规则X Y 的期望置信度等于:E Z W(Pr(X Y ) = (Pr(Y1 )/ Pr(W1 )*Pr( Y2)/ Pr(W2 )*.Pr( YK) /Pr(WK ) * Pr(W|Z),2020/8/8,决策量化技术,100,如果“衣服” “鞋子”是一条关联规则,支持度为20%,置信度为60%。假设买衣服的交易中外套占50%,那么根据统计规律,

35、 “外套” “鞋子”的期望支持度应该为10%,期望置信度为60%。如果经过计算发现实际的支持度和置信度与期望值相近,那么这条规则就是冗余的。,2020/8/8,决策量化技术,101,如果项集Y 是项集X 的祖先,而且不存在其它的项集Z ,满足Y 是Z 的祖先,Z 是X 的祖先, 那么称Y 是X 的最近祖先或者父项集。,2020/8/8,决策量化技术,102,例如,外套,长靴,夹克,鞋子都是夹克,长靴的父项集. 而衣服,长靴是夹克,长靴的祖先但不是父项集,因为衣服,长靴是外套,长靴的祖先, 而外套,长靴又是夹克,长靴的祖先。 评价规则是否是冗余的,首先要根据其父项集计算规则的期望支持度和期望置信度。,2020/8/8,决策量化技术,103,定义2.20 给定兴趣阈值R,如果X Y没有祖先,或者它的支持度是相对于父项集的期望支持度的R倍,或者置信度是期望置信度的R倍,那么这条规则是有趣的,否则就是冗余的。广义关联规则挖掘就是找到置信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论