版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、商务智能原理与方法商务智能原理与方法参考文档参考文档2022年2月2日机机 密密商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第1页目目 录录引言引言商务智能过程商务智能过程数据仓库数据仓库商务智能应用商务智能应用构建商务智能环境构建商务智能环境关联规则关联规则分类分析分类分析聚类分析聚类分析概念描述概念描述商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第2页关联规则关联规则关联规则简介关联规则简介关联规则挖掘方法关联规则挖掘方法关联规则兴趣性关联规则兴趣性关联规则知识形式扩展关联规则知识形式扩展简单关联规则简单关联规则小结及练习小结及练习目目
2、录录商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第3页关联关联association规则是当前数据挖掘研究的主要方法之一,它反映一个规则是当前数据挖掘研究的主要方法之一,它反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到一定的关联关系,那么,其中一个事物就能够通过其他事物预测到典型的关联规则发现问题是对超市中的货篮数据Market Basket进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。
3、将顾客同时购买的东西,放在比较远的位置,诱导顾客浏览并购买更多的东西。把经常同时购买的商品放在比较靠近的货架上,便于顾客同时购买。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第4页如果我们把商场内的所有商品设置为一个集合,每个商品就是一个数据项如果我们把商场内的所有商品设置为一个集合,每个商品就是一个数据项item)。商场的交易数据库通常包含每个顾客每一次购买的商品记录。关联规)。商场的交易数据库通常包含每个顾客每一次购买的商品记录。关联规则表达的就是商品间联动购买的情况则表达的就是商品间联动购买的情况购买羽毛球拍的顾客通常也购买浴巾,这种关联关系可以用:羽毛球拍=浴
4、巾这样的关联规则来表示,这样的规则在数据库中是否有代表性,重要性及有用性,需要多个步骤来评判。规则中的数规则中的数据出现的是据出现的是否足够频繁否足够频繁数据之间的数据之间的联系是否足联系是否足够紧密够紧密数据之间的数据之间的联系是否符联系是否符合其他兴趣合其他兴趣性的考虑性的考虑商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第5页关联规则的基本概念关联规则的基本概念(1)n设I=i1, i2, im为所有项目的集合,D为事务数据库,事务T是一个项目子集TI)。每一个事务具有唯一的事务标识TID。对于任意非空项集AA I ),如果记录T包含A,则称记录T支持项集A。如果
5、项集A中包含k个项目,则称其为k项集。苹果,橘子,香苹果,橘子,香蕉,梨,西瓜蕉,梨,西瓜标识标识TID项目子集项目子集1苹果2橘子,香蕉3梨,西瓜,香蕉橘子橘子梨,香蕉梨,香蕉商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第6页关联规则的基本概念关联规则的基本概念(2)n商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第7页关联规则的基本概念关联规则的基本概念(3)商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第8页案例:商场记录顾客购买商品的数据,假设有数据库案例:商场记录顾客购买商品的数据,假设有数据库D,数据集合,数
6、据集合I=MP3,羽,羽毛球拍,旅游鞋,浴巾,跑步机毛球拍,旅游鞋,浴巾,跑步机购买记录购买记录TID购买商品购买商品T100旅游鞋,浴巾,MP3T200浴巾,跑步机T300浴巾,羽毛球拍T400旅游鞋,浴巾,跑步机T500旅游鞋,羽毛球拍T600浴巾,羽毛球拍T700旅游鞋,羽毛球拍T800旅游鞋,浴巾,羽毛球拍,MP3T900旅游鞋,浴巾,羽毛球拍商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第9页案例计算案例计算Dsupp(羽毛球拍)=Dsupp(MP3)=Dsupp(旅游鞋,跑步机)=Dsupp(羽毛球拍,浴巾)=假设给定=20%,则上述哪些是频繁集假设给定=2
7、0%,=60%,则羽毛球拍=浴巾是否是合格关联规则6/96/92/92/91/91/94/94/9商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第10页案例总结案例总结n如果指定一对项集X和Y,并且要求验证X=Y在数据集T上是否为一个合格关联规则,那么人们可以直接根据上述定义来计算X=Y的支持度和置信度,并且通过与给定的阈值进行比较来判断。n这与很多模型驱动的方法类似,比如给定一个线性回归模型:Y=a+bX+ ,人们可以通过已经知道的数据来判断模型与数据的符合程度。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第11页发现关联规则需要经历两个步骤
8、,每一个步骤都对应规则生成过程中两大问题发现关联规则需要经历两个步骤,每一个步骤都对应规则生成过程中两大问题种的一个种的一个频繁项集生成满足最频繁项集生成满足最小信任度阈值的规则小信任度阈值的规则找出所有频繁项集。找出所有频繁项集。这项工作极具挑战性。这项工作极具挑战性。发现关联规则需要经发现关联规则需要经历两个步骤历两个步骤规则的生成过程存在两个大问题规则的生成过程存在两个大问题规则数量问题规则质量问题商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第12页关联规则关联规则关联规则简介关联规则简介关联规则挖掘方法关联规则挖掘方法关联规则兴趣性关联规则兴趣性关联规则知识形
9、式扩展关联规则知识形式扩展简单关联规则简单关联规则小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第13页支持度和置信度是评估关联规则的两个基本测度,进一步讨论关联规则在这两支持度和置信度是评估关联规则的两个基本测度,进一步讨论关联规则在这两个测度上的性质对于关联规则的挖掘和应用很有意义个测度上的性质对于关联规则的挖掘和应用很有意义1)n首先由于Dsupp( X=Y )=DsuppXY),我们可知道计算规则X=Y的支持度就等于计算项集XY的支持度。n此外,由于Dconf( X=Y )=|XY| / |X|=(|XY| /|T|)/ (|X|/
10、|T|)= DsuppXY)/ DsuppX),我们知道X=Y 的置信度的计算可以通过XY和X的支持度得到。n这样一个挖掘思路就是通过扫描数据库,先计算所有项集的支持度,而后通过支持度计算置信度,而不需要对数据库再次扫描。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第14页进一步讨论关联规则进一步讨论关联规则2)n商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第15页进一步讨论关联规则进一步讨论关联规则3)n据此可知,我们计算项集支持度的过程中,可以采用逐层扩展方式,即:先计算1项集,再计算2项集(m-1项集。当计算k项集支持度的时候2km-1
11、),只需要考虑哪些其子集是频繁集的k项集,而不必考虑包含非频繁子集的k项集,这样可以优化计算。n这里,我们把计算获得项集支持度的过程称为生成候选项集的过程,把计算出由频繁子集组成的项集的支持度的过程称为生成候选频繁集的过程。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第16页Apriori方法是基于上述思路的关联规则挖掘的经典方法,它是一种基于逐层搜方法是基于上述思路的关联规则挖掘的经典方法,它是一种基于逐层搜索的迭代算法,从索的迭代算法,从k项集生成满足规则的项集生成满足规则的k+1项集。项集。Apriori算法命名源于算法算法命名源于算法使用了频繁项集性质的先验使
12、用了频繁项集性质的先验Prior知识。知识。 nApriori算法将发现关联规则的过程分为两个步骤:n通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;n利用频繁项集构造出满足用户最小信任度的规则。n挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第17页Apriori算法:变量说明算法:变量说明Ck:k-候选项集候选项集 ;Lk:k-频繁项集;频繁项集;minsup:最小:最小支持度阈值)支持度阈值)kkL商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第
13、18页实例最小支持度实例最小支持度50%)Database TDB1st scanC1L1L2C2C22nd scanC3L33rd scanTidItems10A, C, D20B, C, E30A, B, C, E40B, EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA, BA, CA, EB, CB, EC, EItemsetsupA, B1A, C2A, E1B, C2B, E3C, E2ItemsetsupA, C2B, C2B, E3C, E2ItemsetB, C, EItemsetsupB, C, E2商务智能原理与方法商务智能原
14、理与方法2022-2-2版权所有,不得翻印第19页案例:某电子商城的购物记录,经理很希望知道什么样的顾客购买了什么样的案例:某电子商城的购物记录,经理很希望知道什么样的顾客购买了什么样的手机,购买了某种手机是否还会购买另一种手机设定手机,购买了某种手机是否还会购买另一种手机设定=40%,=100%)顾客编号顾客编号数据项数据项女:A男:B青年:C老年:DIphone:ENokia:F11111211113111411151116111711118111911110111商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第20页客户手机频繁集客户手机频繁集1-itemsets
15、support2-itemsetssupport3-itemsetssupportA60%AB0ACF40%B40%AC40%C60%AD20%D40%AE30%E70%AF50%F60%BC20%BD20%BE40%BF10%CD0CE30%CF50%DE40%DF10%EF30%商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第21页客户手机的关联规则客户手机的关联规则ACAFCFDERulesConfRulesConfRulesConfRulesConfA=C4/6A=F5/6C=F5/6D=E1C=A4/6F=A5/6F=C5/6E=D4/6ACFRulesCon
16、fRulesConfRulesConfA=CF4/6C=AF4/6F=AC4/6AC=F1AF=C4/5CF=A4/5商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第22页Apriori算法的不足算法的不足多次扫描数据库:多次扫描数据库:CkCk中的项集中的项集是用来产生频集的候选集,最是用来产生频集的候选集,最后的频集后的频集LkLk必须是必须是CkCk的一个子的一个子集。集。CkCk中的每个元素需在交易中的每个元素需在交易数据库中进行验证来决定其是数据库中进行验证来决定其是否加入否加入LkLk,这里的验证过程是,这里的验证过程是算法性能的一个瓶颈。这个方算法性能的一
17、个瓶颈。这个方法要求多次扫描可能很大的交法要求多次扫描可能很大的交易数据库易数据库所挖掘的规则存在大量冗余:所挖掘的规则存在大量冗余:算法一定要等到扫描完整个数算法一定要等到扫描完整个数据库后才做结合据库后才做结合, ,因为在扫描的因为在扫描的过程中过程中, ,有些候选项集在若干的有些候选项集在若干的区段中的支持度已大于等于使区段中的支持度已大于等于使用者制定的最小支持度用者制定的最小支持度, ,因此在因此在扫描这些若干个区段后扫描这些若干个区段后, ,便可以便可以找出频集找出频集, ,并直接结合产生下一并直接结合产生下一个层级的候选物项集个层级的候选物项集商务智能原理与方法商务智能原理与方法
18、2022-2-2版权所有,不得翻印第23页Apriori方法被认为是一个有效的经典的关联规则挖掘方法。对方法被认为是一个有效的经典的关联规则挖掘方法。对Apriori方法的方法的进一步优化还可以从下列角度展开。进一步优化还可以从下列角度展开。编号编号算法算法内容内容1Apriori-Tid,Apriori-Hybrid,Hash树DHP算法在频繁项集合生成过程中,对冗余项集合进行剪枝2DIC,Eclat,MacEclat,Clique,MaxClique通过减少对数据库的扫描来提高效率3SETM,MONET从关系数据库操作角度出发,开发出基于关系数据库操作的算法4基于分区操作和基于随即的分区算
19、法5基于采样的算法6并行算法和分布算法商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第24页关联规则关联规则关联规则简介关联规则简介关联规则挖掘方法关联规则挖掘方法关联规则兴趣性关联规则兴趣性关联规则知识形式扩展关联规则知识形式扩展简单关联规则简单关联规则小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第25页关联规则的应用越来越广泛,在很多行业都体现出了重要性。但是用户怎么知关联规则的应用越来越广泛,在很多行业都体现出了重要性。但是用户怎么知道从挖掘系统得到的结果就是他们想要的,就是对他们有价值的结果呢?怎样道从挖掘
20、系统得到的结果就是他们想要的,就是对他们有价值的结果呢?怎样来评价一个规则是否有价值呢?主要从两个层面来评价来评价一个规则是否有价值呢?主要从两个层面来评价用户主观层面用户主观层面系统客观层面系统客观层面商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第26页(1系统客观层面:大多数算法都使用支持度系统客观层面:大多数算法都使用支持度-置信度的框架。这样的结构并置信度的框架。这样的结构并不能保证产生的关联规则是完全正确的。规则的置信度有一定的欺骗性,它只不能保证产生的关联规则是完全正确的。规则的置信度有一定的欺骗性,它只表示了规则前件和后件的条件概率估计,并没有度量项目之
21、间蕴涵的实际强度表示了规则前件和后件的条件概率估计,并没有度量项目之间蕴涵的实际强度购买咖啡和牛奶的统计表(购买咖啡和牛奶的统计表(% %)m mc c20205 5252570705 5757590901010100100商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第27页案例分析计算案例分析计算nCoffee=milk,S=20/100=20%,C=(cm)/c=20/25=80%,当我们把可信度和支持度阈值定为低于0. 8 和0. 2 时,很显然该规则将会作为目标规则之一被采掘出来. 由此我们得出结论, 刺激顾客对咖啡的购买欲望将增加奶粉的销售量, 或换句话说,
22、 将咖啡和奶粉放在一起将提高奶粉的销售量.商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第28页案例分析计算案例分析计算n商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第29页案例分析计算案例分析计算n于是我们可以得出结论, 在考虑了反面示例的影响之后, 问题出现了. 并非采掘出的规则可信度或支持度不高, 但一条即使可信度和支持度都很高的规则其实际利用价值已经难以肯定了, 在此我们提出一个解决的办法, 引入第3 个阈值兴趣度.商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第30页 n期望可信度描述了在没有任何条件影响时,项
23、集B在所有事务中出现的概率有多大。如果某天共有1000个顾客到商场购买商品,其中有200个顾客购买了冰箱,则上述的关联规则的期望可信度就是20%。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第31页第第3 个阈值个阈值-作用度作用度(提升度、兴趣度提升度、兴趣度):Lift,是置信度与期望可信度的比值。作是置信度与期望可信度的比值。作用度描述项集用度描述项集A的出现对项集的出现对项集B的出现有多大的影响的出现有多大的影响n商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第32页作用度的计算及结果解释作用度的计算及结果解释n在上例中,如果购买微波炉
24、的顾客70%也购买冰箱,则作用度就是 70%/20%=3.5n当Lift1时,规则的前项与后项正相关,有兴趣n当Lift=1时,规则的前项与后项无相关,无兴趣n当LiftY影响度表示规则前项影响度表示规则前项X和后项和后项Y的的相关程度的的相关程度,influence影响度是将影响度是将T检验的思想引入到关联规则中而成的检验的思想引入到关联规则中而成的n显著性差异显著性差异(significance level)(significance level),是一个统计学名词。它,是一个统计学名词。它是统计学上对数据差异性的评价。当数据之间具有了显著性是统计学上对数据差异性的评价。当数据之间具有了显
25、著性差异,就说明参与比对的数据不是来自于同一总体差异,就说明参与比对的数据不是来自于同一总体PopulationPopulation),而是来自于具有差异的两个不同总体。我),而是来自于具有差异的两个不同总体。我们说们说A A、B B两数据在两数据在0.050.05水平上具备显著性差异,这是说两组水平上具备显著性差异,这是说两组数据具备显著性差异的可能性为数据具备显著性差异的可能性为95%95%。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第35页第第4 个阈值个阈值影响度影响度:Influencen商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻
26、印第36页支持度、置信度、作用度以及影响度都是兴趣性测度的内容。兴趣性测度的应支持度、置信度、作用度以及影响度都是兴趣性测度的内容。兴趣性测度的应用旨在帮助提升关联规则的品质,并也可以应用到算法优化的过程中帮助提升用旨在帮助提升关联规则的品质,并也可以应用到算法优化的过程中帮助提升计算效率计算效率兴趣性在发现关联规兴趣性在发现关联规则知识中起到的作用则知识中起到的作用减少冗余规则,精减少冗余规则,精简关联规则集合简关联规则集合避免前提和结论相避免前提和结论相关的频繁规则关的频繁规则避免对背景知识的避免对背景知识的重复,突出新的规重复,突出新的规则则凸显有价值的例外凸显有价值的例外规则规则筛选出
27、用户所关心筛选出用户所关心的规则,屏蔽用户的规则,屏蔽用户所不关心的规则所不关心的规则提高关联规则挖掘提高关联规则挖掘的效率的效率1 12 23 34 45 56 6商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第37页(2用户主观层面:系统客观层面只是挖掘潜在有趣的关联规则,真正有趣用户主观层面:系统客观层面只是挖掘潜在有趣的关联规则,真正有趣的关联规则要由用户来决定,只有用户可以决定规则的有效性、可行性,因此的关联规则要由用户来决定,只有用户可以决定规则的有效性、可行性,因此在挖掘数据时,引入约束在挖掘数据时,引入约束数数据据约约束束维维/层约层约束束规则约规则约束
28、束1 1指定任务相关的数据集1 12 23 32 2指定所用的维或概念分层的层3 3指定要挖掘的关联规则的形式注:由于每个用户的知识水平和知识背景不同,即使对于同一数据集,用户给定的约束也会不尽相同,而且对挖掘到的同样的一条关联规则,感兴趣的程度也会不同。因此,主观层面上的度量方法有很大的随机性,它只适合某一特定的领域或特定的背景下,不具有普遍性。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第38页关联规则关联规则关联规则简介关联规则简介关联规则挖掘方法关联规则挖掘方法关联规则兴趣性关联规则兴趣性关联规则知识形式扩展关联规则知识形式扩展简单关联规则简单关联规则小结及练
29、习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第39页 广义关联规则广义关联规则数量关联规则数量关联规则在实际应用中,人们经常会遇到需要在实际应用中,人们经常会遇到需要扩展或丰富布尔关联规则语义情形扩展或丰富布尔关联规则语义情形商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第40页广义关联规则:包含高层数据间关系的关联规则成为广义关联规则。对于一些广义关联规则:包含高层数据间关系的关联规则成为广义关联规则。对于一些实际应用问题,人们发现在数据之间可能存在一定的关系,比如超市中的商品实际应用问题,人们发现在数据之间可能存在一定
30、的关系,比如超市中的商品目录和类别划分所构成的反应超类和子类的隶属关系层次关系)目录和类别划分所构成的反应超类和子类的隶属关系层次关系)获得并利用层次结构信息对于决策分析是有意义的获得并利用层次结构信息对于决策分析是有意义的1、高层数据关联反映了有意义的知识内涵,比如“羽毛球拍属于“运动器械类”,“MP3属于“电子产品类”,“运动器械=电子产品对管理决策有用2 2、一些在底层数据间不显著的关联模式,可、一些在底层数据间不显著的关联模式,可能在高层数据间显著。比如能在高层数据间显著。比如“羽毛球拍羽毛球拍=MP3=MP3和和“起跑器起跑器=数字摄像机不一定足够频数字摄像机不一定足够频繁,但是他们
31、的超类层面运动器械繁,但是他们的超类层面运动器械=电子电子产品可能是频繁的。产品可能是频繁的。扩展关联规则知识表达的形式和语义不仅能够描述层次结构中最低层数据项之间的关联,而且还能够描述层次中高数据类之间的关联。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第41页一个直接用一个直接用Apriori方法挖掘广义关联规则的做法是转换数据。基本思路是将此方法挖掘广义关联规则的做法是转换数据。基本思路是将此次结构的所有高层数据超类也作为数据项放入数据库中。例题详解如下:次结构的所有高层数据超类也作为数据项放入数据库中。例题详解如下:某数码店销售笔记本电脑、打印机和数码相机三种
32、产品:某数码店销售笔记本电脑、打印机和数码相机三种产品:笔记本电脑:笔记本电脑:DELL D6DELL D6,Sony S3Sony S3,Sony T7Sony T7打印机:打印机:HP1010HP1010,HP4300HP4300,Canon LBP5200Canon LBP5200数码相机:数码相机:Canon EOS-7DCanon EOS-7D, Canon Ixus700 Canon Ixus700,Sony DSC-V3Sony DSC-V3商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第42页数码店销售记录数码店销售记录TID顾客顾客产品产品1张三DEL
33、LD6,HP10102李四DELLD6,CanonLBP5200,SonyDSC-V33张三SonyS3,CanonLBP52004王五DELLD6,HP43005李四SonyT7,CanonLBP52006王五CanonLBP52007李四HP1010,HP4300,CanonEOS-7D8李四CanonIxus7009张三CanonEOS-7D,SonyDSC-V310王五CanonIxus700笔记本电脑笔记本电脑打印机打印机数码相机数码相机商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第43页数码产品的层次结构数码产品的层次结构笔记本电脑笔记本电脑DELLDEL
34、L笔记本电脑笔记本电脑SONYSONY笔记本电脑笔记本电脑DELL D6DELL D6Sony S3Sony S3Sony T7Sony T7打印机打印机CanonCanon打印机打印机HPHP打印机打印机Canon Canon LBP5200LBP5200HP 4300HP 4300HP 1010HP 1010数码相机数码相机SonySony数码相机数码相机CanonCanon数码相机数码相机Sony Sony DSC-V3DSC-V3Canon Canon EOS-7DEOS-7DCanon Canon Ixus700Ixus700商务智能原理与方法商务智能原理与方法2022-2-2版权所
35、有,不得翻印第44页如果设定的最小支持度为如果设定的最小支持度为30%,最小置信度为,最小置信度为100%,则合格的关联规则有:,则合格的关联规则有:1-itemsets支持度支持度2-itemsets支持度支持度DELLD60.3DELLD6,打印机0.3CanonLBP52000.4CanonLBP5200,笔记本电脑0.3DELLDELL笔记本电脑笔记本电脑0.3DELLDELL笔记本电脑笔记本电脑,打印机0.3笔记本电脑0.5笔记本电脑,CanonCanon打印机打印机0.3CanonCanon打印机打印机0.4笔记本电脑,打印机0.5HPHP打印机打印机0.3打印机0.7CanonC
36、anon数码相机数码相机0.4数码相机0.5规则规则支持度支持度置信度置信度DELLD6=打印机0.31DELLDELL笔记本电脑笔记本电脑=打印机0.31笔记本电脑=打印机0.51商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第45页在广义关联规则的挖掘中,可以引入一些性质或兴趣性测度来进行剪枝和过滤在广义关联规则的挖掘中,可以引入一些性质或兴趣性测度来进行剪枝和过滤低质量的规则低质量的规则n超类和其所属子类之间的关联没有意义:MP3=电子产品n另外子类/超类之间的关系也会造成一定的冗余:n比如:“DELL笔记本电脑=打印机和“笔记本电脑=打印机”。我们知道笔记本电脑
37、中有60%是DELL笔记本电脑,所以上述两个规则并没带来什么特别不同于“平均期望的信息即Dsupp笔记本电脑=打印机X0.6=0.3),规则“DELL笔记本电脑=打印机可以剔除。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第46页数量关联规则:在实际中,碰到的数据通常是类别数据或数值数据,如商品的数量关联规则:在实际中,碰到的数据通常是类别数据或数值数据,如商品的数量、家庭的收入和客户的年龄等,这些数据属性分别成为多值属性和连续属数量、家庭的收入和客户的年龄等,这些数据属性分别成为多值属性和连续属性。基于多值和连续属性的关联规则称为数量关联规则性。基于多值和连续属性的
38、关联规则称为数量关联规则n我们考虑的超市问题,我们以往只考虑“是否购买的问题,而没有考虑“购买多少的问题。基于Apriori算法挖掘数量关联规则的一个方法是进行数据转换。采用离散化的方法划分连续属性的值域。将每一个离散化得到的区间属性如年龄30,50)作为一个新属性,并且将原数据值在此区间上的匹配结构形成一个相应的布尔真值。比如,如果原纪录t年龄为45,我们划定的年龄属性30,50为布尔值1,那么t的布尔值就为1;如果原记录年龄t为25,则其布尔值为0.n通常一个数量关联规则知识形式的例子为:水果15KG=饮料212L显然,数据划分的结构对数据挖掘的结果又很大的影响,因此,设计和选择合适的离散
39、化方法是人们研究和应用的课题。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第47页关联规则关联规则关联规则简介关联规则简介关联规则挖掘方法关联规则挖掘方法关联规则兴趣性关联规则兴趣性关联规则知识形式扩展关联规则知识形式扩展简单关联规则简单关联规则小结及练习小结及练习目目 录录商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第48页简单关联规则:即规则后项为单个数据项的关联规则简单关联规则:即规则后项为单个数据项的关联规则n合格关联规则:满足给定支持度阈值和置信度阈值的关联规则叫做合格关联规则。n把已知数据集挖掘出来的所有合格关联规则的集合记为:=
40、X=Y|Dsupp(X=Y),Dconf(X=Yn假如在中有两个规则:r1:打印机=打印纸,Dconf(r1)=80%nr2:打印机和打印纸=文件夹,Dconf(r1)=90%n那么我们可知道规则r3:打印机=打印纸和文件夹,Donf(r3)=?商务智能原理与方法商务智能原理与方法2022-2-2版权所有,不得翻印第49页通过上页例子我们可得到如下两个性质:通过上页例子我们可得到如下两个性质:nDconfX=YZ)=DconfX=YXDconf(XY=Z)n=DconfX=ZXDconf(XZ=Y)nDsuppX=YZ)=DsuppXY=Z)=DsuppXZ=Y)n这两个性质说明,只要给定了X=Y及XY=Z的支持度和置信度,就可以计算出X=YZ的支持度和置信度,也就可以掌握规则X=Yz的全部信息。从另一方面可以看出X=YZ可以看做是冗余的。如果中存在这样三个规则,X=Y,XY=Z,X=YZ,那么X=YZ可以去掉。商务智能原理与方法商务智能原理与方法2022-2-2版权所有,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西湖大学《行政秘书学》2024-2025学年第二学期期末试卷
- 长沙师范学院《社会学概论B》2024-2025学年第二学期期末试卷
- 海尔会计内部控制制度
- 混凝土内部管理制度
- 烤漆内部环保管理制度
- 煤矿内部监控管理制度
- 煤矿环保内部培训制度
- 环保行政审批内部制度
- 甲方内部工程管理制度
- 监理单位内部控制制度
- 成都高投集团招聘笔试题
- 第1课 身心健康很重要 课件 2025-2026学年道德与法治二年级下册统编版
- 2025至2030中国农业无人机市场供需格局及政策导向深度研究报告
- 2025年江西生物科技职业学院单招职业技能考试题库附答案解析
- VDA 19.1 装配技术清洁度检测培训课件
- 汽车起动机课件
- 2025-2026秋期末考试质量分析报告:剖析考试数据查找薄弱环节优化教学策略促提升
- 2025年华电校招要笔试及答案
- 2025年湖北襄阳特长生自主招生数学试卷真题(含答案详解)
- 南瑞集团在线测评试题
- 学校德育活动评估标准体系
评论
0/150
提交评论