版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章关联分析Chapter3:AssociationAnalysis主要内容3.1频繁模式与关联规则3.2频繁项集的典型挖掘方法3.3关联规则的生成方法3.4关联规则的其他类型3.5关联规则的兴趣度的其他度量3.1频繁模式与关联规则从交易数据库、关系数据库以及其他的数据集中发现项或对象的频繁模式(frequentpatterns)、关联(associations)的过程buys(x,“diapers”)®buys(x,“beers”)[0.5%,60%]Rao,SrikumarS.“Diaper-beerSyndrome,”Forbes,April6,1998.pp.128–130outlooktemperaturehumiditywindyplaysunnyhothighFALSEnosunnyhothighTRUEnoovercasthothighFALSEyesrainymildhighFALSEyesrainycoolnormalFALSEyes交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts交易数据库Transactionaldatabase
每个交易:由顾客一次购买的商品(items)组成I={i1,i2,…,im}项集(Itemset):x={ij1,ij2,…,ijp},ijiI每个项集包含的项的个数,称为项集的长度,一个长度为k的项集又称为k项集。I={A,B,C,D,E,F}2项集:AC,AD支持度(Support)交易包含项集X的概率
E.g.X={A},Y={A,B}=AB若support(X)>=minsup,则X称为频繁项集(frequentitemset),也可以说X是频繁的.设minsup=50%
{A:3,B:3,D:4,E:3,AD:3}TIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F闭合频繁项集一个频繁项集X
被称为闭合频繁项集(closedfrequentitemset)当且仅当不存在任一个项集Y
满足X
Y
且support(Y)=support(X)。闭合频繁项集X
被称为是闭合的。例如:A是频繁的,但不是闭合的,因为support(AD)=support(A),且
AADTIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F关联规则给定两个项集X和Y,关联规则是形如X→Y的蕴含式X
I称为规则的前件,Y
I称为规则的后件,X∩Y=
规则X→Y
的支持度(support)support(X→Y)=support(X∪Y)规则X→Y
的置信度(confidence)SupportandconfidenceTransaction-idItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F关联规则:X
Ysupport(X
Y)=support(X∪Y)=|TXY|/nE.g:X={A}Y={C}support(A
C)=support(AC)=0.2X={A,D}=ADY=Csupport(AD
C)=support=(ADC)=0.2SupportandconfidenceTIDItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F置信度(confidence)Confidence(X
Y)=|TXY|/|TX|=sup(XY)/sup(X)A
C(20%,33%)AD
C(20%,50%)买尿片的交易同时买啤酒和尿片的交易买啤酒的交易关联规则的挖掘给定如下阈值minimumsupport:minsupMinimumconfidence:
minconf发现所有形如X
Y
的关联规则,满足Support(XY)≥minsupConfidence(XY)≥minconf3.2频繁项集的典型挖掘方法3.2.1逐层发现算法AprioriApriori(Agrawal&Srikant@VLDB’94)3.2.2无候选集发现算法FP-growthFreq.patterngrowth(FPgrowth—Han,Pei&Yin@SIGMOD’00)其他方法:Verticaldataformatapproach(Charm—Zaki&Hsiao@SDM’02)Highdimensionaldataset:TD-close(Liu,Han,etal.@ICDE06)…3.2.1逐层发现算法Apriori主要步骤k=1统计每个k项候选集的支持度,找出频繁的k项集:Lk利用频繁的k项集生成k+1项候选集(Candidateitemset
):Ck+1k=k+1;转至步骤2示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2minsup=2/4如何生成候选项集?性质1:给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。if{beer,diaper}isfrequent,sois{beer}and{diaper}If{beer}isnotfrequent,{beer,diaper}isnotfrequentApriori剪裁规则:若存在某些项集是不频繁的,则这些项集的任何超集都是不频繁的,因而无须生成和测试。如何生成候选项集?假设每个Lk
中的项集的项都是按顺序排列的步骤1:两两组合
Lk中项集生成
Ck+1步骤2:裁剪(pruning)如何生成候选项集?假设项集的项按字母序排列:beer<bread<butter<cheese<diaper<nuts如何生成候选项集?步骤1
abcd
abce设p和q
是Lk
中的两个项集,满足时生成(k+1)项集:
p.item1=q.item1,…,p.itemk-1=q.itemk-1,
p.itemk<q.itemkp.item1p.item2…p.itemk-1p.itemkq.item1q.item2…q.itemk-1q.itemkp.item1p.item2…p.itemk-1p.itemkq.itemk如何生成候选项集?步骤1字母序:a<b<c<d<eL3={abc,abd,acd,ace,bcd}abcdfromabcandabdacdefromacdandaceC4={abcd,acde}L3item1item2item3abcabdacdacebcd如何生成候选项集?步骤2删除那些包含非频繁k项集的(k+1)项集E.g:L3={abc,abd,acd,ace,bcd},C4={abcd,acde}由于{cde}不频繁,所以acde不可能频繁
C4={abcd}DatabaseTDB1stscanC1C2C22ndscanL33rdscanC3L1L2TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2Supmin=23.2.2无候选集发现算法FP-growthFPgrowth—Han,Pei&Yin@SIGMOD’00采用一种树的数据结构(FP-tree)来实现频繁项集的发现,不需要先生成候选项集FP-tree的特点完整性保留了用于挖掘频繁项集的所有信息紧凑性减少了与频繁项集挖掘无关的信息,F-list:高频项更多机会被不同交易共享永远小于原来的交易数据库TID Itemsbought 100 {f,a,c,d,g,i,m,p}
200 {a,b,c,f,l,m,o}300
{b,f,h,j,o,w}
400
{b,c,k,s,p}
500
{a,f,c,e,l,p,m,n}
算法:FP-growthHeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3minsup=3/5扫描交易数据库,找出所有频繁单项按照支持度降序排列所有频繁单项,得到f-list扫描交易数据库,构建FP-treeT调用mineTree(T,}f-list=f-c-a-b-m-p{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1FP-treeTID (ordered)frequentitems100
{f,c,a,m,p}200 {f,c,a,b,m}300
{f,b}400
{c,b,p}500
{f,c,a,m,p}频繁项集的分割频繁项集的集合可以分为若干个不相交的子集例如:F-list=f-c-a-b-m-p所有包含p的项集含有m不包含p的项集…含有c
不含a,b,m,p的项集项f生成条件模式库(conditionalpatternbase)从头表(headertable)开始
通过指针链遍历FP-tree找到所有包含某项如p的分支合并相同前缀路径,构成
p条件模式库Conditionalpatternbasesitem cond.patternbasec f:3a fc:3b fca:1,f:1,c:1m fca:2,fcab:1p fcam:2,cb:1{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3FP-tree:T100{f,c,a,m,p}200 {f,c,a,b,m}300
{f,b}400
{c,b,p}500
{f,c,a,m,p}mineTree(T,X)以p为例:X=
;生成并输出频繁项集X∪{p}=p,support=3生成p的条件模式库统计单项频率:c:3,f:2,a:2,m:2,
b:1为条件模式库构建FP-tree:
TpX={p},调用mineTree(Tp,X){}c:3HeaderTableItemfrequencyheadc 3Tpfcam:2cb:1优化对单支前缀路径特殊处理,减少处理时间设minsup=2(出现2次)图3.2频繁模式树T项集频数abc2abd2表3.3项e的条件模式库优化
图3.3项e的频繁模式树Te
图3.4频繁模式树Te的多分支部分Q单支前缀路径ab:5,生成与e的所有组合,即S={ae:4,be:4,abe:4}将此路径用一个空的根节点替换,生成树Q,分别对单项c和d处理,分别生成了1个项集,ce和de,构成集合M={ce:2,de:2}返回S∪M∪(S
M),S
M={ace:2,ade:2,bce:2,bde:2,abce:2,abde:2}挖掘高维度数据集中的频繁项集Carpenter(Pan,etal.@KDD’03)MinedatasetswithsmallrowsbutnumerouscolumnsConstructabottom-uprow-enumerationtreeforefficientminingTD-close(Liu,Han,etal.@ICDE06)MinedatasetswithsmallrowsbutnumerouscolumnsConstructaTop-downrow-enumerationtreeforefficientminingMiningFrequentPatternsfromVeryHighDimensional
Data:ATop-DownRowEnumerationApproach
HongyanLiuTsinghuaUniversityJiaweiHan,DongXin,ZhengShao
UniversityofIllinoisatUrbana-Champaign低维度--高维度TIDItems1A,C,D2B,C,E3A,B,C,E4B,E567…100000TIDItems1Pj1,Pj2,…,Pj100002Pk1,Pk2,…,Pk9993Pl1,Pl2,…,Pl2000…56Pm1,Pm2,…,Pm6000行枚举方法riABCD1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d310/29/2023Minsup=2TableTTransposedTableitemsetrowseta11,2,3a24,5b11,2,3,4c11,3c22,4,5d22,3,410/29/2023自上而下的挖掘策略1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d313a1b1c124b1c2d225c234b1d245a2c2351514b123a1b1d2245c2234b1d2134b1124b1123a1b113512514523534512a1b11245134523451234b11235Minsup=31234510/29/2023自上而下、分而治之的递归挖掘345134523451234545a2c2245c214512455a2b2c2d325c2351513512523512351a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d213a1b1c124b1c2d234b1d214b123a1b1d2234b1d2134b1124b1123a1b112a1b11234b1Without5With5w/o4With45w/o3With345w/o2With2345w/o1Divide-and-conquer3.3关联规则的生成方法生成关联规则为每个频繁项集l,生成非空子集s;若满足
则输出规则:(l-s)
se.g:l=ABCD,s=D,(l-s)=ABCconfidence(ABC
D)=support(ABCD)/support(ABC)生成关联规则minconf=80%For{BCE}:Confidence(BE
C)<80%,Confidence(BC
E)>80% Confidence(CE
B)>80%
Confidence(B
CE)<80%
Confidence(E
BC)<80%
Confidence(C
BE)<80%
L1L2L3生成关联规则minconf=80%For{BCE}:Confidence(BE
C)<80%,Confidence(BC
E)>80% Confidence(CE
B)>80%confidence(C
BE):<80%L1L2L3生成关联规则ForBCE,Confidence(BE
C)<80%,HowaboutB
ECandE
BC?生成关联规则对于频繁项集l=ABCD若BCDA和ACDB
都成立
则CDAB
有可能成立.若CDAB,BDAC,和ADBC都成立,
则DABC
有可能成立3.4关联规则的其他类型关联规则的类型多层次关联规则什么品牌的啤酒和尿片(diapers)有关联?负关联规则、无关规则(dissociationrule)playbasketball
noteatcereal[20%,33.3%]结构化数据中的关联分析多层次关联规则项有概念层次性低层的项通常具有较低的支持度将项抽象到一定高的层次产生的规则更有意义一个超市的库存中至少有10000个项FoodbreadmilkskimSunsetFraser2%whitewheat
milk→bread[20%,60%].2%milk→wheatbread[6%,50%].多层次关联规则两类单层 F→GBC→E多层 FC→ETidItems10A,C,D20B,C,E30A,B,C,E40B,EHGFAEBDC负模式负项与正项
当项ik
没有出现在某个给定的交易中,称该项对于该交易是个负项,记为
,与此对应,出现在该交易中的每个项id
称为正项。负项集与负关联规则
一个包含负项的项的集合称为负项集。一个负项集的支持度如果不小于用户给定的最小支持度,则称为频繁负项集
负关联规则:包含负项的关联规则。负项集和负关联规则统称为负模式。负关联规则、无关规则(dissociationrule)TIDItems1A,B,
C,D
2
A,B,C,D
3A,B,
C,D
4A,C,D,B
发现带有“非Ii”的规则:(A,
B)→CTIDItems1A,B2B,C3A,C4A,C,DTIDITEMS1age30,income=high,student=no,credit_rating=fair,buys_PC=no2age30,income=high,student=no,credit_rating=excellent,buys_PC=no3age30,income=medim,student=no,credit_rating=fair,buys_PC=no4age30,income=low,student=yes,credit_rating=fair,buys_PC=yes5age30,income=medium,student=yes,credit_rating=excellent,buys_PC=yes…14Age40,income=medium,student=no,credit_rating=excellent,buys_PC=no结构化数据集非结构化转化为结构化交易号(TID)Beerdiapernutsbiscuitbreadbuttercheese1111
211
1
3
1114111
151
1
11交易号(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年宝鸡岐山县中医医院招聘(2人)笔试参考题库及答案解析
- 2026年上海政法学院附属松江学校实习教师招募笔试备考题库及答案解析
- 2026年上半年四川广安市岳池县“小平故里英才计划”引进急需紧缺专业人才6人笔试参考题库及答案解析
- 2026年中国科学技术大学资产与后勤保障处劳务派遣岗位招聘考试备考题库及答案解析
- 2026四川绵阳师范学院招聘非事业编制专任教师5人笔试参考题库及答案解析
- 2026年甘肃政法大学第一批考核招聘急需紧缺专业人才笔试备考题库及答案解析
- 2026春季中石油燃料油有限责任公司高校毕业生招聘5人考试模拟试题及答案解析
- 2026江苏连云港市灌云县招聘就业困难人员公益性岗位39人笔试备考试题及答案解析
- 2026江西抚州宜黄县民政事务中心招聘就业见习人员2人笔试备考试题及答案解析
- 2026年西安交通大学第二附属医院招聘(183人)考试模拟试题及答案解析
- (正式版)DB14∕T 3507-2025 《公路桥梁墩身纠偏技术规程》
- 情侣关系解除协议书模板
- 电梯井道作业平台技术规程DB11∕T 1847-2021
- QC/T 1220-2025商用车离合器用液压软管总成
- 2025年住院医师规培-湖北-湖北住院医师规培(整形外科)历年参考题库含答案解析
- 2025~2026学年度下学期八年级期中考试 历史(含答题卡、答案)
- 船舶试航作业计划方案(3篇)
- 2025新能源风电场规范化管理导则
- RCO运行管理制度
- 村委会工作报告模板
- 浙江省9+1联盟2024-2025学年高一下学期4月期中物理试题(PDF版含答案)
评论
0/150
提交评论