2025年关联规则试题及答案_第1页
2025年关联规则试题及答案_第2页
2025年关联规则试题及答案_第3页
2025年关联规则试题及答案_第4页
2025年关联规则试题及答案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年关联规则试题及答案一、单项选择题(每题3分,共15分)1.关联规则挖掘中,支持度(Support)反映的是()A.规则的强度B.项集出现的频繁程度C.规则的可信度D.规则的实用性2.若事务数据库中包含1000条事务,某2-项集{X,Y}的支持度计数为150,则其支持度为()A.15%B.20%C.25%D.30%3.Apriori算法的核心思想是()A.利用先验性质(向下封闭性)减少计算量B.直接提供所有可能的项集并计算支持度C.通过聚类分析发现关联模式D.基于决策树划分事务集4.某关联规则X→Y的置信度为0.8,提升度(Lift)为1.2,说明()A.X和Y独立B.X的出现对Y的出现有正向促进作用C.X的出现对Y的出现有抑制作用D.规则的支持度不足5.闭频繁项集(ClosedFrequentItemset)的定义是()A.所有超集的支持度都小于该项目集的支持度B.所有子集的支持度都等于该项目集的支持度C.不存在真超集与该项目集有相同的支持度D.包含所有频繁1-项集的最大项集二、填空题(每题3分,共15分)1.关联规则的基本形式为X→Y,其中X和Y是________且不相交的项集。2.支持度的计算公式为:Support(X→Y)=________。3.Apriori算法中,提供k-候选项集(Ck)的两个步骤是________和剪枝。4.若规则X→Y的置信度等于Y的支持度,则X和Y的提升度为________。5.关联规则挖掘的主要任务包括发现频繁项集和________。三、简答题(每题8分,共32分)1.简述支持度和置信度在关联规则挖掘中的作用。2.说明Apriori算法如何通过逐层搜索策略提供频繁项集。3.提升度(Lift)与置信度的区别是什么?为什么需要引入提升度?4.关联规则挖掘中可能遇到的主要挑战有哪些?(至少列举3点)四、计算题(28分)某智能家居平台收集了用户一周内的设备使用事务数据(共8条事务),事务ID与包含的设备项如下表所示(设备项用A、B、C、D、E表示,分别代表智能音箱、智能灯泡、智能插座、智能门锁、智能摄像头):事务ID设备项集合T1{A,B,C}T2{A,B,D}T3{B,C,E}T4{A,C,D}T5{A,B,C,E}T6{B,D,E}T7{A,C,D,E}T8{A,B,C,D}假设最小支持度阈值为30%(即支持度计数≥3),最小置信度阈值为60%。请完成以下任务:(1)计算所有1-项集的支持度计数,并筛选出频繁1-项集(L1);(2)基于L1提供候选2-项集(C2),计算每个候选的支持度计数,筛选出频繁2-项集(L2);(3)基于L2提供候选3-项集(C3),通过剪枝和支持度计数筛选出频繁3-项集(L3);(4)从L3中提供所有可能的关联规则(X→Y,其中X和Y非空且X∩Y=∅),计算每条规则的置信度和提升度,筛选出满足最小置信度的强关联规则,并判断其提升度是否大于1。五、综合应用题(30分)某电商平台为优化促销策略,收集了用户购买数据(部分事务如下表),其中商品包括:手机(M)、耳机(E)、充电宝(P)、保护壳(C)、平板(T)。平台希望通过关联规则挖掘分析用户购买行为,为“满299减50”促销活动提供组合推荐依据。事务ID购买商品集合1{M,E,C}2{M,P,C}3{E,P,T}4{M,E,P,C}5{M,T,C}6{E,P,C}7{M,E,T}8{M,P,T}9{E,P,C,T}10{M,E,P}(1)假设最小支持度为25%(支持度计数≥3),最小置信度为70%,使用Apriori算法挖掘频繁项集(至少到3-项集);(2)从频繁项集中提供强关联规则(至少3条),并计算每条规则的提升度;(3)结合业务场景,分析这些规则对促销活动的指导意义(如商品组合推荐、库存策略等)。答案一、单项选择题1.B2.A3.A4.B5.C二、填空题1.非空2.Support(X∪Y)(或事务中同时包含X和Y的比例)3.连接(或候选项集提供)4.15.提供有效关联规则三、简答题1.支持度反映项集在事务中出现的频繁程度,用于筛选“有意义”的模式(避免挖掘偶然出现的规则);置信度反映规则的可信度,即包含X的事务中同时包含Y的比例,用于筛选“可靠”的规则。两者共同过滤低支持度(无统计意义)和低置信度(不可靠)的规则。2.Apriori采用逐层搜索策略:首先提供所有1-项集并计算支持度,筛选出频繁1-项集L1;然后利用L1提供候选2-项集C2(通过连接步:将L1中项集两两连接提供2-项集),通过剪枝步(删除包含非频繁子集的候选项)得到C2,计算支持度后得到L2;重复此过程,用Lk-1提供Ck,剪枝后计算支持度得到Lk,直到无法提供更大的频繁项集为止。3.置信度是条件概率P(Y|X),仅反映X出现时Y出现的概率;提升度是P(Y|X)/P(Y),反映X的出现对Y出现的影响程度。引入提升度是因为置信度可能高估规则的价值(例如,若Y本身很频繁,即使X和Y独立,置信度也可能较高),而提升度>1时说明X和Y正相关,提升度=1时独立,提升度<1时负相关,更全面评估规则的实际价值。4.主要挑战包括:(1)数据规模大时计算复杂度高(项集数量指数级增长);(2)冗余规则过多(如包含关系的规则可能重复);(3)噪声数据影响(低质量事务导致支持度/置信度计算偏差);(4)规则的实际意义与统计显著性不一致(可能挖掘出统计显著但无业务价值的规则);(5)最小支持度和置信度阈值的选择(阈值过高可能遗漏有价值的规则,过低则产生大量冗余规则)。四、计算题(1)1-项集支持度计数:A出现次数:T1,T2,T4,T5,T7,T8→6次;B出现次数:T1,T2,T3,T5,T6,T8→6次;C出现次数:T1,T3,T4,T5,T7,T8→6次;D出现次数:T2,T4,T6,T7,T8→5次;E出现次数:T3,T5,T6,T7→4次;最小支持度计数≥3,故L1={A(6),B(6),C(6),D(5),E(4)}(括号内为支持度计数)。(2)提供C2:L1中项两两组合,共C(5,2)=10个候选:AB,AC,AD,AE,BC,BD,BE,CD,CE,DE。计算各候选支持度计数:AB:T1,T2,T5,T8→4次;AC:T1,T4,T5,T7,T8→5次;AD:T2,T4,T7,T8→4次;AE:T5,T7→2次(<3,剪枝);BC:T1,T3,T5,T8→4次;BD:T2,T6,T8→3次;BE:T3,T5,T6→3次;CD:T4,T7,T8→3次;CE:T3,T5,T7→3次;DE:T6,T7→2次(<3,剪枝)。故L2={AB(4),AC(5),AD(4),BC(4),BD(3),BE(3),CD(3),CE(3)}。(3)提供C3:通过连接L2中项集(前k-2项相同),并剪枝(检查所有2-子集是否在L2中)。可能的候选:ABC(子集AB,AC,BC均在L2中);ABD(子集AB,AD,BD均在L2中);ABE(子集AB,AE不在L2中,剪枝);ACD(子集AC,AD,CD均在L2中);ACE(子集AC,AE不在L2中,剪枝);BCD(子集BC,BD,CD均在L2中);BCE(子集BC,BE,CE均在L2中);BDE(子集BD,BE,DE不在L2中,剪枝);CDE(子集CD,CE,DE不在L2中,剪枝)。计算各候选支持度计数:ABC:T1,T5,T8→3次(≥3);ABD:T2,T8→2次(<3,剪枝);ACD:T4,T7,T8→3次(≥3);BCD:T8→1次(<3,剪枝);BCE:T3,T5→2次(<3,剪枝)。故L3={ABC(3),ACD(3)}。(4)从L3提供关联规则(以ABC为例):可能的规则:A→BC,B→AC,C→AB,AB→C,AC→B,BC→A。计算置信度和提升度(以AB→C为例):支持度计数AB=4,AB→C的支持度计数=3(ABC出现3次),故置信度=3/4=75%≥60%;Y=C的支持度=6/8=75%,提升度=0.75/(0.75)=1(说明AB和C独立)。其他规则示例:AC→B:支持度计数AC=5,AC→B的支持度计数=3(ABC出现3次),置信度=3/5=60%≥60%;Y=B的支持度=6/8=75%,提升度=0.6/0.75=0.8<1(负相关)。从ACD提供规则(如AC→D):支持度计数AC=5,AC→D的支持度计数=3(ACD出现3次),置信度=3/5=60%≥60%;Y=D的支持度=5/8=62.5%,提升度=0.6/0.625=0.96≈1(接近独立)。最终强关联规则(置信度≥60%):AB→C(置信度75%,提升度1)、AC→B(60%,0.8)、AC→D(60%,0.96)等,但仅AB→C的提升度等于1,其余提升度≤1,说明实际促进作用有限。五、综合应用题(1)挖掘频繁项集(支持度计数≥3):1-项集L1:M(7),E(7),P(6),C(7),T(5)(支持度计数分别为7、7、6、7、5);2-项集C2由L1提供,筛选后L2:ME(5),MP(4),MC(6),MT(3),EP(5),EC(6),ET(3),PC(5),PT(3),CT(3);3-项集C3由L2提供(如MEC:子集ME,MC,EC均在L2中),计算支持度计数:MEC:事务1,4,6→3次(支持度30%≥25%);EPC:事务3,4,6,9→4次(40%≥25%);MPC:事务2,4→2次(<3,剪枝);MCT:事务5→1次(剪枝);故L3={MEC(3),EPC(4)}。(2)提供强关联规则(置信度≥70%):规则1:ME→C(支持度计数ME=5,ME→C的支持度计数=3(MEC出现3次),置信度=3/5=60%<70%,不满足);规则2:EC→M(支持度计数EC=6,EC→M的支持度计数=3(MEC出现3次),置信度=3/6=50%<70%);规则3:EP→C(支持度计数EP=5,EP→C的支持度计数=4(EPC出现4次),置信度=4/5=80%≥70%;Y=C的支持度=7/10=70%,提升度=0.8/0.7≈1.14>1);规则4:PC→E(支持度计数PC=5,PC→E的支持度计数=4(EPC出现4次),置信度=4/5=80%≥70%;Y=E的支持度=7/10=70%,提升度≈1.14>1);规则5:E→PC(支持度计数E=7,E→PC的支持度计数=4(EPC出现4次),置信度=4/7≈57.1%<70%);规则6:MP→C(支持度计数MP=4,MP→C的支持度计数=2(事务2,4),置信度=2/4=50%<70%);有效强关联规则:EP→C、PC→E(置信度80%,提升度≈1.14)。(3)业务建议:①商品组合推荐:EP(耳机+充电宝)与C(保护壳)的关联规则提升度>1,说明购买耳机和充电宝的用户更可能购买保护壳,可将三者组合为“数码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论