版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘基础与案例习题参考答案第5章关联分析概念与方法习题1:1)高支持度和高置信度的规则。高支持度和高置信度的规则通常表现为常见商品之间的强关联关系。例如,规则"牛奶→面包"“豆浆→油条”等可能具有高支持度和高置信度,表明这两种商品经常被一起购买,且购买牛奶的顾客有很大概率会购买面包。这类规则反映了大众化的消费习惯,适合用于基础的商品陈列优化和常规促销组合设计,但由于过于明显,可能缺乏新颖性,营销价值有限。2)高支持度和低置信度的规则。高支持度和低置信度的规则表现为常见商品之间的弱关联。例如规则"牛奶→啤酒"“汽水→雪糕”等可能支持度较高但置信度较低,说明虽然两种商品都很常见,但一起购买的概率不高。这类规则普遍性高但关联性弱,通常没有实际应用价值,可能反映商品之间的替代关系而非互补关系。3)低支持度和高置信度的规则。低支持度高置信度的规则表现为小众商品之间的强关联关系,经典案例如是"尿布→啤酒"“专业相机→高端镜头”等。这类规则虽然不常见,但关联性极强,具有较高的商业洞察价值,适合用于精准营销和特殊人群的定向促销,应用中需要结合提升度等指标进一步验证其实际价值。4)低支持度和低置信度的规则。低支持度和低置信度的规则表现为不常见商品之间的弱关联。这类规则通常没有实际应用价值,可能是数据中的噪声,在商业决策中可以安全忽略。在实际应用中,理想的关联规则应同时具备较高的支持度、置信度和提升度,并且与业务目标高度相关。对于特殊场景(如奢侈品销售、细分场景或专业领域分析),可适当放宽支持度要求,重点考察置信度和提升度。习题2:1)将每个事务看做一个购物篮,则事务数据集包含10个事务,易得项集{e}的支持度为0.8,项集{b,d}的支持度为0.2,项集{b,d,e}的支持度为0.2。2)关联规则{b,d}→{e}的置信度为1,关联规则{e}→{b,d}的置信度为0.25。由置信度的计算公式可知,反演(将项的出现与不出现对调)会改变条件概率的计算结果,置信度不是反演不变的。同时,添加不包含任何项的事务会改变分母,从而影响置信度,因此置信度也不满足零加性。再者,对事务数据进行缩放会改变支持度,从而影响置信度,因此置信度也不满足缩放不变性。3)将每个顾客看做一个购物篮,则数据集整合为如下表所示内容:购物篮数据示例顾客ID项目1{2{3{4{a,b,5{则事务数据集包含5个事务,易得项集{e}的支持度为0.8,项集{b,d}的支持度为0.8,项集{b,d,e}的支持度为0.8。4)此时,关联规则{b,d}→{e}的置信度为1,关联规则{e}→{b,d}的置信度为1。习题3:1)使用Fk-1×Fk-1方法产生候选4-项集,保持5个项的字典顺序,将前2项相同、第3项不同的两个频繁{1,2,3}×{1,2,4}→{1,2,3,4}{1,2,3}×{1,2,5}→{1,2,3,5}{1,2,4}×{1,2,5}→{1,2,4,5}{1,3,4}×{1,3,5}→{1,3,4,5}{2,3,4}×{2,3,5}→{2,3,4,5}至此得到所有的5个候选4-项集,开始进行剪枝操作。2)基于先验原理,5个候选4-项集中,项集{1,2,4,5}的子集{1,4,5}和{2,4,5}不在频繁3-项集的集合中,将其剪枝;项集{1,3,4,5}的子集{1,4,5}不在频繁3-项集的集合中,将其剪枝;项集{2,3,4,5}的子集{2,4,5}不在频繁3-项集的集合中,将其剪枝。至此得到所有的2个频繁4-项集的集合{{1,2,3,4},{1,2,3,5}}。习题4:首先将事务{1,3,4,5,8}进行散列,得到所有3-项集的hash树结构,再与候选3-项集的hash树进行对比,确定哪些候选3-项集的支持度计数加1。事务{1,3,4,5,8}散列后的hash树结构如下图所示:则候选3-项集{1,4,5}、{1,5,8}和{4,5,8}的支持度计数加1。习题5:1)由表可知,总事务数为5,支持度阈值20%,置信度阈值20%,则最小支持度计数为1。基于Apriori算法生成频繁项集的过程如下,需要注意的是,Apriori算法生成候选项集时要将项进行排序,此处每次生成候选项集均按面包、果酱、花生酱、牛奶和啤酒的的顺序排序(此处应严格按字典序排序,此处读者可使用字典序进行,对比结果是否不同)。首先生成频繁1-项集,由于最小支持度计数为1,即所有单项均为频繁1-项集,则频繁1-项集为{面包},{果酱},{花生酱},{牛奶},{啤酒}。接着生成频繁2-项集,通过L₁自连接生成候选2-项集,并计算支持度,得到频繁2-项集,各候选2-项集的支持度计数和支持度如下表所示:候选2-项集支持度计数支持度{面包,果酱}120%{面包,花生酱}360%{面包,牛奶}120%{面包,啤酒}120%{果酱,花生酱}120%{果酱,牛奶}00{果酱,啤酒}00{花生酱,牛奶}120%{花生酱,啤酒}00{牛奶,啤酒}120%基于支持度阈值得到频繁2-项集为:{面包,果酱},{面包,花生酱},{面包,牛奶},{面包,啤酒},{果酱,花生酱},{花生酱,牛奶},{牛奶,啤酒}。继续生成频繁3-项集,通过L2×L2方法生成候选3-项集,并检查子集是否频繁,再筛选出频繁3-项集,各候选2-项集的支持度计数和支持度见下表。候选3-项集不频繁的子集支持度计数支持度{面包,果酱,花生酱}无120%{面包,果酱,牛奶}{果酱,牛奶}----{面包,果酱,啤酒}{果酱,啤酒}----{面包,花生酱,牛奶}无120%{面包,花生酱,啤酒}{花生酱,啤酒}----{面包,牛奶,啤酒}无00至此得到频繁3-项集{面包,果酱,花生酱},{面包,花生酱,牛奶}。接着生成频繁4-项集,继续使用L3×L3方法候选4-项集,再删选出频繁4-项集,注意到事务数据集中不存在包含4个项的事务,至此找到所有的14个频繁项集,包括频繁1-项集5个、频繁2-项集7个和频繁3-项集2个。2)从2个频繁3-项集中可以得到的规则及其置信度见下表。频繁3-项集规则规则支持度前件支持度置信度{面包,果酱,花生酱}{面包}→{果酱,花生酱}20%80%25%{果酱}→{花生酱,面包}20%20%100%{花生酱}→{果酱,面包}20%60%33.3%{果酱,花生酱}→{面包}20%20%100%{面包,花生酱}→{果酱}20%60%33.3%{面包,果酱}→{花生酱}20%20%100%{面包,花生酱,牛奶}{面包}→{花生酱,牛奶}20%80%25%{花生酱}→{面包,牛奶}20%60%33.3%{牛奶}→{面包,花生酱}20%40%50%{花生酱,牛奶}→{面包}20%20%100%{面包,牛奶}→{花生酱}20%20%100%{面包,花生酱}→{牛奶}20%60%33.3%以置信度阈值60%可得强关联规则及其业务解释见下表。序号规则置信度业务解释1{果酱}→{花生酱,面包}100%购买果酱的顾客100%会同时购买面包和花生酱,说明花生酱和面包是果酱的强关联商品。2{果酱,花生酱}→{面包}100%购买果酱和花生酱的顾客100%会同时购买面包,说明面包是果酱和花生酱的强关联商品。3{面包,果酱}→{花生酱}100%购买面包和果酱的顾客100%会购买花生酱,说明花生酱是面包和果酱的强关联商品。4{花生酱,牛奶}→{面包}100%购买花生酱和牛奶的顾客100%会购买面包,说明面包是花生酱和牛奶的必备搭配。5{面包,牛奶}→{花生酱}100%购买面包和牛奶的顾客100%会同时购买花生酱,说明花生酱是面包和牛奶的强关联商品。更进一步的,可以基于规则得到如下商业应用建议和销售策略:对于规则{果酱}→{花生酱,面包},对果酱进行促销时,可以捆绑销售面包和花生酱,提高客单价。对于规则{果酱,花生酱}→{面包},在果酱和花生酱区域设置面包展示架,引导顾客购买完整早餐组合。对于规则{面包,果酱}→{花生酱},可以在面包和果酱货架旁陈列花生酱,或设计“早餐三件套”促销组合。对于规则{花生酱,牛奶}→{面包},可以在花生酱和牛奶区域设置醒目的面包促销标识,刺激关联购买。对于规则{面包,牛奶}→{花生酱},可以在面包和牛奶冷藏柜附近放置花生酱,满足顾客“面包+牛奶+花生酱”的早餐需求。具体的销售策略可以实施如下方案,以提升销售额和顾客满意度。捆绑销售,将高置信度组合打包销售,如“面包+果酱+花生酱”套餐;货架优化,将强关联商品陈列在相邻位置;促销设计,对前件商品促销时,推荐后件商品;会员推荐,根据购买记录推送关联商品。习题6:1)从相依表可知,同时购买炸鸡和汉堡的交易数为2000,总交易数为5000,则支持度为2000/5000=40%>25%,同时置信度为2000/3000≈66.67%>50%,由于支持度和置信度均超过阈值,因此"炸鸡→汉堡"是强关联规则。2)P(炸鸡)=3000/5000=0.6,P(汉堡)=2500/5000=0.5,P(炸鸡∩汉堡)=2000/5000=0.4,P(炸鸡狗)×P(汉堡)=0.6×0.5=0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年辽宁省新民市高二化学下册期末考试模拟检测卷附参考答案(黄金题型)
- 2026年湖北省老河口市高二化学下册期末考试模拟卷附完整答案【网校专用】
- 2026-2030中国风衣市场盈利预测与前景营销渠道可行性研究报告
- 2026年吉林省榆树市高二化学下册期末考试模拟卷及参考答案【巩固】
- 2026年湖南省韶山市高二化学下册期末考试模拟卷及答案(基础+提升)
- 2020三年级道德与法治下册 第四单元 多样的交通和通信 13万里一线牵教案 新人教版
- 2025-2026学年李松岳教案
- 2025-2026学年刮版画教学设计
- 2025-2026学年触觉教案活动方案
- 2.3 抛物线教学设计中职基础课-拓展模块-人教版-(数学)-51
- GB/T 47427-2026合成纤维预取向丝(POY)动态热应力试验方法
- 2026年广东省汕头市龙湖区中考一模考试地理试题(含答案)
- 设计单位财务制度
- GA/T 2198-2024法庭科学可疑样品中毒品和易制毒化学品定性定量检验方法通用规则
- 郑州市金水区2025-2026学年第二学期三年级语文期末考试卷(部编版含答案)
- 2026年食品安全规章制度目录清单
- 物流公司业务部管理制度
- 铝屑收集储存安全管理制度(3篇)
- (正式版)DB33∕T 1224-2020 《城市轨道交通结构监测技术规程》
- 2025中考满分作文开头结尾集锦
- 北森测评题库及答案2026
评论
0/150
提交评论