2026年数据挖掘期末考试计算题及答案

上传人：1*** IP属地：四川上传时间：2026-06-21 格式：DOCX 页数：14 大小：24.40KB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年数据挖掘期末考试计算题及答案一、数据预处理（15分）表1为某电商用户行为数据集的部分记录，包含5个样本，属性为年龄（岁）、月收入（元）、近30天消费金额（元）。其中“？”表示缺失值。样本ID年龄月收入近30天消费金额12580001200230？180033512000？428900020005？100001500（1）使用年龄的均值填补缺失值，计算填补后的年龄属性值（3分）年龄非缺失值为25、30、35、28，均值为（25+30+35+28）/4=118/4=29.5。样本5的年龄缺失，填补后年龄属性值为：25、30、35、28、29.5。（2）对填补后的月收入属性进行Z-score标准化（μ=9800，σ=1500），计算样本1的标准化值（3分）Z-score公式为：z=（3）使用IQR方法检测近30天消费金额的异常值，已知Q1=1350，Q3=1950，判断是否存在异常值（3分）IQR=Q3-Q1=1950-1350=600，下界=Q1-1.5×IQR=1350-900=450，上界=Q3+1.5×IQR=1950+900=2850。近30天消费金额数据（填补后假设为1200、1800、1625、2000、1500）均在450-2850范围内，无异常值。（4）说明数据清洗中处理缺失值的其他两种方法（6分）①中位数填补：用属性的中位数替代缺失值，适用于存在异常值的偏态分布数据；②回归填补：通过建立回归模型，利用其他属性预测缺失值，适用于属性间有显著相关性的场景。二、关联规则挖掘（20分）表2为某超市10个购物篮的事务记录，项集为{A,B,C,D,E}。事务ID项集T1{A,B,C}T2{A,B}T3{A,C,D}T4{B,C,E}T5{A,B,C,D}T6{B,D}T7{A,C}T8{A,B,C}T9{B,C}T10{A,B,D}（1）设定最小支持度为20%（支持计数≥2），找出所有频繁1-项集和频繁2-项集（8分）频繁1-项集：支持计数≥2。A出现7次（T1,T2,T3,T5,T7,T8,T10），B出现7次（T1,T2,T4,T5,T8,T9,T10），C出现7次（T1,T3,T4,T5,T7,T8,T9），D出现4次（T3,T5,T6,T10），E出现1次（T4）。故频繁1-项集为{A,B,C,D}。频繁2-项集：提供所有2项组合并计算支持计数：AB：出现5次（T1,T2,T5,T8,T10），支持计数=5；AC：出现5次（T1,T3,T5,T7,T8），支持计数=5；AD：出现3次（T3,T5,T10），支持计数=3；BC：出现5次（T1,T4,T5,T8,T9），支持计数=5；BD：出现3次（T5,T6,T10），支持计数=3；CD：出现2次（T3,T5），支持计数=2；其他组合（如AE、BE等）支持计数<2。故频繁2-项集为{AB,AC,AD,BC,BD,CD}。（2）从频繁2-项集中提供所有可能的关联规则，设定最小置信度为60%，筛选强关联规则（6分）以频繁2-项集AB为例，提供规则A→B和B→A：A→B：置信度=支持计数(AB)/支持计数(A)=5/7≈71.4%≥60%；B→A：置信度=5/7≈71.4%≥60%；同理，其他频繁2-项集规则：AC→A/C、C→A：置信度=5/7≈71.4%；AD→A/D、D→A：置信度=3/7≈42.9%（D→A不满足），A→D置信度=3/7≈42.9%（不满足）；BC→B/C、C→B：置信度=5/7≈71.4%；BD→B/D、D→B：置信度=3/7≈42.9%（B→D置信度=3/7≈42.9%不满足，D→B置信度=3/4=75%≥60%）；CD→C/D、D→C：置信度=2/7≈28.6%（不满足），C→D置信度=2/7≈28.6%（不满足）。最终强关联规则：A→B、B→A、A→C、C→A、B→C、C→B、D→B。（3）计算规则“B→C”的提升度，并解释其含义（6分）提升度=置信度(B→C)/支持度(C)。支持度(C)=7/10=0.7，置信度(B→C)=支持计数(BC)/支持计数(B)=5/7≈0.714。提升度=0.714/0.7≈1.02。提升度>1表示规则“B→C”的关联关系强于独立事件，即购买B会略微增加购买C的概率。三、决策树分类（25分）表3为某运动俱乐部是否进行户外活动的历史数据，属性包括天气（晴、阴、雨）、温度（高、中、低）、湿度（高、正常）、风速（强、弱），类别为是否活动（是、否）。样本ID天气温度湿度风速是否活动1晴高高弱否2晴高高强否3阴高高弱是4雨中高弱是5雨低正常弱是6雨低正常强否7阴低正常强是8晴中高弱否9晴低正常弱是10雨中正常弱是11晴中正常强是12阴中高强是13阴高正常弱是14雨中高强否15阴低高弱是（1）计算根节点的信息熵H(是否活动)（4分）总样本15个，“是”10个，“否”5个。熵公式：H=H=（2）计算天气属性的信息增益IG(天气)（6分）天气取值为晴、阴、雨，各子集样本数均为5个：晴：“否”3个，“是”2个，熵=−阴：“是”5个，“否”0个，熵=0雨：“是”3个，“否”2个，熵≈0.971条件熵H(信息增益IG（3）计算温度属性的信息增益IG(温度)（6分）温度取值为高、中、低：高：样本4个（“否”2，“是”2），熵=−中：样本6个（“是”4，“否”2），熵≈0.918低：样本5个（“是”4，“否”1），熵≈0.722条件熵H(信息增益IG（4）根据信息增益，应选择哪个属性作为根节点？说明理由（3分）选择天气属性。因IG(天气)=0.271>IG(温度)=0.043，信息增益越大，属性对分类的贡献越大。（5）简述ID3算法的局限性（6分）①对噪声敏感，易过拟合；②无法直接处理连续型属性（需离散化）；③倾向选择取值多的属性（如天气有3个取值，可能被高估）；④忽略属性间的相关性；⑤无法处理缺失值。四、K-means聚类（20分）给定二维数据集D={(2,1),(3,4),(5,3),(7,6),(8,5),(10,7)}，使用K-means算法（k=2），初始质心为C1=(3,4)和C2=(8,5)，欧氏距离度量。（1）计算第一次迭代中各样本到两个质心的距离，确定初始聚类结果（5分）(2,1)到C1距离≈3.16，到C2≈7.21→归C1；(3,4)到C1距离=0，到C2≈5.0→归C1；(5,3)到C1≈2.24，到C2≈3.61→归C1；(7,6)到C1≈4.47，到C2≈1.41→归C2；(8,5)到C1≈5.0，到C2=0→归C2；(10,7)到C1≈7.62，到C2≈2.82→归C2；初始聚类：C1簇{(2,1),(3,4),(5,3)}，C2簇{(7,6),(8,5),(10,7)}。（2）计算第一次迭代后的新质心C1'和C2'（5分）C1'：x=(2+3+5)/3≈3.33，y=(1+4+3)/3≈2.67→(3.33,2.67)；C2'：x=(7+8+10)/3≈8.33，y=(6+5+7)/3=6→(8.33,6)。（3）进行第二次迭代，重新分配样本并计算新质心（5分）各样本到新质心的距离：(2,1)到C1'≈2.13，到C2'≈8.06→归C1'；(3,4)到C1'≈1.37，到C2'≈5.69→归C1'；(5,3)到C1'≈1.70，到C2'≈4.48→归C1'；(7,6)到C1'≈4.96，到C2'≈1.33→归C2'；(8,5)到C1'≈5.22，到C2'≈1.05→归C2'；(10,7)到C1'≈7.95，到C2'≈1.95→归C2'；聚类结果不变，新质心与C1'、C2'近似，迭代停止。（4）说明K-means算法的停止条件（5分）①质心不再变化（或变化小于阈值）；②所有样本的簇分配不再改变；③达到最大迭代次数。五、分类模型评估（20分）某二分类模型对100个测试样本的预测结果：真阳性（TP）=35，假阳性（FP）=15，真阴性（TN）=40，假阴性（FN）=10。（1）计算准确率（Accuracy）、精确率（Precision）、召回率（Recall）（6分）准确率=(TP+TN)/总样本=(35+40)/100=75%；精确率=TP/(TP+FP)=35/(35+15)=70%；召回率=TP/(TP+FN)=35/(35+10)=70%。（2）计算F1值（4分）F1=2×(精确率×召回率)/(精确率+召回率)=2×(0.7×0.7)/(0.7+0.7)=0.7。（3）若模型预测的概率阈值降低，分析TPR和FPR的变化趋势（5分

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年数据挖掘期末考试计算题及答案

文档简介

温馨提示

最新文档

评论

2026年数据挖掘期末考试计算题及答案

文档简介

温馨提示

最新文档

评论

相关文档