(2025年)数据挖掘期末考试题及答案

上传人：1*** IP属地：四川上传时间：2026-06-16 格式：DOCX 页数：12 大小：24.97KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(2025年)数据挖掘期末考试题及答案一、单项选择题（每题2分，共20分）1.以下哪项不属于数据预处理中的常见任务？（）A.缺失值填充B.异常值检测C.特征选择D.模型调参2.在关联规则挖掘中，若某规则的支持度为0.3，置信度为0.8，其提升度（Lift）的计算方式为（）A.支持度/置信度B.置信度/支持度C.置信度/(前件支持度)D.置信度/(后件支持度)3.决策树算法中，信息增益（InformationGain）的计算基于（）A.基尼系数B.信息熵C.均方误差D.互信息4.K-means聚类算法的主要缺陷是（）A.无法处理高维数据B.对初始聚类中心敏感C.只能发现凸形状的簇D.计算复杂度为O(n³)5.以下哪种方法属于有监督学习？（）A.DBSCAN聚类B.Apriori关联规则C.逻辑回归分类D.主成分分析（PCA）降维6.在处理类别不平衡数据时，以下哪种方法不属于重采样策略？（）A.过采样（Oversampling）少数类B.欠采样（Undersampling）多数类C.SMOTE算法提供新样本D.调整分类器的类别权重7.随机森林（RandomForest）中“随机”的含义不包括（）A.随机选择样本（Bootstrap采样）B.随机选择特征子集C.随机初始化决策树的分裂阈值D.随机提供决策树的深度8.以下哪项是评估聚类效果的外部指标？（）A.轮廓系数（SilhouetteCoefficient）B.Calinski-Harabasz指数C.调整兰德指数（AdjustedRandIndex）D.戴维斯-布尔丁指数（Davies-BouldinIndex）9.在时间序列预测中，ARIMA模型的三个参数(p,d,q)分别代表（）A.自回归阶数、差分阶数、移动平均阶数B.移动平均阶数、差分阶数、自回归阶数C.自回归阶数、移动平均阶数、差分阶数D.差分阶数、自回归阶数、移动平均阶数10.对于高维稀疏数据（如文本数据），最适合的降维方法是（）A.线性判别分析（LDA）B.t-SNEC.非负矩阵分解（NMF）D.局部线性嵌入（LLE）二、填空题（每空1分，共10分）1.数据清洗的核心任务是处理________、________和________三类问题。2.关联规则的支持度（Support）定义为________在总事务中的比例。3.决策树中，基尼指数（GiniIndex）衡量的是数据的________程度，其值越________，数据纯度越高。4.K-means算法的目标函数是最小化所有样本到其所属簇中心的________之和。5.集成学习中，Boosting方法通过________提升弱分类器性能，Bagging方法通过________降低模型方差。6.在文本挖掘中，TF-IDF的中文全称是________。三、简答题（每题6分，共30分）1.简述数据预处理在数据挖掘中的重要性，并列举至少3种常用的预处理技术。2.解释关联规则挖掘中“支持度-置信度框架”的作用，并说明为何需要同时考虑支持度和置信度。3.对比分类（Classification）与聚类（Clustering）的区别，各举一个应用场景。4.随机森林为何通常比单棵决策树表现更优？请从模型偏差、方差和泛化能力角度分析。5.简述K-means算法的基本步骤，并说明其与DBSCAN算法的核心差异。四、算法分析题（20分）某数据集包含5个样本，特征为“天气”（晴、雨）、“温度”（高、低），目标变量为“是否运动”（是、否），具体数据如下表：样本天气温度是否运动1晴高是2晴低是3雨高否4雨低否5晴低是请使用ID3算法构建决策树（仅需计算根节点的最优分裂属性），要求：（1）计算原始数据集的信息熵H(D)；（2）分别计算“天气”和“温度”作为分裂属性时的条件熵H(D|天气)、H(D|温度)；（3）计算两者的信息增益Gain(天气)、Gain(温度)，并确定根节点应选择哪个属性。五、综合应用题（20分）某电商平台希望通过用户行为数据挖掘“高价值用户”（定义为过去6个月消费金额≥10000元的用户），现有数据包括：用户年龄、性别、注册时长、月均登录次数、历史订单数、平均客单价、是否开通会员、最近30天是否有退款。（1）请设计特征工程步骤，包括特征构造、缺失值处理和特征选择方法；（2）选择一种分类模型（如逻辑回归、随机森林、XGBoost），并说明选择理由；（3）设计评估指标体系，需包含至少3个指标，并解释其含义；（4）若模型在测试集上的准确率为85%，但召回率仅为50%，分析可能原因并提出改进建议。答案一、单项选择题1.D（模型调参属于模型优化阶段，非数据预处理任务）2.C（提升度=置信度/(后件支持度)，即规则的置信度与后件单独出现的概率之比）3.B（信息增益=原始熵-条件熵，基于信息熵计算）4.B（K-means对初始中心敏感，可能导致局部最优；C为DBSCAN的优势，A、D表述错误）5.C（逻辑回归是有监督分类算法，其余为无监督或降维方法）6.D（调整类别权重属于代价敏感学习，非重采样策略）7.C（随机森林的“随机”体现在样本和特征的随机选择，不随机初始化分裂阈值）8.C（调整兰德指数需要真实标签，属于外部指标；其余为内部指标）9.A（ARIMA(p,d,q)中p为自回归阶数，d为差分阶数，q为移动平均阶数）10.C（非负矩阵分解适用于高维稀疏数据，如文本的主题建模；t-SNE用于可视化，LDA需标签）二、填空题1.缺失值；异常值；不一致值2.包含规则前件和后件的事务数3.不纯度；小4.欧氏距离平方（或平方误差）5.迭代纠正前序模型错误；并行训练多个基模型6.词频-逆文档频率三、简答题1.重要性：数据质量直接影响模型性能，预处理可提升数据一致性、完整性和可用性。常用技术：缺失值填充（如均值/中位数填充、KNN填充）、异常值检测（如Z-score、IQR方法）、数据离散化（等宽/等频分箱）、标准化/归一化（Z-score、Min-Max）。2.支持度衡量规则的普遍性（覆盖的事务比例），置信度衡量规则的可靠性（前件出现时后件出现的概率）。仅用支持度可能保留无意义的频繁模式（如“牛奶→面包”可能因牛奶本身频繁而支持度高），仅用置信度可能保留偶然关联（如小样本中的高置信度规则）。两者结合可过滤“普遍且可靠”的规则。3.区别：分类是有监督学习（需标签），目标是预测新样本的类别；聚类是无监督学习（无标签），目标是将样本按相似性分组。场景：分类（如预测用户是否流失）；聚类（如将用户分群以制定差异化营销策略）。4.单棵决策树易过拟合（高方差），随机森林通过Bagging集成多棵树：降低方差：多棵树通过Bootstrap采样和特征随机选择，减少对特定样本/特征的依赖；保持低偏差：单棵树的偏差较低（决策树是强学习器），集成后偏差与单棵树相近；提升泛化：多树投票降低噪声影响，模型更稳定。5.K-means步骤：①随机选择k个初始中心；②分配样本到最近的中心；③更新中心为簇均值；④重复直到中心不再变化或迭代次数满。与DBSCAN差异：K-means基于距离划分簇（需预设k），适合凸形状簇；DBSCAN基于密度（无需预设k），可发现任意形状簇，能识别噪声点。四、算法分析题（1）原始信息熵H(D)：总样本数5，其中“是”3个，“否”2个。H(D)=(3/5)log₂(3/5)(2/5)log₂(2/5)≈-0.6×(-0.737)0.4×(-1.322)≈0.971。（2）条件熵计算：按“天气”分裂：天气=晴的样本：1、2、5（3个），其中“是”3个，“否”0个；天气=雨的样本：3、4（2个），其中“是”0个，“否”2个。H(D|天气)=(3/5)H(晴)+(2/5)H(雨)H(晴)=(3/3)log₂(3/3)0=0；H(雨)=0(2/2)log₂(2/2)=0；故H(D|天气)=(3/5)×0+(2/5)×0=0。按“温度”分裂：温度=高的样本：1、3（2个），其中“是”1个，“否”1个；温度=低的样本：2、4、5（3个），其中“是”2个，“否”1个。H(D|温度)=(2/5)H(高)+(3/5)H(低)H(高)=(1/2)log₂(1/2)(1/2)log₂(1/2)=1；H(低)=(2/3)log₂(2/3)(1/3)log₂(1/3)≈-0.667×(-0.585)0.333×(-1.585)≈0.918；故H(D|温度)=(2/5)×1+(3/5)×0.918≈0.4+0.551=0.951。（3）信息增益：Gain(天气)=H(D)H(D|天气)=0.9710=0.971；Gain(温度)=0.9710.951=0.02；因Gain(天气)更大，根节点选择“天气”作为分裂属性。五、综合应用题（1）特征工程步骤：特征构造：计算“消费频率=历史订单数/注册时长（月）”“高价值标签（是/否）”；缺失值处理：对“平均客单价”缺失值用同类用户（如同年龄、会员状态）的均值填充；特征选择：使用卡方检验（筛选与目标变量相关的分类特征如性别、是否会员）、随机森林的特征重要性（筛选数值特征如月均登录次数、平均客单价）。（2）模型选择：XGBoost。理由：处理混合类型数据（分类+数值）能力强；内置正则化防止过拟合；支持并行计算提升效率；对类别不平衡数据可通过scale_pos_weight参数调整。（3）评估指标：准确率（Accuracy）：正确分类的样本比例（总正确数/总样本数），反映整体分类效果；召回率（Recall）：实际高价值用户中被正确识别的比例（真阳性/(真阳性+假阴性)），关注漏检率；F1-score：精确率与召回率的调和平均

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(2025年)数据挖掘期末考试题及答案

文档简介

温馨提示

最新文档

评论

(2025年)数据挖掘期末考试题及答案

文档简介

温馨提示

最新文档

评论

相关文档