版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(2025年)数据挖掘试卷及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于数据清洗的常见任务?A.处理缺失值B.消除重复数据C.计算特征间的相关系数D.修正噪声数据2.在关联规则挖掘中,若某规则的支持度为0.3,置信度为0.8,且提升度为1.2,则以下表述正确的是?A.该规则的提升度大于1,说明规则有效B.支持度0.3表示30%的事务同时包含前件和后件C.置信度0.8表示后件出现时前件出现的概率为80%D.提升度=支持度/(前件支持度×后件支持度)3.决策树算法中,若某节点的信息熵为1.5,分割后两个子节点的条件熵分别为0.8(权重0.6)和0.9(权重0.4),则信息增益为?A.1.5(0.8×0.6+0.9×0.4)=0.46B.1.5(0.8+0.9)/2=0.55C.(0.8×0.6+0.9×0.4)1.5=-1.04D.1.5max(0.8,0.9)=0.64.关于K-means聚类算法,以下说法错误的是?A.初始质心的选择会影响最终聚类结果B.适用于非凸形状的簇C.需预先指定聚类数kD.对离群点敏感5.以下哪项是衡量分类模型“查全率”(Recall)的公式?A.TP/(TP+FP)B.TP/(TP+FN)C.TN/(TN+FP)D.(TP+TN)/(TP+TN+FP+FN)6.在特征选择中,互信息(MutualInformation)用于衡量?A.特征与目标变量的线性相关程度B.特征与目标变量的非线性依赖关系C.特征间的多重共线性D.特征的方差大小7.以下哪种算法属于无监督学习?A.逻辑回归B.支持向量机(SVM)C.主成分分析(PCA)D.梯度提升树(GBDT)8.对于高维稀疏数据(如文本数据),常用的相似性度量是?A.欧氏距离B.曼哈顿距离C.余弦相似度D.切比雪夫距离9.以下哪项是集成学习中“Bagging”的核心思想?A.通过提升错误样本的权重降低偏差B.对多个弱分类器进行加权投票C.对训练集进行有放回抽样提供多个子模型D.通过梯度下降优化损失函数10.在时间序列预测中,ARIMA模型的“MA”部分代表?A.自回归(AutoRegressive)B.移动平均(MovingAverage)C.差分(Integrated)D.季节调整(Seasonal)二、填空题(每空2分,共20分)1.数据预处理中,将类别型变量转换为数值型的常用方法是__________(如“性别”转为0/1)。2.Apriori算法的核心是利用__________性质(即若一个项集非频繁,则其所有超集也非频繁)进行剪枝。3.逻辑回归模型中,通过__________函数将线性回归的输出映射到[0,1]区间。4.聚类算法中,DBSCAN的两个关键参数是__________(邻域半径)和__________(邻域内最小样本数)。5.评估回归模型的常用指标包括均方误差(MSE)和__________(R²)。6.特征工程中,对连续型特征进行分箱(Binning)的主要目的是__________(如降低噪声影响或捕捉非线性关系)。7.关联规则的兴趣度度量除支持度、置信度外,还包括__________(如提升度或全置信度)。8.随机森林中的“随机”体现在两个方面:__________(样本随机抽样)和__________(特征随机选择)。三、简答题(每题8分,共32分)1.简述数据预处理中“数据标准化”与“数据归一化”的区别,并举例说明各自的应用场景。2.对比决策树(CART)与支持向量机(SVM)在分类任务中的优缺点。3.解释“过拟合”现象在数据挖掘中的表现,并列举3种缓解过拟合的方法。4.说明K-means与层次聚类(HierarchicalClustering)的主要差异(至少3点)。四、应用题(第1题12分,第2题16分,共28分)1.某电商平台记录了1000条用户购买事务,部分数据如下表:事务ID购买商品T1牛奶、面包、鸡蛋T2牛奶、可乐、面包T3面包、鸡蛋、薯片T4牛奶、面包、鸡蛋、可乐T5牛奶、面包(注:总事务数N=1000,仅列出5条示例)假设最小支持度阈值为20%(即0.2),最小置信度阈值为60%(即0.6)。(1)计算项集{牛奶,面包}的支持度;(4分)(2)计算规则“牛奶→面包”的置信度;(4分)(3)判断该规则是否满足支持度和置信度要求,并说明理由。(4分)2.某医疗数据集包含以下特征:年龄(岁)、血压(mmHg)、血糖(mmol/L)、是否患病(0/1)。现需构建分类模型预测患病风险,部分训练数据如下:年龄血压血糖患病551407.21301205.10601508.51451306.00701609.01(1)若使用KNN算法(k=3,欧氏距离)预测新样本(年龄=50,血压=135,血糖=6.5)的患病标签,写出计算过程并给出预测结果;(8分)(2)若该模型在测试集上的混淆矩阵如下,计算精确率(Precision)和F1值;(8分)预测患病(1)预测未患病(0)实际患病(1)4515实际未患病(0)1090答案一、单项选择题1.C2.A3.A4.B5.B6.B7.C8.C9.C10.B二、填空题1.独热编码(或虚拟变量编码)2.先验(Apriori)3.Sigmoid4.ε(Epsilon);MinPts5.决定系数6.离散化(或非线性转换)7.提升度(或全置信度、确信度等)8.样本随机采样;特征随机选择三、简答题1.区别:标准化(Z-score)通过均值和标准差将数据转换为均值0、标准差1的分布,公式为=(x−场景:标准化适用于数据分布未知或需要消除量纲影响(如SVM、KNN);归一化适用于需要保留数据原始范围(如神经网络输入层)。2.决策树(CART):优点是可解释性强、无需特征缩放、能处理非线性关系;缺点是易过拟合、对噪声敏感、结果不稳定。SVM:优点是在高维空间表现好、抗过拟合能力强(通过核函数和正则化);缺点是计算复杂度高(尤其大样本)、可解释性差(核函数映射后难以理解)。3.表现:模型在训练集上准确率高,但在测试集上准确率显著下降,过度拟合了训练数据的噪声或细节。缓解方法:增加数据量、特征选择(减少冗余特征)、正则化(如L1/L2正则)、早停法(提前终止训练)、集成学习(如随机森林)。4.差异:①K-means需预先指定k,层次聚类无需;②K-means是迭代优化,层次聚类是树状结构构建;③K-means对离群点敏感,层次聚类对噪声更鲁棒;④K-means适用于大规模数据,层次聚类计算复杂度高(O(n²))。四、应用题1.(1)项集{牛奶,面包}出现的事务为T1、T2、T4、T5,共4次(示例中5条事务,但总N=1000,假设示例频率代表总体)。支持度=4/1000=0.4(40%),满足≥20%。(2)规则“牛奶→面包”的前件{牛奶}出现的事务为T1、T2、T4、T5(4次),其中同时包含后件{面包}的事务为4次。置信度=4/4=100%,满足≥60%。(3)满足;支持度40%≥20%,置信度100%≥60%。2.(1)计算新样本与各训练样本的欧氏距离:样本1(55,140,7.2):≈=样本2(30,120,5.1):=√样本3(60,150,8.5):=√样本4(45,130,6.0):=√样本5(70,160,9.0):=√最近的3个样本是样本1(距离7.11,标签1)、样本4(7.09,标签0)、样本3(18.14,标签1)。其中标签1出现2次,0出现1次,预测结果为1(患病)。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 前沿设计领域产品品控承诺书9篇
- 专业译员质量保障承诺函6篇范文
- 精美的圣诞节主题内容便于编辑
- 共同展望未来合作信任承诺书6篇
- 护理教育实践:护理人文关怀与同理心培养
- 护理服务意识与领导力
- 2026年初考语文试题及答案
- 护理服务病房:护理服务的质量改进与患者安全
- 2026年小学四年级下册语文暑假作业基础卷含答案
- 护理质量控制与患者安全
- 国家职业技术技能标准 4-02-02-06 公路收费及监控员 人社厅发202253号
- 地质科普知识讲座
- 地理科学的发展及其对人类社会的贡献
- GB/T 43683.1-2024水轮发电机组安装程序与公差导则第1部分:总则
- 2024年江苏南京紫金投资集团有限责任公司招聘笔试参考题库含答案解析
- 物料降本规划方案
- Python经济大数据分析 课件 第7章 Python应用航空公司客户价值分析
- 云南德福环保有限公司2000t-a含油硅藻土处理和综合利用工程 环评报告
- 【实用资料】马克思主义基本原理绪论PPT
- 安全检查流程图
- GB/T 1921-2004工业蒸汽锅炉参数系列
评论
0/150
提交评论