版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘与分析复习考试卷及答案2025年一、单项选择题(每题2分,共20分)1.以下哪种数据预处理方法用于处理数据中的缺失值?A.主成分分析(PCA)B.均值填补C.标准化(Z-score)D.离散化分箱2.在分类任务中,若样本类别极不均衡(如正类占99%),以下哪种评估指标最不适用?A.准确率(Accuracy)B.F1-scoreC.ROC-AUCD.召回率(Recall)3.K-means聚类算法的核心目标是最小化:A.类间方差B.类内样本与质心的欧氏距离平方和C.轮廓系数D.曼哈顿距离总和4.关联规则挖掘中,若规则“面包→牛奶”的支持度为0.3,置信度为0.6,则以下说法正确的是:A.同时购买面包和牛奶的用户占30%B.购买面包的用户中60%会购买牛奶C.购买牛奶的用户中30%会购买面包D.该规则的提升度一定大于15.决策树ID3算法选择分裂属性的依据是:A.信息增益比B.基尼系数C.信息增益D.均方误差6.以下哪种算法属于无监督学习?A.逻辑回归(LogisticRegression)B.支持向量机(SVM)C.K近邻(KNN)D.密度聚类(DBSCAN)7.在特征选择中,卡方检验(Chi-squareTest)主要用于评估:A.连续特征与目标变量的线性相关性B.类别特征与目标变量的独立性C.特征间的多重共线性D.特征的方差大小8.集成学习中,随机森林(RandomForest)与梯度提升树(GBDT)的主要区别在于:A.随机森林基于Bagging,GBDT基于BoostingB.随机森林使用决策树,GBDT使用线性模型C.随机森林关注降低偏差,GBDT关注降低方差D.随机森林只能分类,GBDT只能回归9.时间序列预测中,ARIMA模型的参数(p,d,q)分别代表:A.自回归阶数、差分次数、移动平均阶数B.移动平均阶数、差分次数、自回归阶数C.自回归阶数、平滑次数、移动平均阶数D.移动平均阶数、平滑次数、自回归阶数10.在异常检测中,孤立森林(IsolationForest)的核心思想是:A.计算样本到最近邻的距离B.通过随机分割快速隔离异常点C.基于密度估计判断离群程度D.使用支持向量机划分正常与异常区域二、填空题(每空2分,共20分)1.数据清洗中,处理噪声数据的常用方法包括分箱、回归和__________。2.分类算法评估中,精确率(Precision)的计算公式为__________(用混淆矩阵元素表示)。3.K-means算法需要预先指定的参数是__________。4.关联规则挖掘中,支持度的计算公式是__________(用集合表示)。5.决策树剪枝的目的是__________。6.主成分分析(PCA)的核心是通过__________变换将高维数据投影到低维空间。7.逻辑回归模型的决策边界是__________(线性/非线性)的。8.聚类算法中,DBSCAN的两个关键参数是__________和__________。9.时间序列的四大组成部分包括趋势、季节变动、循环变动和__________。三、简答题(每题6分,共30分)1.简述数据预处理的主要步骤及其必要性。2.对比分类与聚类的区别(从任务目标、输入数据、输出形式三方面说明)。3.解释关联规则中“支持度-置信度框架”的作用,并说明为何需要同时考虑两者。4.集成学习中,Bagging与Boosting的核心差异是什么?各举一个典型算法。5.简述随机森林(RandomForest)的构建过程,并说明其抗过拟合的原因。四、计算题(共30分)1.(8分)某数据集包含3个类别,样本分布为:类别A有12个样本,类别B有8个样本,类别C有5个样本。计算该数据集的信息熵(熵的底数为2)。2.(8分)使用K-means算法对以下二维数据点进行聚类(k=2),初始质心为C1=(1,2)和C2=(5,4)。数据点:(1,3)、(2,1)、(3,5)、(4,3)、(6,5)、(5,2)。要求:(1)计算第一次迭代时各点归属的簇;(2)计算第一次迭代后的新质心。3.(7分)某电商数据集包含1000条购物篮记录,其中购买“啤酒”的记录有300条,购买“尿布”的记录有400条,同时购买“啤酒”和“尿布”的记录有150条。计算规则“啤酒→尿布”的支持度、置信度和提升度。4.(7分)某二分类模型的混淆矩阵如下(行:真实类别,列:预测类别):预测正类|预测负类真实正类|80|20真实负类|10|90计算准确率、精确率、召回率和F1-score。五、综合分析题(共20分)1.(10分)某银行希望通过客户交易数据识别潜在的高价值客户(定义为年消费金额≥50万元的客户)。现有数据包括客户年龄、职业、月收入、近12个月交易次数、平均单笔交易金额、是否持有信用卡等变量。(1)请设计数据挖掘流程,包括关键步骤;(2)推荐2种适用的分类算法,并说明选择理由;(3)若样本中高价值客户仅占5%,需重点关注哪个评估指标?为什么?2.(10分)某电商平台希望分析用户行为数据,挖掘“购买A商品后更可能购买B商品”的关联规则。已知数据集包含10万条购物篮记录,商品种类超过2000种。(1)直接使用Apriori算法可能面临什么问题?如何优化?(2)若设定最小支持度为0.5%,最小置信度为60%,解释这两个阈值的实际意义;(3)假设挖掘出规则“手机→手机壳”的支持度为0.8%,置信度为75%,提升度为3.2,如何解读该规则的有效性?答案一、单项选择题1.B2.A3.B4.B5.C6.D7.B8.A9.A10.B二、填空题1.基于邻近值的填补(或“基于规则的填补”)2.TP/(TP+FP)(TP:真正例,FP:假正例)3.簇的数量k4.support(X→Y)=P(X∪Y)=|X∪Y|/总事务数5.防止过拟合,提高模型泛化能力6.正交(或“线性”)7.线性8.邻域半径ε;最小样本数MinPts9.随机波动(或“不规则变动”)三、简答题1.主要步骤:数据清洗(处理缺失值、噪声、不一致数据)、数据集成(多源数据合并)、数据变换(标准化、离散化、特征构造)、数据归约(降维、数值归约)。必要性:原始数据通常存在质量问题(如缺失、噪声),直接建模会降低模型性能;通过预处理可提升数据质量,增强特征与目标的相关性,提高模型准确性和稳定性。2.区别:任务目标:分类是有监督学习,目标是根据已知标签训练模型预测新样本类别;聚类是无监督学习,目标是根据样本间相似性自动分组。输入数据:分类需要带标签的训练数据;聚类仅使用无标签数据。输出形式:分类输出具体类别(如“正类/负类”);聚类输出簇(类别标签由算法提供,无先验意义)。3.支持度衡量规则的普遍程度(即同时包含X和Y的事务占比),置信度衡量规则的可靠性(即包含X的事务中包含Y的条件概率)。仅用支持度可能得到大量无意义的高频规则(如“盐→水”),仅用置信度可能得到低覆盖但高可靠的规则(如“稀有商品A→稀有商品B”)。两者结合可筛选出既普遍又可靠的规则。4.核心差异:Bagging通过自助采样(Bootstrap)提供多个独立子集,并行训练基模型,最终通过投票/平均集成,目标是降低方差;Boosting通过串行训练基模型,每个模型重点修正前序模型的错误,目标是降低偏差。典型算法:Bagging(随机森林)、Boosting(GBDT/XGBoost)。5.构建过程:(1)从原始数据中自助采样提供多个训练子集;(2)每个子集训练一棵决策树,且每次分裂时随机选择部分特征;(3)所有树并行训练,预测时通过投票(分类)或平均(回归)集成结果。抗过拟合原因:随机采样和随机特征选择降低了基模型的方差,集成后整体模型更鲁棒;多棵树的投票机制减少了单棵树过拟合的影响。四、计算题1.总样本数N=12+8+5=25信息熵H=(12/25)log₂(12/25)(8/25)log₂(8/25)(5/25)log₂(5/25)计算得:H≈-0.48×(-1.06)-0.32×(-1.64)-0.2×(-2.32)=0.51+0.52+0.46=1.49(比特)2.(1)计算各点到C1(1,2)和C2(5,4)的欧氏距离:(1,3):到C1距离=√[(1-1)²+(3-2)²]=1;到C2距离=√[(1-5)²+(3-4)²]=√17≈4.12→归C1(2,1):到C1距离=√[(2-1)²+(1-2)²]=√2≈1.41;到C2距离=√[(2-5)²+(1-4)²]=√18≈4.24→归C1(3,5):到C1距离=√[(3-1)²+(5-2)²]=√13≈3.61;到C2距离=√[(3-5)²+(5-4)²]=√5≈2.24→归C2(4,3):到C1距离=√[(4-1)²+(3-2)²]=√10≈3.16;到C2距离=√[(4-5)²+(3-4)²]=√2≈1.41→归C2(6,5):到C1距离=√[(6-1)²+(5-2)²]=√34≈5.83;到C2距离=√[(6-5)²+(5-4)²]=√2≈1.41→归C2(5,2):到C1距离=√[(5-1)²+(2-2)²]=4;到C2距离=√[(5-5)²+(2-4)²]=2→归C2第一次迭代簇划分:C1簇={(1,3),(2,1)};C2簇={(3,5),(4,3),(6,5),(5,2)}(2)新质心计算:C1新质心=((1+2)/2,(3+1)/2)=(1.5,2)C2新质心=((3+4+6+5)/4,(5+3+5+2)/4)=(18/4,15/4)=(4.5,3.75)3.支持度=150/1000=15%;置信度=150/300=50%;提升度=置信度/P(尿布)=0.5/(400/1000)=0.5/0.4=1.254.准确率=(80+90)/(80+20+10+90)=170/200=85%精确率=80/(80+10)=80/90≈88.89%召回率=80/(80+20)=80/100=80%F1-score=2×(精确率×召回率)/(精确率+召回率)=2×(0.8889×0.8)/(0.8889+0.8)=2×0.7111/1.6889≈0.84五、综合分析题1.(1)流程:数据采集(提取客户交易、属性数据)→数据预处理(处理缺失值,如用收入中位数填补;标准化月收入等连续变量;将职业离散化为哑变量)→特征工程(构造新特征,如“月均消费金额=年消费金额/12”)→划分训练集/测试集→模型训练(选择分类算法)→模型评估(使用F1-score或ROC-AUC)→部署与应用(输出高价值客户名单)。(2)推荐算法:XGBoost:能处理高维数据,自动处理特征间非线性关系,对类别不平衡有调节参数(如scale_pos_weight);逻辑回归:可解释性强,能明确各特征对高价值客户的影响方向(如月收入每增加1万元,成为高价值客户的概率提升×%),适合业务人员理解。(3)重点关注召回率(或F1-score)。因高价值客户是少数类(5%),准确率会被多数类(95%非高价值客户)主导,即使模型全预测为负类,准确率也达95%,无法反映真实性能。召回率衡量模型正确识别高价值客户的比例,提升召回率可避免遗漏潜在高价值客户,对业务更有意义。2.(1)问题:商品种类多(2000种),计算频繁1-项集时需遍历所有商品组合,时间复杂度高(O(N×M²),N为记录数,M为商品数);内存消耗大,需存储大量候选项集。优化方法:使用FP-growth算法,通过构建FP树压缩数据,避免重复扫描数据库;或降低最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学新领程试卷及答案
- 2026年IT网络基础常识面试题及答案
- 企业企业战略规划与执行
- 物业管理与客户服务规范(标准版)
- 企业供应链金融业务操作指南
- 2025年餐饮服务业食品安全管理体系手册
- 航空物流服务标准操作指南
- 2025年企业财务报告编制制度手册
- 企业人力资源管理流程规范手册
- 2025年软件开发项目管理实施指南
- 殡仪馆鲜花采购投标方案
- TOC基本课程讲义学员版-王仕斌
- T-GDWCA 0035-2018 HDMI 连接线标准规范
- 面板堆石坝面板滑模结构设计
- 初中语文新课程标准与解读课件
- 无人机装调检修工培训计划及大纲
- 中建通风与空调施工方案
- 春よ、来い(春天来了)高木绫子演奏长笛曲谱钢琴伴奏
- ARJ21机型理论知识考试题库(汇总版)
- 2023年娄底市建设系统事业单位招聘考试笔试模拟试题及答案解析
- GB/T 4623-2014环形混凝土电杆
评论
0/150
提交评论