版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年《数据分析与挖掘》期末考试试卷附有答案一、单项选择题(每题2分,共20分)1.以下哪项不属于数据清洗的常见操作?A.处理缺失值B.标准化数据范围C.检测并修正异常值D.删除重复记录2.在特征选择中,互信息法主要用于衡量:A.特征与目标变量的线性相关性B.特征之间的共线性程度C.特征与目标变量的非线性关联强度D.特征的方差大小3.对于二分类问题,若模型将正类预测为负类,负类预测为正类的数量均较多,则混淆矩阵中表现为:A.真阳性(TP)和真阴性(TN)较高B.假阳性(FP)和假阴性(FN)较高C.TP和FP较高D.TN和FN较高4.关于K-means聚类算法,以下说法错误的是:A.需预先指定聚类数kB.对初始中心敏感C.适用于非凸形状的簇D.基于欧式距离计算样本相似性5.在关联规则挖掘中,若规则“牛奶→面包”的支持度为15%,置信度为60%,而“面包”的支持度为25%,则该规则的提升度为:A.0.6B.1.2C.2.4D.3.06.数据标准化(Z-score)的公式为:A.(x-μ)/σB.(x-min)/(max-min)C.x/log(x)D.x-mean7.决策树中,信息增益的计算公式为:A.父节点熵子节点条件熵的加权平均B.子节点条件熵的加权平均父节点熵C.父节点基尼系数子节点基尼系数的加权平均D.子节点基尼系数的加权平均父节点基尼系数8.以下哪种方法适用于处理高维数据的降维,同时保留类别可分性?A.主成分分析(PCA)B.线性判别分析(LDA)C.局部线性嵌入(LLE)D.t-SNE9.在时间序列分析中,ARIMA模型的“MA”代表:A.自回归B.移动平均C.差分D.季节调整10.评估回归模型的指标中,均方误差(MSE)的计算公式为:A.Σ|yi-ŷi|/nB.Σ(yi-ŷi)²/nC.1-Σ(yi-ŷi)²/Σ(yi-ȳ)²D.max|yi-ŷi|二、填空题(每空1分,共15分)1.数据预处理的核心步骤包括数据清洗、数据集成、__________和__________。2.分类算法中,逻辑回归适用于__________问题,而SVM通过__________最大化类别间隔。3.聚类算法中,DBSCAN的两个关键参数是__________和__________。4.关联规则的三个核心度量是支持度、__________和__________。5.随机森林通过__________和__________两种方式实现集成学习,降低模型过拟合风险。6.时间序列的四个基本要素是趋势性、__________、周期性和__________。7.特征工程中,独热编码(One-HotEncoding)用于处理__________变量,而分箱(Binning)可将连续变量转化为__________变量。三、简答题(每题6分,共30分)1.简述数据预处理中处理缺失值的常用方法及其适用场景。2.比较分类任务与聚类任务的本质区别,各举一个实际应用案例。3.说明ROC曲线与PR曲线的区别,何时更适合使用PR曲线?4.解释决策树中“过拟合”的表现及常用解决方法。5.简述梯度提升树(GBM)与随机森林的主要差异。四、计算题(共25分)1.(8分)某数据集包含100个样本,其中正类(y=1)60个,负类(y=0)40个。现有两个特征A和B:特征A取“高”时,包含30个样本(其中正类20个,负类10个);取“低”时,包含70个样本(正类40个,负类30个)。特征B取“是”时,包含50个样本(正类35个,负类15个);取“否”时,包含50个样本(正类25个,负类25个)。计算特征A和特征B的信息增益,判断哪个特征更适合作为决策树的根节点(熵的计算以2为底)。2.(9分)使用K-means算法对以下5个二维样本点进行聚类(k=2),初始中心为C1=(1,2)和C2=(5,4):样本点:A(2,3)、B(3,1)、C(4,5)、D(6,3)、E(0,0)。要求:(1)计算第一次迭代时各样本到两个中心的欧式距离,确定聚类归属;(2)重新计算新的聚类中心;(3)判断是否需要继续迭代(假设停止条件为中心不再变化)。3.(8分)某超市购物篮数据如下(共1000条记录):包含“牛奶”的记录有400条;包含“面包”的记录有300条;同时包含“牛奶”和“面包”的记录有150条;同时包含“牛奶”“面包”和“鸡蛋”的记录有60条;包含“鸡蛋”的记录有250条。计算规则“牛奶∧面包→鸡蛋”的支持度、置信度和提升度,并解释提升度的实际意义。五、综合分析题(10分)某电商公司希望通过用户行为数据挖掘“高价值用户”(定义为过去1年消费金额≥1万元且复购次数≥3次的用户),请设计分析流程并说明各步骤的关键操作:(1)数据采集与清洗;(2)特征工程;(3)模型选择与训练;(4)模型评估与业务解读。答案一、单项选择题1.B2.C3.B4.C5.C(提升度=置信度/后件支持度=60%/25%=2.4)6.A7.A8.B9.B10.B二、填空题1.数据变换、数据归约2.二分类、构造超平面3.邻域半径(ε)、最小样本数(MinPts)4.置信度、提升度5.自助采样(Bootstrap)、特征随机选择6.季节性、不规则波动7.类别型、离散型三、简答题1.常用方法及场景:①删除法(缺失比例高且无替代信息);②统计填充(均值/中位数/众数,适用于数据分布稳定);③模型填充(回归/决策树预测,保留数据结构但可能引入偏差);④保留缺失值(如作为独立类别,适用于缺失本身有意义的场景)。2.本质区别:分类是有监督学习(已知类别标签),目标是训练模型对新样本分类(如根据用户特征预测是否购买);聚类是无监督学习(无标签),目标是发现数据内在分组(如根据消费行为划分用户群体)。3.ROC曲线以FPR(假正率)为横轴、TPR(真正率)为纵轴,反映模型在不同阈值下的分类性能;PR曲线以召回率为横轴、精确率为纵轴,更关注正类样本的预测质量。当正类样本极不平衡(如罕见疾病预测)时,PR曲线更有效。4.过拟合表现:决策树深度过大,在训练集上准确率极高,但测试集上性能骤降(泛化能力差)。解决方法:剪枝(预剪枝/后剪枝)、限制树深度/叶节点最小样本数、使用交叉验证。5.差异:①随机森林是并行集成(各树独立),GBM是串行集成(迭代纠正前序错误);②随机森林基于Bagging,GBM基于Boosting;③随机森林抗过拟合强,GBM对异常值更敏感;④GBM通常预测精度更高,但易过拟合。四、计算题1.总熵H(D)=(60/100)log₂(60/100)(40/100)log₂(40/100)≈0.971。特征A的条件熵H(D|A)=(30/100)[-20/30log₂(20/30)-10/30log₂(10/30)]+(70/100)[-40/70log₂(40/70)-30/70log₂(30/70)]≈0.918。信息增益GA=0.9710.918=0.053。特征B的条件熵H(D|B)=(50/100)[-35/50log₂(35/50)-15/50log₂(15/50)]+(50/100)[-25/50log₂(25/50)-25/50log₂(25/50)]≈0.879。信息增益GB=0.9710.879=0.092。因GB>GA,选择特征B作为根节点。2.(1)距离计算:A到C1:√[(2-1)²+(3-2)²]=√2≈1.414;到C2:√[(2-5)²+(3-4)²]=√10≈3.162→归C1。B到C1:√[(3-1)²+(1-2)²]=√5≈2.236;到C2:√[(3-5)²+(1-4)²]=√13≈3.606→归C1。C到C1:√[(4-1)²+(5-2)²]=√18≈4.243;到C2:√[(4-5)²+(5-4)²]=√2≈1.414→归C2。D到C1:√[(6-1)²+(3-2)²]=√26≈5.099;到C2:√[(6-5)²+(3-4)²]=√2≈1.414→归C2。E到C1:√[(0-1)²+(0-2)²]=√5≈2.236;到C2:√[(0-5)²+(0-4)²]=√41≈6.403→归C1。聚类结果:C1簇{A,B,E};C2簇{C,D}。(2)新中心C1':x=(2+3+0)/3=5/3≈1.67,y=(3+1+0)/3=4/3≈1.33→(1.67,1.33)。C2':x=(4+6)/2=5,y=(5+3)/2=4→(5,4)(与原C2相同)。(3)C2未变化,但C1变化,需继续迭代。3.支持度=60/1000=6%;置信度=60/150=40%;后件支持度=250/1000=25%;提升度=40%/25%=1.6。提升度>1表示规则“牛奶∧面包→鸡蛋”的预测效果优于随机,即购买牛奶和面包的用户更可能购买鸡蛋。五、综合分析题(1)数据采集与清洗:采集用户基本信息(年龄、性别)、行为日志(浏览时长、点击商品)、交易记录(金额、时间、品类);清洗包括去重(重复订单)、处理缺失(如用最近一次消费时间填充缺失的最后登录时间)、修正异常(如消费金额为负数的记录)。(2)特征工程:构造RFM(最近消费时间R、消费频率F、消费金额M)、平均客单价(总金额/订单数)、品类偏好(购买某类商品的比例)、用户活跃度(月登录天数)等;对类别变量(如注册渠道)进行独热编码,对连续变量(如年龄)分箱处理。(3)模型选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年财会学生职业规划书
- 2026年早教中秋节主题活动方案策划书
- 2026年专职安全员安全责任
- 2026年教师职业生涯规划目标与计划书
- 2026年糖尿病人销售方案设计
- 江西省赣州市石城县2025届三年级数学第二学期期末复习检测模拟试题含解析
- 2026年思政课专题教学指南
- 2026年规划停车位方案设计规范标准
- 2026年雨天驾驶员安全告诫书
- 2026年举办文旅活动引流方案策划书
- 教育改革创新实施路径
- 2026抖音生活服务通案
- 2025年全国劳动保障知识竞赛题库及参考答案
- 气压系统故障诊断与排除考题及答案
- AQ3067-2026《化工和危险化学品生产经营企业重大生产安全事故隐患判定准则》培训
- 检验科室内质控培训课件
- 基坑开挖安全培训课件
- 北京大学2025强基计划物理学试题解析及答案详解
- 农行校招笔试真题及答案
- 电动机产品质量检验规范与报告
- 2025福建厦漳泉城际铁路有限责任公司筹备组社会招聘10人考试参考题库及答案解析
评论
0/150
提交评论