2025年数据分析与挖掘考试试题及答案_第1页
2025年数据分析与挖掘考试试题及答案_第2页
2025年数据分析与挖掘考试试题及答案_第3页
2025年数据分析与挖掘考试试题及答案_第4页
2025年数据分析与挖掘考试试题及答案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据分析与挖掘考试试题及答案一、单项选择题(每题2分,共20分)1.在数据清洗过程中,某数值型特征存在5%的缺失值,且该特征与目标变量呈强正相关。若采用填充策略,最合理的选择是()A.用全局均值填充B.用该特征分组后的类别均值填充(如按性别分组)C.直接删除缺失值所在行D.用随机数填充答案:B解析:当特征与目标变量强相关时,简单全局均值会忽略分组信息,可能引入偏差;按相关类别(如性别)分组填充能保留特征与目标的关联关系;删除5%数据可能损失信息;随机数填充无统计意义。2.以下哪种算法属于无监督学习?()A.逻辑回归B.K-means聚类C.随机森林D.支持向量机(SVM)分类答案:B解析:无监督学习无标签数据,K-means通过数据自身分布聚类;其余选项均需标签(监督学习)。3.在分类模型评估中,若关注“将正类正确识别”的能力,应重点考察()A.准确率(Accuracy)B.精确率(Precision)C.召回率(Recall)D.F1-score答案:C解析:召回率=TP/(TP+FN),衡量正类被正确识别的比例;精确率衡量预测为正的样本中实际正类的比例;准确率是整体正确比例;F1是两者调和平均。4.某时间序列数据呈现明显季节性波动,且长期趋势为线性增长。若用ARIMA模型拟合,最合理的差分阶数d和季节差分阶数D设置为()A.d=1,D=0B.d=0,D=1C.d=1,D=1D.d=2,D=2答案:C解析:线性增长需一阶差分(d=1)消除趋势;季节性波动需季节差分(D=1,如12步差分处理月度数据)。5.特征工程中,对“用户注册时间”字段进行处理时,以下操作最不推荐的是()A.提取注册月份作为分类特征B.计算注册时间与当前时间的时间差(天)作为数值特征C.直接保留原始时间戳(如“2023-05-1514:30:00”)作为模型输入D.提取注册时段(如“上午/下午/晚上”)作为分箱特征答案:C解析:原始时间戳包含冗余信息(如具体时分秒),模型难以直接学习时间序列模式;其他选项均通过特征提取保留了时间的业务意义。6.关联规则挖掘中,若某规则“牛奶→面包”的支持度为15%,置信度为80%,提升度为1.2,则以下说法正确的是()A.同时购买牛奶和面包的用户占比15%B.购买牛奶的用户中80%会购买面包C.购买牛奶和面包的概率是独立情况下的1.2倍D.以上均正确答案:D解析:支持度=P(牛奶∩面包)=15%;置信度=P(面包|牛奶)=80%;提升度=置信度/P(面包)=1.2,即关联度高于独立情况。7.以下哪种情况最可能导致模型过拟合?()A.增加训练数据量B.对特征进行标准化C.降低决策树的最大深度D.在神经网络中减少正则化参数λ答案:D解析:正则化参数λ越小,模型对权重的惩罚越轻,容易学习到训练数据的噪声,导致过拟合;增加数据量、标准化、限制树深度均缓解过拟合。8.某电商平台用户行为数据中,“购买金额”字段存在极端值(如单次购买10万元),但业务上确认这些是真实高客单价订单。处理该字段时,最合理的方法是()A.用Z-score法删除3σ外的异常值B.对数变换压缩数值范围C.直接保留原始值D.用IQR法替换上下限外的值答案:B解析:极端值为真实数据时,删除或替换会损失信息;对数变换可降低数值尺度差异,同时保留高客单价的相对关系;原始值可能使模型受极端值影响过大。9.在文本挖掘中,对“用户评价”进行情感分析时,若语料库为中文,以下预处理步骤正确的顺序是()①分词②去停用词③文本向量化④去除标点符号A.④→①→②→③B.①→④→②→③C.④→②→①→③D.①→②→④→③答案:A解析:中文预处理流程通常为:去标点→分词→去停用词→向量化(如TF-IDF)。10.某二分类问题中,真实标签为[1,0,1,1,0],模型预测概率为[0.7,0.3,0.6,0.4,0.8](阈值0.5)。计算其AUC-ROC值时,需要()A.计算不同阈值下的FPR和TPR,绘制曲线并求面积B.直接计算准确率C.计算混淆矩阵的对角线之和D.计算精确率和召回率的调和平均答案:A解析:AUC-ROC是不同分类阈值下FPR(假正率)与TPR(真正率)曲线下的面积,反映模型对正例的排序能力。二、填空题(每题2分,共20分)1.数据清洗中,处理异常值的常用方法包括删除法、替换法和______(如分箱)。答案:分箱法/离散化2.衡量两个变量线性相关程度的指标是______,其取值范围为[-1,1]。答案:皮尔逊相关系数(PearsonCorrelationCoefficient)3.决策树中,ID3算法使用______作为分裂准则,C4.5算法使用______改进。答案:信息增益;信息增益率4.聚类算法中,DBSCAN的核心参数是______(邻域半径)和______(最小样本数)。答案:ε(epsilon);MinPts5.时间序列分解的常见模型包括加法模型(Y=T+S+C+I)和______(Y=T×S×C×I)。答案:乘法模型6.特征选择的主要方法包括过滤法(Filter)、包装法(Wrapper)和______(Embedded)。答案:嵌入法7.逻辑回归的损失函数是______,其本质是最大化似然函数的对数。答案:交叉熵损失函数(或对数损失函数)8.在降维算法中,PCA的目标是找到______最大的投影方向,LDA的目标是最大化类间散布与类内散布的比值。答案:方差9.关联规则的三个核心指标是支持度、置信度和______。答案:提升度(Lift)10.深度学习中,缓解梯度消失问题的常用方法包括使用______激活函数(如ReLU)和批量归一化(BatchNorm)。答案:非线性/非饱和三、简答题(每题8分,共40分)1.简述数据清洗中“缺失值处理”的常见方法及其适用场景。答案:(1)删除法:适用于缺失比例极低(如<5%)且缺失无规律(随机缺失)的情况,直接删除缺失行/列;(2)填充法:①统计量填充(均值/中位数/众数),适用于数值型(均值)或分类型(众数)特征,且缺失与其他特征无关;②模型填充(如KNN、回归模型),适用于缺失值与其他特征强相关时,利用已知特征预测缺失值;③特殊值标记(如“missing”),适用于缺失本身具有业务意义(如“未填写联系方式”可能与用户活跃度相关);(3)保留法:若缺失值是数据的固有属性(如某些传感器未采集到数据),且模型支持处理缺失(如XGBoost内置缺失值处理),可直接保留。2.对比随机森林(RandomForest)与梯度提升树(GBDT)的核心差异。答案:(1)集成方式:随机森林是并行集成(Bagging),各树独立训练;GBDT是串行集成(Boosting),每棵树拟合前序模型的残差;(2)目标函数:随机森林通过样本和特征的随机抽样降低方差;GBDT通过逐步优化损失函数降低偏差;(3)过拟合风险:随机森林因多树投票,过拟合风险较低;GBDT对异常值敏感,深度过深易过拟合;(4)适用场景:随机森林适合特征重要性分析、噪声数据;GBDT在回归、分类任务中通常精度更高,但需调参控制复杂度。3.解释“特征工程”在数据分析与挖掘中的作用,并列举3种常用的特征构造方法。答案:作用:原始数据通常无法直接输入模型,特征工程通过转换、组合原始特征,提取更具区分度的信息,提升模型性能(如预测精度、泛化能力),同时降低计算复杂度。常用方法:(1)时间特征构造:从时间戳中提取年、月、周、节假日、是否周末等;(2)统计特征构造:计算分组后的均值、方差、最大值(如“用户近30天购买次数的均值”);(3)交叉特征构造:组合两个或多个特征(如“性别×年龄区间”),捕捉交互效应;(4)文本特征构造:通过TF-IDF、词嵌入(Word2Vec)将文本转换为数值向量;(5)分箱(离散化):将连续特征分段(如年龄分箱为“0-18”“19-30”等),降低噪声影响。4.简述混淆矩阵中TP、TN、FP、FN的定义,并说明如何通过它们计算精确率(Precision)和召回率(Recall)。答案:混淆矩阵是二分类模型的预测结果与真实标签的交叉表:-TP(真正例):真实为正,预测为正;-TN(真负例):真实为负,预测为负;-FP(假正例):真实为负,预测为正;-FN(假负例):真实为正,预测为负。精确率=TP/(TP+FP),表示预测为正的样本中实际为正的比例;召回率=TP/(TP+FN),表示实际为正的样本中被正确预测的比例。5.什么是“过拟合”?列举3种缓解过拟合的方法。答案:过拟合指模型在训练数据上表现很好(损失低、准确率高),但在未见过的测试数据上表现差(泛化能力弱),本质是模型学习了训练数据中的噪声或细节模式。缓解方法:(1)增加训练数据量:通过数据增强(如图像翻转、文本同义词替换)或收集更多数据;(2)正则化:在损失函数中添加正则项(如L1/L2正则),限制模型复杂度;(3)降低模型复杂度:减少神经网络层数/神经元数、限制决策树最大深度;(4)早停(EarlyStopping):在验证集性能不再提升时停止训练;(5)dropout(深度学习):随机失活部分神经元,强制模型学习鲁棒特征;(6)特征选择:去除冗余或噪声特征,减少输入维度。四、应用题(每题15分,共30分)1.某电商平台提供以下用户行为数据集(字段:用户ID、注册时间、性别、年龄、近30天浏览次数、近30天加购次数、近30天购买金额、是否复购(标签,1=是,0=否))。任务:构建复购预测模型。(1)请设计数据预处理流程(包括缺失值处理、特征工程);(2)选择2种适合的模型并说明理由;(3)列举3个模型评估指标并解释其意义。答案:(1)数据预处理流程:①缺失值处理:检查各字段缺失率。若“年龄”缺失率<10%,用性别分组后的年龄均值填充(因年龄可能与性别相关);若“近30天浏览次数”缺失,可能是新用户未产生行为,填充0并添加“是否缺失”标志位(捕捉潜在信息);“性别”缺失用众数填充(假设多数用户为女性)。②特征工程:-时间特征:计算“注册时长”(当前时间-注册时间,单位:天),反映用户生命周期;-行为组合特征:构造“加购转化率”=近30天购买金额/(近30天加购次数+1)(避免除零),衡量用户从加购到购买的转化效率;-分箱处理:将“年龄”分箱为“18岁以下”“18-30”“31-50”“50岁以上”,降低噪声;-标准化:对“注册时长”“近30天浏览次数”等数值型特征进行Z-score标准化,消除量纲影响;-类别编码:“性别”用独热编码(One-Hot)转换为0/1向量。(2)模型选择及理由:①逻辑回归(LogisticRegression):线性模型,计算高效,可解释性强(系数表示特征对复购的影响方向和大小),适合作为基准模型;②XGBoost:基于梯度提升的树模型,自动处理特征交互和非线性关系,对缺失值有内置处理机制,在结构化数据分类任务中通常表现优异;③随机森林(可选):并行训练,抗过拟合能力强,可输出特征重要性,辅助业务分析(如“加购转化率”对复购的影响程度)。(3)评估指标及意义:①AUC-ROC:反映模型对正例(复购用户)的排序能力,值越接近1,模型区分复购与非复购用户的能力越强;②F1-score:精确率与召回率的调和平均,平衡两者的表现,适用于正负样本不均衡(如复购用户占比较低)的场景;③精确率:预测为复购的用户中实际复购的比例,若业务关注“精准营销”(避免资源浪费),需重点优化此指标;④召回率(可选):实际复购用户中被模型正确识别的比例,若业务关注“不漏掉潜在复购用户”,需提升此指标。2.某零售企业收集了2020-2024年的月度销售额数据(单位:万元),数据显示:①整体呈上升趋势;②每年12月销售额显著高于其他月份;③2023年受疫情影响,2月销售额异常偏低(已确认非数据错误)。任务:预测2025年1-12月的销售额。(1)选择时间序列模型并说明理由;(2)描述模型训练前的关键预处理步骤;(3)若模型预测2025年12月销售额为850万元,业务部门认为“预测值偏低”,请提出2种可能的验证方法。答案:(1)模型选择及理由:选择SARIMA(季节性自回归积分滑动平均模型),理由:数据存在长期趋势(需差分处理)和显著季节性(12个月周期),SARIMA可同时捕捉趋势(ARIMA部分)和季节性(SARIMA部分);此外,2023年2月的异常值可通过干预分析(InterventionAnalysis)或手动调整残差处理,SARIMA框架支持此类调整。(2)预处理步骤:①可视化分析:绘制时间序列图,确认趋势(上升)、季节性(12月高峰)和异常点(2023年2月);②平稳性检验:使用ADF检验(AugmentedDickey-FullerTest),若原序列非平稳,进行一阶差分(d=1)消除趋势;③季节性分解:用STL(季节趋势分解)分离趋势项(T)、季节项(S)和残差项(R),确认季节周期为12;④异常值处理:将2023年2月的销售额标记为干预点,在模型中添加虚拟变量(如该月取值1,其他月0),或用前后月份的平均值替换后再建模;⑤确定SARIMA参数:通过ACF(自相关图)和PACF(偏自相关图)确定AR(p)、MA(q)阶数,季节部分参数(P,Q)根据季节ACF/PACF确定(如季节周期s=12)。(3)验证方法:①后验预测检验:使用2024年1-12月数据作为验证集,用2020-2023年数据训练模型,预测2024年销售额并计算误差(如MAE、RMSE),若误差在可接受范围(如<5%),则2025年预测可信;②业务逻辑验证:分析2025年12月是否有新增促销活动(如双十二升级、品牌联名)、经济环境变化(如消费复苏)等,若存在正向因素,需调整模型(如添加外部变量“促销力度”)或手动上调预测值;③敏感性分析:调整模型中的季节性系数(如将12月的季节指数从1.5上调至1.6),重新预测,观察结果是否接近业务预期,验证季节效应的权重是否合理。五、综合题(20分)某金融机构计划通过用户行为数据预测“信用卡逾期风险”(标签:1=逾期,0=正常)。数据集包含以下字段:用户ID、年龄、月收入、信用卡额度、近6个月逾期次数、近30天消费笔数、近30天最大单笔消费、婚姻状态(已婚/未婚/离异)、教育程度(本科及以上/专科/高中及以下)。要求:设计完整的数据分析与挖掘流程,包括数据理解、预处理、特征工程、模型构建、评估与优化、业务建议。答案:1.数据理解-目标:明确预测“信用卡逾期风险”的业务目标,需平衡精确率(避免误判正常用户)和召回率(捕捉高风险用户)。-数据概况:-样本量:假设10万条用户数据,时间范围为2023年1月-2024年12月;-标签分布:逾期用户占比约8%(不平衡数据);-字段类型:数值型(年龄、月收入等)、分类型(婚姻状态、教育程度)、计数型(近6个月逾期次数);-异常值:检查“月收入”是否存在极端值(如月收入100万元),确认是否为高净值用户;“近6个月逾期次数”是否有负数(数据错误)。2.数据预处理-缺失值处理:-“月收入”缺失率12%,用“教育程度+婚姻状态”分组的收入中位数填充(因收入与教育、婚姻相关);-“婚姻状态”缺失率3%,添加“未知”类别(缺失可能反映用户隐私保护倾向,与逾期相关);-异常值处理:-“月收入”>50万的记录,通过业务确认是真实高收入用户,保留但进行对数变换(降低尺度影响);-“近6个月逾期次数”为负数的记录,修正为0(逻辑错误);-数据标准化:对“年龄”“近30天消费笔数”等数值型特征进行Z-score标准化,消除量纲差异。3.特征工程-衍生特征:-额度使用率=近30天消费总额/信用卡额度(衡量用户用卡强度,过高可能增加逾期风险);-收入负债比=信用卡额度/月收入(比值越高,还款压力越大);-逾期频率=近6个月逾期次数/6(反映近期逾期习惯);-教育-婚姻交叉特征:如“本科及以上+已婚”(可能还款能力更稳定);-类别编码:-“婚姻状态”“教育程度”用目标编码(TargetEncoding),计算各类别下逾期率的均值(需交叉验证避免过拟合);-特征选择:-过滤法:计算特征与标签的IV值(信息价值),保留IV>0.1的特征(如额度使用率IV=0.3,收入负债比IV=0.25);-嵌入法:用L1正则化逻辑回归,筛选系数绝对值大的特征(如“近6个月逾期次数”系数=0.8)。4.模型构建-数据划分:按7:2:1划分训练集、验证集、测试集,分层抽样保证标签分布一致;-模型选择与训练:-基准模型:逻辑回归(LR),输出特征重要性(如“额度使用率”系数=0.6);-主模型:LightGBM(梯度提升树),利用其处理高维数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论