版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘考试试卷及答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项的字母填入括号内)1.在Apriori算法中,若最小支持度阈值设为5%,则下列哪一项必然成立?A.任何频繁3项集的所有2项子集都必须是频繁的B.若{牛奶,面包}是频繁的,则{牛奶}的支持度可能低于5%C.提升度大于1的项集一定满足最小支持度D.频繁项集的最大长度由事务平均长度决定(答案:A)2.给定二维数值样本点{(1,2),(2,3),(3,4),(10,10)},采用欧氏距离单链接层次聚类,距离矩阵中(1,2)与(10,10)之间的距离是:A.64B.8C.√65D.√80(答案:C)3.在ID3算法中,若某节点所有样本属于同一类别,则该节点的信息增益为:A.0B.1C.无法确定D.与父节点熵相同(答案:A)4.下列关于Bagging的叙述,正确的是:A.各基学习器必须采用相同超参数B.可降低方差,对偏差无显著影响C.必须采用决策树作为基学习器D.对高偏差低方差模型效果最佳(答案:B)5.若某分类模型在测试集上的混淆矩阵如下,则其F1score为: 预测 0 1真08010真12090A.0.80B.0.85C.0.87D.0.90(答案:C)6.在PageRank公式R=(1d)e+dMR中,阻尼系数d通常取0.85,其作用是:A.保证矩阵可逆B.防止排名泄露C.解决悬挂节点问题D.确保迭代收敛且符合随机游走解释(答案:D)7.使用MinHash估计Jaccard相似度时,若两集合真实Jaccard=0.6,签名长度k=100,则估计值方差约为:A.0.6×0.4/100B.0.6×0.4/kC.0.6/kD.0.6×0.4/(k^2)(答案:B)8.在Kmeans++初始化中,下一个中心被选中的概率与:A.到最近已有中心的最小距离的平方成正比B.到最近已有中心的最大距离成正比C.到所有已有中心的平均距离成反比D.样本密度成正比(答案:A)9.若某事务数据库共1000条事务,项集{啤酒,尿布}出现300次,{啤酒}出现400次,则规则{啤酒}→{尿布}的置信度为:A.30%B.75%C.40%D.无法计算(答案:B)10.在AdaBoost第一轮后,某样本权重被放大,其原因是:A.该样本被错误分类B.该样本被正确分类C.该样本位于边界D.该样本为噪声(答案:A)二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,多选少选均不得分)11.关于DBSCAN的描述,正确的有:A.对输入参数ε和MinPts敏感B.可发现任意形状簇C.必然产生相等规模簇D.对高维数据效果下降(答案:ABD)12.下列属于过拟合典型现象的有:A.训练误差持续下降而验证误差上升B.模型在训练集上表现完美但测试集上表现差C.决策树层数过多D.正则化系数λ趋于无穷大(答案:ABC)13.在协同过滤中,用户物品评分矩阵稀疏会导致:A.相似度计算不可靠B.冷启动问题加剧C.矩阵分解易过拟合D.推荐多样性下降(答案:ABCD)14.关于PCA的叙述,正确的有:A.主成分是原始特征的线性组合B.各主成分正交C.保留主成分越多,重构误差越小D.主成分方向由协方差矩阵最大特征值对应特征向量决定(答案:ABCD)15.下列措施可缓解类别不平衡问题的有:A.SMOTE过采样少数类B.调整分类阈值C.采用FocalLossD.直接删除多数类样本至与少数类相等(答案:ABCD)三、填空题(每空2分,共20分)16.给定事务列表:T1{A,B,C},T2{A,C},T3{B,C},T4{A,B},最小支持度计数为2,则频繁1项集为________,频繁2项集为________。(答案:{A},{B},{C};{A,B},{A,C},{B,C})17.若某决策树节点熵为0.8,分裂后两子节点熵分别为0.2与0.6,样本占比分别为0.4与0.6,则信息增益为________。(答案:0.8(0.4×0.2+0.6×0.6)=0.80.44=0.36)18.在Kfold交叉验证中,若K=N(样本数),则该方法称为________交叉验证。(答案:留一法)19.若某线性回归模型使用L2正则化,则该模型称为________回归。(答案:岭)20.在Apriori性质中,“频繁项集的所有非空子集必须是频繁的”被称为________性质。(答案:向下闭合)21.若两向量x=[1,2,3]与y=[4,5,6],则其余弦相似度为________。(答案:(1×4+2×5+3×6)/(√14×√77)=32/√1078≈0.9746)22.在随机森林中,用于评估特征重要性的指标是________。(答案:平均不纯度减少/MeanDecreaseImpurity)23.若某聚类算法采用轮廓系数作为评估指标,其取值范围是________。(答案:[1,1])24.在EM算法中,E步计算的是隐变量的________分布。(答案:后验)25.若某文本分类任务采用TFIDF权重,则词语t在文档d中的权重与词频成________比,与包含该词的文档数成________比。(答案:正;反)四、简答题(共25分)26.(封闭型,6分)简述支持向量机中核函数的作用,并给出两种常用核函数及其表达式。答案:核函数将原始特征映射到高维空间,使线性不可分问题在新空间线性可分,避免显式计算映射函数。常用核:1.RBF核:K(x,z)=exp(γ||xz||²)2.多项式核:K(x,z)=(x·z+c)^d,c≥0,d∈N27.(封闭型,6分)说明FPgrowth相比Apriori的主要优势,并指出其两个核心数据结构。答案:FPgrowth避免候选集生成与多次扫描数据库,仅需两次扫描。核心结构:FP树(频繁模式树)与头指针表。28.(开放型,7分)某电商发现推荐系统点击率下降,请从数据挖掘流程角度提出至少三条可能原因及对应改进措施。答案示例:1.数据漂移:用户兴趣随季节变化,训练数据过期。改进:引入在线学习,每日增量更新模型。2.特征失效:商品标签由人工维护,近期标签质量下降。改进:采用自然语言处理自动抽取特征,并引入质量监控。3.冷启动:新用户占比升高,历史行为稀疏。改进:结合内容特征与知识图谱,利用迁移学习将老用户知识迁移到新用户。29.(封闭型,6分)写出Gini指数计算公式,并计算下述数据集划分前后的Gini指数变化。数据集:10个样本,类别A有6个,类别B有4个;按特征X≤5划分后,左子集含4A+1B,右子集含2A+3B。答案:Gini(D)=1(0.6²+0.4²)=0.48Gini_left=1(0.8²+0.2²)=0.32Gini_right=1(0.4²+0.6²)=0.48ΔGini=0.48(5/10×0.32+5/10×0.48)=0.480.40=0.08五、应用题(共40分)30.(计算类,10分)给定二维数据集:(2,3),(3,4),(4,5),(10,10),(11,11),(12,12)使用kmeans(k=2),初始中心为(3,4)与(11,11),请写出第一次迭代后的:a)簇分配结果b)新中心坐标c)平方误差和(SSE)答案:a)簇1:(2,3),(3,4),(4,5);簇2:(10,10),(11,11),(12,12)b)新中心:簇1((2+3+4)/3,(3+4+5)/3)=(3,4);簇2((10+11+12)/3,(10+11+12)/3)=(11,11)c)SSE=[(23)²+(34)²]+[(45)²]+[(1011)²+(1011)²]+[(1211)²+(1211)²]=2+2+2+2+2+2=1231.(分析类,10分)某银行构建信用卡违约预测模型,采用梯度提升树,得到特征重要性排序如下:1.最近3个月逾期次数2.信用额度利用率3.年龄4.查询次数现发现模型在年轻群体(1825岁)上召回率仅30%,请分析可能原因并提出改进方案。答案:原因:年轻群体样本量不足,模型欠拟合;特征“年龄”与“逾期次数”在年轻段分布稀疏,树分裂不足;梯度提升对少数模式关注不足。改进:1.分层采样增加年轻群体权重;2.引入年轻专用特征,如“在校状态”“第一份工作时长”;3.采用focalloss调整样本权重;4.对年轻群体单独训练子模型后融合。32.(综合类,20分)某零售企业提供交易数据:用户ID、商品ID、时间戳、数量、金额。请设计一套完整数据挖掘方案,实现“高价值客户”精准识别,要求:a)给出特征工程详细步骤(至少6项特征并说明计算方式)b)选择模型并给出理由c)给出评估指标及验证方案d)说明如何部署与监控答案:a)特征工程:1.RFM:Recency=最近交易距今天数,Frequency=过去12个月交易次数,Monetary=过去12个月总金额;2.平均客单价=Monetary/Frequency;3.品类多样性=去重品类数/总品类数;4.促销敏感度=促销订单占比;5.季节性波动系数=月金额标准差/均值;6.退货率=退货金额/总金额;7.夜间购买占比=06点订单数/总订单数。b)模型:XGBoost,理由:可处理非线性、自动交互、对异常值鲁棒、特征重要性可解释。c)评估:采用AUC为主指标,辅以Recall@Top10%客户、Lift曲线;验证:时间切分,用前18个月训练,后6个月测试,采用GroupKFold按用户分组5折交叉验证。d)部署:模型导出为PMML,实时服务通过RESTAPI,输入用户最新特征,输出高概率名单;监控:每日计算PSI检测特征漂移,AUC下降超过3%触发重训练;建立GroundTruth延迟反馈机制,利用实际营销响应更新标签。六、编程实验题(共20分)33.(Python实现,20分)请使用pandas与sklearn完成以下任务:给定CSV文件sales.csv,字段:user_id,product_id,amount,datea)读取数据,构造用户商品共现矩阵(行为用户,列为商品,值为累计金额);b)对共现矩阵进行MinMax归一化;c)采用基于物品的协同过滤(余弦相似度)为指定用户user_id=100推荐Top5商品;d)输出推荐列表及对应相似度得分。答案:```pythonimportpandasaspdfromsklearn.preprocessingimportMinMaxScalerfromsklearn.metrics.pairwiseimportcosine_similaritydf=pd.read_csv('sales.csv')ui=df.groupby(['user_id','product_id'])['amount'].sum().unstack(fill_value=0)scaler=MinMaxScaler()ui_norm=pd.DataFrame(scaler.fit_transform(ui),index=ui.index,columns=ui.columns)item_sim=cosine_similarity(ui_norm.T)item_sim_df=pd.DataFrame(item_sim,index=ui_norm.columns,columns=ui_norm.columns)target_user=100user_items=ui_norm.loc[target_user]user_items_nonzero=user_item
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026福建漳州漳浦龙成中学职工招聘笔试模拟试题及答案解析
- 2026湖南娄底市人力资源和社会保障局娄底市市本级第一批就业见习岗位笔试模拟试题及答案解析
- 2026年湖南株洲炎陵县龙酃实业开发有限公司招聘2人考试重点题库及答案解析
- 2026广东佛山市禅城区海口小学招聘临聘教师1人笔试模拟试题及答案解析
- 2026浙江宁波市外事服务中心招聘编外工作人员2人笔试备考题库及答案解析
- 2026广西北海市银海区福成中学食堂工人招聘1人笔试备考题库及答案解析
- 2026山东潍坊实验中学招聘22人笔试模拟试题及答案解析
- 2026江苏南京新农发展集团有限责任公司招聘19人笔试参考题库及答案解析
- 2026朔州市大医院招聘70人笔试模拟试题及答案解析
- 首饰销售知识培训课件
- 智能网联汽车感知技术与应用 课件 项目1 智能网联汽车感知技术概述
- 低空经济在红河州乡村振兴中的实践与探索报告2025
- 港口复工复产安全培训课件
- 歌颂内蒙古的诗歌
- uom理论考试题库及答案2025
- 2025年文字排版与设计考试试题及答案
- 新能源充电桩施工方案
- 2015-2024年十年高考地理真题分类汇编专题03 地球上的大气(原卷版)
- 瘢痕早期预防胜于治疗
- DLT 572-2021 电力变压器运行规程
- 金相分析原理及技术
评论
0/150
提交评论