2025数据挖掘考试核心题目与答案_第1页
2025数据挖掘考试核心题目与答案_第2页
2025数据挖掘考试核心题目与答案_第3页
2025数据挖掘考试核心题目与答案_第4页
2025数据挖掘考试核心题目与答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025数据挖掘考试核心题目与答案一、单项选择题(每题1分,共20分)1.在Apriori算法中,若频繁k项集Lk为空,则下一步应A.继续生成Lk+1B.停止生成更大频繁项集C.降低最小支持度阈值D.重新扫描事务数据库答案:B2.下列哪项不是决策树过拟合的典型表现A.训练误差持续下降而测试误差上升B.叶节点数远大于训练样本数C.训练误差与测试误差同步下降D.对训练数据中的噪声节点也生成叶答案:C3.在Kmeans聚类中,若初始中心点重合,则算法迭代后A.必然收敛到全局最优B.簇内平方和一定为0C.有效簇数少于预设KD.簇标签与初始顺序无关答案:C4.给定事务集{牛奶,面包,啤酒}、{牛奶,啤酒}、{面包,尿布},最小支持度=50%,下列项集是频繁1项集的是A.{尿布}B.{啤酒}C.{面包,啤酒}D.{牛奶,面包}答案:B5.在朴素贝叶斯文本分类中,采用拉普拉斯平滑主要是为了解决A.特征维度灾难B.零概率问题C.先验概率偏移D.后验概率不收敛答案:B6.若某数据集信息增益率总是偏向取值较多的属性,则优先采用A.ID3B.C4.5C.CART回归树D.随机森林答案:B7.DBSCAN中若MinPts=4,ε=0.5,某点p的ε邻域含3个点(含p),则p是A.核心点B.边界点C.噪声点D.无法确定答案:B8.在协同过滤中,用户物品评分矩阵稀疏性高会导致A.冷启动问题仅出现在物品侧B.基于内存的方法计算量下降C.相似度计算置信度降低D.矩阵分解过拟合风险减小答案:C9.若随机森林中每棵树都用全部特征划分,则袋外误差估计将A.降低B.升高C.不变D.与树深度无关答案:B10.在PageRank幂迭代中,阻尼系数d通常取0.85,其作用是A.保证矩阵可逆B.防止SpiderTrapC.加速收敛D.降低内存占用答案:B11.下列关于FPGrowth的描述正确的是A.需多次扫描数据库B.采用分治策略构建条件FP树C.必须生成候选集D.对稀疏数据效率低于Apriori答案:B12.若某连续属性在CART分类树中被允许重复分裂,则A.必然导致过拟合B.可捕捉非线性阈值C.基尼系数不再适用D.树深度一定为1答案:B13.在AdaBoost中,若某基分类器权重αt<0,则表明A.该分类器随机猜测B.该分类器错误率>0.5C.该分类器错误率<0.5D.学习率过大答案:B14.采用肘部法确定Kmeans最佳K值时,肘部点对应A.簇内平方和下降最快处B.簇内平方和由陡变缓的拐点C.轮廓系数最小值D.戴维森堡丁指数最大值答案:B15.在关联规则评价指标中,若lift(A→B)=1,则A.A与B互斥B.A与B独立C.A与B负相关D.规则置信度为0答案:B16.若LSTM中遗忘门偏置初始化为大负数,则初始时刻网络倾向于A.记住全部历史信息B.遗忘全部历史信息C.梯度爆炸D.梯度消失答案:B17.在HadoopMapReduce框架中,Shuffle阶段主要完成A.分片与格式化B.排序与分区C.combiner与reduceD.数据压缩答案:B18.若某数据流采用CountMinSketch计数,哈希函数越多则A.高估误差概率降低B.内存占用线性减少C.低估误差概率升高D.查询时间复杂度升高到O(n)答案:A19.在异常检测中,若采用LOF算法,当MinPts=10时,某点LOF得分≈1,则该点A.一定是异常B.密度与邻域大致相同C.位于簇边缘D.计算出错答案:B20.若使用Word2VecSkipgram模型,窗口大小=5,负采样=15,则训练目标函数等价于A.最大化softmax交叉熵B.最大化负采样近似softmaxC.最小化均方误差D.最小化欧氏距离答案:B二、多项选择题(每题2分,共10分,每题至少两个正确答案,多选少选均不得分)21.下列哪些方法可以缓解协同过滤的冷启动问题A.利用用户注册信息计算内容相似度B.引入流行度排行榜C.采用矩阵分解并正则化D.利用社交网络好友评分答案:A、B、D22.关于集成学习,下列说法正确的是A.Bagging可降低方差B.Boosting可降低偏差C.随机森林是Bagging的特例D.AdaBoost对噪声数据鲁棒性强于Bagging答案:A、B、C23.在数据预处理阶段,可能导致信息泄露的行为有A.用全量数据统计Zscore后再划分训练/测试集B.在训练集上拟合标准化器再用于测试集C.用未来特征填充缺失值D.交叉验证前做特征选择答案:A、C、D24.下列哪些指标适用于评估二分类不平衡数据A.F1scoreB.AUCROCC.准确率D.平均精度均值(AP)答案:A、B、D25.下列属于密度聚类算法的有A.DBSCANB.OPTICSC.DENCLUED.BIRCH答案:A、B、C三、填空题(每空1分,共15分)26.在C4.5中,用于处理连续属性的离散化策略是________分裂。答案:二分27.若某事务数据库含1000条事务,频繁项集{牛奶,面包}的支持度计数为300,则支持度为________%。答案:3028.在PCA中,第k主成分是数据协方差矩阵第________大特征值对应的特征向量。答案:k29.若随机森林中共有T棵树,对样本x的袋外预测采用________投票法。答案:简单多数30.在关联规则中,已知置信度(A→B)=0.8,支持度(A)=0.4,则支持度(A∪B)=________。答案:0.3231.采用MinMax归一化将值x映射到[0,1],若Min=10,Max=110,则x=60归一化后为________。答案:0.532.在HBase中,数据按________键字典序排序存储。答案:Row33.若LSTM输入门激活函数为sigmoid,则其输出值域为________。答案:(0,1)34.在Spark中,RDD的________操作会触发实际计算。答案:行动(action)35.若某深度网络采用ReLU激活,则反向传播时梯度为0的区域称为________区域。答案:死亡ReLU36.在文本TFIDF中,若词t在文档d中出现频率高且在整个语料中出现频率低,则IDF值________。答案:高37.采用肘部法时,若K>真实簇数,则簇内平方和下降幅度将显著________。答案:减小38.在AdaBoost中,样本权重更新后需进行________以保证权重和为1。答案:归一化39.若使用卷积神经网络做句子分类,池化层采用maxovertime,则输出维度与________无关。答案:句子长度40.在GraphSAGE中,节点嵌入通过________其邻域特征聚合生成。答案:采样并聚合(或aggregate)四、简答题(共25分)41.(封闭型,6分)简述Apriori算法的两个核心性质并给出证明思路。答案:性质1:任何频繁项集的所有非空子集必为频繁项集。证明:若项集S频繁,则其支持度≥min_sup;任何子集T⊆S,T出现的事务数≥S出现的事务数,故support(T)≥support(S)≥min_sup,T必频繁。性质2:任何非频繁项集的所有超集必为非频繁项集(反单调性)。证明:若项集Q非频繁,则support(Q)<min_sup;任何超集P⊇Q,support(P)≤support(Q)<min_sup,故P必非频繁。42.(开放型,7分)给定高维稀疏文本数据,说明为何传统Kmeans效果差,并提出至少两种改进方案并对比优劣。答案:高维稀疏文本cosine距离比欧氏距离更能体现语义相似,而Kmeans默认欧氏距离,导致簇质心远离样本点,平方和失真大;稀疏性使质心更新易被少数大词主导。改进1:采用余弦相似度+球面Kmeans(SphericalKmeans),将样本与质心归一化到单位球,目标函数最大化簇内余弦和,迭代步为向量平均再归一化,优势是符合文本几何,劣势是对初始中心敏感。改进2:先使用TruncatedSVD降维到200维稠密向量,再运行标准Kmeans,优势是降维去噪且保留90%方差,计算快;劣势是SVD需额外内存,且降维后解释性下降。实验表明,在20Newsgroups上,方案1的NMI=0.62,方案2为0.59,但方案2运行时间少40%,适合大数据;若追求精度,方案1更优。43.(封闭型,6分)写出CART分类树基尼系数的定义式,并说明为何选择最小基尼指数做分裂。答案:基尼指数Gini(D)=1−∑k=1Kpk²,其中pk为数据集D中第k类样本比例。对候选分裂点将D划分为D1、D2,加权基尼为Gini_split=(|D1|/|D|)Gini(D1)+(|D2|/|D|)Gini(D2)。选择最小Gini_split是因为其衡量划分后节点纯度提升最大,等价于最小化分类误差的上界,且计算仅需计数,无需对数运算,比信息增益更快。44.(开放型,6分)描述随机森林中OutofBag(OOB)误差估计的算法流程,并证明其无偏性。答案:流程:1.对每棵树t,袋外样本集合为OOBt,即训练时未被抽到的约36.8%样本。2.对样本xi,收集所有包含xi为OOB的树子集T_i,用这些树对xi投票得预测类别。3.计算整体OOB误差=被错分的样本数/总样本数。无偏性:每棵树训练集为bootstrap采样,与OOB样本独立;对任意xi,预测仅使用与xi独立训练的树,故OOB误差为泛化误差的无偏估计,无需额外验证集。理论证明参见Breiman2001,其期望误差等于真实泛化误差。五、应用计算题(共30分)45.(关联规则计算,10分)给定事务数据库:T1:{A,B,C}T2:{A,B,D}T3:{A,C,D}T4:{B,C,D}T5:{A,C}最小支持度=60%,最小置信度=80%。(1)列出所有频繁1项集与频繁2项集;(2)写出所有强关联规则(满足最小置信度)并计算其lift。答案:(1)总事务数=5,min_sup=3。频繁1项集:{A}:4,{B}:3,{C}:4,{D}:3。频繁2项集:{A,B}:2(不满足),{A,C}:4,{A,D}:2(不满足),{B,C}:2(不满足),{B,D}:2(不满足),{C,D}:2(不满足)。仅{A,C}频繁。(2)规则:A→C:conf=4/4=100%,lift=100%/(80%)=1.25C→A:conf=4/4=100%,lift=1.25均为强规则。46.(聚类分析,10分)二维数据集:P1(1,1),P2(1,2),P3(5,5),P4(6,6)。设K=2,初始中心μ1=(1,1),μ2=(6,6),采用欧氏距离,运行一次Kmeans迭代,给出:(1)簇分配结果;(2)新中心坐标;(3)簇内平方和J。答案:(1)距离矩阵:P1到μ1=0,到μ2=√50≈7.07→簇1P2到μ1=1,到μ2=√41≈6.4→簇1P3到μ1=√32≈5.66,到μ2=√1≈1→簇2P4到μ1=√50≈7.07,到μ2=0→簇2簇1:{P1,P2},簇2:{P3,P4}(2)新中心:μ1'=((1+1)/2,(1+2)/2)=(1,1.5)μ2'=((5+6)/2,(5+6)/2)=(5.5,5.5)(3)J=簇1平方和+簇2平方和簇1:(1−1)²+(1−1.5)²+(1−1)²+(2−1.5)²=0.25+0.25=0.5簇2:(5−5.5)²+(5−5.5)²+(6−5.5)²+(6−5.5)²=0.25×4=1J=1.547.(分类器评估,10分)某二分类问题测试集含100正例、900负例。模型预测结果:TP=80,FP=100,TN=800,FN=20。(1)计算Precision、Recall、F1、AUC近似值(假设ROC曲线线性插值);(2)若将分类阈值提高使FP降为50,但FN升为50,重新计算F1;(3)分析业务场景:信用卡欺诈检测,应选择哪个阈值并说明理由。答案:(1)Precision=TP/(TP+FP)=80/180=0.444Recall=TP/(TP+FN)=80/100=0.8F1=2×0.444×0.8/(0.444+0.8)=0.571TPR=Recall=0.8,FPR=FP/(FP+TN)=100/900=0.111AUC≈0.5×(TPR₁+FPR₁)线性梯形=0.5×(0.8+0.8×0.111)+(0.2×0.889)≈0.85(2)新阈值:TP=50,FP=50,FN=50,TN=850Precision=50/100=0.5Recall=50/100=0.5F1=0.5(3)欺诈检测侧重Recall,因漏检(FN)成本远高于误杀(FP)。原阈值F1虽略低,但Recall=0.8可拦截80%欺诈,仅增加100笔人工复核;提高阈值后Recall降至0.5,漏掉50%欺诈,损失更大。故应选原阈值,并通过后续规则模型降低FP。六、综合设计题(共20分)48.(20分)某电商公司欲构建实时商品推荐系统,数据规模:日活用户1亿,商品池500万,日均行为日志200亿条(点击、加购、下单)。请设计一套端到端数据挖掘解决方案,需涵盖:(1)数据收集与存储;(2)特征工程;(3)模型选择与训练;(4)在线服务与冷启动;(5)效果评估与A/B测试。要求:给出技术选型理由、关键参数、潜在问题及缓解措施,字数不少于600字。答案:(1)数据收集与存储:客户端埋点采用JSON格式,通过Kafka集群按用户ID分片,峰值QPS=300万,Kafka分区数=1000,副本因子=3,保留72小时。存储:原始日志落HDFS按小时分区,压缩格式ORC,节省60%空间;同时行为流写入Flink进行实时ETL。用户画像与商品画像存储在RedisCluster,TTL=7天,内存容量估算:用户侧平均特征向量1KB×1亿=100GB,商品侧平均5KB×500万=2.5TB,采用256分片,每节点64GB,共40节点。(2)特征工程:实时特征:近1小时点击数、近24小时下单数,使用Flink窗口函数滑动计算,输出到Redis,更新延迟<1秒。离线特征:用户长期兴趣,采用SparkSQL统计近30天行为,按商品类目聚合,输出到HDFS,每日凌晨调度。序列特征:用户最近50次行为商品ID,采用Word2Vecitemembedding训练,向量维度=128,负采样=10,窗口=5,训练数据采样1%日志即可收敛。特征拼接:实时与离线特征通过用户ID关联,形成宽表,采用Parquet存储,Snappy压缩。(3)模型选择与训练:初选双塔深度召回模型:用户塔输入{用户画像、序列embedding、上下文(时间、设备)},商品塔输入{商品画像、文本embedding},输出128维向量,内积得分做召回。损失函数:SampledSoftmax,温度系数=0.05,负采样=1000,学习率=0.001,Adam优化器,batch_size=8192,在GPU集群训练3小时完成1epoch。精排模型:DeepFM,输入含连续特征与128维用户/商品向量,FM部分阶=2,D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论