数据挖掘技术实战测试题库及答案_第1页
数据挖掘技术实战测试题库及答案_第2页
数据挖掘技术实战测试题库及答案_第3页
数据挖掘技术实战测试题库及答案_第4页
数据挖掘技术实战测试题库及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术实战测试题库及答案1.单选题(每题1分,共20分)1.1在CRISPDM流程中,首先执行的步骤是A.数据准备  B.业务理解  C.建模  D.评估答案:B1.2下列指标中,对类别不平衡最不敏感的是A.准确率  B.F1score  C.AUCROC  D.宏平均召回率答案:C1.3使用Apriori算法时,若最小支持度阈值设为0.01,则意味着A.仅保留出现次数≥1%的项集  B.仅保留置信度≥1%的规则C.仅保留提升度≥1%的规则  D.仅保留出现次数≥1的项集答案:A1.4在Kmeans聚类中,随着K增大,SSE(误差平方和)将A.单调不减  B.单调不增  C.先增后减  D.保持不变答案:B1.5下列关于随机森林的说法正确的是A.树之间共享训练样本权重  B.每棵树使用全部特征C.每棵树使用有放回抽样  D.必须后剪枝答案:C1.6在文本TFIDF向量中,某词在全部文档里均出现,则其IDF值为A.0  B.1  C.log(N)  D.–log(N)答案:A1.7若某决策树节点熵为0.918,划分后两子节点熵分别为0.500与0.000,则信息增益为A.0.418  B.0.500  C.0.918  D.0.250答案:A1.8在PCA中,第k主成分的方差等于A.协方差矩阵第k大特征值  B.相关矩阵第k小特征值C.协方差矩阵第k小特征值  D.相关矩阵迹答案:A1.9使用梯度提升树时,学习率过大可能导致A.欠拟合  B.过拟合  C.无法收敛  D.树深度减小答案:C1.10下列算法中,天然支持增量学习的是A.朴素贝叶斯  B.SVM(RBF核)  C.Kmeans  D.DBSCAN答案:A1.11在关联规则中,已知{牛奶}→{面包}的置信度为0.8,{牛奶}支持度为0.3,则{牛奶,面包}支持度为A.0.24  B.0.80  C.0.30  D.无法确定答案:A1.12使用肘部法确定Kmeans最佳K值时,横纵坐标分别是A.K值与SSE  B.K值与轮廓系数  C.SSE与K值  D.轮廓系数与K值答案:A1.13在SparkMLlib中,下列对象负责特征转换的是A.Estimator  B.Transformer  C.Evaluator  D.PipelineModel答案:B1.14若某数据集有1000条样本,10折交叉验证每折训练集大小为A.100  B.900  C.1000  D.990答案:B1.15在时间序列挖掘中,窗口宽度为5的滑动平均滤波器对序列首端产生的缺失值数量为A.0  B.2  C.4  D.5答案:B1.16下列距离度量中,满足三角不等式且对异常值最稳健的是A.曼哈顿  B.欧氏  C.切比雪夫  D.马氏答案:D1.17在XGBoost中,参数reg_alpha控制的是A.L1正则  B.L2正则  C.学习率  D.树数量答案:A1.18若某二分类模型输出概率为0.63,采用0.5阈值,则预测标签为A.0  B.1  C.不确定  D.需校准答案:B1.19在社交网络挖掘中,PageRank值迭代收敛的停止条件通常是A.两次迭代差值小于ε  B.节点度数不变C.连通分量稳定  D.平均路径长度最小答案:A1.20使用HadoopMapReduce实现Kmeans时,Mapper输出的key最合理的是A.样本ID  B.最近簇中心ID  C.簇内样本数  D.簇SSE答案:B2.多选题(每题2分,共20分,多选少选均不得分)2.1下列属于集成学习Bagging思想的是A.随机森林  B.ExtraTrees  C.AdaBoost  D.投票分类器答案:ABD2.2关于OneClassSVM,正确的有A.可用于异常检测  B.仅依赖支持向量C.需指定核函数  D.训练时需负样本答案:ABC2.3在特征选择中,属于过滤式方法的有A.卡方检验  B.互信息  C.Lasso  D.方差分析F值答案:ABD2.4下列操作能够缓解决策树过拟合的有A.限制最大深度  B.最小样本分裂数增大C.后剪枝  D.增加学习率答案:ABC2.5关于LSTM单元,正确的有A.包含遗忘门  B.使用tanh激活输出C.可解决梯度消失  D.参数量少于标准RNN答案:ABC2.6在Spark中,DataFrame与RDD相比优势包括A.内置Catalyst优化器  B.支持结构化APIC.序列化开销更低  D.必须装入内存答案:ABC2.7下列属于无监督降维技术的有A.tSNE  B.LDA(线性判别)  C.NMF  D.Autoencoder答案:ACD2.8关于HDFS,正确的有A.默认块大小128MB  B.支持多写一致C.副本策略机架感知  D.NameNode记录元数据答案:ACD2.9在推荐系统冷启动场景中,可采用的策略有A.基于内容推荐  B.利用社交信息C.热门排行榜  D.矩阵分解答案:ABC2.10下列属于图神经网络常见聚合方式的有A.Mean  B.Max  C.LSTM  D.Attention答案:ABCD3.填空题(每空1分,共20分)3.1若某事务数据库共含10000条事务,项集{啤酒,尿布}出现300次,则支持度为____%。答案:33.2在朴素贝叶斯文本分类中,采用拉普拉斯平滑,词表大小为50000,某词在负类中出现0次,负类文档总词数为20000,则该词在负类的条件概率估计为____。答案:1/(20000+50000)3.3给定协方差矩阵[[5,2],[2,3]],其第一主成分方向对应特征向量为____(保留两位小数)。答案:[0.85,0.53]3.4使用5折交叉验证,训练集每次划分后验证集占____%。答案:203.5在GBDT中,若第t棵树拟合的残差为r_t,则样本i的模型更新公式为F_t(i)=F_{t1}(i)+____·r_t(i)。答案:学习率3.6在SQL中,窗口函数ROW_NUMBER()OVER(PARTITIONBYdeptORDERBYsalaryDESC)的作用是____。答案:在每个dept分组内按salary降序生成行号3.7在Pythonsklearn中,标准化处理使用____类。答案:StandardScaler3.8在TensorFlow2.x中,设置随机种子保证可重复性的模块为____。答案:tf.random.set_seed3.9若某深度网络使用ReLU激活,输出出现大量死亡节点,可改用____激活缓解。答案:LeakyReLU3.10在Hive中,创建分区表关键字为____。答案:PARTITIONEDBY3.11使用MapReduce实现WordCount时,Mapper输出的中间键值对中key的数据类型为____(JavaWritable接口)。答案:Text3.12在时间序列预测中,ARIMA(1,1,1)模型共含____个待估参数。答案:33.13在图数据库Neo4j中,查询节点n的所有出边关系使用____语句。答案:MATCH(n)[r]>()RETURNr3.14在推荐系统评估中,MAP指标中的“P”指____。答案:Precision3.15若某卷积层输入28×28×3,32个3×3卷积核,samepadding,stride=1,则输出特征图尺寸为____。答案:28×28×323.16在XGBoost中,设置subsample=0.8表示每棵树训练时使用____%样本。答案:803.17在SQL优化中,建立____索引可加速WHERExBETWEENaANDb的范围查询。答案:B树3.18在Pythonpandas中,按列连接两个DataFrame使用____函数。答案:pd.concat3.19使用tSNE降维到2维后,评估可视化质量常用____指标。答案:KL散度3.20在Kafka中,保证消息顺序的最小单元是____。答案:分区4.简答题(每题6分,共30分)4.1(封闭型)写出ID3算法使用信息增益选择划分属性的完整公式,并说明为何偏好可取值数目多的属性。答案:信息增益Gain(D,a)=Ent(D)–∑_{v=1}^V(|D^v|/|D|)·Ent(D^v),其中Ent(D)=–∑_{k=1}^Kp_klog₂p_k。信息增益未对属性可取值数目V进行惩罚,V越大则划分后子集越纯,Ent(D^v)越小,导致Gain越大,因此偏好可取值多的属性。4.2(开放型)描述在Spark上实现分布式Kmeans的两次迭代流程,指出Mapper与Reducer的具体输入输出。答案:第一次迭代:Mapper输入:(sampleId,vector),全局广播初始中心;对每个样本计算最近中心id,输出(centerId,(vector,1))。Reducer输入:(centerId,Iterable<(vector,1)>);累加向量与计数,输出(centerId,newCenter)。Driver收集newCenter并更新中心。第二次迭代重复上述流程,直至收敛。4.3(封闭型)给定混淆矩阵TP=80,FN=20,FP=30,TN=70,计算Precision、Recall、F1。答案:Precision=80/(80+30)=0.727Recall=80/(80+20)=0.800F1=2·0.727·0.800/(0.727+0.800)=0.7624.4(开放型)说明Word2Vec中NegativeSampling的目标函数,并解释为何负采样比层次Softmax在大语料上更快。答案:目标函数:L=∑_{w∈V}[logσ(v_w’·v_w)+∑_{i=1}^kE_{w_i∼P_n(w)}logσ(–v_w_i’·v_w)]。负采样仅更新少量负例向量(k≈5–20),而层次Softmax需更新路径上所有节点向量(logV量级),当V很大时负采样计算量显著降低。4.5(封闭型)列举三种处理缺失值的插补方法,并给出各自适用场景。答案:(1)均值插补——数值型特征、分布近似对称;(2)前向填充——时间序列、缺失短暂且趋势平稳;(3)多重插补——缺失非随机、需保持变量间相关性。5.应用题(共60分)5.1综合设计(20分)某电商拥有用户浏览日志(userId,itemId,timestamp,stayTime)与购买表(userId,itemId,orderTime)。请设计一套离线推荐流程,要求:①生成用户近期兴趣特征;②解决冷启动;③输出TopN推荐;④可扩展至每日更新。答案:步骤:1)数据抽取:Hive按dt分区抽取最近30天日志;2)特征工程: a)统计特征:用户近7天点击次数、平均停留时长; b)序列特征:按时间排序的itemId序列,训练Word2Vec得64维embedding; c)冷启动:提取item内容特征(类别、品牌、价格段),计算内容相似度;3)模型:双塔深度网络,用户塔输入统计+序列embedding,物品塔输入内容特征,输出余弦相似度;4)训练:TensorFlow分布式,负采样比例1:4,损失函数SampledSoftmax;5)评估:A/B测试,指标HR@10、NDCG@10;6)部署:TensorFlowSavedModel,每日凌晨调度,召回阶段用Faiss索引近似最近邻,重排阶段用LightGBM打分;7)冷启动兜底:新item按内容相似度找最近邻,新用户按热门榜+实时协同过滤。5.2计算与分析(20分)给定交易数据,字段:customer_id,transaction_amt,transaction_date。请用SQL计算每个客户最近一笔交易与倒数第二笔交易的时间间隔(天),并输出间隔>30天的客户数。答案:```sqlWITHrankedAS(SELECTcustomer_id,transaction_date,ROW_NUMBER()OVER(PARTITIONBYcustomer_idORDERBYtransaction_dateDESC)ASrnFROMtransactions),diffAS(SELECTr1.customer_id,DATEDIFF(r1.transaction_date,r2.transaction_date)ASgapFROMrankedr1JOINrankedr2ONr1.customer_id=r2.customer_idANDr1.rn=1ANDr2.rn=2)SELECTCOUNT(DISTINCTcustomer_id)AScntFROMdiffWHEREgap>30;```结果:cnt=12345(示例)。5.3算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论