版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘考试题库及答案一、单项选择题(每题1分,共20分)1.在Apriori算法中,若频繁k项集Lk为空,则下列结论正确的是A.算法必须继续扫描k+1层B.所有k+1项集必然不频繁C.最小支持度阈值设置过高D.事务数据库存在异常答案:B2.给定事务数据库,最小支持度=30%,项集{牛奶,面包}的支持度计数为25,事务总数为100,则A.{牛奶,面包}是频繁项集B.{牛奶,面包}不是频繁项集C.无法判断D.需计算置信度答案:B3.决策树C4.5使用下列哪种指标进行划分选择A.Gini指数B.信息增益率C.卡方统计量D.误分类率答案:B4.在Kmeans聚类中,若初始中心点落在同一真实簇内,最可能导致的后果是A.收敛速度加快B.簇内SSE必然最小C.产生空簇D.聚类结果陷入局部最优答案:D5.朴素贝叶斯分类器“朴素”的核心假设是A.先验概率相等B.特征条件独立C.类条件概率服从正态分布D.后验概率最大化答案:B6.若某连续属性在CART回归树中被用作划分,其划分点选择标准是A.最小化加权信息增益B.最小化子节点方差之和C.最大化Gini指数下降D.最大化卡方值答案:B7.DBSCAN中,若对象p的ε邻域包含MinPts=4,则p被称为A.核心对象B.边界对象C.噪声对象D.密度可达对象答案:A8.在关联规则{啤酒}⇒{尿布}中,已知支持度=20%,置信度=60%,则事务数据库中同时出现啤酒和尿布的比例为A.12%B.20%C.60%D.30%答案:A9.采用十折交叉验证时,训练集与测试集的比例约为A.9:1B.1:1C.10:1D.1:9答案:A10.若随机森林中树的数量趋于无穷,则关于OOB误差的描述正确的是A.一定为零B.收敛于泛化误差期望C.与单棵树训练集误差相等D.无法计算答案:B11.在PageRank公式R=(1d)/N+d·M·R中,阻尼系数d通常取A.0.1B.0.5C.0.85D.1.0答案:C12.若某分类模型ROC曲线紧贴左上角,则其AUC值A.接近0B.接近0.5C.接近1D.无法确定答案:C13.在EM算法中,E步计算的是A.参数最大似然估计B.隐变量后验概率C.完全数据对数似然D.梯度下降方向答案:B14.若使用Lift指标评估关联规则,Lift=1表示A.前件与后件负相关B.前件与后件独立C.前件与后件强相关D.规则置信度为1答案:B15.在HadoopMapReduce编程模型中,Shuffle阶段的核心作用是A.分片输入数据B.排序与分区中间结果C.启动JobTrackerD.写入HDFS答案:B16.若某文本分类任务采用TFIDF权重,则IDF分量会A.随词频增加而增加B.随文档频率增加而减小C.与词位置相关D.与文档长度成正比答案:B17.在AdaBoost算法中,被错误分类样本的权重A.减小B.增加C.不变D.置零答案:B18.若使用肘部法则确定Kmeans最佳K值,应观察A.簇内SSE随K变化的拐点B.轮廓系数随K变化的拐点C.运行时间随K变化的拐点D.熵随K变化的拐点答案:A19.在社交网络分析中,介数中心性衡量的是A.节点度数B.节点接近网络中心的程度C.节点作为“桥梁”的频率D.节点聚类系数答案:C20.若某属性存在大量缺失值且与类别标签无关,最佳处理策略是A.均值填补B.回归填补C.直接删除D.热卡填补答案:C二、多项选择题(每题2分,共20分,每题至少两个正确答案,多选少选均不得分)21.下列哪些技术可用于处理高维稀疏文本数据A.哈希技巧B.潜在语义分析LSAC.Word2VecD.主成分分析PCA答案:A,B,C,D22.关于KNN分类器,下列说法正确的是A.属于懒惰学习B.对特征尺度敏感C.决策边界非线性D.训练时间复杂度为O(n²)答案:A,B,C23.下列哪些方法可用于决策树后剪枝A.悲观误差剪枝PEPB.最小描述长度MDLC.基于代价复杂度剪枝CCPD.预剪枝答案:A,B,C24.在关联规则挖掘中,提高最小置信度会导致A.规则数量减少B.规则支持度必然提高C.可能丢失有用规则D.计算量一定降低答案:A,C25.下列哪些指标可用于聚类性能外部评价A.Jaccard系数B.Rand指数C.轮廓系数D.标准化互信息NMI答案:A,B,D26.下列哪些算法天然支持增量学习A.朴素贝叶斯B.随机梯度下降SVMC.C4.5D.Hoeffding树答案:A,B,D27.在特征选择中,下列哪些属于过滤式方法A.卡方检验B.互信息C.递归特征消除RFED.方差选择法答案:A,B,D28.下列哪些操作能够缓解过拟合A.L2正则化B.DropoutC.增加训练数据D.减少树深度答案:A,B,C,D29.关于FPgrowth算法,下列说法正确的是A.只需两次数据库扫描B.采用分治策略C.必须生成候选集D.使用压缩前缀树结构答案:A,B,D30.下列哪些属于无监督特征学习A.自编码器B.受限玻尔兹曼机RBMC.线性判别分析LDAD.深度信念网络DBN答案:A,B,D三、填空题(每空2分,共20分)31.若事务数据库中项a出现次数为40,总事务数为200,则项a的支持度为____%。答案:2032.在信息论中,属性A对类标签Y的信息增益等于H(Y)−H(Y|A),其中H(Y)表示Y的____。答案:熵33.若某二分类模型阈值从0.5降至0.3,则召回率通常会____(填“上升”或“下降”)。答案:上升34.在Kmeans++初始化策略中,下一个中心点被选中的概率与当前点到最近中心点的____成正比。答案:距离平方35.若某规则的提升度Lift=0.8,则前件与后件呈____相关(填“正”或“负”)。答案:负36.在SVM中,引入松弛变量ξi后,目标函数增加的惩罚项系数常记为____。答案:C37.若某文本采用Bigram模型,句子“数据挖掘”分词后生成的Bigram特征为____。答案:{BOS_数据,数据_挖掘,挖掘_EOS}38.在协同过滤中,用户物品评分矩阵的稀疏性通常用____百分比表示。答案:缺失率39.若某聚类算法输出簇标签向量[1,1,2,2,3],则该聚类结果包含____个簇。答案:340.在深度学习反向传播中,梯度消失问题常与____函数在饱和区导数接近零有关。答案:Sigmoid四、简答题(共6题,每题8分,共48分)41.封闭型:简述Apriori算法的两个重要性质,并说明其在剪枝中的作用。答案:(1)向下闭合性:若一个项集是频繁的,则其所有子集也是频繁的。(2)向上扩展性:若一个项集是非频繁的,则其所有超集也必然非频繁。剪枝作用:利用性质2,在生成候选k+1项集时,只需保留那些所有k子集都在Lk中的项集,从而大幅减少候选数量,降低计算与扫描开销。42.开放型:给定高维稀疏文本数据,请设计一套完整的特征工程与分类pipeline,并说明每一步选择的理由。答案:步骤1:原始文本→分词→去停用词→词干提取,理由:降低噪声、统一词形。步骤2:采用哈希技巧将1×10⁶维词袋映射到2¹⁸维哈希空间,理由:避免构建巨大词典,内存恒定,适合在线学习。步骤3:TFIDF加权,理由:突出区分性词汇,抑制常见词。步骤4:使用线性SVMwithhingeloss,理由:高维稀疏下线性模型表现优异,训练快,对大数据可配合SDG。步骤5:五折交叉验证+网格搜索调参C∈{0.01,0.1,1,10},理由:防止过拟合,获得稳健性能。步骤6:在测试集上评估宏平均F1,理由:多类别且类别不平衡,宏平均对少数类敏感。43.封闭型:写出CART回归树划分连续属性A时,寻找最优划分点s的数学表达式,并说明如何计算。答案:对于属性A的取值排序后得到候选切点集合{si},对每个si将样本分为左右子集DL、DR。目标函数:min_{si}[Σ_{i∈DL}(yi−cL)²+Σ_{i∈DR}(yi−cR)²]其中cL=mean(yi|xiA≤si),cR=mean(yi|xiA>si)。计算:遍历所有si,计算上述加权平方误差和,取最小值对应的si为最优划分点。44.开放型:某电商网站每天新增1亿条用户行为日志,请设计一种可扩展的实时异常检测方案,要求支持秒级响应。答案:(1)日志格式:user_id,item_id,action,timestamp,ip。(2)采用Kafka进行日志收集,分区按user_id哈希,保证同一用户顺序。(3)Flink流处理:窗口5s,计算用户维度特征:点击速率、IP切换次数、异地登录距离。(4)特征向量进入在线IsolationForest模型(树高=8,树数=100),模型预训练于历史一周数据,并每日增量更新。(5)异常得分>0.6触发告警,写入Redis,API层读取实现秒级查询。(6)采用Checkpoint+Savepoint保证故障恢复与弹性扩容。(7)横向扩展:Kafka分区与Flink并行度一致,可随流量线性扩容。45.封闭型:解释EM算法在高斯混合模型中M步的均值更新公式,并指出其统计含义。答案:M步均值更新:μk^(new)=Σi=1Nγikxi/Σi=1Nγik其中γik为E步计算的后验概率p(zk=1|xi)。统计含义:μk^(new)是所有样本xi的加权平均,权重为样本属于第k个高斯成分的后验概率,即“软分配”下的样本中心。46.开放型:某银行拥有1000万客户标签数据与1亿无标签客户,请设计一种半监督学习策略提升信用评分模型性能,并评估效果。答案:(1)基模型:GradientBoostingTrees,特征涵盖征信、交易、社交共500维。(2)采用Selftraining:用标签数据训练初始模型→对无标签数据预测概率→选择预测置信度>0.9的样本加入训练集,迭代5轮。(3)为防止误差累积,引入Cotraining:将特征随机拆分为两个视图,分别训练两个GBDT,仅当两个模型预测一致且置信度均>0.9才加入伪标签。(4)每轮迭代后在独立验证集(5万标签样本)计算AUC,若AUC下降>0.002则早停。(5)最终模型AUC从0.812提升至0.837,KS提升8个百分点;通过PSI与CSI监控,验证跨时间稳定性。五、应用题(共4题,共62分)47.计算类(15分)给定事务数据库:T1:{A,B,C}T2:{A,B,D}T3:{A,C,D}T4:{B,C,D}T5:{A,B,C,D}最小支持度=60%,最小置信度=80%。(1)列出所有频繁项集及其支持度计数;(5分)(2)列出所有强关联规则并给出置信度。(10分)答案:(1)频繁项集:{A}:4,{B}:4,{C}:4,{D}:4,{A,B}:3,{A,C}:3,{A,D}:3,{B,C}:3,{B,D}:3,{C,D}:3,{A,B,C}:2,{A,B,D}:2,{A,C,D}:2,{B,C,D}:2,{A,B,C,D}:1支持度计数≥3(60%)的频繁项集:{A}:4,{B}:4,{C}:4,{D}:4,{A,B}:3,{A,C}:3,{A,D}:3,{B,C}:3,{B,D}:3,{C,D}:3(2)强规则(置信度≥80%):{A,B}⇒{C}:支持度{A,B,C}=2,置信度=2/3≈66.7%→不满足{A}⇒{B}:3/4=75%→不满足{B}⇒{A}:3/4=75%→不满足{A}⇒{C}:3/4=75%→不满足{B}⇒{C}:3/4=75%→不满足{C}⇒{B}:3/4=75%→不满足无规则满足置信度≥80%,故强关联规则集合为空。48.分析类(15分)某航空公司会员数据包含R(最近一次乘机距今天数)、F(年乘机次数)、M(年消费金额,万元)。现采用Kmeans聚类,K分别取2~6,绘制SSEk曲线出现“肘部”于k=4,但轮廓系数在k=3时最高。请分析应如何选择K并给出后续商业解释策略。答案:选择:结合业务可解释性与指标,优先选择k=3。理由:轮廓系数高表明簇内紧密度与分离度综合更好;SSE肘部仅反映簇内平方误差下降速率,易受维度与量纲影响。策略:簇1:R小F高M高→高价值常旅客,提供专属休息室、优先升舱;簇2:R大F低M低→流失风险客户,推送限时优惠券;簇3:R中F中M中→潜力客户,推联名信用卡与积分商城。49.综合类(16分)某城市出租车GPS数据字段:car_id,lat,lon,occupancy,timestamp。设计一个融合聚类与分类的拼车推荐系统,要求:(1)离线挖掘常驻热点上下车区域;(6分)(2)实时判断新订单是否适合拼车并给出置信度;(10分)答案:(1)离线:a.过滤occupancy=0→1为上车,1→0为下车,提取上下车点;b.采用DBSCAN(ε=200m,MinPts=50)聚类,得到热点区域簇心;c.对热点区域构建GeoHash索引,持久化到PostGIS。(2)实时:a.新订单o(lat,lon)计算最近热点中心h,若距离>300m则不适合;b.否则在RedisGeoR
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新医疗器械品牌协同与价值提升
- 创伤性骨折的早期康复与功能训练
- 双J管护理中的呼吸管理
- 分子流行病学中生物标志物的统计验证与结果阐释
- 活体水产品购销员安全生产意识强化考核试卷含答案
- 轧钢工安全管理知识考核试卷含答案
- 气体充装工改进水平考核试卷含答案
- 公厕保洁员诚信品质强化考核试卷含答案
- 医用消毒、低温设备组装调试工岗前履职考核试卷含答案
- 内科护理中的护理伦理
- 辽宁省名校联盟2024-2025学年高二下学期3月份联合考试数学试题(原卷版)
- 工地零工记工表
- DB53T806-2016基于视频图像的道路交通事故分析方法
- 仪表作业人员安全培训
- 价值型销售(技能篇)
- 2021年版新生儿复苏指南
- GB/T 35861-2024气体分析校准用混合气体的通用质量要求和计量溯源性
- 胖东来服务培训课件
- DB21-T 3048-2018汽车租赁经营服务规范
- 宫颈癌筛查培训课件
- 《财务管理》说课课件
评论
0/150
提交评论