版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘考试习题及答案一、单项选择题(每题1分,共20分)1.在Apriori算法中,若频繁k项集Lk为空,则下列说法正确的是A.算法立即终止,不再生成任何候选项集B.继续尝试生成Lk+1,但剪枝更严格C.回溯到Lk1重新计数D.将最小支持度阈值自动降低10%答案:A2.给定事务数据库,最小支持度=30%,下列哪一项不可能是频繁1项集A.{牛奶}出现频率32%B.{啤酒}出现频率29%C.{面包}出现频率35%D.{鸡蛋}出现频率30%答案:B3.决策树中采用信息增益率而非信息增益的主要目的是A.减少计算量B.克服过拟合C.克服属性取值数目偏多的偏置D.提高可解释性答案:C4.在kmeans聚类中,若k值设置过大,最可能出现的后果是A.轮廓系数急剧增大B.SSE(误差平方和)一定减小C.簇间距离一定增大D.运行时间指数级增长答案:B5.朴素贝叶斯分类器“朴素”的核心假设是A.先验概率服从均匀分布B.各属性在给定类别下条件独立C.属性服从高斯分布D.类别先验相等答案:B6.下列关于Bagging的描述正确的是A.各基学习器必须采用相同超参数B.通过Boost指数权重调整样本分布C.可降低方差,对高方差低偏差模型有效D.必须采用决策树作为基学习器答案:C7.在FPgrowth算法中,头表(HeaderTable)的作用是A.存储事务ID列表B.快速访问相同项的链表头,便于条件模式基挖掘C.记录项的绝对支持度计数D.存储压缩后的FP树节点指针答案:B8.若某连续属性在AdaBoost的每一轮都被选作最佳划分,说明该属性A.对分类无信息量B.存在异常值C.与类别高度相关且仍残留可加权纠正的误差D.必须离散化答案:C9.DBSCAN中若设置MinPts=4,ε=0.5,某点p的ε邻域含3个点(含p自身),则p是A.核心点B.边界点C.噪声点D.无法确定答案:B10.在关联规则度量中,已知规则X→Y的提升度lift=1.2,则A.X与Y负相关B.X与Y独立C.X与Y正相关D.置信度一定大于支持度答案:C11.使用肘部法确定最佳k时,横纵坐标分别是A.k;SSEB.k;轮廓系数C.SSE;kD.簇间距离;k答案:A12.若SVM使用RBF核,参数γ→∞,则A.决策边界趋于线性B.支持向量数量一定减少C.模型方差增大,可能过拟合D.惩罚参数C不再起作用答案:C13.在文本挖掘中,TFIDF公式“IDF=log(N/df)”中df指A.文档频率B.词频C.逆文档频率D.文档总数答案:A14.下列哪项不是处理类别不平衡的常用技术A.SMOTE过采样B.集成代价敏感学习C.增加正则化系数λD.欠采样多数类答案:C15.若随机森林中某特征在所有树中均未被使用,则该特征A.一定与类别无关B.对OOB误差无影响C.可能在后续剪枝中被加入D.其变量重要性为零答案:D16.在PageRank公式R=(1d)/N+d·M·R中,阻尼系数d通常取A.0.1B.0.5C.0.85D.1.0答案:C17.当使用Kfold交叉验证时,增大K将导致A.偏差增大,方差减小B.偏差减小,方差增大C.偏差与方差均增大D.偏差与方差均减小答案:B18.若某数据集有1000条样本,采用留一法交叉验证,则训练次数为A.10B.50C.100D.1000答案:D19.在PCA中,第k主成分的方差等于A.协方差矩阵第k大特征值B.第k小特征值C.奇异值平方和D.载荷向量第k个分量答案:A20.下列关于在线学习(OnlineLearning)的描述错误的是A.可逐样本更新模型B.适用于数据流场景C.必须存储全部历史数据D.常用随机梯度下降实现答案:C二、多项选择题(每题2分,共10分;每题至少有两个正确答案,多选少选均不得分)21.关于kmeans与GMM(高斯混合模型)的比较,正确的是A.kmeans可视为GMM的特例,当协方差矩阵为σ²I且σ→0B.GMM采用EM算法,可给出样本属于各簇的概率C.kmeans对离群点更敏感D.GMM必须指定簇数k答案:ABCD22.以下哪些方法可用于决策树后剪枝A.悲观错误剪枝(PEP)B.最小描述长度(MDL)剪枝C.代价复杂度剪枝(CCP)D.基于信息增益预剪枝答案:ABC23.在SVM中,支持向量的特点是A.位于间隔边界或违反间隔约束B.对最终决策边界有贡献C.移除非支持向量不会改变模型D.数量越多泛化能力一定越好答案:ABC24.以下哪些属于集成学习降低偏差的方法A.AdaBoostB.GradientBoostingC.RandomSubspaceD.XGBoost答案:ABD25.关于FPgrowth与Apriori的对比,正确的是A.FPgrowth通常只需扫描数据库两次B.Apriori产生大量候选集,内存占用高C.FPgrowth采用分治策略,使用压缩树结构D.Apriori天然支持并行化,FPgrowth无法并行答案:ABC三、填空题(每空1分,共15分)26.在ID3算法中,信息增益的公式是________。答案:Gain(D,A)=Ent(D)∑(|Dv|/|D|)·Ent(Dv)27.若某事务数据库总事务数为1000,项集{A,B}出现300次,{A}出现600次,则规则A→B的置信度为________%。答案:5028.当使用高斯核SVM时,模型复杂度主要受________与________两个参数控制。答案:C;γ29.在EM算法中,E步计算的是________,M步最大化________。答案:隐变量的后验概率(或Q函数);完全数据对数似然的期望30.若某样本经SMOTE合成后,少数类由200例增至800例,则合成样本数为________。答案:60031.在随机森林中,用于评估变量重要性的平均不纯度减少量英文缩写为________。答案:MDI(MeanDecreaseImpurity)32.若某聚类结果的ARI(调整兰德指数)为0,说明________。答案:与随机划分无差异33.当使用MinMax归一化将值x映射到[0,1]区间时,公式为________。答案:(xmin)/(maxmin)34.在梯度提升树中,第m棵树的拟合目标是________。答案:当前残差(或负梯度)35.若某文本词袋模型共含5000个词,则TFIDF向量的维度为________。答案:5000四、简答题(共25分)36.(封闭型,5分)简述Apriori算法的两个核心性质,并给出简要解释。答案:1.向下封闭性:若一个项集是频繁的,则其所有子集也必须是频繁的;否则该项集的支持度不可能满足最小阈值。2.向上收缩性:若一个项集是非频繁的,则其所有超集也一定是非频繁的;因此可以提前剪枝,避免无谓计算。37.(开放型,6分)试比较基于密度聚类(DBSCAN)与基于层次聚类(AGNES)在发现任意形状簇、处理噪声及参数敏感性方面的差异,并给出适用场景建议。答案:DBSCAN利用ε邻域密度,可发现任意形状簇,对噪声显式标记且无需指定簇数,但对密度变化大或高维数据效果下降;参数ε与MinPts需联合调优。AGNES通过距离矩阵逐步合并,能输出完整聚类谱系,对小型数据集稳定,然时间复杂度O(n²)以上,难以处理大规模数据,且一旦合并无法撤销。适用建议:对含噪声、形状复杂、规模中等且密度较均匀的数据优先DBSCAN;对需要层次解释、规模较小、簇结构明显嵌套的数据优先AGNES。38.(封闭型,6分)给定二维数据集,正类“○”与负类“×”线性不可分。若使用软间隔SVM,请写出原始优化目标(含松弛变量ξi)并解释C的作用。答案:min½‖w‖²+C∑ξis.t.yi(w·xi+b)≥1ξi,ξi≥0,i=1,…,nC>0为惩罚系数,控制对误分类的容忍度:C越大,对误分惩罚越重,间隔越小,模型越复杂;C越小,允许更多误分,间隔增大,模型更简单。39.(开放型,8分)某电商日志包含用户点击序列,请设计一个基于滑动窗口与关联规则的综合方案,实时发现“浏览→加购→下单”三段式强规则,并说明如何增量更新。要求给出:1.窗口划分策略;2.事务化方法;3.支持度与置信度阈值动态调整机制;4.增量更新算法要点。答案:1.窗口划分:采用时间长度w=30min的滑动窗口,步长s=5min,保证规则时效性。2.事务化:将窗口内同一用户的点击流按时间排序,映射为事务,项为“浏览A”“加购A”“下单A”等三元组,过滤无效跳转。3.动态阈值:初始support=0.5%,confidence=30%;若返回规则数<k条,则自动降低10%阈值,直至满足k或降至最小阈值stop=0.1%。4.增量更新:采用FPtree维护,窗口滑动时删除过期事务(时间戳<tnoww),插入新事务;对删除操作采用逆更新策略,减少支持度计数;若节点计数=0则剪枝;每轮仅重新挖掘条件模式基变化的局部路径,实现O(|Δ|)复杂度。五、应用计算题(共30分)40.(关联规则计算,8分)下表是某超市5笔交易记录:T1:{牛奶,面包,啤酒}T2:{牛奶,面包}T3:{面包,鸡蛋}T4:{牛奶,面包,鸡蛋}T5:{牛奶,鸡蛋}最小支持度=40%,最小置信度=60%。(1)列出所有频繁1项集与频繁2项集;(2)生成所有强关联规则并计算置信度。答案:(1)频繁1项集:{牛奶}80%,{面包}80%,{鸡蛋}60%。频繁2项集:{牛奶,面包}60%,{牛奶,鸡蛋}40%,{面包,鸡蛋}40%。(2)强规则:牛奶→面包,conf=60/80=75%≥60%,强;面包→牛奶,conf=60/80=75%,强;其余2项集规则置信度均<60%,故无更多强规则。41.(朴素贝叶斯计算,7分)某邮件集共1000封,其中垃圾邮件300封,正常邮件700封。词“免费”在垃圾邮件中出现240次,在正常邮件中出现70次;词“会议”在垃圾邮件中出现30次,在正常邮件中出现350次。现有一封新邮件同时包含“免费”与“会议”,采用多项式朴素贝叶斯(加一平滑)预测其类别。要求给出详细计算过程与最终分类结果。答案:先验:P(垃圾)=0.3,P(正常)=0.7。词汇总数:垃圾=240+30+…≈假设总词袋V=10000(平滑用)。P(免费|垃圾)=(240+1)/(300+10000)=241/10300≈0.0234P(会议|垃圾)=(30+1)/10300=31/10300≈0.0030P(免费|正常)=(70+1)/(700+10000)=71/10700≈0.0066P(会议|正常)=(350+1)/10700=351/10700≈0.0328后验比:P(垃圾|特征)∝0.3×0.0234×0.0030≈2.11×10⁻⁵P(正常|特征)∝0.7×0.0066×0.0328≈1.52×10⁻⁴因1.52×10⁻⁴>2.11×10⁻⁵,判为正常邮件。42.(聚类分析,7分)给定一维数据{2,3,7,8,10},设k=2,初始质心μ1=2,μ2=8,运行kmeans至收敛。要求写出每轮簇分配、质心更新及最终SSE。答案:轮1:簇1:{2,3},均值=2.5;簇2:{7,8,10},均值=8.33。轮2:簇1:{2,3},均值=2.5;簇2:{7,8,10},均值=8.33,不再变化。收敛。SSE=(22.5)²+(32.5)²+(78.33)²+(88.33)²+(108.33)²=0.25+0.25+1.77+0.11+2.79≈5.17。43.(决策树信息增益计算,8分)数据集如下,目标属性“购买电脑”:样本|年龄|收入|学生|信用|购买1|青|高|否|中|否2|青|高|否|优|否3|中|高|否|中|是4|老|中|否|中|是5|老|低|是|中|是6|老|低|是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政府机关请假考核制度
- 县级培训团队考核制度
- 员工线上评分考核制度
- 交通安全干部考核制度
- 客运驾驶定期考核制度
- 电销员工薪酬考核制度
- 合星财富绩效考核制度
- 纺织企业绩效考核制度
- 乡镇日常工作考核制度
- 太原外贸员工考核制度
- 采购助理岗位考试题及解析
- 安徽2021-2025真题及答案
- TCEC电力5G轻量化模组通信连接技术要求-2024
- 玻璃加工厂安全生产管理制度
- 2025年福建地生会考试卷及答案
- 6.1.2 有性生殖(教学设计)生物新教材人教版八年级下册
- 2025昆士兰临床指南:产程延长和难产(v1)解读课件
- 截肢护理小讲课
- 脑疝护理应急预案
- 学习与解读国家十五五规划
- 成人术后谵妄预防与护理专家共识 3
评论
0/150
提交评论