版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术考试题目及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在Apriori算法中,若频繁k项集为∅,则下一步应()。A.继续生成k+1项集B.停止生成所有更长候选项集C.降低最小支持度阈值D.重新扫描事务数据库答案:B2.下列关于信息增益率的描述,正确的是()。A.信息增益率总是大于信息增益B.信息增益率对可取值数目多的属性有惩罚作用C.信息增益率无法处理连续属性D.信息增益率等于信息增益除以属性的熵答案:B3.在Kmeans聚类中,若初始质心选择不当,最可能导致的后果是()。A.聚类数目自动增加B.收敛速度加快C.陷入局部最优D.目标函数单调递减到全局最优答案:C4.下列算法中,属于“基于密度”的聚类算法是()。A.BIRCHB.DBSCANC.KmedoidsD.CURE答案:B5.在朴素贝叶斯分类器中,“朴素”一词主要指()。A.假设先验概率服从均匀分布B.假设各属性在给定类别下条件独立C.假设后验概率等于似然度D.假设属性服从高斯分布答案:B6.若某事务数据库共含1000个事务,项集{A,B}出现300次,则支持度为()。A.0.3%B.3%C.30%D.无法确定答案:C7.在ID3算法中,选择划分属性时使用的度量是()。A.基尼指数B.信息增益C.信息增益率D.卡方统计量答案:B8.下列关于随机森林的说法,错误的是()。A.可处理高维数据B.可评估特征重要性C.每棵树均使用全部训练样本D.对缺失值不敏感答案:C9.在协同过滤推荐中,“冷启动问题”通常不包括()。A.新用户B.新项目C.新算法D.新系统答案:C10.若某分类模型在测试集上的混淆矩阵如下,则其召回率为()。 预测 正 负实 正 80 20际 负 10 90A.0.8B.0.89C.0.9D.0.88答案:A11.在PageRank公式R=αMR+(1α)v中,向量v的作用是()。A.保证稀疏性B.引入随机跳转,防止悬挂节点C.加速迭代收敛D.存储网页内容答案:B12.下列关于PCA的描述,正确的是()。A.主成分方向是协方差矩阵特征值最小对应的特征向量B.必须对原始变量做标准化后方可使用C.可完全消除信息冗余D.新坐标系下变量线性无关答案:D13.若使用MinMax归一化将值x映射到[0,1],则公式为()。A.(xmin)/(maxmin)B.(xmean)/stdC.x/log(max)D.(xmin)/std答案:A14.在AdaBoost中,被错分样本的权重更新规则是()。A.乘以exp(αt),其中αt>0B.乘以exp(αt),其中αt>0C.不变D.直接置零答案:A15.下列关于FPgrowth的说法,正确的是()。A.需多次扫描数据库B.采用分治策略构建条件FP树C.不支持长模式挖掘D.必须先生成候选项集答案:B16.在社交网络分析中,介数中心性衡量的是()。A.节点度数B.节点与所有其他节点的平均距离C.节点作为“桥梁”的频率D.节点所在强连通分量大小答案:C17.若某决策树节点纯度已无法进一步提升,则应()。A.继续划分直到叶子节点样本数为1B.停止划分并将该节点标记为叶子C.降低信息增益阈值D.采用随机森林替代答案:B18.在k折交叉验证中,k值越大,则()。A.偏差减小,方差增大B.偏差增大,方差减小C.偏差与方差均增大D.偏差与方差均不变答案:A19.下列关于L1正则化的描述,正确的是()。A.可产生稀疏解B.等价于岭回归C.不可用于逻辑回归D.对异常值不敏感答案:A20.在HadoopMapReduce框架中,Shuffle阶段的核心任务是()。A.将Map输出按key分区并排序后传给ReduceB.压缩中间结果C.启动备份任务D.合并小文件答案:A二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)21.下列属于无监督学习任务的有()。A.聚类B.关联规则挖掘C.异常检测D.回归预测答案:ABC22.关于KNN分类器,下列说法正确的有()。A.属于懒惰学习B.对特征尺度敏感C.必须设置距离权重D.可支持多分类答案:ABD23.以下措施可以缓解决策树过拟合的有()。A.预剪枝B.后剪枝C.增加树深度D.使用集成方法答案:ABD24.下列属于频繁模式评估指标的有()。A.支持度B.置信度C.提升度D.基尼指数答案:ABC25.在文本挖掘中,TFIDF的主要作用包括()。A.抑制常见词权重B.突出文档关键词C.保证向量单位长度D.降低高维稀疏性影响答案:ABD26.下列关于梯度提升树(GBDT)的描述,正确的有()。A.采用加法模型B.每棵树拟合前一轮残差C.可处理非线性关系D.无法与随机森林结合答案:ABC27.以下属于图数据挖掘典型任务的有()。A.社区发现B.链接预测C.图分类D.频繁子图挖掘答案:ABCD28.在数据预处理阶段,处理缺失值可采用的方法有()。A.均值填充B.回归填充C.热卡填充D.直接删除含缺失记录答案:ABCD29.下列关于SparkMLlib的说法,正确的有()。A.提供分布式机器学习算法B.底层基于RDD抽象C.只支持批处理D.可与SparkSQL无缝集成答案:ABD30.以下属于时间序列异常检测方法的有()。A.统计控制图B.孤立森林C.LSTM自编码器D.DBSCAN答案:ABC三、填空题(每空1分,共20分)31.在关联规则{A}→{B}中,置信度计算公式为________。答案:support(A∪B)/support(A)32.若某样本经zscore标准化后的值为2.5,则该值位于均值上方________倍标准差处。答案:2.533.在Kmeans中,常用的距离度量是________距离。答案:欧氏34.若某决策树使用基尼指数作为划分标准,则其目标是最小化________。答案:节点不纯度35.在SVM中,引入松弛变量ξ的主要目的是允许________。答案:软间隔/误分类36.在PageRank迭代公式中,阻尼系数α通常取值为________左右。答案:0.8537.若某聚类算法的Silhouette系数平均值为0.8,表明聚类效果________。答案:良好38.在AdaBoost中,最终分类器是基分类器的________加权表决。答案:线性39.在文本特征提取中,ngram中的n=3称为________。答案:三元组/Trigram40.在FPgrowth算法中,第一次扫描数据库后需构建________表。答案:频繁1项集头41.若某属性取值范围[0,127],用7位二进制编码,则该编码方式称为________编码。答案:二进制/位42.在ROC曲线中,横轴为________率。答案:假正43.在协同过滤中,用户项目评分矩阵通常具有高维________性。答案:稀疏44.在社交网络中,若节点v的出度为0,则称该节点为________节点。答案:悬挂45.在EM算法中,E步计算的是隐变量的________分布。答案:后验/期望46.在Hadoop中,负责资源管理的组件是________。答案:YARN47.在Spark中,DataFrame的底层执行计划称为________计划。答案:逻辑48.在异常检测中,若样本服从高斯分布,则常用________准则判定异常。答案:3σ49.在图像挖掘中,卷积核大小为3×3,步长为2,则特征图尺寸计算公式为________。答案:(N−F)/S+150.在模型评估中,F1score是精确率与召回率的________平均。答案:调和四、简答题(共6题,每题8分,共48分)51.(封闭型)简述Apriori算法的两个核心性质,并说明其在剪枝中的作用。答案:(1)向下闭合性:若项集频繁,则其所有子集必频繁;反之,若某一项集非频繁,则其所有超集必非频繁。(2)反单调性:支持度随项集大小增加而单调不增。作用:利用反单调性,在生成k项集前,先检查其所有k1子集是否频繁,若任一子集非频繁,则立即剪去该k项集,避免无谓扫描数据库,从而大幅减少候选项集规模与计算量。52.(开放型)请给出三种处理高维稀疏文本特征的方法,并比较其优缺点。答案:方法1:TFIDF加权。优点:简单高效,可突出关键词;缺点:未考虑语义,维度仍高。方法2:潜在语义分析(LSA)。优点:降维并挖掘潜在语义;缺点:计算量大,解释性差。方法3:Word2Vec/BERT嵌入后取平均。优点:维度固定,含语义信息;缺点:需预训练模型,对长文档可能丢失全局信息。53.(封闭型)写出DBSCAN算法的两个核心参数及其含义,并说明如何设置。答案:参数1:ε邻域半径,表示判断核心对象时扫描的局部区域大小;参数2:MinPts,表示ε邻域内最少样本数,用于区分核心对象与边界对象。设置方法:对数据集绘制k距离曲线(k=MinPts),取曲线拐点对应的距离作为ε;MinPts通常≥数据维度+1,常用4或5。54.(开放型)说明梯度消失与梯度爆炸在深度神经网络中的表现,并给出两种缓解策略。答案:表现:梯度消失导致底层权重几乎不更新,训练误差下降缓慢;梯度爆炸导致权重更新幅度过大,损失发散。策略1:采用ReLU、LeakyReLU等激活函数,缓解饱和区导数过小问题;策略2:实施梯度裁剪,将梯度范数限制在阈值内;或使用批归一化(BN)稳定分布,减小梯度波动。55.(封闭型)给出精确率、召回率、F1score的定义公式,并说明三者关系。答案:精确率P=TP/(TP+FP);召回率R=TP/(TP+FN);F1=2PR/(P+R)。关系:精确率与召回率常呈负相关,F1score综合两者,取调和平均,使单一指标兼顾Precision与Recall。56.(开放型)描述MapReduce实现WordCount的完整流程,包括Map、Shuffle、Reduce三阶段的数据形式。答案:Map阶段:输入<行偏移量,行文本>,输出<单词,1>列表;Shuffle阶段:框架自动将相同key的value归并,输出<单词,[1,1,…]>;Reduce阶段:输入<单词,迭代器[1,1,…]>,累加后输出<单词,总频次>。五、应用计算题(共4题,共62分)57.(关联规则计算,15分)给定事务数据库:T1:{A,B,C}T2:{A,B}T3:{B,C,D}T4:{A,C,D}T5:{A,B,C,D}最小支持度阈值=40%,最小置信度阈值=70%。(1)列出所有频繁1项集及其支持度;(4分)(2)列出所有频繁2项集;(4分)(3)找出所有强关联规则并给出置信度。(7分)答案:(1){A}:3/5=60%{B}:4/5=80%{C}:4/5=80%{D}:3/5=60%均≥40%,故频繁1项集:{A},{B},{C},{D}(2){A,B}:3/5=60%{A,C}:3/5=60%{A,D}:2/5=40%{B,C}:3/5=60%{B,D}:2/5=40%{C,D}:3/5=60%均≥40%,故频繁2项集:{A,B},{A,C},{A,D},{B,C},{B,D},{C,D}(3)规则及置信度:A→B:3/3=100%≥70%强B→A:3/4=75%≥70%强A→C:3/3=100%强C→A:3/4=75%强B→C:3/4=75%强C→B:3/4=75%强C→D:3/4=75%强D→C:3/3=100%强其余规则如A→D=2/3<70%,不输出。58.(聚类分析,15分)对一维数据{2,4,10,12,15},使用Kmeans,K=2,初始质心选2与10,采用欧氏距离,请给出:(1)第一次迭代后的簇划分;(5分)(2)第二次迭代后的质心位置;(5分)(3)算法是否收敛?说明理由。(5分)答案:(1)距离计算:2→2:0,2→10:84→2:2,4→10:610→2:8,10→10:012→2:10,12→10:215→2:13,15→10:5簇C1={2,4},C2={10,12,15}(2)新质心:C1:(2+4)/2=3C2:(10+12+15)/3=37/3≈12.33重新划分:2→3:1,2→12.33:10.33→C14→3:1,4→12.33:8.33→C110→3:7,10→12.33:2.33→C212→3:9,12→12.33:0.33→C215→3:12,15→12.33:2.67→C2簇不变,质心仍为3与12.33(3)收敛,因为簇成员不再变化,质心稳定。59.(朴素贝叶斯计算,16分)训练集如下:样本 天气 温度 游玩1 晴 热 否2 晴 热 否3 多云 热 是4 雨 温和 是5 雨 冷 是使用拉普拉斯平滑,预测新样本(天气=晴,温度=冷)的游玩类别,给出详细概率计算。答案:先验:P(是)=3/5,P(否)=2/5条件概率(平滑):天气=晴:P(晴|否)=(2+1)/(2+2)=3/4P(晴|是)=(0+1)/(3+2)=1/5温度=冷:P(冷|否)=(0+1)/(2+2)=1/4P(冷|是)=(1+1)/(3+2)=2/5联合似然:P(晴,冷|否)=3/4×1/4=3/16P(晴,冷|是)=1/5×2/5=2/25后验:P(否|特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年医疗影像设备升级项目投资计划书
- 2026年宠物医疗保健项目营销方案
- 2026年企业资源计划(ERP)项目营销方案
- 2026年再生资源分拣中心项目营销方案
- 2026福建福州教育学院第二附属中学临聘(代课)教师招聘12人备考题库带答案详解(完整版)
- 2026江西省肿瘤医院高层次人才招聘29人备考题库附参考答案详解(基础题)
- 2026湖南省交通科研院招聘博士后研究人员备考题库附参考答案详解(研优卷)
- 2026年会展经济数字化项目可行性研究报告
- 2026年协作机器人应用项目可行性研究报告
- 2026贵州贵阳观山湖区冒沙学校招聘2人备考题库带答案详解(研优卷)
- 基于区域对比的地理综合思维培养-以澳大利亚和巴西人口分布专题复习课设计(湘教版·八年级)
- 2025年高考(海南卷)历史真题(学生版+解析版)
- 2026河北石家庄技师学院选聘事业单位工作人员36人备考考试试题附答案解析
- NB-SH-T 0945-2017 合成有机酯型电气绝缘液 含2025年第1号修改单
- 企业培训课程需求调查问卷模板
- 2026届福州第三中学数学高二上期末检测模拟试题含解析
- 2026年细胞治疗 免疫性疾病治疗项目商业计划书
- 化工复产安全培训
- (一模)郑州市2026年高中毕业年级(高三)第一次质量预测数学试卷(含答案及解析)
- NBT 11898-2025《绿色电力消费评价技术规范》
- 2026年总经理工作计划
评论
0/150
提交评论