数据挖掘测试题及答案2025年_第1页
数据挖掘测试题及答案2025年_第2页
数据挖掘测试题及答案2025年_第3页
数据挖掘测试题及答案2025年_第4页
数据挖掘测试题及答案2025年_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘测试题及答案2025年单选题(每题1分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在Apriori算法中,若频繁k项集Lk的非空子集一定满足()。A.支持度大于等于最小支持度阈值B.置信度大于等于最小置信度阈值C.提升度大于1D.互信息大于0答案:A2.给定事务数据库,项集{牛奶,面包}的支持度计数为120,总事务数为1000,则其支持度为()。A.0.12%B.1.2%C.12%D.120%答案:C3.在ID3算法中,选择划分属性使用的指标是()。A.Gini指数B.信息增益C.增益率D.卡方统计量答案:B4.若某连续属性在C4.5中被离散化为3个区间,则该节点分裂后产生的子节点数为()。A.1B.2C.3D.4答案:C5.在Kmeans聚类中,若初始簇中心选择不当导致空簇,则通常采用的补救策略是()。A.随机重启B.选择距离最远的点作为新中心C.选择距离最近的两簇合并D.删除该簇并减少K值答案:B6.下列距离度量对异常值最敏感的是()。A.曼哈顿距离B.欧氏距离C.切比雪夫距离D.余弦相似度答案:B7.在FPGrowth中,FP树的头表(HeaderTable)主要作用是()。A.存储事务标识B.快速定位相同项的节点链表C.记录支持度计数D.压缩事务数据库答案:B8.若某分类器在测试集上的混淆矩阵如下,则其宏平均F1为()。预测真实ABA8020B1090A.0.85B.0.86C.0.87D.0.88答案:B9.在AdaBoost中,若第t轮基分类器错误率为0.3,则该分类器权重αt为()。A.0.5ln(0.3/0.7)B.0.5ln(0.7/0.3)C.ln(0.7/0.3)D.ln(0.3/0.7)答案:B10.当使用朴素贝叶斯处理连续属性时,若假设其服从高斯分布,则每维属性需估计的参数个数为()。A.1B.2C.3D.4答案:B11.在DBSCAN中,若MinPts=5,Eps取值过大,最可能出现的后果是()。A.簇数量增多B.噪声点增多C.所有点合并为一个簇D.运行时间指数增长答案:C12.若某数据集有1000条样本,采用10折交叉验证,则每次训练集与验证集大小分别为()。A.900,100B.100,900C.1000,100D.100,1000答案:A13.在PageRank公式R=αS+(1α)E中,向量E的作用是()。A.保证稀疏性B.处理悬挂节点C.引入随机跳转D.加速收敛答案:C14.若某规则前件包含3个项,后件包含2个项,则该关联规则称为()。A.3项集B.2项集C.3→2规则D.5项集答案:C15.在SMOTE算法中,合成新样本时使用的插值公式为()。A.x_new=x+rand(0,1)·(xx_neighbor)B.x_new=x+rand(0,1)·(x_neighborx)C.x_new=xrand(0,1)·(x_neighborx)D.x_new=x_neighbor+rand(0,1)·(xx_neighbor)答案:B16.若某决策树节点纯度用Gini指数衡量,则其取值范围为()。A.[0,0.5]B.[0,1]C.[0,∞)D.[1,1]答案:B17.在随机森林中,为了降低树间相关性,通常对每棵树()。A.使用全部样本和全部特征B.使用全部样本和随机子集特征C.使用Bootstrap样本和全部特征D.使用Bootstrap样本和随机子集特征答案:D18.若某时间序列采用ARIMA(1,1,1)模型,则其差分次数为()。A.0B.1C.2D.3答案:B19.在梯度提升树GBDT中,每棵拟合的残差实质上是损失函数对预测值的()。A.一阶负梯度B.二阶负梯度C.一阶正梯度D.二阶正梯度答案:A20.若某神经网络采用ReLU激活,则其输出小于0的神经元状态为()。A.线性B.饱和C.死亡D.爆炸答案:C多选题(每题2分,共20分。每题有两个或以上正确答案,多选少选均不得分)21.下列属于无监督学习方法的有()。A.KmeansB.DBSCANC.AprioriD.FPGrowth答案:A,B,C,D22.关于PCA的描述正确的有()。A.最大化投影方差B.最小化重构误差C.主成分正交D.必须标准化数据答案:A,B,C23.以下措施可以缓解决策树过拟合的有()。A.预剪枝B.后剪枝C.限制最大深度D.增加最小样本分裂数答案:A,B,C,D24.在朴素贝叶斯中,若出现零概率问题,可采用()。A.拉普拉斯平滑B.Lidstone平滑C.删除该项D.降低维度答案:A,B25.下列属于集成学习Bagging思想的有()。A.随机森林B.ExtraTreesC.AdaBoostD.随机子空间答案:A,B,D26.关于支持向量机SVM的正确说法有()。A.可最大化间隔B.hinge损失函数C.核技巧处理非线性D.对异常值不敏感答案:A,B,C27.在关联规则挖掘中,提高最小置信度会导致()。A.规则数量减少B.规则前件减少C.规则后件减少D.强规则比例上升答案:A,D28.下列属于时间序列分解分量的有()。A.趋势B.季节C.循环D.随机答案:A,B,C,D29.在文本挖掘中,TFIDF公式考虑的因素有()。A.词频B.逆文档频率C.词序D.文档长度归一化答案:A,B,D30.关于卷积神经网络CNN的正确描述有()。A.权值共享B.池化降维C.全连接层一定存在D.卷积核可学习答案:A,B,D填空题(每空2分,共20分)31.若事务数据库中项a的支持度计数为200,总事务数为5000,则支持度为____%。答案:432.在Kmeans中,常用的簇内误差平方和SSE公式为∑i=1k∑x∈Ci______。答案:||xμi||²33.若某规则置信度为0.8,提升度为1.6,则该规则后件的支持度为______。答案:0.534.在ROC曲线中,AUC取值范围是______。答案:[0,1]35.若某神经网络采用Softmax回归处理三分类问题,则输出层神经元个数为______。答案:336.在Apriori性质中,若项集频繁,则其所有______一定频繁。答案:子集37.若某时间序列采用指数平滑,平滑系数α=0.2,则最新观测值权重为______。答案:0.238.在Word2Vec中,Skipgram模型目标是根据中心词预测______。答案:上下文词39.若某决策树节点熵为0.8,分裂后两个子节点熵分别为0.5和0.3,权重各0.5,则信息增益为______。答案:0.440.在DBSCAN中,若一个对象其Eps邻域内点数≥MinPts,则该对象称为______。答案:核心对象简答题(共6题,每题8分,共48分)41.(封闭型)简述Apriori算法的主要步骤,并指出其性能瓶颈。答案:步骤:1.扫描数据库生成候选1项集C1,计算支持度得频繁1项集L1;2.由Lk1自连接生成候选k项集Ck,剪枝去掉含非频繁(k1)子集的项;3.扫描数据库计算Ck支持度,得Lk;4.重复直至Lk为空。瓶颈:多次全库扫描与候选集爆炸。42.(开放型)试比较Kmeans与GMM(高斯混合模型)在假设、输出、适用场景三方面的差异。答案:假设:Kmeans假设簇为球形、等权重、硬分配;GMM假设数据由多个高斯分布生成,允许椭球形、不同权重、软分配。输出:Kmeans输出硬标签与质心;GMM输出后验概率、均值、协方差、混合系数。场景:Kmeans适合大规模、球形、清晰分离数据;GMM适合中小规模、椭球、重叠、需概率解释数据。43.(封闭型)写出朴素贝叶斯分类器的决策函数,并解释“朴素”含义。答案:决策函数:y=argmaxyP(y)∏i=1dP(xi|y)。朴素:条件独立假设,即给定类别,各特征相互独立。44.(开放型)随机森林为何能降低方差?请从偏差方差分解角度说明。答案:单棵决策树为高方差低偏差模型;通过Bootstrap采样与随机特征子空间引入扰动,使基树间低相关;平均投票降低方差,而偏差近似不变,故整体误差下降。45.(封闭型)简述梯度提升树GBDT的负梯度拟合步骤。答案:1.初始化f0(x)=argminγ∑iL(yi,γ);2.对m=1到M:计算负梯度rim=[∂L(yi,F(xi))/∂F(xi)]|F=fm1;3.用回归树拟合{rim},得叶区域Rjm;4.对每个叶区域求最优步长γjm=argminγ∑xi∈RjmL(yi,fm1(xi)+γ);5.更新fm(x)=fm1(x)+∑jγjmI(x∈Rjm)。46.(开放型)试述SMOTE过采样可能引入的噪声问题,并提出至少两种改进思路。答案:SMOTE在稀疏区域合成样本可能跨越决策边界,引入噪声。改进:1.BorderlineSMOTE,仅对边界少数类样本合成;2.集成SMOTE与数据清理,如SMOTE+TomekLinks;3.基于密度自适应合成,如ADASYN。应用计算题(共4题,共62分)47.(关联规则计算,15分)给定事务表:T1{A,B,C};T2{B,C,D};T3{A,C,D};T4{A,B,D};T5{B,C}。最小支持度阈值=40%,最小置信度=60%。(1)列出所有频繁1项集与2项集及其支持度计数;(6分)(2)由频繁2项集生成所有满足最小置信度的强关联规则,并给出置信度。(9分)答案:(1)频繁1项集:A:3,B:4,C:4,D:3;频繁2项集:AB:2,AC:2,AD:2,BC:3,BD:2,CD:2。(2)强规则:B→C,置信度=3/4=75%;C→B,置信度=3/4=75%。其余规则置信度<60%。48.(聚类分析,15分)二维数据集:P1(1,1),P2(1,2),P3(6,1),P4(6,2)。使用Kmeans,K=2,初始中心选P1、P4,欧氏距离。(1)写出第一次迭代后的簇划分与新的中心;(6分)(2)第二次迭代后簇是否变化?给出最终SSE。(9分)答案:(1)第一次:簇1{P1,P2},中心(1,1.5);簇2{P3,P4},中心(6,1.5)。(2)第二次:分配不变,收敛。SSE=0.5²+0.5²+0.5²+0.5²=1。49.(分类器评估,16分)某二分类问题,测试集1000条,混淆矩阵:TP=180,FN=20,FP=80,TN=720。(1)计算精确率、召回率、F1、准确率;(8分)(2)若将分类阈值提高,使得FP减至40,FN增至40,重新计算F1,并分析阈值变化对指标的影响。(8分)答案:(1)精确率=180/(180+80)=0.692;召回率=180/(180+20)=0.9;F1=2×0.692×0.9/(0.692+0.9)=0.782;准确率=(180+720)/1000=0.9。(2)新TP=160,FN=40,FP=40,TN=760;精确率=160/200=0.8;召回率=160/200=0.8;F1=0.8。阈值提高,精确率上升,召回率下降,F1先升后降,需权衡。50.(综合设计,16分)某电商欲预测用户次日是否购买,特征含:用户近30天浏览次数、收藏次数、加购次数、消费金额、性别、年龄、城市等级。数据量5000万,正负样本比例1:50。(1)给出数据预处理与采样方案;(4分)(2)选择两种适合处理高维稀疏特征的模型并说明理由;(4分)(3)给出评估指标与验证策略;(4分)(4)若模型上线后AUC下降0.05,列出至少三条可能原因与对应排查方法。(4分)答案:(1)预处理:缺失值用0填充,性别、城市独热编码,金额对数变换;采样:负样本随机下采样至1:5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论