数据挖掘习题及答案_第1页
数据挖掘习题及答案_第2页
数据挖掘习题及答案_第3页
数据挖掘习题及答案_第4页
数据挖掘习题及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘习题及答案单选题(每题1分,共20分)1.在Apriori算法中,若最小支持度阈值为0.3,事务数据库总量为1000,则项集{X,Y}成为频繁项集必须出现的次数至少为A.30 B.300 C.3 D.3000答案:B2.下列距离度量中,对高维稀疏向量最适用的是A.欧氏距离 B.曼哈顿距离 C.余弦相似度 D.切比雪夫距离答案:C3.决策树采用信息增益划分时,若某特征有4个取值,各取值样本数相等,则该特征的信息增益率A.等于信息增益 B.小于信息增益 C.大于信息增益 D.恒为0答案:B4.在Kmeans聚类中,若初始簇中心选为离群点,则最可能出现的后果是A.簇内平方和骤降 B.空簇 C.收敛速度加快 D.轮廓系数提高答案:B5.朴素贝叶斯分类器“朴素”的核心假设是A.先验分布均匀 B.特征条件独立 C.后验最大化 D.似然服从高斯答案:B6.若关联规则X→Y的置信度为0.8,则下列说法一定正确的是A.support(X∪Y)=0.8 B.support(X)≥support(Y) C.support(X∪Y)≤support(X) D.lift(X→Y)>1答案:C7.DBSCAN中,若MinPts=5,ε=2cm,点P有6个邻点,其中4个为核心点,则P的类型是A.核心点 B.边界点 C.噪声点 D.无法判断答案:B8.在Bagging随机森林中,对基树进行无剪枝生长的主要目的是A.降低偏差 B.降低方差 C.提高可解释性 D.减少计算量答案:B9.若SVM使用RBF核,参数γ→∞,则模型会A.欠拟合 B.过拟合 C.退化为线性核 D.支持向量数减少答案:B10.在PageRank公式R=(1d)/N+d·M·R中,d通常取0.85,其作用是A.加速迭代 B.保证稀疏性 C.防止排名泄漏 D.处理悬挂节点答案:C11.若某数据集信息熵为0.97,某划分后加权平均信息熵为0.62,则信息增益为A.0.35 B.1.59 C.0.62 D.0.97答案:A12.在AdaBoost第t轮,样本i被误分类,则其权重更新规则为A.乘以√((1e_t)/e_t) B.乘以e_t/(1e_t) C.乘以ln(e_t) D.不变答案:A13.若使用FPgrowth,频繁模式树的头表最主要作用是A.压缩事务 B.快速查找条件模式基 C.存储支持度 D.排序项集答案:B14.在协同过滤中,用户物品评分矩阵稀疏度极高,最直接的副作用是A.内存溢出 B.冷启动 C.相似度计算失效 D.过拟合答案:C15.若LSTM中遗忘门输出向量接近0,则细胞状态将A.指数增长 B.被大量更新 C.被大量丢弃 D.无影响答案:C16.在PCA中,若前k个主成分解释方差累计达95%,则k与原始维度d关系A.k≥d B.k≤d C.k=d D.无关答案:B17.若使用肘部法确定Kmeans最佳K值,肘部点对应A.轮廓系数最大 B.簇内平方和下降骤缓 C.信息增益最大 D.交叉验证误差最小答案:B18.在HadoopMapReduce单词统计中,Shuffle阶段排序键是A.文件名 B.单词 C.偏移量 D.块ID答案:B19.若某深度学习模型训练集准确率达99.9%,验证集仅70%,最有效的正则化手段是A.增加学习率 B.减少批次大小 C.添加Dropout D.减小网络深度答案:C20.在异常检测中,若数据服从多元高斯分布,则点x的异常得分可用A.马氏距离 B.汉明距离 C.Jaccard系数 D.编辑距离答案:A多选题(每题2分,共20分,多选少选均不得分)21.下列属于集成学习降低方差的方法有A.Bagging B.随机森林 C.AdaBoost D.梯度提升树答案:AB22.关于KNN,下列说法正确的是A.属于惰性学习 B.对特征缩放敏感 C.决策边界非线性 D.训练时间复杂度O(n)答案:ABC23.下列可处理类别不平衡的技术有A.SMOTE B.欠采样 C.代价敏感学习 D.增加学习率答案:ABC24.在Apriori性质中,下列说法正确的是A.频繁项集子集必频繁 B.非频繁项集超集必非频繁 C.频繁项集超集必频繁 D.非频繁项集子集必非频繁答案:AB25.下列属于无监督降维方法的有A.PCA B.tSNE C.LDA D.Autoencoder答案:ABD26.关于文本TFIDF,下列正确的是A.TF可归一化 B.IDF反映词区分度 C.高TFIDF一定高频 D.可构建向量空间模型答案:ABD27.下列属于深度学习优化器的有A.Adam B.RMSprop C.LBFGS D.SGD答案:ABD28.下列属于图挖掘任务的有A.社区发现 B.频繁子图挖掘 C.图分类 D.图聚类答案:ABCD29.下列可用于数值特征离散化的有A.等宽分箱 B.等频分箱 C.基于卡方合并 D.基于信息增益答案:ABCD30.下列属于时间序列预测模型的有A.ARIMA B.Prophet C.LSTM D.HMM答案:ABC填空题(每空2分,共20分)31.若事务数据库中项a出现400次,总事务1000,则support(a)=________。答案:0.432.在SVM对偶问题中,KKT条件要求0≤α_i≤________。答案:C(惩罚参数)33.若随机森林由100棵树组成,单树预测方差为σ²,则集成的期望方差约为________。答案:σ²/10034.在PageRank幂迭代中,若相邻两次迭代差值小于________,通常认为收敛。答案:10⁻⁶(或指定阈值)35.若LSTM输入门输出i_t,候选值C̃_t,则新细胞状态C_t=________。答案:f_t⊙C_{t1}+i_t⊙C̃_t36.在tSNE中,困惑度Perp通常取值范围________。答案:55037.若使用肘部法,Kmeans簇内平方和从K=1到K=5依次为900,300,120,90,85,则肘部K=________。答案:338.在Apriori中,若频繁2项集共k个,则自连接生成候选3项集的最大数量为________。答案:C(k,2)39.若AdaBoost第t轮错误率e_t=0.1,则基分类器权重α_t=________。答案:0.5·ln(9)40.在Hadoop中,默认块大小为________MB。答案:128简答题(每题8分,共40分)41.简述FPgrowth为何比Apriori快,并指出其内存瓶颈。答案:FPgrowth通过压缩事务数据库为FP树,避免候选生成与多次扫描,仅需两次扫描;采用分治递归挖掘条件模式基。内存瓶颈在于FP树需常驻内存,当事务量大且稀疏时,树节点多,内存占用高,甚至无法构建。42.写出朴素贝叶斯文本分类的预测公式,并解释拉普拉斯平滑作用。答案:c=argmax_cP(c)∏_iP(w_i|c)。拉普拉斯平滑解决零概率问题,对未登录词给予非零概率,防止乘积为0导致分类失效,公式P(w_i|c)=(count(w_i,c)+1)/(count(c)+|V|)。43.说明随机森林OOB误差估计过程,并指出其优点。答案:对每棵树,约1/3样本未参与训练,称为OOB样本;用每棵树预测其OOB样本,汇总投票或平均,计算误差。优点:无需额外验证集,实现无偏估计,可用于特征选择、调参,节省数据。44.解释梯度提升树中“梯度”含义,并写出回归问题下第m棵树的拟合目标。答案:梯度指损失函数对当前模型预测值的负梯度,即残差方向;回归用平方损失时,负梯度为y−F_{m−1}(x)。第m棵树拟合该残差,目标:h_m(x)≈y−F_{m−1}(x)。45.描述PCA重构误差计算方法,并说明其在降维维数选择中的应用。答案:保留k维,重构误差E=Σ_{i=k+1}^dλ_i,即丢弃特征值之和。绘制k与累计解释方差曲线,选满足阈值(如95%)的最小k,使重构误差低于5%,实现维数与信息权衡。应用计算题(共50分)46.关联规则挖掘(10分)给定事务表:T1{A,B,C};T2{B,C,D};T3{A,C,D};T4{A,C,E};T5{B,C,E}。最小支持度=0.6,最小置信度=0.8。(1)列出所有频繁1项集及其支持度计数;(2)生成频繁2项集;(3)写出所有满足条件的强关联规则。答案:(1)A:3,B:3,C:5,D:2,E:2→频繁:A,B,C(2)AB:1,AC:3,BC:3→频繁:AC,BC(3)规则:C→A:conf=3/5=0.6<0.8(不满足);A→C:conf=3/3=1≥0.8,lift=1/(5/5)=1,满足;B→C:conf=3/3=1≥0.8,lift=1,满足。最终强规则:A→C,B→C。47.决策树信息增益计算(10分)数据集14样本,目标Play{9Yes,5No}。温度特征取值{Hot:4,Mild:6,Cool:4},其中Hot{1Yes,3No},Mild{4Yes,2No},Cool{4Yes,0No}。(1)计算根节点信息熵;(2)计算温度特征信息增益;(3)判断是否应选温度作为划分特征。答案:(1)Entropy=−(9/14)log₂(9/14)−(5/14)log₂(5/14)=0.940(2)E_Hot=−(1/4)log₂(1/4)−(3/4)log₂(3/4)=0.811;E_Mild=0.918;E_Cool=0;加权平均=(4·0.811+6·0.918+4·0)/14=0.549;信息增益=0.940−0.549=0.391(3)增益>0,可划分,但需与其他特征比较,若最大则选。48.Kmeans聚类(10分)二维数据:P1(1,1),P2(1,2),P3(5,5),P4(6,6)。K=2,初始中心选P1、P4。(1)第一轮分配簇;(2)更新中心;(3)第二轮分配簇;(4)判断收敛。答案:(1)距离:P1→C1=0,→C2=7.21;P2→C1=1,→C2=6.08;P3→C1=5.66,→C2=1.41;P4→C2=0→簇1{P1,P2},簇2{P3,P4}(2)新中心:C1=(1,1.5),C2=(5.5,5.5)(3)第二轮距离:P1→C1=0.5,→C2=6.36;P2→C1=0.5,→C2=5.41;P3→C1=5.32,→C2=0.71;P4→C2=0.71→分配不变(4)中心无变化,收敛。49.SVM对偶求解(10分)线性可分数据集3正例{(1,1),(2,2),(2,0)},1负例{(0,0)}。C=∞。(1)写出对偶问题目标与约束;(2)观察几何边界,指出支持向量;(3)求最优超平面方程。答案:(1)maxΣα_i−½ΣΣα_iα_jy_iy_jx_i·x_j,s.t.Σα_iy_i=0,α_i≥0(2)边界最近点:(2,0)与(0,0)为支持向量(3)向量差(2,0),法向量(1,0),中垂线x=1,即w=(1,0),b=−1,方程x−1=0。50.时间序列预测(10分)某商品日销量前10天:20,22,25,23

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论