数据挖掘考试题目及答案_第1页
数据挖掘考试题目及答案_第2页
数据挖掘考试题目及答案_第3页
数据挖掘考试题目及答案_第4页
数据挖掘考试题目及答案_第5页
已阅读5页,还剩9页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘考试题目及答案一、单项选择题(每题2分,共20分)1.在Apriori算法中,若频繁k项集Lk为空,则下列说法正确的是A.算法必须继续扫描k+1层B.所有k+1项集必然不频繁C.需降低最小支持度阈值D.需提高最小置信度阈值答案:B2.给定事务数据库,最小支持度=40%,下列哪一项一定是频繁闭项集A.{a}B.{a,b}C.{a,b,c}D.无法确定,需具体计数答案:D3.在ID3算法中,信息增益最大的属性是A.信息熵最小的属性B.信息熵最大的属性C.划分后信息熵下降最大的属性D.取值个数最多的属性答案:C4.关于kmeans的SSE(SumofSquaredError),下列说法正确的是A.SSE随k增加单调递减B.SSE随k增加单调递增C.SSE与k无关D.SSE一定在k=n时取得最小值0答案:A5.若采用Jaccard系数度量两个集合的相似度,则其取值范围是A.[0,1]B.[1,1]C.[0,+∞)D.(∞,+∞)答案:A6.在PageRank迭代公式中,阻尼系数d通常取0.85,其作用是A.加速收敛B.防止悬挂节点C.保证矩阵可逆D.模拟随机跳转答案:D7.下列哪种技术可直接处理高维稀疏文本数据且无需显式特征选择A.层次聚类B.DBSCANC.MinHashD.谱聚类答案:C8.若某分类模型在测试集上召回率=1,精确率=0.5,则该模型A.无假正例B.无假负例C.预测为正例的样本全为真正例D.预测为负例的样本全为真负例答案:B9.在AdaBoost训练过程中,被错分样本的权重A.不变B.减小C.增大D.置零答案:C10.若使用FPGrowth挖掘频繁项集,构建FP树时头表(HeaderTable)的作用是A.存储事务标识B.快速访问相同项的节点链C.记录项的置信度D.压缩条件模式基答案:B二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些方法可以缓解决策树的过拟合A.预剪枝B.后剪枝C.增加最大深度D.采用交叉验证选择最小叶节点样本数答案:A、B、D12.关于EM算法,下列说法正确的是A.每次迭代必然提高观测数据对数似然B.可能收敛到局部极大C.适用于含隐变量模型D.M步完成参数最大似然估计答案:A、B、C、D13.以下哪些距离度量满足三角不等式A.欧氏距离B.曼哈顿距离C.余弦距离D.切比雪夫距离答案:A、B、D14.在推荐系统协同过滤中,下列哪些技术可缓解冷启动A.利用用户注册属性B.利用物品内容特征C.引入流行度排行榜D.采用矩阵分解答案:A、B、C15.下列属于无监督特征降维方法A.PCAB.LDAC.tSNED.Autoencoder(无标签训练)答案:A、C、D三、填空题(每空2分,共20分)16.若事务数据库含1000条事务,项{a}出现600次,项{b}出现400次,项集{a,b}出现200次,则关联规则a⇒b的支持度为________%,置信度为________%。答案:20;33.3317.给定二维数据集{(1,2),(2,3),(3,4),(4,5)},采用线性回归y=wx+b,闭式解w=________,b=________。答案:1;118.若随机森林中共有500棵树,对某样本分类结果为A:400票、B:100票,则该森林给出的概率估计P(A)=________。答案:0.819.在DBSCAN中,若MinPts=4,某核心点p的ε邻域含5个点,则该簇的密度可达关系可生成________个边界点(不含p自身)。答案:420.假设某电商日订单量服从泊松分布,参数λ=10,则单日订单量期望为________,方差为________。答案:10;1021.若SVM使用RBF核,惩罚参数C→∞,核宽度γ→0,则模型趋向于________(欠拟合/过拟合)。答案:过拟合22.在HadoopMapReduce框架中,数据倾斜常导致________任务执行时间显著延长。答案:Reduce23.若采用5折交叉验证,数据集含1000条样本,则每折训练集大小为________条。答案:800四、简答题(共25分)24.(封闭型,6分)简述FPGrowth算法与Apriori算法在挖掘频繁项集时的核心差异,并指出何种数据特征下FPGrowth更具优势。答案:Apriori采用逐层候选生成与测试,需多次扫描数据库并产生大量候选;FPGrowth通过压缩FP树结构两次扫描数据库,无需显式候选。当数据库含大量长事务或最小支持度较低、频繁模式较长时,FPGrowth避免组合爆炸,效率显著优于Apriori。25.(开放型,9分)某社交平台记录用户点赞行为,需挖掘“用户视频”二部图的稠密子图以发现潜在兴趣社群。请设计一套完整流程,包括数据预处理、模型选择、评估指标及可能遇到的难点。答案:1)预处理:过滤僵尸账号、去重、时间窗口切片、构建二部图邻接矩阵。2)模型:采用基于密度的二部图聚类(如BRIM、BiTector)或非负矩阵分解NMF获得软社群。3)评估:使用模块度Q、F1score(与人工标注对比)、NMI、稠密度(内部边比例)。4)难点:数据稀疏、社群重叠、规模差异大、实时更新、隐私保护。26.(封闭型,5分)解释为什么朴素贝叶斯被称为“朴素”,并给出两条实际应用中其仍能表现良好的原因。答案:朴素指强独立性假设——各特征在给定类别下条件独立。表现良好原因:1)分类决策边界仅需各类条件概率排序,独立性假设偏差不一定影响排序;2)小样本下参数估计方差小,泛化误差低。27.(封闭型,5分)写出kmeans++初始化算法的步骤,并说明其相对随机初始化的改进目标。答案:步骤:1)随机选第一个中心;2)对每点计算与最近中心距离D(x);3)依概率D(x)²/ΣD(x)²选下一点;4)重复直至k个中心。改进目标:使初始中心彼此远离,降低SSE陷入局部极小风险,提高收敛速度与聚类质量。五、应用计算题(共40分)28.(关联规则,10分)给定事务表:T1:{a,b,c}T2:{a,b,d}T3:{a,c,d}T4:{b,c,d}T5:{a,c}最小支持度=60%,最小置信度=80%。(1)列出所有频繁1项集及其支持度计数;(2)列出所有频繁2项集;(3)写出强关联规则(若存在)。答案:(1){a}:4,{b}:3,{c}:4,{d}:3(2){a,c}:3,{a,b}:2(不满足),{a,d}:2,{b,c}:2,{b,d}:2,{c,d}:2→仅{a,c}频繁(3)由{a,c}可生成规则a⇒c:支持度3/5=60%,置信度3/4=75%<80%,无强规则。29.(决策树,10分)训练集如下,属性Outlook∈{Sunny,Overcast,Rain},Temperature∈{Hot,Mild,Cool},Humidity∈{High,Normal},Wind∈{Weak,Strong},目标Play∈{Yes,No}。样本分布:Sunny,Hot,High,Weak→NoSunny,Hot,High,Strong→NoOvercast,Hot,High,Weak→YesRain,Mild,High,Weak→YesRain,Cool,Normal,Weak→YesRain,Cool,Normal,Strong→NoOvercast,Cool,Normal,Strong→Yes(1)计算根节点信息熵;(2)计算Outlook的信息增益;(3)指出根节点应选哪个属性。答案:(1)总样本7,Yes=4,No=3,熵H=(4/7log₂4/7+3/7log₂3/7)=0.985(2)Outlook子集:Sunny:2/7,均No,熵=0Overcast:2/7,均Yes,熵=0Rain:3/7,Yes=2,No=1,熵=0.918期望熵=2/7·0+2/7·0+3/7·0.918=0.393,信息增益=0.9850.393=0.592(3)同理计算Temperature、Humidity、Wind增益均小于0.592,故选Outlook。30.(聚类,10分)二维数据集:A(1,1),B(2,1),C(4,3),D(5,4)。初始中心选A、C,运行kmeans(欧氏距离)至收敛。(1)第一次迭代后的簇划分;(2)第二次迭代后的中心坐标;(3)最终SSE。答案:(1)距离:B到A=1,到C=√8≈2.8→簇1{A,B},簇2{C,D}(2)新中心:簇1(1.5,1),簇2(4.5,3.5)(3)再分配不变,收敛。SSE=(11.5)²+(11)²+(21.5)²+(11)²+(44.5)²+(33.5)²+(54.5)²+(43.5)²=0.25+0.25+0.5+0.5=1.531.(分类器评估,10分)某二分类器在1000个测试样例上结果如下:真正例TP=180,假正例FP=20,真负例TN=780,假负例FN=20。(1)计算精确率、召回率、F1值;(2)绘制ROC曲线所需的真正率与假正率;(3)若将分类阈值降低,使TP增加20,FP增加80,FN减少20,TN减少80,求新的F1值,并分析阈值调整对模型性能的影响。答案:(1)精确率P=180/(180+20)=0.9,召回率R=180/(180+20)=0.9,F1=2PR/(P+R)=0.9(2)TPR=180/(180+20)=0.9,FPR=20/(20+780)=0.02(3)新TP=200,FP=100,FN=0,TN=700新P=200/300=0.667,R=200/200=1,F1=2·0.667·1/(0.667+1)=0.8阈值降低:召回率升至完美,但精确率下降,F1降低,模型更激进,适合对漏检代价极高场景。六、综合分析题(共20分)32.(20分)某在线零售平台拥有用户浏览、加购、下单、评价等多模态日志,需构建实时个性化推荐系统。技术团队拟采用Lambda架构:批处理层每日更新物品协同过滤模型,速度层每5分钟更新增量矩阵分解,服务层融合双路结果。(1)指出批处理层采用ALS矩阵分解时应对数据稀疏与扩展性的两项优化;(2)速度层需解决增量更新中的“用户物品”新ID冷启动,给出一种结合内容特征的方案;(3)服务层需保证<100ms返回,设计模型分片与缓存策略;(4)给出离线评估与在线A/B测试各两项核心指标;(5)若发现新上架商品CTR持续低于老品,分析可能原因并提出数据挖掘层面的改进措施。答案:(1)优化:1)采用隐式反馈加权ALS,对置信度加权损失;2)对物品侧采用分块并行计算(blockpartitioning),利用Spark分布式执行。(2)方案:新ID出现时,利用物品文本、图像特征经预训练嵌入得到初始向量,用户侧采用人口属性嵌入,通过特征映射网络将内容向量投影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论