版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(完整版)数据挖掘概念课后习题及答案一、单项选择题(每题1分,共20分)1.下列哪一项不是数据挖掘的典型任务?A.分类 B.聚类 C.数据备份 D.关联规则挖掘答案:C2.在Apriori算法中,若频繁k项集的最小支持度阈值为s,则任意(k+1)项集的支持度A.一定≥s B.一定≤s C.一定=s D.与s无关答案:B3.决策树划分属性时,信息增益最大的属性意味着A.熵最小 B.熵最大 C.熵下降最快 D.基尼指数最大答案:C4.若某数据集的属性A取值为{红,黄,蓝},则对A使用独热编码后生成的维度为A.1 B.2 C.3 D.4答案:C5.在Kmeans算法中,若初始簇中心落在同一真实簇内,最可能导致的后果是A.收敛速度加快 B.聚类结果空簇 C.聚类结果欠聚类 D.聚类结果过聚类答案:C6.朴素贝叶斯分类器“朴素”的核心假设是A.先验概率相等 B.属性条件独立 C.后验概率相等 D.样本独立同分布答案:B7.下列哪种方法最适合处理高维稀疏文本数据的聚类?A.DBSCAN B.层次聚类 C.余弦相似度+Kmeans D.谱聚类答案:C8.在ID3算法中,若某节点所有样本属于同一类,则该节点成为A.根节点 B.内部节点 C.叶节点 D.空节点答案:C9.支持向量机中,松弛变量ξi>0表示A.第i个样本被正确分类且位于间隔外 B.第i个样本被错误分类或位于间隔内C.第i个样本位于超平面正侧 D.第i个样本为支持向量答案:B10.若Lift(A→B)=1.2,则说明A.A与B负相关 B.A与B独立 C.A与B正相关 D.无法判断答案:C11.在FPgrowth中,FPtree的构建顺序依据A.支持度降序 B.支持度升序 C.置信度降序 D.字母顺序答案:A12.随机森林的“随机”主要体现在A.随机选择样本与特征 B.随机选择损失函数 C.随机选择学习率 D.随机选择树深度答案:A13.若某连续属性在C4.5中被离散化,其划分点选择标准是A.信息增益率最大 B.基尼指数最小 C.误差率最小 D.卡方统计量最大答案:A14.在PageRank公式中,阻尼系数d通常取A.0 B.0.15 C.0.5 D.0.85答案:D15.下列哪种技术最适合发现异常交易?A.关联规则 B.聚类 C.异常检测 D.回归答案:C16.若某数据集正负样本比例为1:99,最好采用的评价指标是A.准确率 B.召回率 C.F1score D.AUCROC答案:D17.在EM算法中,E步计算的是A.参数最大似然估计 B.隐变量后验概率 C.梯度方向 D.损失函数答案:B18.若某规则置信度为100%,支持度为5%,则该规则A.一定有趣 B.一定无趣 C.可能冗余 D.一定强关联答案:C19.使用主成分分析(PCA)降维时,第一主成分是A.方差最小方向 B.方差最大方向 C.均值方向 D.协方差最小方向答案:B20.在AdaBoost中,被错误分类的样本在下一轮A.权重不变 B.权重降低 C.权重提高 D.被删除答案:C二、多项选择题(每题2分,共10分)21.以下哪些属于无监督学习算法?A.Kmeans B.DBSCAN C.Apriori D.SVM E.PCA答案:A、B、C、E22.关于过拟合,下列说法正确的是A.训练误差持续下降 B.测试误差先降后升 C.模型复杂度可能过高 D.增加训练数据可缓解 E.正则化可缓解答案:A、B、C、D、E23.以下哪些方法可用于处理缺失值?A.均值填充 B.热卡填充 C.回归填充 D.直接删除 E.EM算法答案:A、B、C、D、E24.评价聚类效果的内部指标包括A.Silhouette系数 B.DB指数 C.Dunn指数 D.Jaccard系数 E.RI答案:A、B、C25.以下哪些操作会提升Apriori算法效率?A.增加最小支持度 B.事务压缩 C.划分 D.抽样 E.哈希剪枝答案:A、B、C、D、E三、填空题(每空1分,共15分)26.若事务数据库总条目为1000,项集{牛奶,面包}出现200次,则支持度为________%。答案:2027.在ROC曲线中,横轴是________率,纵轴是________率。答案:假正,真正28.Kmeans的目标函数J=Σi=1kΣx∈Ci________。答案:||xμi||²29.若某决策树叶节点含10个样本,其中正例7,负例3,则该节点熵为________(保留3位小数)。答案:0.88130.朴素贝叶斯中,若属性“年龄”为连续值,通常假设其服从________分布。答案:高斯(正态)31.在FPgrowth的条件模式基中,每个路径保存两项信息:________与________。答案:节点名称,计数32.若某规则提升度小于1,则项集A与B呈________相关。答案:负33.SVM核函数K(x,z)=(x·z+1)²称为________核。答案:多项式34.随机森林中,若原始样本数N,则每棵树的自助样本集大小为________。答案:N35.PCA中,协方差矩阵的特征向量彼此________。答案:正交四、简答题(共25分)36.(封闭型,5分)简述C4.5相对于ID3的三项主要改进。答案:1.使用信息增益率代替信息增益,克服偏向多值属性问题;2.引入悲观剪枝,进行后剪枝降低过拟合;3.支持连续属性离散化与缺失值处理。37.(开放型,6分)试解释“维度灾难”在聚类中的具体表现,并给出两种缓解策略。答案:表现:1.距离度量失效,高维下欧氏距离趋于常数,难以区分远近;2.簇密度稀疏,传统密度算法失效;3.计算复杂度指数增长。策略:1.降维:使用PCA、tSNE、自编码器把数据映射到低维;2.子空间聚类:如SUBCLU、CLIQUE,在不同子空间寻找簇;3.特征选择:过滤法、包裹法去除冗余特征;4.采用适合高维的距离度量,如余弦距离、共享最近邻距离。38.(封闭型,5分)写出AdaBoost算法中样本权重更新公式,并说明符号含义。答案:Dt+1(i)=Dt(i)exp(αtyiht(xi))/Zt其中Dt(i)为第t轮第i个样本权重;yi∈{1,+1}为真实标签;ht(xi)为弱分类器预测;αt=½ln((1εt)/εt)为弱分类器权重;Zt为归一化因子。39.(开放型,9分)给定电商交易数据,如何设计一个完整的异常检测流程以识别“薅羊毛”行为?请给出数据准备、特征构造、模型选择、评估指标及上线策略。答案:数据准备:1.采集用户行为日志(登录、浏览、下单、支付、收货);2.关联用户画像(注册时间、设备指纹、收货地址、支付账号)。特征构造:1.统计特征:单日下单次数、优惠券使用比例、同一设备注册用户数;2.时序特征:两次下单间隔均值、夜间下单占比;3.图特征:设备账号二部图,计算PageRank、连通分量大小;4.金额特征:客单价、优惠金额比、退货率。模型选择:1.无监督:IsolationForest、AutoEncoder、LOF,适合无标签场景;2.半监督:OneClassSVM,利用历史正常样本;3.有监督:XGBoost,利用历史标注的黑产样本。评估指标:1.精准率@K=100,确保运营人工审核量可控;2.AUCPR,应对极不平衡;3.召回率,确保黑产漏判率低于1%。上线策略:1.离线批跑每日T+1更新模型;2.实时接口响应<100ms,采用IsolationForest+规则引擎双通道;3.灰度发布,先拦截10%疑似订单,逐步调阈值;4.反馈闭环:运营审核结果回流,样本池自动扩增,模型周更。五、计算与分析题(共30分)40.(关联规则,8分)事务数据库如下:T1:{A,B,C} T2:{B,C,D} T3:{A,C,D} T4:{A,B,D} T5:{A,B,C,D}最小支持度=40%,最小置信度=60%。(1)列出所有频繁1项集;(2)列出所有频繁2项集;(3)写出强关联规则并计算置信度。答案:(1)频繁1项集:A(4),B(4),C(4),D(4)(2)频繁2项集:AB(3),AC(3),AD(3),BC(3),BD(3),CD(3)(3)强规则:A→B:conf=3/4=75%B→A:conf=3/4=75%A→C:conf=3/4=75%C→A:conf=3/4=75%A→D:conf=3/4=75%D→A:conf=3/4=75%B→C:conf=3/4=75%C→B:conf=3/4=75%B→D:conf=3/4=75%D→B:conf=3/4=75%C→D:conf=3/4=75%D→C:conf=3/4=75%共12条,置信度均为75%,满足≥60%。41.(决策树,7分)训练集如下:|天气|温度|湿度|风|打球||||||||晴|高|高|弱|否||晴|高|高|强|否||阴|高|高|弱|是||雨|中|高|弱|是||雨|低|正常|弱|是||雨|低|正常|强|否||阴|低|正常|强|是|(1)计算按“天气”划分的信息增益;(2)选择根节点划分属性。答案:(1)先计算总熵:3否4是,Ent(D)=3/7log2(3/7)4/7log2(4/7)=0.985天气划分:晴:2否0是,Ent=0阴:0否2是,Ent=0雨:1否2是,Ent=1/3log2(1/3)2/3log2(2/3)=0.918加权熵=2/7×0+2/7×0+3/7×0.918=0.393信息增益=0.9850.393=0.592(2)同理计算温度、湿度、风的信息增益分别为0.281、0.036、0.020,最大为天气0.592,故选“天气”为根节点。42.(聚类,8分)给定二维样本:A(1,1),B(2,1),C(4,5),D(5,5),初始簇中心为A、C。使用Kmeans(欧氏距离)进行两轮迭代:(1)第一轮划分簇;(2)更新簇中心;(3)第二轮划分簇;(4)判断是否收敛。答案:(1)第一轮:dist(A,A)=0,dist(A,C)=√18=4.24→A属簇1dist(B,A)=1,dist(B,C)=√18=4.24→B属簇1dist(C,A)=4.24,dist(C,C)=0→C属簇2dist(D,A)=5,dist(D,C)=1→D属簇2簇1:{A,B},簇2:{C,D}(2)新中心:μ1=((1+2)/2,(1+1)/2)=(1.5,1)μ2=((4+5)/2,(5+5)/2)=(4.5,5)(3)第二轮:dist(A,μ1)=0.5,dist(A,μ2)=4.3→簇1dist(B,μ1)=0.5,dist(B,μ2)=4.3→簇1dist(C,μ1)=4.3,dist(C,μ2)=0.5→簇2dist(D,μ1)=5.4,dist(D,μ2)=0.5→簇2划分不变。(4)中心不再变化,收敛。43.(SVM,7分)线性可分数据集:正例(2,2),(2,2),(2,2),(2,2);负例(1,0),(1,0),(0,1),(0,1)。(1)画出数据分布并凭几何直观给出最优分离超平面方程;(2)计算最大间隔Margin;(3)指出所有支持向量。答案:(1)观察数据,正例构成边长为4的正方形四角,负例为坐标轴上距原点单位点。最优超平面为x1±x2=±2,综合得x1+x2=2,x1x2=2,x1+x2=2,x1x2=2,但全局最优为斜45°直线,经对称性得:x1+x2=0与x1+x2=2之间,实际最优为x1+x21=0。(2)几何间隔:正负最近点(0,1)到x1+x21=0距离=|0+11|/√2=0,需修正。正确平面应为x1+x2=±√2,平面方程x1+x2√2=0。重新计算:正例最近点(1,1)到平面距离=|1+1√2|/√2=(2√2)/√2=√21≈0.414,负例最近点(0,1)到平面距离=|0+1√2|/√2=(√21)/√2=11/√2≈0.293,需对称。最终最优平面:x1+x2=0与x1+x2=2,取中值得x1+x21=0。最大间隔Margin=2/||w||=2/√(1²+1²)=2/√2=√2。(3)支持向量:正例(2,0)不在数据集,实际最近为(2,2)与(2,2)在边界,负例最近(1,0)与(0,1)。严格计算:平面x1+x21=0,正例点(2,2)距离=|221|/√2=1/√2,负例(1,0)距离=|1+01|/√2=0,需修正。精确解:最优平面为x1+x21=0,支持向量为正例(2,0)不存在,故重新推。正确支持向量:正例(2,2)到平面x1+x22=0距离0,负例(1,0)到平面距离|1+02|/√2=1/√2。最终:最优平面:x1+x21=0Margin=2/√2=√2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年云南工贸职业技术学院马克思主义基本原理概论期末考试模拟题附答案解析(夺冠)
- 2025年桑日县幼儿园教师招教考试备考题库带答案解析(必刷)
- 2025年上犹县幼儿园教师招教考试备考题库附答案解析
- 2025年徐闻县招教考试备考题库附答案解析
- 2024年温州肯恩大学马克思主义基本原理概论期末考试题带答案解析
- 2025年天津生物工程职业技术学院马克思主义基本原理概论期末考试模拟题及答案解析(夺冠)
- 2024年黔西南民族职业技术学院马克思主义基本原理概论期末考试题带答案解析(必刷)
- 2025年和平县幼儿园教师招教考试备考题库带答案解析
- 2025年天津职业大学单招职业技能考试模拟测试卷附答案解析
- 2025年长武县招教考试备考题库附答案解析(必刷)
- (2025版)中国焦虑障碍防治指南
- DL-T+5220-2021-10kV及以下架空配电线路设计规范
- 视觉传播概论(第2版)课件全套 任悦 第1-12章 视觉传播概述- 视觉传播中的伦理道德与法规
- DB4403T399-2023居家适老化改造与管理规范
- 解分式方程50题八年级数学上册
- GB/T 27866-2023钢制管道和设备防止焊缝硫化物应力开裂的硬度控制技术规范
- 部编版小学语文四年级下册第一单元教材解读课件
- 骨科常见病、多发病清单、疑难病种清单、核心手术操作技术清单
- 保单整理分享课件
- 2022届广东省高考生物二轮总复习基因工程和细胞工程
- 光学干涉测量技术
评论
0/150
提交评论