版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘导论期末考试题目及答案一、单项选择题(每题2分,共20分)1.在数据挖掘任务中,将顾客按消费行为划分成若干群体,最适合采用下列哪一类方法?A.关联规则挖掘 B.聚类分析 C.分类预测 D.异常检测答案:B2.给定事务数据库,若项集{X,Y}的支持度为8%,{X}的支持度为10%,则置信度confidence(X→Y)等于A.8% B.10% C.80% D.125%答案:C3.在ID3算法中,用于选择划分属性的指标是A.Gini系数 B.信息增益 C.增益率 D.卡方统计量答案:B4.下列关于kmeans聚类的描述,错误的是A.需要预先指定k值 B.对噪声点敏感 C.使用簇内方差作为目标函数 D.对类别型属性天然适用答案:D5.若某决策树节点纯度已无法进一步提升,且样本数小于预设阈值,通常采取的剪枝策略为A.预剪枝停止划分 B.后剪枝合并叶节点 C.随机森林投票 D.提升树加权答案:A6.Apriori算法采用“逐层搜索”策略,其核心技术是A.哈希映射 B.候选生成与剪枝 C.位图压缩 D.倒排索引答案:B7.在朴素贝叶斯分类器中,“朴素”一词主要指A.假设各属性条件独立 B.忽略先验概率 C.仅考虑离散属性 D.无需训练过程答案:A8.下列哪种评价指标更适合类别不平衡数据的分类性能度量?A.准确率 B.宏平均F1 C.微平均F1 D.AUC答案:D9.在PageRank公式R=αSR+(1α)/N中,α通常取0.85,其作用是A.控制阻尼以防止排名泄露 B.加速迭代收敛 C.惩罚悬挂节点 D.增加随机跳转概率答案:A10.将高维稀疏文本向量映射至二维空间并可视化,最常选用的降维技术是A.PCA B.LDA主题模型 C.tSNE D.Apriori答案:C二、多项选择题(每题3分,共15分;每题至少有两个正确答案,多选少选均不得分)11.以下属于无监督学习任务的有A.Kmeans B.DBSCAN C.线性回归 D.自编码器降维答案:A、B、D12.关于集成学习,下列说法正确的有A.Bagging可降低方差 B.Boosting可降低偏差 C.随机森林使用Boosting思想 D.AdaBoost对误分类样本加大权重答案:A、B、D13.下列哪些操作可有效缓解过拟合A.增加训练样本 B.降低决策树最大深度 C.采用L2正则 D.扩大神经网络规模答案:A、B、C14.在协同过滤推荐系统中,可能遇到的典型问题包括A.冷启动 B.稀疏性 C.可扩展性 D.过平滑答案:A、B、C15.以下哪些距离度量适用于混合类型属性(数值与类别并存)A.欧氏距离 B.Gower距离 C.曼哈顿距离 D.层次聚类中的Ward距离答案:B三、填空题(每空2分,共20分)16.在关联规则中,若最小支持度为5%,最小置信度为60%,则规则{A}→{B}被保留的条件是support(A∪B)≥____且confidence≥____。答案:5%,60%17.给定二维空间点集{(1,2),(2,1),(3,4),(4,3)},采用kmeans且k=2,初始中心为(1,2)与(4,3),则第一次迭代后两个新簇中心分别为____与____。答案:(1.5,1.5),(3.5,3.5)18.若某数据集含1000条样本,采用十折交叉验证,则每次训练集大小为____条,验证集大小为____条。答案:900,10019.在朴素贝叶斯文本分类中,采用拉普拉斯平滑处理未登录词,若词典大小为|V|,则某词在类别c下的条件概率估计公式为____。答案:(count(w,c)+1)/(count(c)+|V|)20.若某频繁项集有4个项,则其非空真子集个数为____。答案:1421.在ROC曲线中,随机分类器的曲线为一条从____到____的对角线。答案:(0,0),(1,1)22.采用MinMax归一化将值x映射至[0,1],若原始区间[a,b],则归一化公式为____。答案:(xa)/(ba)23.在EM算法中,E步计算的是隐变量的____,M步最大化____。答案:后验概率,完全数据对数似然期望24.若某决策树叶节点含5个正例、3个反例,则该节点的Gini系数为____。答案:1−(5/8)²−(3/8)²=0.4687525.在FPgrowth中,FP树的头表(headertable)主要用来保存____与____的映射。答案:频繁项,节点链四、简答题(共25分)26.(6分)阐述DBSCAN算法中核心点、边界点、噪声点的定义,并说明如何选取参数Eps与MinPts。答案:核心点:在半径Eps内至少包含MinPts个点(含自身)。边界点:在Eps内点数小于MinPts,但落在某个核心点的邻域内。噪声点:既非核心也非边界。参数选取:1.对数据集中每个点计算其到第k(k=MinPts)近邻的距离,升序绘图,寻找“肘部”突变值作为Eps;MinPts通常取维度d的2倍或3倍,但不小于4。27.(6分)写出信息增益的数学表达式,并解释为何ID3倾向选择取值多的属性,C4.5如何改进。答案:Gain(D,A)=Ent(D)−∑(|D_v|/|D|)Ent(D_v)。取值多时划分细,子集纯度急剧提高,信息增益偏大。C4.5采用增益率GainRatio=Gain(D,A)/SplitInfo(D,A),其中SplitInfo=−∑(|D_v|/|D|)log(|D_v|/|D|),惩罚取值多的属性。28.(6分)简述随机森林的构造流程,并解释OutofBag误差的计算方式。答案:1.对原始样本做n次有放回抽样(Bootstrap)生成n个训练子集;2.对每个子集构建决策树,节点划分时从随机选出的m_try属性中选最优;3.多棵树形成森林。OOB误差:每棵树约1/3样本未参与训练,称为OOB样本;用已训练的森林对每一样本的OOB投票或平均,计算预测错误率即为OOB估计,无需额外验证集。29.(7分)给定类别不平衡数据集,提出至少三种有效策略并说明原理。答案:1.欠采样:减少多数类样本,降低数据规模使两类比例接近,提升少数类召回;2.SMOTE过采样:对少数类样本插值生成合成样本,缓解过拟合风险;3.代价敏感学习:为少数类误分设置更高惩罚,如调整分类器损失函数或阈值移动;4.集成方法:如EasyEnsemble,将多数类拆成多子集,分别与少数类训练多个基分类器再集成,兼顾信息保留与平衡。五、计算与分析题(共50分)30.(10分)关联规则挖掘事务数据库如下:T1:{A,B,C} T2:{A,C} T3:{B,C} T4:{A,B,E} T5:{B,C,E}最小支持度=40%,最小置信度=70%。(1)列出所有频繁1项集并给出支持度计数;(2)生成频繁2项集;(3)找出所有满足最小置信度的强规则。答案:(1)频繁1项集:A:3,B:4,C:4,E:2(≥2次),共{A,B,C,E}(2)频繁2项集:AB:2,AC:2,BC:4,BE:2,CE:2(3)强规则:BC→B:conf=4/4=100%≥70%,保留BC→C:conf=4/4=100%≥70%,保留B→BC:conf=4/4=100%≥70%,保留C→BC:conf=4/4=100%≥70%,保留其余如A→C:conf=2/3<70%,舍弃。31.(12分)朴素贝叶斯分类训练集:Outlook={Sunny,Overcast,Rain},Temperature={Hot,Mild,Cool},Play={Yes,No}统计计数:Sunny:Yes=2,No=3;Overcast:Yes=4,No=0;Rain:Yes=3,No=2Hot:Yes=2,No=2;Mild:Yes=4,No=2;Cool:Yes=3,No=1拉普拉斯平滑,|V|=3。测试样本:X={Outlook=Sunny,Temperature=Cool}求P(Yes|X)与P(No|X),并给出预测类别。答案:先验:P(Yes)=9/14,P(No)=5/14似然:P(Sunny|Yes)=(2+1)/(9+3)=3/12=0.25P(Sunny|No)=(3+1)/(5+3)=4/8=0.5P(Cool|Yes)=(3+1)/(9+3)=4/12=0.333P(Cool|No)=(1+1)/(5+3)=2/8=0.25联合似然:P(X|Yes)=0.25×0.333=0.08325P(X|No)=0.5×0.25=0.125后验:P(Yes|X)∝0.08325×9/14≈0.0535P(No|X)∝0.125×5/14≈0.0446归一化:P(Yes|X)=0.0535/(0.0535+0.0446)=0.545>0.5,预测Yes。32.(14分)kmeans与聚类评估给定一维数据{2,3,7,8,10,15,16,18},k=3,初始中心{3,8,15},欧氏距离。(1)写出第一次迭代的簇分配结果;(2)计算第一次迭代后的新中心;(3)采用SSE指标,计算第一次迭代前后的SSE变化;(4)若真实标签为{1,1,2,2,2,3,3,3},计算调整兰德指数(ARI)的分子部分:a=同类同簇对数,b=异类异簇对数,并给出ARI表达式(不必算数值)。答案:(1)分配:簇1:{2,3} 簇2:{7,8,10} 簇3:{15,16,18}(2)新中心:(2+3)/2=2.5 (7+8+10)/3=8.33 (15+16+18)/3=16.33(3)SSE前:(2−3)²+(3−3)²+(7−8)²+(8−8)²+(10−8)²+(15−15)²+(16−15)²+(18−15)²=1+0+1+0+4+0+1+9=16SSE后:(2−2.5)²+(3−2.5)²+(7−8.33)²+(8−8.33)²+(10−8.33)²+(15−16.33)²+(16−16.33)²+(18−16.33)²=0.25+0.25+1.77+0.11+2.79+1.77+0.11+2.79≈9.84变化:ΔSSE=−6.16,下降。(4)真实对:共C(8,2)=28对a:真实同且簇同簇1内:{2,3}真实同,1对簇2内:{7,8,10}真实同,C(3,2)=3对簇3内:{15,16,18}真实同,C(3,2)=3对a=1+3+3=7b:真实异且簇异跨簇所有对数减去真实同但簇异总跨簇对=28−(1+3+3)=21真实异对=28−(C(2,2)+C(3,2)+C(3,2))=28−(1+3+3)=21b=21ARI=(a+b−E(a+b))/(C(n,2)−E(a+b)),其中E(a+b)为随机期望。33.(14分)ROC曲线与代价敏感学习某二分类模型输出概率,0.5为默认阈值。样本20个,其中正例8,负例12。按得分降序排列后,预测标签与真实如下(1正0负):预测:11110010000000000000真实:10111000010000000000(1)填写TPR与FPR,每行一个阈值,画出ROC曲线坐标点;(2)计算AUC(梯形法,保留三位小数);(3)若误分类代价矩阵为:FN代价=10,FP代价=1,求最优阈值使得总期望代价最小;(4)在该最优阈值下,给出混淆矩阵并计算平均代价。答案:(1)逐点:阈值=第1个得分:TP=1,FP=0,TPR=1/8=0.125,FPR=0/12=0阈值=第2个:TP=1,FP=1,TPR=0.125,FPR=0.083阈值=第3个:TP=2,FP=1,TPR=0.25,FPR=0.083阈值=第4个:TP=3,FP=1,TPR=0.375,FPR=0.083阈值=第5个:TP=3,FP=2,TPR=0.375,FPR=0.167阈值=第6个:TP=3,FP=3,TPR=0.375,FPR=0.25阈值=第7个:TP=4,FP=3,TPR=0.5,FPR=0.25阈值=第8个:TP=4,FP=4,TPR=0.5,FPR=0.333……直至阈值=0:TP=8,FP=12,TPR=1,FPR=1(2)AUC=梯形求和≈0.708(3)代价期望:E=FN×P(实际正|得分<t)+FP×P(实际负|得分≥t)逐阈值计算:t=第4个:FN=5,FP=1,E=5×10+1×1=51t=第7个:FN=4,FP=3,E=4×10+3×1=43t=第10个:FN=3,FP=4,E=30+4=34t=第12个:FN=2,FP=6,E=20+6=26t=第15个:FN=1,FP=9,E=10+9=19t=第18个:FN=0,FP=11,E=0+11=11最小E=11,对应阈值=第18个得分。(4)最优阈值下:TP=8,FN=0,TN=1,FP=11混淆矩阵: 预测 1 0实1 8 0实0 11 1平均代价=(0×10+11×1)/20=0.55六、综合设计题(共20分)34.某电商公司欲构建“复购预测”模型,数据源包括用户基本信息、订单流水、浏览日志、优惠券使用记录。(1)设计完整数据挖掘流程,从原始数据到上线评估,给出关键步骤与对应技术;(2)针对类别不平衡(复购率8%)提出采样与模型层面的综合方案;(3)若特征维度高达5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外包单位安全生产专项管控不力问题整改措施报告
- 施工现场安全隐患整改销号管理不严格报告
- 2025年芙蓉区初中语文面试题库及答案
- 2025年提现与人沟通能力强的面试题库及答案
- 2025年常州村工作人员面试题库及答案
- 2025年民生科技第二轮面试题库及答案
- 2025年化工厂技术员面试题库及答案
- 2025年教招归入到事业单位考试及答案
- 2025年化妆师求职者面试题库及答案
- 2025年武安社区工作者笔试及答案
- 牧草栽培学课件
- 中西医结合治疗精神病
- 走失患者不良事件警示教育内容
- 中国船级社CCS规范指南-《船舶网络安全指南》(2023年)
- 双光子显微镜在生物医学中的应用及其进展
- 新冠肺炎疫情背景下抚顺千台春酒业4P营销策略研究
- 220324-员工手册民主程序步骤及相应签字文件
- 数控加工技术(3D版)配套课件第五章数控机床的伺服系统
- TCL液晶电视故障速查表完整
- 新能源汽车电气技术 课件
- LS/T 6113-2015粮油检验粮食中脱氧雪腐镰刀菌烯醇测定胶体金快速定量法
评论
0/150
提交评论