数据挖掘题目及答案_第1页
数据挖掘题目及答案_第2页
数据挖掘题目及答案_第3页
数据挖掘题目及答案_第4页
数据挖掘题目及答案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘题目及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填入括号内)1.在Apriori算法中,若频繁k项集为∅,则下列说法正确的是()A.频繁(k+1)项集可能非空B.算法继续搜索(k+2)项集C.算法终止,不再生成更高阶项集D.需降低最小支持度阈值再扫描答案:C2.给定事务数据库,最小支持度为30%,项集{牛奶,面包}的支持度计数为25,总事务数为100,则{牛奶,面包}()A.是频繁项集B.不是频繁项集C.无法判断D.需计算置信度才能确定答案:B3.在ID3算法中,划分属性的选择依据是()A.Gini指数最小B.信息增益最大C.信息增益率最大D.误分类率最小答案:B4.下列关于Kmeans聚类的描述,错误的是()A.对初始中心点敏感B.需预先指定簇数KC.对噪声点鲁棒D.采用迭代重分配策略答案:C5.若某决策树节点纯度已达100%,则该节点()A.必须继续分裂B.成为叶节点C.需进行剪枝D.需计算信息增益率答案:B6.在FPgrowth算法中,头表(HeaderTable)的作用是()A.存储事务数据库B.快速访问相同项的链表C.记录事务长度D.存储条件模式基答案:B7.朴素贝叶斯分类器“朴素”的含义是()A.假设各属性服从均匀分布B.假设各属性条件独立C.假设先验概率相等D.假设后验概率为1答案:B8.在DBSCAN中,若MinPts=4,Eps=2,某点p的Eps邻域含3个点(含p),则p是()A.核心点B.边界点C.噪声点D.无法确定答案:B9.若某分类模型在测试集上的混淆矩阵为[[80,5],[10,5]],则其召回率为()A.0.80B.0.89C.0.50D.0.33答案:C10.在AdaBoost中,被前一轮错误分类的样本()A.权重减小B.权重增大C.被删除D.权重不变答案:B11.当使用Lift指标评估关联规则时,Lift=1表示()A.前件与后件正相关B.前件与后件独立C.前件与后件负相关D.规则强度最大答案:B12.若某数据集有1万条记录,采用10折交叉验证,则每次训练集大小为()A.1000B.9000C.10000D.5000答案:B13.在PageRank公式R=(1d)/N+d·MᵀR中,阻尼系数d通常取()A.0B.0.25C.0.85D.1答案:C14.下列关于过拟合的说法,正确的是()A.训练误差低,测试误差高B.训练误差高,测试误差低C.训练误差与测试误差都高D.训练误差与测试误差相等答案:A15.若某连续属性服从正态分布,使用3σ原则检测异常点,则异常点落在()A.μ±σ内B.μ±2σ内C.μ±3σ外D.μ±3σ内答案:C16.在协同过滤中,用户物品评分矩阵稀疏性高会导致()A.冷启动问题仅影响新用户B.矩阵分解无法执行C.最近邻计算不准确D.推荐多样性降低答案:C17.若某规则置信度为0.9,支持度为0.01,则该规则()A.一定有趣B.一定无趣C.可能因支持度过低而被过滤D.需提高置信度答案:C18.在文本挖掘中,TFIDF公式TF·log(N/DF)中DF指()A.文档频率B.词频C.逆文档频率D.文档总数答案:A19.若使用层次聚类,簇间距离采用单链接,则易形成()A.紧凑球状簇B.链状簇C.不规则簇D.大小相等簇答案:B20.在模型集成中,Bagging的主要作用是()A.降低方差B.降低偏差C.提高可解释性D.减少属性数答案:A二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,请将所有正确选项的字母填入括号内,漏选、错选均不得分)21.下列属于监督学习算法的有()A.C4.5B.KmeansC.SVMD.Apriori答案:A、C22.关于KNN分类器,下列说法正确的有()A.属于惰性学习B.对属性尺度敏感C.需估计类条件概率密度D.可采用加权投票答案:A、B、D23.下列可用于处理缺失值的方法有()A.均值填充B.回归填充C.期望最大化D.直接删除含缺失值记录答案:A、B、C、D24.下列属于聚类外部评估指标的有()A.Jaccard系数B.Rand指数C.DaviesBouldin指数D.FowlkesMallows指数答案:A、B、D25.下列关于随机森林的描述,正确的有()A.可评估变量重要性B.基学习器为决策树C.树之间独立同分布D.可处理高维数据答案:A、B、D26.下列属于时间序列异常检测方法的有()A.移动平均法B.ARIMA模型残差监控C.孤立森林D.STL分解+3σ规则答案:A、B、D27.下列属于降维技术的有()A.PCAB.LDAC.tSNED.Autoencoder答案:A、B、C、D28.下列关于支持向量机的说法,正确的有()A.可核函数解决非线性问题B.目标是最小化结构风险C.对噪声点不敏感D.支持向量位于间隔边界或误分类侧答案:A、B、D29.下列属于社交网络分析指标的有()A.聚类系数B.介数中心性C.PageRankD.Silhouette系数答案:A、B、C30.下列属于深度学习正则化手段的有()A.DropoutB.L2权重衰减C.BatchNormalizationD.早停答案:A、B、C、D三、填空题(每空2分,共20分。请将正确答案直接填入空格内)31.若事务数据库中{啤酒}的支持度为0.4,{啤酒,尿布}的支持度为0.3,则关联规则啤酒→尿布的置信度为____。答案:0.7532.给定样本集,正类50例,负类50例,某模型预测结果为TP=40,FN=10,FP=5,TN=45,则F1值为____。(保留两位小数)答案:0.8433.若某属性取值{低,中,高},采用Onehot编码后生成____个二元属性。答案:334.在Kmeans中,若样本维度为p,簇数为k,则簇中心矩阵大小为____×____。答案:k×p35.若某时间序列模型残差通过LjungBox检验,p值=0.02,则在α=0.05下残差____(存在/不存在)自相关。答案:存在36.若某商品日销量数据呈明显季节性,周期为7,则采用季节Naïve预测,第t+8期的预测值等于第____期的实际值。答案:t+137.在文本分类中,若词汇表大小为10000,采用二元文法(Bigram)且不计截断,则特征空间维度上限为____。答案:10000000038.若某神经网络使用ReLU激活,则其输出范围是____。答案:[0,+∞)39.若某数据集采用留一法交叉验证,样本数为n,则训练次数为____。答案:n40.在关联规则挖掘中,提高最小置信度阈值将产生更____(多/少)的规则。答案:少四、简答题(共6题,每题10分,共60分)41.(封闭型)简述C4.5算法相对于ID3算法的主要改进,并说明每种改进解决的具体问题。答案:1.信息增益率替代信息增益:解决ID3偏向多值属性的问题,增益率考虑属性固有值,减少分裂偏好。2.连续属性离散化:C4.5采用二分法将连续属性划分为两段,使算法可处理数值型数据,ID3仅支持离散属性。3.缺失值处理:C4.5在分裂时利用已知值计算增益率,并将缺失样本按权重同时划入所有子节点,解决实际数据不完整问题。4.后剪枝机制:引入悲观剪枝,用统计置信度估计误差,自底向上合并叶节点,缓解过拟合,ID3无剪枝易生成复杂树。42.(开放型)某电商平台上,用户评分矩阵极度稀疏,约99%缺失。请提出至少三种缓解稀疏性的策略,并比较其优缺点。答案:策略1:基于内容的填充——利用物品侧信息(品类、品牌、文本描述)计算物品相似度,对缺失评分用相似物品加权平均预测。优点:不依赖其他用户,可冷启动新物品;缺点:需丰富物品元数据,多样性差,易过度专化。策略2:矩阵分解正则化——采用带正则的SVD++,将缺失视为未知,通过交替最小二乘或随机梯度下降学习隐向量。优点:精度高,可解释性强;缺点:计算复杂,需调参,对极稀疏数据仍可能过拟合。策略3:混合主动学习——系统主动邀请部分高影响用户对新物品评分,结合探索利用权衡,用bandit算法选择提问样本。优点:直接增加信息,提高新物品覆盖率;缺点:打扰用户,需设计激励机制,实施成本高。策略4:迁移学习——从辅助域(如社交媒体点赞)迁移用户偏好模型,通过共享隐因子或特征映射缓解目标域稀疏。优点:利用外部大数据;缺点:域差异大时负迁移风险高,需精细对齐。43.(封闭型)写出DBSCAN算法的核心步骤,并解释其如何自动确定簇数。答案:步骤:1.扫描数据集,对任意未访问点p,检索其Eps邻域;2.若邻域点数≥MinPts,则p为核心点,创建新簇C,将邻域内所有点加入候选队列;3.对候选队列中每点q,若q未访问则标记已访问,若q为核心点则将其邻域未归类点加入队列并划入C;4.重复直至队列为空,簇C生成完毕;5.若p非核心点则暂时标记噪声;6.迭代直至所有点访问完毕。自动确定簇数:算法无需预设k,通过密度连通性自然形成任意形状簇,最终簇数等于成功创建的核心点连通分量个数,噪声不计入簇数。44.(开放型)某银行构建信用卡欺诈检测模型,正负样本比例1:999。请给出至少四种处理类别不平衡的技术,并说明如何评估模型效果。技术:1.欠采样:随机删除多数类,使比例达1:5,训练速度快但可能丢失信息。2.SMOTE过采样:对少数类插值合成新样本,保留原始信息,易引入噪声。3.代价敏感学习:在损失函数中对少数类赋高权重(如XGBoost的scale_pos_weight=999),直接优化目标与业务成本一致。4.异常检测框架:将欺诈视为异常,用孤立森林或OneclassSVM,无需平衡数据。评估:不可用准确率,采用AUCROC、AUCPR(更关注正类)、F1、马修斯相关系数(MCC)、Costsensitiveloss,并绘制KS曲线、捕获率曲线,按业务需求选择阈值,使召回率≥80%且假正率≤5%。45.(封闭型)给定二维数据集,协方差矩阵Σ=[[4,0],[0,1]],均值向量μ=[0,0],请写出PCA第一主成分方向,并说明其方差贡献率。答案:协方差矩阵已为对角阵,特征值λ1=4,λ2=1,对应特征向量e1=[1,0]ᵀ,e2=[0,1]ᵀ。第一主成分方向为e1=[1,0]ᵀ,方差贡献率=λ1/(λ1+λ2)=4/5=80%。46.(开放型)解释梯度爆炸现象在RNN训练中的产生机理,并给出至少三种常用解决方案。答案:机理:RNN沿时间反向传播(BPTT)需连乘Jacobian矩阵,若谱半径>1,则梯度呈指数增长,导致参数更新步长过大,损失发散,权重NaN。方案1:梯度裁剪——在反向传播后计算全局梯度范数,若超过阈值θ,则按范数比例缩放梯度,限制更新幅度,不改变方向。方案2:LSTM/GRU——引入门控机制与恒定误差传送带,缓解长期依赖,Jacobian谱半径接近1,抑制爆炸。方案3:权重正则化——在损失中加入对权重矩阵的谱范数惩罚,使Jacobian谱半径显式受限,从源头抑制爆炸。方案4:使用Relu替换tanh并配合carefulinitialization,如Xavier+identity矩阵初始化,减少谱半径>1概率。五、应用综合题(共3题,每题30分,共90分)47.计算与分析题某超市提供一周事务数据如下(已编码):T1:{a,b,c}T2:{a,b,d}T3:{a,c,d}T4:{b,c,d}T5:{a,b,c,d}最小支持度阈值=60%(即绝对支持度≥3)。(1)采用Apriori算法,列出所有频繁项集(含支持度计数)。(8分)答案:1项集:{a}:4,{b}:4,{c}:4,{d}:42项集:{a,b}:3,{a,c}:3,{a,d}:3,{b,c}:3,{b,d}:3,{c,d}:33项集:{a,b,c}:2(删),{a,b,d}:2(删),{a,c,d}:2(删),{b,c,d}:2(删)频繁项集:所有1项集与2项集,支持度计数如上。(2)从频繁2项集中生成所有满足最小置信度70%的关联规则,并计算提升度(Lift)。(10分)答案:规则模板X→Y,置信度=support(X∪Y)/support(X)≥0.7,Lift=置信度/support(Y)。以{a,b}→{c}:置信度=support({a,b,c})/support({a,b})=2/3≈0.67<0.7(删){a,c}→{b}:2/3≈0.67<0.7(删){b,c}→{a}:2/3≈0.67<0.7(删){a,b}→{d}:support({a,b,d})=2,置信度=2/3≈0.67<0.7(删){a,d}→{b}:2/3≈0.67<0.7(删){b,d}→{a}:2/3≈0.67<0.7(删){a,c}→{d}:2/3≈0.67<0.7(删){a,d}→{c}:2/3≈0.67<0.7(删){c,d}→{a}:2/3≈0.67<0.7(删){b,c}→{d}:2/3≈0.67<0.7(删){b,d}→{c}:2/3≈0.67<0.7(删){c,d}→{b}:2/3≈0.67<0.7(删)结论:无规则满足置信度≥70%,故无有效规则输出,Lift无需计算。(3)若将最小支持度降为40%,重新计算频繁3项集,并给出一条满足置信度80%且Lift>1的关联规则。(12分)答案:支持度≥2即可。3项集:{a,b,c}:2,{a,b,d}:2,{a,c,d}:2,{b,c,d}:2均频繁。取规则{a,b}→{c}:置信度=2/support({a,b})=2/3≈0.67<0.8(删)取{a,b,c}→{d}:置信度=support({a,b,c,d})/support({a,b,c})=1/2=0.5<0.8(删)取{a,b}→{d}:置信度=2/3≈0.67<0.8(删)取{b,c,d}→{a}:置信度=support({a,b,c,d})/support({b,c,d})=1/2=0.5<0.8(删)发现无规则达80%。放宽置信度至60%,则{b,c,d}→{a}:置信度=0.5仍不足。实际重新检查:support({a,b,c,d})=1,故任何含四元规则支持度=1<2,不频繁。因此即使在支持度40%下,仍无法生成置信度80%且Lift>1的三元规则。结论:该数据集过密,无强规则。48.分析题某航空公司欲预测航班延误(二元分类),提供过去一年数据含500万条记录,属性包括:月份、起飞机场、目的地机场、机型、计划起飞时间、实际起飞时间、滑行时间、前序航班延误、天气等级、航空公司、跑道信息等共50维。延误率约18%。(1)给出完整的特征工程方案,需包含至少四项具体技术及其目的。(12分)答案:1.时间分桶与循环编码——将计划起飞小时映射为023,再生成sin(2πh/24)、cos(2πh/24),保留周期性,供模型捕捉高峰时段效应。2.类别嵌入——对高基数量如起飞机场(300+值)采用Embedding层降维至10维,替代Onehot,减少稀疏且保留相似机场语义。3.聚合特征——按机场+月份统计历史平均延误率,生成外部比率特征,引入群体趋势,解决冷启动。4.异常天气交互——将天气等级与runway信息交叉,生成“恶劣天气×单跑道”布尔特征,捕捉极端场景。5.标准化与缺失填充——对滑行时间用中位数填充后做Zscore,避免量纲影响树模型分裂。(2)选择两种适合大规模数据的分类算法,说明理由及超参数调优要点。(10分)答案:算法1:GradientBoostingDecisionTrees(LightGBM)——支持直方图加速,内存占用低,可处理类别特征,对非线性关系强;调优:num_leaves(≤31),learning_rate(0.050.2),max_depth(≤8),min_data_in_leaf(≥200),scale_pos_weight=4.5应对不平衡。算法2:FollowtheRegularizedLeader(FTRLProximal)——在线学习,可逐批更新,适合500万条流式数据,稀疏性好;调优:L1正则(110),learning_rate(0.010.1),batch_size(≥1000),使用percoordinatelearningrate。(3)设计离线评估与在线测试方案,说明关键指标与统计检验方法。(8分)答案:离线:按时间顺序取前80%训练,后20%测试,采用AUCROC、AUCPR、F1、LogLoss,并用Bootstrap采样1000次计算AUC的95%置信区间,若新模型下限高于旧模型上限,则显著改进。在线:随机选择10%航班流量采用新模型,运行两周,使用A/B测试,原假设H0:延误率无差异,指标选择“延误率”与“平均预测概率校准误差(Brier)”,采用双比例z检验与MannWhitneyU检验,显著性水平α=0.05,若p<0.05且延误率降低≥1%,则全量发布。49.综合计算题某互联网广告公司采用逻辑回归预测用户点击(CTR),训练集含1亿条样本,特征维度500万,采用LBFGS优化,L2正则系数λ。(1)写出带L2正则的Logistic回归损失函数(含m样本、n特征),并给出梯度公式。(10分)答案:损失:J(θ)=−1/m∑_{i=1}^m[y_ilo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论