数据挖掘模型逻辑测试题及答案_第1页
数据挖掘模型逻辑测试题及答案_第2页
数据挖掘模型逻辑测试题及答案_第3页
数据挖掘模型逻辑测试题及答案_第4页
数据挖掘模型逻辑测试题及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘模型逻辑测试题及答案单选题(每题1分,共20分)1.在决策树算法中,使用信息增益选择划分属性时,若某属性有m个不同取值,其信息增益计算公式中“划分后熵”的计算需将数据集按该属性值分成m个子集,然后对各子集熵求A.算术平均 B.加权平均(权重为子集大小) C.几何平均 D.调和平均答案:B2.下列关于朴素贝叶斯的“条件独立性”假设,描述正确的是A.各特征在给定类别下完全独立 B.各特征在任何情况下都独立 C.各特征与类别独立 D.类别在各特征下独立答案:A3.若Kmeans聚类初始中心点选择不当导致空簇,最合理的补救策略是A.直接删除该簇 B.随机再选一个非中心点作为新中心 C.将距离最远的样本作为新中心 D.将SSE最大的簇分裂答案:B4.Apriori算法中,若频繁3项集L3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}},则候选4项集C4应为A.{a,b,c,d} B.{a,b,c},{a,b,d} C.空集 D.{a,b,c,d},{a,b,c,e}答案:A5.在AdaBoost第t轮,样本i的权重Dt(i)被放大是因为A.该样本被正确分类 B.该样本被错分 C.该样本是离群点 D.该样本权重已为零答案:B6.若使用线性核的SVM在训练集上准确率100%但测试集仅60%,最可能的问题是A.欠拟合 B.过拟合 C.特征尺度差异 D.核函数不匹配答案:B7.在PCA中,若保留前k个主成分,则重构误差等于A.前k大特征值之和 B.剩余dk个特征值之和 C.最大特征值 D.最小特征值答案:B8.下列评价指标对类别不平衡最不敏感的是A.准确率 B.F1score C.AUCROC D.宏平均召回率答案:C9.若随机森林中某棵树未使用某特征X,说明A.X不重要 B.该树训练样本未抽中X C.该树在节点划分时未随机到X D.X是离散型答案:C10.DBSCAN聚类中,若点p为核心点,则其ε邻域内最少应含A.1个点 B.MinPts个点(含自身) C.MinPts个点(不含自身) D.2个点答案:B11.在梯度提升树GBDT中,第M棵树拟合的目标是A.残差 B.原始标签 C.负梯度 D.伪残差(负梯度)答案:D12.若关联规则置信度conf(A→B)=0.8,则A.P(A∩B)=0.8 B.P(B|A)=0.8 C.P(A|B)=0.8 D.support(A)=0.8答案:B13.使用肘部法确定Kmeans最佳K值时,纵轴通常画A.簇内平均直径 B.SSE(簇内平方和) C.轮廓系数 D.互信息答案:B14.若逻辑回归模型加入L2正则,则A.权重可能稀疏为零 B.权重收缩但极少为零 C.偏差一定减小 D.必须使用梯度下降答案:B15.在文本TFIDF中,若词t在所有文档均出现,则其IDF为A.0 B.1 C.log(N) D.–log(N)答案:A16.若使用高斯混合模型GMM,当协方差矩阵设为对角型且各成分共享时,模型退化为A.Kmeans B.朴素贝叶斯 C.线性判别分析 D.核密度估计答案:A17.在时间序列挖掘中,若滑动窗口宽度w过小,会导致A.模式遗漏 B.计算量降低 C.过拟合子序列 D.平滑过度答案:C18.若SVM使用RBF核,参数γ越大,则A.决策边界越平滑 B.单个高斯分量覆盖越广 C.模型越可能过拟合 D.支持向量越少答案:C19.在交叉验证ttest比较两模型时,若p值<0.05,则A.两模型性能无差异 B.拒绝“性能相同”假设 C.接受零假设 D.需增大K折答案:B20.若使用Word2Vec的Skipgram模型,窗口大小为5,则目标是用中心词预测A.1个上下文词 B.5个上下文词 C.2×5个上下文词 D.整个句子答案:C多选题(每题2分,共20分,少选得1分,错选0分)21.下列属于集成学习“多样性”构建方法的有A.对样本自助采样 B.对特征随机子集 C.对算法类型混合 D.对参数网格搜索 E.对输出值加入随机噪声答案:ABCE22.关于ROC曲线,下列说法正确的有A.曲线越靠近左上角性能越好 B.AUC=0.5等价于随机猜测 C.对类别不平衡敏感 D.可比较不同阈值下模型 E.横轴为召回率答案:ABD23.在KNN中,若K值过大可能导致A.分类边界平滑 B.计算成本上升 C.对噪声鲁棒增强 D.近邻含异类风险下降 E.模型复杂度升高答案:ACD24.下列可用于文本特征降维的有A.卡方检验 B.互信息 C.LDA主题模型 D.哈希技巧 E.PCA答案:ABCE25.若使用梯度下降求解逻辑回归,下列做法能缓解收敛震荡的有A.减小学习率 B.使用动量项 C.特征标准化 D.增加样本 E.使用自适应学习率算法答案:ABCE26.在Apriori中,下列会直接导致候选集被剪枝的有A.某子集非频繁 B.支持度低于阈值 C.置信度低于阈值 D.提升度小于1 E.规则后件为空答案:AB27.关于随机森林的OOB误差,下列正确的有A.无需额外验证集 B.可用来估计泛化误差 C.每棵树使用约63.2%样本 D.OOB可变量重要性 E.OOB一定低于测试误差答案:ABCD28.在深度学习特征提取中,下列属于无监督预训练的有A.自编码器 B.受限玻尔兹曼机 C.对比预测编码 D.有标签的交叉熵 E.Word2Vec的Skipgram答案:ABCE29.下列属于“模型可解释性”全局解释方法的有A.SHAP的summaryplot B.排列重要性 C.LIME局部代理 D.PDP部分依赖图 E.权重线性系数答案:ABDE30.若使用XGBoost,下列参数能控制过拟合的有A.max_depth B.min_child_weight C.subsample D.colsample_bytree E.learning_rate答案:ABCDE填空题(每空2分,共20分)31.若数据集有1000条样本,采用5折交叉验证,每次训练集大小为________条。答案:80032.若某决策树节点纯度用Gini指数度量,则二分类问题中,当节点样本比例分别为0.2与0.8时,Gini=________。答案:0.3233.若关联规则支持度计数为50,数据库总事务数为1000,则支持度为________%。答案:534.在PCA中,若协方差矩阵特征值为[5,2,1,0],则第3主成分的方差贡献率为________%。答案:12.535.若使用Kmeans++初始化,第一个中心随机选后,下一个中心被选概率与距离平方成________比。答案:正36.若SVM对偶问题中拉格朗日乘子αi=0,则对应样本为________向量。答案:非支持37.若时间序列滞后阶数为p的AR(p)模型,其特征方程根模长均大于1,则过程________平稳。答案:不38.在文本挖掘中,若词袋模型共现矩阵大小为V×V,则V表示________大小。答案:词汇表39.若GBDT学习率为0.1,迭代100次,则总收缩系数为________。答案:0.1×100=10(但有效权重累乘,答10即可)40.若使用肘部法图形出现“肘部”在K=3,则通常选择K=________。答案:3简答题(共30分)41.(封闭型,6分)写出C4.5相对于ID3的两项改进,并给出公式或示例。答案:1.使用信息增益率代替信息增益,克服多值偏向:GainRatio(A)=Gain(A)/SplitInfo(A),其中SplitInfo(A)=−Σ|Dj|/|D|log(|Dj|/|D|)。2.引入连续值处理:对连续属性A排序后取相邻值中点作划分点T,计算信息增益并选最大增益的T,将A二分为≤T与>T。42.(开放型,6分)某电商发现“尿布→啤酒”规则置信度80%,但营销干预后销量未提升,请给出至少三条可能原因并说明挖掘层面如何改进。答案:1.因果倒置:实际为啤酒→尿布,反向干预无效;需做因果挖掘或控制混杂变量。2.时间错位:规则基于历史共现,干预时季节或促销环境已变;需加入时间衰减或序列规则。3.支持度低:规则虽高置信但覆盖极少交易,提升有限;需设最小支持度阈值。4.竞争促销:同期其他商品折扣更大,挤出效应;需多规则对比提升度。5.顾客分层:规则仅对特定人群成立,全域推送浪费;需关联聚类后分层推荐。43.(封闭型,6分)给定二维数据{(1,1),(2,2),(3,3)},初始中心μ1=(1,1),μ2=(2,2),运行一次Kmeans迭代,写出新中心坐标。答案:分配:点1距μ1最近→簇1;点2距μ2最近→簇2;点3距μ2最近→簇2。簇1={(1,1)},新中心=(1,1);簇2={(2,2),(3,3)},新中心=((2+3)/2,(2+3)/2)=(2.5,2.5)。44.(开放型,6分)某高维基因数据n=100,p=20000,欲建分类器,请给出完整降维+建模pipeline并解释每一步目的。答案:1.过滤低方差特征:移除几乎不变探针,减少噪声。2.单变量检验(t检验/F检验):选Top5000与表型显著相关基因,降低维度并保留信息。3.标准化:均值为0方差1,避免大尺度基因主导。4.PCA或PLS:进一步降至100维,消除共线性,可视化。5.弹性网Logistic回归:L1+L2正则,自动选变量并处理高维小样本。6.嵌套交叉验证:外层评估泛化,内层调参α、λ,避免信息泄漏。7.报告AUC、召回率、稳定性,生物通路富集解释。45.(封闭型,6分)写出SMOTE算法合成新样本的数学步骤,并指出其局限。答案:步骤:1.对少数类样本xi,计算其k(通常k=5)个同类最近邻。2.随机选一邻居xj,生成随机δ∈(0,1)。3.新样本xnew=xi+δ·(xj−xi)。局限:1.易生成噪声,当最近邻含边界或噪声样本时。2.对高维稀疏数据(文本)产生无效合成。3.盲目插值可能破坏局部流形结构。4.未考虑多数类分布,可能增加类重叠。应用计算题(共60分)46.(分析+计算,15分)给定交易数据库:T1:{a,b,d} T2:{a,c,d} T3:{b,c,d,e} T4:{a,b,e} T5:{b,d,e}最小支持度计数=2。(1)用Apriori列出所有频繁项集并给出支持度计数;(8分)(2)列出置信度≥60%的关联规则并计算提升度;(5分)(3)指出哪条规则具有最大提升度。(2分)答案:(1)L1:{a}:3,{b}:4,{c}:2,{d}:4,{e}:3L2:{a,b}:2,{a,d}:2,{b,d}:4,{b,e}:3,{d,e}:2L3:{b,d,e}:2L4:空(2)规则格式X→Y,conf=sup(X∪Y)/sup(X),lift=conf/sup(Y){b,d}→e:conf=2/4=50%(低于60%,舍){b,e}→d:conf=2/3≈66.7%,lift=(2/3)/(4/5)=0.833{d,e}→b:conf=2/2=100%,lift=100%/(4/5)=1.25{b}→d:conf=4/4=100%,lift=100%/(4/5)=1.25{a}→b:conf=2/3≈66.7%,lift=(2/3)/(4/5)=0.833…(其余均<60%)(3)最大提升度=1.25,对应规则{b}→d与{d,e}→b。47.(综合,15分)某银行有信用评分数据:违约标签y∈{0,1},特征x1=年龄(18‐80),x2=负债比(0‐1),x3=历史逾期次数(0‐20)。现建立逻辑回归模型,得权重:β0=−4,β1=0.05,β2=3,β3=0.2。(1)写出违约概率P(y=1|x)公式;(3分)(2)对样本A:年龄=30,负债比=0.2,逾期=1,计算其违约概率;(4分)(3)若银行决策阈值0.3,判断A是否违约;(2分)(4)给出x2的边际效应(对概率的偏导)在样本A处的值;(4分)(5)解释x2系数远大于x1是否说明负债比更重要,并给出注意事项。(2分)答案:(1)P=1/(1+exp(−(β0+β1x1+β2x2+β3x3)))(2)z=−4+0.05×30+3×0.2+0.2×1=−4+1.5+0.6+0.2=−1.7P=1/(1+e^1.7)=0.154(3)0.154<0.3,判为不违约。(4)边际效应=∂P/∂x2=P(1−P)β2=0.154×0.846×3≈0.391(5)不能仅看系数大小,因x2与x1量纲不同;需标准化后比较或看边际效应、IV值、单变量AUC。48.(综合,15分)使用随机森林对图像分类,训练集AUC=0.99,验证集AUC=0.75,测试集AUC=0.74。(1)指出现象名称;(2分)(2)给出5条调优策略并说明原理;(10分)(3)若限制模型必须在嵌入式设备运行,给出2条压缩方案。(3分)答案:(1)过拟合。(2)a.减少max_depth或增大min_samples_split:限制树复杂度,降低方差。b.增加min_samples_leaf:减少叶节点对噪声敏感。c.减小n_estimators但早停:避免过度迭代记忆噪声。d.增大特征子集比例max_features:增加树间多样性,降低单树过深。e.外部数据增强或噪声注入:提升泛化,等价正则。(3)a.树剪枝后序列化,用32bit浮点→16bit整数量化权重。b.知识蒸馏:训练浅层小网络模仿随机森林,模型大小从100MB降至5MB。49.(综合,15分)给定时间序列{yt}=3,5,7,9,11,13,15,拟合线性趋势模型yt=α+βt+εt,t=1,…,7。(1)用最小二乘估计α、β;(6分)(2)计算拟合值与残差;(4分)(3)预测t=8的值;(2分)(4)若真实yt呈现二次增长,指出模型风险。(3分)答案:(1)n=7,Σt=28,Σt²=140,Σy=63,Σty=364

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论