数据挖掘考试题及答案_第1页
数据挖掘考试题及答案_第2页
数据挖掘考试题及答案_第3页
数据挖掘考试题及答案_第4页
数据挖掘考试题及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘考试题及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在Apriori算法中,若最小支持度阈值设为5%,则下列哪一项必然成立()A.任何频繁项集的支持度都大于5%B.任何非频繁项集的支持度都小于5%C.任何频繁项集的真子集一定非频繁D.任何频繁项集的超集一定频繁答案:A2.给定二维数值样本点{(1,2),(2,3),(3,4),(4,5)},采用k=2的kmeans算法,初始中心为(1,2)与(4,5),第一次迭代后两个新中心为()A.(1.5,2.5)与(3.5,4.5)B.(2,3)与(3,4)C.(1,2)与(4,5)D.(2.5,3.5)与(2.5,3.5)答案:A3.在ID3算法中,信息增益最大的属性是()A.信息熵最小的属性B.信息熵最大的属性C.条件熵最小的属性D.条件熵最大的属性答案:C4.若某数据集的属性A存在大量缺失值,下列处理方式中属于“模型based填补”的是()A.用全局均值填补B.用同类均值填补C.用回归模型预测缺失值D.直接删除含缺失值样本答案:C5.在朴素贝叶斯文本分类中,采用拉普拉斯平滑的主要目的是()A.降低计算复杂度B.避免零概率问题C.提高先验概率权重D.减少特征维度答案:B6.下列关于FPGrowth的描述,错误的是()A.只需两次扫描事务数据库B.采用分治策略构建条件FP树C.必须生成候选频繁项集D.使用头表加速节点链接答案:C7.在ROC曲线中,若某模型曲线与对角线重合,则其AUC值为()A.0B.0.5C.1D.无法确定答案:B8.使用主成分分析(PCA)降维时,第一主成分的方向是()A.样本均值方向B.协方差矩阵最大特征值对应特征向量方向C.协方差矩阵最小特征值对应特征向量方向D.任意正交方向答案:B9.在关联规则{牛奶}→{面包}中,已知支持度support=8%,置信度confidence=60%,则同时购买牛奶与面包的事务占比为()A.4.8%B.8%C.60%D.无法计算答案:B10.若采用层次聚类中的“单链接”度量,两个簇之间的距离定义为()A.簇质心之间距离B.簇间最近样本距离C.簇间最远样本距离D.簇间平均样本距离答案:B11.在随机森林中,关于“OutofBag误差”的描述正确的是()A.需额外划分验证集B.利用未被抽到的样本计算C.与袋内误差完全相等D.仅适用于回归任务答案:B12.若某分类任务中正负样本比例极度不平衡(正:负=1:99),下列评价指标最不适用的是()A.F1scoreB.AUCC.准确率(Accuracy)D.召回率(Recall)答案:C13.在AdaBoost算法中,被前一轮误分类的样本权重会()A.不变B.降低C.提高D.置零答案:C14.使用DBSCAN聚类时,若某点为核心点,则其ε邻域内最少应包含()A.1个点B.MinPts个点(含自身)C.MinPts个点(不含自身)D.任意数量答案:B15.在文本TFIDF权重中,若词t在所有文档中都出现,则其IDF值为()A.0B.1C.log(N)D.N答案:A16.若某决策树节点纯度已无法继续提升,则该节点应标记为()A.根节点B.内部节点C.叶节点D.虚拟节点答案:C17.在协同过滤中,“冷启动问题”通常不包括()A.新用户问题B.新物品问题C.新模型问题D.新社区问题答案:C18.若使用线性回归建模时出现多重共线性,下列方法中最直接有效的是()A.增加样本量B.删除或合并高度相关特征C.降低学习率D.采用Sigmoid激活函数答案:B19.在PageRank公式R=(1d)/N+d·M·R中,阻尼系数d通常取值()A.0B.0.15C.0.5D.0.85答案:D20.若某时间序列数据集呈现明显季节性,下列挖掘方法中最适合先进行预处理的是()A.差分B.移动平均C.STL分解D.归一化答案:C二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选少选均不得分)21.下列属于无监督学习任务的有()A.kmeans聚类B.关联规则挖掘C.主成分分析D.决策树分类答案:A、B、C22.关于k折交叉验证,正确的描述包括()A.每次用k1份训练,1份验证B.可降低模型方差C.计算成本随k增大而增加D.必提升模型准确率答案:A、B、C23.以下措施可以缓解决策树过拟合的有()A.预剪枝B.后剪枝C.增加树深度D.设置最小叶节点样本数答案:A、B、D24.在朴素贝叶斯中,满足“条件独立”假设可带来的好处包括()A.减少所需估计参数数量B.降低模型方差C.提高训练速度D.保证后验概率无偏答案:A、B、C25.下列属于集成学习Bagging思想特点的有()A.基学习器并行训练B.通过投票或平均降低方差C.各基学习器权重相等D.顺序训练基学习器答案:A、B、C26.关于EM算法,正确的说法有()A.用于含隐变量参数估计B.每次迭代必提升对数似然C.保证收敛到全局最优D.含E步与M步答案:A、B、D27.在社交网络挖掘中,常用于发现“影响力节点”的指标有()A.度中心性B.接近中心性C.介数中心性D.支持度答案:A、B、C28.下列属于时间序列预测模型的有()A.ARIMAB.LSTMC.ProphetD.Apriori答案:A、B、C29.关于L1正则化(Lasso)与L2正则化(Ridge)的比较,正确的有()A.L1可产生稀疏解B.L2可产生稀疏解C.L1适合特征选择D.L2对异常值更鲁棒答案:A、C、D30.在构建用户画像时,可使用的数据源包括()A.交易日志B.社交关系C.传感器数据D.调查问卷答案:A、B、C、D三、填空题(每空2分,共30分)31.若事务数据库含1000条事务,项集{啤酒,尿布}出现200次,则support=________%。答案:2032.给定二维数据协方差矩阵[[5,2],[2,2]],其最大特征值为________。答案:633.若某决策树节点含样本100条,其中正类70条,负类30条,则该节点信息熵为________(保留两位小数)。答案:0.8834.在kmeans++初始化中,新中心被选中的概率与当前点到最近中心的________成正比。答案:距离平方35.若线性回归的均方误差MSE=9,则RMSE=________。答案:336.在SMOTE过采样中,对少数类样本x,随机选取其k近邻之一x',生成新样本x_new=x+________×(x'x)。答案:随机数∈(0,1)37.若某词t在50篇文档中出现,总文档数N=10000,则其IDF=________(保留两位小数)。答案:5.3038.在FPtree中,头表的作用是________节点链。答案:链接相同项39.当使用高斯核SVM时,超参数γ越大,决策边界越________。答案:复杂/曲折40.若某规则提升度lift=1,则表明前后件________独立。答案:统计41.在Apriori性质中,若项集频繁,则其所有________必频繁。答案:子集42.在随机森林中,对分类任务最终输出采用________投票机制。答案:多数43.若某聚类结果兰德指数RI=0.8,则调整兰德指数ARI的最大可能值为________。答案:144.在时间序列分解中,季节性成分周期为12,则该序列采样频率为________月。答案:1245.若梯度提升树学习率设为0.1,迭代100次,则相当于对残差进行________倍修正。答案:10四、简答题(共40分)46.(封闭型,8分)简述支持向量机(SVM)中“函数间隔”与“几何间隔”的区别,并说明为何需要最大化几何间隔而非函数间隔。答案:函数间隔为γ̂=y(w·x+b),其值随w,b等比例缩放而变化,不具备尺度不变性;几何间隔γ=γ̂/‖w‖,表示样本到超平面的真实距离。最大化几何间隔可保证分类器对尺度变换不变,且获得最大分离边界,提升泛化能力。47.(开放型,8分)某电商平台上,新上架商品无任何交互记录,请设计至少两种策略缓解协同过滤的“物品冷启动”问题,并比较其优劣。答案:策略1:利用商品内容特征(文本、图像、类目)计算内容相似度,将新物品与历史相似物品关联,进行基于内容的推荐;优点无需用户行为,缺点个性化弱。策略2:采用探索利用机制,将新物品随机曝光给少量用户,快速收集反馈;优点可获真实偏好,缺点初期体验差且需承担探索成本。策略3:利用迁移学习,从其他平台或旧类目迁移模型参数;优点节省冷启动时间,缺点需领域适配。综合看,内容策略最稳但个性化弱,探索策略长期收益高但短期风险大。48.(封闭型,8分)给出主成分分析(PCA)的完整算法步骤,并说明如何确定降维后的维数k。答案:步骤1:对原始数据去均值化;2:计算协方差矩阵Σ;3:对Σ做特征值分解,得特征值λ_i与特征向量v_i;4:将特征值从大到小排序,选取前k个特征向量组成投影矩阵W;5:用W将原始数据映射到低维空间。确定k方法:a)累计解释方差比≥阈值(常用95%);b)绘制特征值碎石图,找“肘部”;c)交叉验证下游任务性能,选最优k。49.(开放型,8分)某银行构建信用卡欺诈检测模型,正负样本比例1:1000。试述为何准确率不适合作为评价指标,并给出至少两种更适合的指标及理由。答案:极度不平衡下,若模型将所有样本判为负类,准确率仍达99.9%,但完全无法识别欺诈,失去业务意义。应选用:1)F1score,综合precision与recall,避免单一指标被样本比例扭曲;2)AUCROC,评估模型排序能力,不受阈值影响;3)精确率召回率曲线下面积AUCPR,对正例更敏感;4)业务成本矩阵下的期望损失,直接关联金融损失。以上指标均能反映少数类识别效果。50.(封闭型,8分)解释“维数灾难”在聚类任务中的具体表现,并给出两种缓解方法。答案:维数升高导致1)样本稀疏,距离度量失效,同类点距离未必小于异类;2)所需样本数指数增长,聚类不稳定;3)计算复杂度大幅提高。缓解:a)降维(PCA、tSNE)后再聚类;b)采用子空间聚类(如SUBCLU)或基于密度的高维聚类(HDSCAN);c)特征选择去除冗余维度。五、应用计算题(共40分)51.(关联规则,10分)给定事务数据库:T1:{A,B,C};T2:{B,C,D};T3:{A,C,D};T4:{A,B,D};T5:{B,C}。最小支持度=40%,最小置信度=70%。(1)列出所有频繁1项集并给出支持度计数;(2)生成所有频繁2项集;(3)找出强关联规则并计算提升度。答案:(1)频繁1项集:A:3,B:4,C:4,D:3(支持度均≥40%)。(2)频繁2项集:AB:2,AC:2,AD:2,BC:3,BD:2,CD:2(支持度≥2)。(3)候选规则:BC→B已平凡,考虑BC→D:support=1<2,删;BD→C:support=1<2,删;唯一非平凡且满足置信度:B→C:confidence=3/4=75%≥70%,lift=3/5÷(4/5×4/5)=0.9375;C→B:confidence=3/4=75%,lift相同。故强规则为B⇒C与C⇒B,lift=0.9375。52.(朴素贝叶斯,10分)训练集如下:样本1:(x1=S,x2=M,y=+1)样本2:(x1=R,x2=L,y=+1)样本3:(x1=S,x2=L,y=1)样本4:(x1=R,x2=M,y=1)样本5:(x1=S,x2=M,y=1)测试样本(x1=S,x2=L)。采用拉普拉斯平滑,估计P(y=+1|x1=S,x2=L)。答案:先验:P(+1)=2/5,P(1)=3/5。条件概率:P(x1=S|+1)=(1+1)/(2+2)=0.5,P(x2=L|+1)=(1+1)/(2+2)=0.5;P(x1=S|1)=(2+1)/(3+2)=0.6,P(x2=L|1)=(2+1)/(3+2)=0.6。联合似然:P(x|+1)=0.5×0.5=0.25,P(x|1)=0.6×0.6=0.36。后验:P(+1|x)∝0.25×2/5=0.1,P(1|x)∝0.36×3/5=0.216。归一化:P(+1|x)=0.1/(0.1+0.216)=0.316。53.(kmeans,10分)给定一维数据{2,3,6,7,11,12},k=2,初始中心为2与12,采用欧氏距离。(1)写出第一次迭代后的簇划分与新中心;(2)判断算法是否收敛,若未收敛继续第二次迭代并给出最终结果。答案:(1)第一次:簇C1={2,3,6,7},中心=(2+3+6+7)/4=4.5;C2={11,12},中心=11.5。(2)第二次:重分配:2,3距4.5更近→C1;6,7距4.5更近→C1;11,12距11.5更近→C2。划分不变,中心不变,收敛。最终簇:{2,3,6,7}中心4.5;{11,12}中心11.5。54.(SVM核函数,10分)给定二维正类点(1,1)、(1,1),负类点(1,1)、(1,1)。试说明线性核无法分开,并构造一个多项式核K(x,y)=(x·y+1)^2使其在特征空间线性可分,给出支持向量与决策函数。答案:线性核下,四类点呈棋盘状,线性不可分。取多项式核K(x,y)=(x·y+1)^2,对应特征映射φ(x)=[1,√2x1,√2x2,x1^2,√2x1x2,x2^2]。映射后:φ(1,1)=[1,√2,√2,1,√2,1],φ(1,1)相同;φ(1,1)=[1,√2,√2,1,√2,1],φ(1,1)相同。在6维空间,正类两点重合,负类两点重合,且可找分离超平面。通过求解对偶问题得α1=α2=0.25,α3=α4=0.25,支持向量为全部四点。决策函数f(x)=sign(0.25K(x,(1,1))+0.25K(x,(1,1))0.25K(x,(1,1))0.25K(x,(1,1))),可验证对新点(0,0)输出1,分类正确。六、综合分析题(共50分)55.(25分)某视频平台拟构建“猜你喜欢”推荐系统,数据包含用户观看时长、点赞、收藏、转发、视频标签、用户画像、上下文(时间、设备)。(1)设计一套混合推荐框架,说明如何融合协同过滤与内容推荐,并指出冷启动阶段与成熟阶段的不同策略;(2)给出离线评价指标与在线A/B测试方案,说明如何确保指标与商业目标一致;(3)讨论如何处理“信息茧房”与“数据偏差”带来的负面影响,给出可量化的缓解指标。答案:(1)框架:召回层采用多路融合:a)协同过滤(矩阵分解+深度FM)利用隐式反馈;b)内容召回(双塔BERT编码视频标签与用户兴趣)解决冷启动;c)热门与探索通道注入多样性。排序层采用深度CTR模型(Wide&Deep+Attention),输入含用户序列、视频特征、上下文。冷启动阶段提高内容通道权重,采用探索εgreedy;成熟阶段降低ε,引入强化学习(DQN)优化长期收益。(2)离线:Recall@50、Precision@10、NDCG、多样性(IntralistSimilarity)、覆盖率(CatalogCoverage)。在线:划分5%流量实验桶,核心指标:人均观看时长、完播率、次日留存、负反馈率(点“不感兴趣”)。建立LTVproxy模型,确保短期指标与长期收入正相关。(3)信息茧房:计算用户推荐列表的基尼系数与话题熵,若基尼>0.5或熵<均值2σ,触发重排序,提升探索权重。数据偏差:对热门视频降权,采用逆倾向得分加权(IPS)修正点击率,监控热门视频在推荐池占比<30%。缓解指标:a)用户话题熵周环比提升≥5%;b)新视频曝光占比≥20%;c)负反馈率下降≥3%。56.(25分)某零售企业提供过去三年每日销售数据,需预测未来四周SKU级销量,数据含促销标记、价格、节假日、天气、线上广告投入。(1)给出完整的数据挖掘流程,从数据清洗到模型部署,说明每一步关键技术与注意事项;(2)比较SARIMAX、Prophet、LSTM三种模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论