数据挖掘技术考试题及答案_第1页
数据挖掘技术考试题及答案_第2页
数据挖掘技术考试题及答案_第3页
数据挖掘技术考试题及答案_第4页
数据挖掘技术考试题及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术考试题及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填入括号内)1.在Apriori算法中,若最小支持度阈值为5%,事务数据库中共有1000条事务,则频繁1项集必须满足的最小出现次数为()。A.45  B.50  C.55  D.60答案:B2.下列关于信息增益的描述,正确的是()。A.信息增益越大,划分后的纯度越低B.信息增益等于父节点熵减去所有子节点熵的加权平均C.信息增益无法处理连续属性D.信息增益倾向于把样本划分到少数分支答案:B3.在Kmeans聚类中,若初始中心点选择不当,最可能导致的后果是()。A.收敛速度加快  B.聚类簇数自动减少C.陷入局部最优  D.目标函数单调递增答案:C4.给定事务集{牛奶,面包,啤酒}、{牛奶,啤酒}、{面包,啤酒}、{牛奶,面包},若最小支持度为50%,则下列哪一项不是频繁项集()。A.{牛奶}  B.{面包}  C.{啤酒}  D.{牛奶,面包,啤酒}答案:D5.在ID3决策树中,若某节点所有样本已属于同一类别,则该节点的熵为()。A.0  B.1  C.0.5  D.无法确定答案:A6.朴素贝叶斯分类器“朴素”的主要原因是()。A.假设先验分布为正态  B.假设属性条件独立C.假设后验分布为均匀  D.假设样本独立同分布答案:B7.在协同过滤中,用户物品评分矩阵极度稀疏时,最直接有效的缓解策略是()。A.增加正则化系数  B.采用SVD降维C.提高学习率  D.采用欧氏距离计算相似度答案:B8.下列评价指标中,对类别不平衡问题最不敏感的是()。A.准确率  B.F1score  C.AUC  D.召回率答案:C9.在PageRank公式R=αMR+(1α)v中,阻尼系数α一般取值为()。A.0.1  B.0.15  C.0.5  D.0.85答案:D10.若使用DBSCAN聚类,将MinPts设为4,ε设为2,则下列哪类点会被标记为核心点()。A.其ε邻域含3个点  B.其ε邻域含4个点含自身C.其ε邻域含5个点不含自身  D.其ε邻域含3个点不含自身答案:C11.在Bagging中,基学习器之间的主要关系是()。A.串行依赖  B.完全独立  C.加权平均  D.梯度提升答案:B12.若某数据集有d维,使用PCA降至k维,则重构误差最小的情况是()。A.k=d  B.k=d1  C.k=1  D.与k无关答案:A13.在EM算法中,E步的核心任务是()。A.最大化似然函数  B.计算隐变量后验概率C.更新混合系数  D.计算梯度答案:B14.若某分类器在测试集上的混淆矩阵为[[80,10],[5,95]],则其宏平均F1为()。A.0.85  B.0.87  C.0.89  D.0.91答案:C15.在关联规则中,已知规则{X,Y}→{Z}的置信度为75%,则下列说法一定成立的是()。A.支持度(X,Y,Z)=支持度(X,Y)B.支持度(X,Y,Z)/支持度(X,Y)=0.75C.支持度(Z)=0.75D.提升度大于1答案:B16.使用梯度提升树时,若学习率过大,最可能出现的后果是()。A.欠拟合  B.过拟合  C.无法收敛  D.树深度自动减小答案:C17.在文本挖掘中,TFIDF值越高表示()。A.词条在文档中出现次数少且普遍重要B.词条在文档中出现次数多且在其他文档罕见C.词条在所有文档均匀分布D.词条对分类无贡献答案:B18.若使用k折交叉验证,k越大,则()。A.偏差减小,方差增大  B.偏差增大,方差减小C.偏差与方差均减小  D.偏差与方差均增大答案:A19.在社交网络分析中,介数中心性用来衡量()。A.节点度数  B.节点接近全局中心程度C.节点作为“桥梁”的重要性  D.节点局部聚类系数答案:C20.若某连续属性在C4.5中被离散化,采用的原则是()。A.信息增益率最大切点  B.Gini指数最小切点C.卡方检验最大切点  D.均方误差最小切点答案:A二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)21.下列属于无监督学习任务的有()。A.Kmeans  B.Apriori  C.DBSCAN  D.朴素贝叶斯答案:A、B、C22.关于随机森林,下列说法正确的有()。A.可自动进行特征选择  B.可评估变量重要性C.对噪声稳健性优于单棵决策树  D.基学习器间存在强依赖答案:A、B、C23.以下措施可以缓解过拟合的有()。A.L2正则化  B.提前停止  C.增加训练集规模  D.降低模型复杂度答案:A、B、C、D24.在SVM中,使用高斯RBF核可能带来的问题有()。A.模型解释性下降  B.容易过拟合C.计算复杂度随样本量平方增长  D.对特征缩放不敏感答案:A、B、C25.下列属于集成学习策略的有()。A.AdaBoost  B.GradientBoosting  C.Bagging  D.Stacking答案:A、B、C、D26.关于PCA,下列正确的有()。A.主成分方向由协方差矩阵特征向量决定B.各主成分正交C.保留方差最大D.必须标准化原始变量答案:A、B、C、D27.在文本分类中,使用ngram特征可能带来的好处有()。A.捕捉局部语序  B.降低稀疏性C.提高对歧义的鲁棒性  D.减少特征维度答案:A、C28.下列属于异常检测方法的有()。A.LOF  B.OneclassSVM  C.IsolationForest  D.Kmeans答案:A、B、C29.关于关联规则挖掘,下列可提高算法效率的策略有()。A.事务压缩  B.划分  C.抽样  D.哈希答案:A、B、C、D30.在深度置信网络(DBN)中,下列说法正确的有()。A.由多层RBM堆叠而成  B.可逐层无监督预训练C.顶层可使用softmax分类  D.与CNN结构完全相同答案:A、B、C三、填空题(每空1分,共20分)31.若某数据集的属性A取值为{低,中,高},使用独热编码后,新增________个二进制属性。答案:232.在CART回归树中,划分准则为最小化________。答案:均方误差33.若某频繁项集有k个元素,则其可能产生的关联规则数为________。答案:2^k−234.当k近邻算法采用k=1且使用欧氏距离时,其决策边界为________。答案:Voronoi图35.若SVM的惩罚参数C→+∞,则软间隔模型趋近于________。答案:硬间隔36.在协同过滤中,若采用用户相似度加权平均填充缺失评分,则该策略属于________型推荐。答案:基于用户37.若某属性缺失率高于60%,且与目标变量相关性极低,则最合理的处理方式是________。答案:直接删除38.当使用肘部法确定Kmeans最佳k值时,纵轴通常绘制________随k变化的曲线。答案:SSE(误差平方和)39.在GBDT中,第t棵树拟合的是前t−1棵树预测的________。答案:负梯度残差40.若某文本集词汇表大小为10000,使用TFIDF+LSA降至100维,则LSA的核心矩阵分解方法是________。答案:SVD41.在PageRank迭代中,若两次迭代间差值小于10^−6,则认为算法达到________。答案:收敛42.若某二分类器的ROC曲线与对角线重合,则其AUC值为________。答案:0.543.在图像挖掘中,使用卷积核大小为3×3,步长为1,零填充为1,则输入32×32的特征图输出尺寸为________。答案:32×3244.若使用MinMax归一化将值x映射到[0,1],公式为________。答案:(x−min)/(max−min)45.在Apriori的剪枝步骤中,利用的性质是频繁项集的________性。答案:子集(或向下封闭)46.若某属性呈右偏分布,进行对数变换后可________偏度。答案:减小47.在EM算法中,若对数似然函数单调递减,则说明实现过程出现________。答案:错误(或bug)48.若使用Hadoop进行频繁项集挖掘,Map阶段输出的key为候选项集,value为________。答案:1(或计数)49.在特征选择中,利用互信息衡量特征与标签的相关性时,互信息单位若为自然对数,则为________。答案:nat50.若某深度学习模型在训练集准确率为99%,验证集为72%,则模型处于________状态。答案:过拟合四、简答题(共30分)51.(封闭型,6分)简述Apriori算法中“连接步”与“剪枝步”的具体操作,并说明其目的。答案:连接步:将频繁(k−1)项集自连接生成候选k项集,条件是前k−2项相同且第k−1项按字典序小于另一项集的第k−1项;剪枝步:扫描事务数据库,计算候选k项集支持度,剔除支持度小于阈值的所有候选项集。目的:通过逐层搜索与剪枝,减少候选项集规模,降低计算量。52.(开放型,8分)试比较硬聚类(Kmeans)与软聚类(高斯混合模型)在假设、输出及适用场景三方面的差异,并给出具体案例说明。答案:假设:Kmeans假设簇为凸、等方差、互斥;GMM假设数据由多个高斯分布混合,允许簇重叠。输出:Kmeans输出样本唯一簇标签;GMM输出样本属于各簇的后验概率。适用场景:Kmeans适用于大规模、形状规则、边界清晰的数据,如客户RFM分段;GMM适用于簇密度不同、存在重叠的图像像素分割。案例:手写数字图像聚类,Kmeans易将“7”与“1”误判为一类;GMM通过概率加权,可区分笔画重叠部分,提升精度。53.(封闭型,6分)给出C4.5处理连续属性的完整步骤,并写出信息增益率公式。答案:步骤:1.将连续值排序;2.取相邻值中点作为候选切点;3.计算每个切点信息增益率;4.选最大增益率切点二分数据集。公式:GainRatio(A)=Gain(A)/SplitInfo(A),其中SplitInfo(A)=−∑(Dj/D)log2(Dj/D),Dj为划分后子集大小。54.(开放型,10分)某电商网站每日产生上亿条用户行为日志,请设计一套实时异常检测框架,要求:1.能检测账户被盗、机器刷单两类异常;2.延迟低于5分钟;3.可扩展至分布式。请给出技术选型、特征工程、模型训练与部署方案,并说明如何更新模型。答案:技术选型:使用Flink+Kafka完成实时流处理,存储用HBase,计算层用SparkStreaming;特征工程:账户维度(登录IP突变、设备指纹变更、下单频率)、商品维度(单品瞬时销量、优惠券使用占比)、图特征(登录IP与收货地址异或);模型:初筛用规则引擎(5分钟内同IP多账户下单>50触发),精排用IsolationForest在线学习,窗口长度3分钟,滑动步长1分钟;训练:每日凌晨用前一天全量日志离线训练,采用加权采样平衡正负样本,模型输出分数>0.7即告警;部署:模型序列化为PMML,通过FlinkUDF调用,平均延迟2.3分钟;更新:采用在线增量学习,每收到1000条新异常反馈,触发局部参数更新,防止概念漂移。五、应用计算与分析题(共60分)55.(计算题,10分)给定二维数据集:X1=(1,2),X2=(2,1),X3=(3,3),X4=(6,6),X5=(7,7)。使用层次聚类(欧氏距离,全链接)进行聚类,请画出dendrogram并标出距离刻度,要求合并顺序完整写出。答案:步骤1:计算距离矩阵,最小为√2,合并(X1,X2)得簇A,距离刻度√2;步骤2:更新矩阵,A与X3距离=max(d13,d23)=√5,A与X4=√41,A与X5=√52;X3与X4=√18,X3与X5=√32,X4与X5=√2;最小√2,合并(X4,X5)得簇B,刻度√2;步骤3:更新,AB=max(dA4,dA5)=√52,X3B=max(d34,d35)=√32;最小√5,合并(A,X3)得簇C,刻度√5;步骤4:CB=max(dC4,dC5)=√52,刻度√52;dendrogram:纵轴距离,自下而上依次在√2、√2、√5、√52处画合并节点。56.(分析题,12分)某银行拥有10000条信用卡申请记录,其中700条为违约。采用SMOTE过采样后训练逻辑回归,测试集AUC=0.94,但业务人员发现模型将90%的“高风险”客户标记为低风险,导致坏账率仅下降1%。请分析原因,并提出改进方案。答案:原因:SMOTE合成样本过度重叠,导致决策边界过于乐观;业务指标与模型优化目标不一致,模型以AUC为目标,而业务关注高风险召回;样本特征存在强缺失与噪声,过采样放大噪声。改进:1.采用代价敏感学习,给违约类赋予权重7000:300;2.改用F2score或召回率≥80%为约束,重新调参;3.使用BorderlineSMOTE仅对边界样本合成;4.引入专家规则作为后校准,对评分0.4~0.6区间引入人工复核;5.建立拒绝推断机制,对历史拒绝客户用无标签学习补充分布。经上述调整,高风险召回率由10%提升至68%,坏账率下降7%。57.(综合题,18分)给定超市购物篮事务库(已编码),最小支持度=0.03,最小置信度=0.6。(1)使用Apriori算法求所有频繁项集,写出候选项集生成与剪枝过程,并给出最终频繁项集列表;(2)列出所有满足置信度的关联规则,计算提升度,并按提升度降序排列;(3)解释规则“啤酒→坚果”提升度<1的业务含义。答案:(1)事务总数=5000,最小支持计数=150。L1:{牛奶}:320,{面包}:410,{啤酒}:280,{坚果}:180,{薯片}:160。C2:自连接得10项,剪枝后L2:{牛奶,面包}:220,{牛奶,啤酒}:170,{面包,啤酒}:190,{面包,坚果}:155,{啤酒,坚果}:140(剔除)。C3:{牛奶,面包,啤酒}:95(剔除),{面包,啤酒,坚果}:80(剔除)。最终频繁项集:L15项,L24项。(2)规则:{bread}→{milk}:置信=220/410=0.537(剔除);{milk}→{bread}:220/320=0.688,提升=0.688/(410/5000)=0.84;{bread}→{beer}:190/410=0.463(剔除);{beer}→{bread}:190/280=0.679,提升=0.679/(410/5000)=0.83;{milk}→{beer}:170/320=0.531(剔除);{beer}→{milk}:170/280=0.607,提升=0.607/(320/5000)=0.95;{bread}→{nuts}:155/410=0.378(剔除);{nuts}→{bread}:155/180=0.861,提升=0.861/(410/5000)=1.05;按提升度降序:nuts→bread(1.05),beer→milk(0.95),milk→bread(0.84),beer→bread(0.83)。(3)提升度<1表示啤酒与坚果同时出现概率低于两者独立假设下的期望,即二者存在轻微互斥,促销时应避免捆绑,改为交叉陈列提升互补品。58.(编程实验题,20分)请用Python实现一个完整的垃圾邮件分类pipeline,要求:1.使用SMSSpamCollection数据集(5574条);2.采用TFIDF+Bigrams,最大特征数5000;3.基线模型用多项式朴素贝叶斯,对比模型用线性SVM;4.采用网格搜索调参(SVM调C与loss),交叉验证3折;5.输出两种模型的精确率、召回率、F1、AUC,并绘制ROC曲线;6.给出特征重要性最高的前10个词汇。答案:```pythonimportpandasaspd,numpyasnp,matplotlib.pyplotaspltfromsklearn.model_selectionimportGridSearchCVfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.naive_bayesimportMultinomialNBfromsklearn.svmimportLinearSVCfromsklearn.pipelineimportPipelinefromsklearn.metricsimportroc_curve,auc,classification_reportdata=pd.read_csv('spam.csv',encoding='latin')[['v1','v2']]X,y=data['v2'],data['v1'].map({'ham':0,'spam':1})pipe=Pipeline([('tfidf',TfidfVectorizer(ngram_range=(1,2),max_features=5000,stop_words='english')),('clf',MultinomialNB())])pipe.fit(X,y)y_pred=pipe.predict(X)print('NB:',classification_report(y,y_pred))param={'clf__C':[0.1,1,10],'clf__loss':['hinge','squared_hinge']}grid=GridSearchCV(Pipeline([('tfidf',TfidfVectorizer(ngram_range=(1,2),max_features=5000,stop_words='english')),('clf',LinearSVC())]),param,cv=3,scoring='f1')grid.fit(X,y)best_model=grid.best_estimator_y_score=best_model.decision_function(X)fpr,tpr,_=roc_curve(y,y_score)plt.plot(fpr,tpr,label='SVMAUC=%.3f'%auc(fpr,tpr));plt.show()print('SVM:',classification_report(y,best_model.predict(X)))feat=best_d_steps['tfidf'].get_feature_names_out()coef=best_d_steps['clf'].coef_.ravel()top10=np.argsort(coef)[10:]print('Topwords:',[feat[i]foriintop

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论