下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘工程师岗位招聘考试试卷及答案填空题(每题1分,共10分)1.数据预处理的核心步骤包括数据清洗、____、数据转换和数据规约。2.K-means聚类算法的核心是计算样本与____的距离。3.决策树ID3算法使用____作为分裂准则。4.分类模型精确率(Precision)=TP/____。5.关联规则A→B的置信度=P(B|A)=____/P(A)。6.支持向量机(SVM)的核心是寻找____。7.特征选择的常用方法有过滤法、____和包裹法。8.异常检测常用算法有孤立森林、____等。9.神经网络BP算法的核心是____误差。10.时间序列挖掘常用方法有ARIMA、____等。单项选择题(每题2分,共20分)1.属于无监督学习的是?A.K-meansB.逻辑回归C.决策树D.随机森林2.不平衡数据集分类评估最适合的指标是?A.准确率B.F1分数C.召回率D.精确率3.关联规则最小支持度过大会导致?A.规则过多B.精度低C.规则少D.无影响4.大数据挖掘常用工具是?A.ExcelB.SPSSC.SASD.SparkMLlib5.CART决策树的分裂准则是?A.信息增益B.基尼不纯度C.信息增益率D.均方误差6.属于特征转换的方法是?A.标准化B.缺失值填充C.去重D.特征选择7.孤立森林的核心思想是?A.局部密度B.全局异常点C.随机隔离异常点D.距离计算8.回归问题的评估指标是?A.精确率B.召回率C.F1D.MAE9.“维度灾难”指?A.特征过多导致模型性能下降B.数据量过大C.分布不均D.缺失值多10.属于集成学习的是?A.KNNB.随机森林C.朴素贝叶斯D.SVM多项选择题(每题2分,共20分)1.缺失值处理常用方法有?A.均值填充B.删除所有数据C.中位数填充D.模型预测填充2.属于分类算法的有?A.逻辑回归B.决策树C.K-meansD.随机森林3.关联规则核心指标有?A.支持度B.置信度C.提升度D.准确率4.聚类评估指标有?A.F1分数B.轮廓系数C.Davies-Bouldin指数D.精确率5.特征选择常用方法有?A.卡方检验B.互信息C.标准化D.递归特征消除6.属于监督学习的有?A.SVMB.PCAC.朴素贝叶斯D.线性回归7.分布式计算框架有?A.HadoopB.SparkC.ExcelD.SPSS8.属于神经网络的有?A.CNNB.KNNC.RNND.LSTM9.数据挖掘应用场景包括?A.客户细分B.fraud检测C.推荐系统D.销量预测10.关于SVM正确的说法有?A.处理高维数据B.仅线性可分C.核函数映射高维D.适合小样本判断题(每题2分,共20分)1.决策树不需要特征缩放。(√)2.K-means结果与初始中心无关。(×)3.逻辑回归是回归算法非分类算法。(×)4.关联规则提升度>1有意义。(√)5.PCA是特征选择方法。(×)6.随机森林减少过拟合。(√)7.异常检测仅属于无监督学习。(×)8.SVMRBF核处理非线性问题。(√)9.去重属于数据清洗。(√)10.ARIMA适用于平稳时间序列。(√)简答题(每题5分,共20分)1.简述数据预处理的必要性及核心步骤。答案:必要性:原始数据存在噪声、缺失、不一致,直接使用影响模型性能。核心步骤:①数据清洗(处理缺失、噪声、重复);②数据集成(合并多源数据);③数据转换(标准化、归一化);④数据规约(降维、特征选择)。解析:原始数据质量差导致模型泛化弱,清洗解决缺陷,集成整合信息,转换适配算法,规约降低维度灾难,保证挖掘有效。2.比较K-means与DBSCAN的差异。答案:K-means是划分聚类,需指定k,基于距离;DBSCAN是密度聚类,无需指定k,基于密度可达。K-means对噪声敏感,适合凸形簇;DBSCAN可发现任意形状簇,处理噪声。解析:K-means依赖初始中心,结果不稳定;DBSCAN通过eps/minPts识别簇,鲁棒性强,适合复杂形状,但对密度不均数据效果差。3.简述3个分类评估指标及适用场景。答案:①准确率:整体正确比例,适用于平衡数据集;②精确率:预测正例中真实正例比例,适用于正例少的场景(如fraud);③召回率:真实正例中被预测正例比例,适用于漏检影响大的场景(如疾病检测)。解析:准确率易受不平衡影响,精确率关注“预测对的正例”,召回率关注“找全正例”,需结合业务选择。4.什么是过拟合?如何避免?答案:过拟合是模型训练集表现好、测试集差,过度学习噪声。避免方法:①增加训练数据;②正则化(L1/L2);③减少模型复杂度(决策树剪枝);④集成学习(随机森林);⑤早停法。解析:过拟合源于模型复杂度高于数据规律,增加数据减少噪声,正则化约束参数,集成学习降低方差,早停法提升泛化能力。讨论题(每题5分,共10分)1.结合业务场景,说明如何选择分类算法(逻辑回归、决策树、SVM、随机森林)。答案:①逻辑回归:线性可分、可解释性高(如信用评分);②决策树:非线性、可解释性强(如客户细分);③SVM:高维、非线性(如文本分类);④随机森林:非线性、高维、抗过拟合(如fraud检测)。解析:业务需可解释性选逻辑回归/决策树,高维选SVM/随机森林,不平衡数据选随机森林,线性关系选逻辑回归,复杂关系选决策树/SVM,需结合数据量、维度、业务需求判断。2.大数据挖掘中,Spark与传统单机框架的差异及优势?答案:差异:Spark基于内存分布式计算,单机依赖单节点硬件。优势:①处理PB级数据;②速度快(内存计算减少IO);③容错性好(RDD弹性分布式);④扩展性强(横向扩展节点)。解析:单机受硬件限制,Spark通过并行计算、内存存储提升效率,RDD支持容错,适合电商用户行为分析等大数据场景,解决单机无法处理的问题。答案汇总填空题答案1.数据集成2.聚类中心3.信息增益4.TP+FP5.P(A∩B)6.最优超平面7.嵌入法8.LOF9.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京市海淀区公安招聘辅警考试试题及答案
- 2026年湖南湘潭市中小学教师招聘考试试题题库及答案
- 2026年保密教育线上培训考试考试卷含答案
- 2026年安徽省辅警考试试卷及答案
- 三、汽化和液化教学设计初中物理八年级全一册北京课改版
- 第一单元整体教学 寻找家乡的名片 教学设计 2023-2024学年统编版语文八年级下册
- 2026年租住商铺合同(1篇)
- 高中数学人教版新课标A必修5第二章 数列2.5 等比数列的前n项和教学设计
- 第五章 宋元时期社会概况和文化教学设计中职历史中国历史 (全一册)人教版
- 吉林省榆树市八年级生物下册 第七单元 第三章 第一节 地球上生命的起源教学设计 (新版)新人教版
- 中大医院护理笔试题库及答案解析
- 2025年公文写作试题及答案解析
- 2025年自考江苏试题及答案
- GJB939A-2022外购器材的质量管理
- 食品用洗涤剂产品生产许可证实施细则
- 道德与法治中考复习教案
- 化学品急救措施
- 民事诉讼法戴鹏讲义
- 财务共享中心业务操作手册(第三版)-费用报销分册
- 《大自然的语言》公开课一等奖创新教学设计
- 课本剧创作中的跨学科融合与创新
评论
0/150
提交评论