大数据数据挖掘工程师岗位招聘考试试卷及答案_第1页
大数据数据挖掘工程师岗位招聘考试试卷及答案_第2页
大数据数据挖掘工程师岗位招聘考试试卷及答案_第3页
大数据数据挖掘工程师岗位招聘考试试卷及答案_第4页
大数据数据挖掘工程师岗位招聘考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据数据挖掘工程师岗位招聘考试试卷及答案大数据数据挖掘工程师岗位招聘考试试卷一、填空题(共10题,每题1分,共10分)1.HDFS中文件默认的块大小是______MB。2.MapReduce框架的核心计算阶段包括Map阶段和______阶段。3.K-means聚类算法中,需预先指定的参数是______。4.Spark的核心抽象是______,代表分布式不可变数据集。5.SQL中计算累计值的窗口函数常用______。6.类别型特征转数值型的常用方法是______。7.决策树划分特征的准则包括信息增益和______。8.NoSQL数据库类型包括键值型、文档型、列族型和______。9.数据预处理步骤包括清洗、集成、变换和______。10.线性回归的损失函数通常是______。二、单项选择题(共10题,每题2分,共20分)1.不属于大数据“4V”特征的是()A.VolumeB.VelocityC.VarietyD.Validity2.Hadoop核心组件不包括()A.HDFSB.MapReduceC.SparkD.YARN3.Spark并行计算的核心算子是()A.mapB.reduceC.filterD.groupBy4.属于无监督学习的算法是()A.逻辑回归B.K-meansC.决策树D.SVM5.属于特征选择方法的是()A.归一化B.标准化C.卡方检验D.独热编码6.属于数据可视化工具的是()A.HiveB.PigC.TableauD.ZooKeeper7.ETL流程第一步是()A.转换B.提取C.加载D.清洗8.分类模型准确性指标是()A.RMSEB.MAEC.准确率D.R²9.HBase属于哪种NoSQL?()A.键值型B.文档型C.列族型D.图数据库10.属于分布式计算框架的是()A.MySQLB.MongoDBC.RedisD.Flink三、多项选择题(共10题,每题2分,共20分)1.大数据“4V”特征包括()A.VolumeB.VelocityC.VarietyD.ValueE.Veracity2.Hadoop核心组件包括()A.HDFSB.MapReduceC.YARND.SparkE.Hive3.Spark常用库包括()A.SparkSQLB.SparkStreamingC.MLlibD.GraphXE.Pig4.数据挖掘常用算法包括()A.K-meansB.逻辑回归C.决策树D.随机森林E.SVM5.特征工程步骤包括()A.特征选择B.特征提取C.特征变换D.特征评估E.特征存储6.模型评估指标包括()A.准确率B.召回率C.F1值D.RMSEE.R²7.NoSQL数据库类型包括()A.键值型B.文档型C.列族型D.图数据库E.关系型8.数据预处理方法包括()A.缺失值填充B.异常值处理C.归一化D.标准化E.加密9.机器学习分类包括()A.监督学习B.无监督学习C.强化学习D.半监督学习E.深度学习10.分布式存储系统包括()A.HDFSB.HBaseC.MySQLD.MongoDBE.Redis四、判断题(共10题,每题2分,共20分)1.HDFS默认块复制数是3。()2.MapReduce执行顺序是先Map后Reduce。()3.K-means对异常值不敏感。()4.线性回归只能处理线性关系。()5.Spark是基于磁盘的计算框架。()6.决策树属于集成学习。()7.NoSQL不支持ACID。()8.ETL全称是“提取-转换-加载”。()9.PCA是降维算法。()10.逻辑回归用于预测连续值。()五、简答题(共4题,每题5分,共20分)1.简述数据挖掘的基本流程。2.对比Hadoop和Spark的主要区别。3.简述K-means聚类的基本步骤。4.如何评估分类模型的性能?六、讨论题(共2题,每题5分,共10分)1.大数据场景下如何处理数据倾斜?2.数据挖掘工程师的核心能力有哪些?答案部分一、填空题答案1.1282.Reduce3.聚类数k4.RDD5.SUM(或AVG等窗口函数)6.独热编码(One-hotEncoding)7.基尼系数(或信息增益率)8.图数据库9.数据归约10.均方误差(MSE)二、单项选择题答案1.D2.C3.A4.B5.C6.C7.B8.C9.C10.D三、多项选择题答案1.ABCDE2.ABC3.ABCD4.ABCDE5.ABCD6.ABCDE7.ABCD8.ABCD9.ABCD10.ABDE四、判断题答案1.√2.√3.×4.×5.×6.×7.×8.√9.√10.×五、简答题答案1.数据挖掘流程:①数据收集→②预处理(清洗/集成/变换/归约)→③特征工程(选择/提取/变换)→④模型构建(选算法训练)→⑤评估(指标验证)→⑥部署(上线/迭代)。2.HadoopvsSpark:①计算模型:Hadoop(MapReduce,磁盘IO多);Spark(内存计算,IO少);②中间结果:Hadoop写磁盘,Spark存内存;③场景:Hadoop适合批处理,Spark适合迭代/流处理;④生态:Spark更丰富(SQL/MLlib等)。3.K-means步骤:①初始化k个中心→②样本分配到最近中心→③更新中心(均值)→④迭代至中心稳定,输出聚类结果。4.分类模型评估:①基础指标(准确率/召回率/精确率);②综合指标(F1值/ROC-AUC);③混淆矩阵(TP/TN/FP/FN);④交叉验证(避免过拟合)。六、讨论题答案1.数据倾斜处理:①拆分大key(如后缀拆分);②算法优化(MapReduce用Combiner,Spark用reduceByKey);③分区调整(手动设分区数);④中间压缩(减少传输);⑤倾斜算子(Spark的repartitionAndSortWithinParti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论