下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据挖掘工程师考试试卷及答案一、填空题(共10题,每题1分)1.Hadoop生态中,负责分布式存储的核心组件是______。2.Spark的核心数据抽象是______。3.K-Means算法属于______学习算法。4.数据预处理中,缺失值填充常用的方法有均值填充、中位数填充和______填充。5.Hive中用于定义表结构的语句是______。6.决策树算法中,衡量特征分裂质量的指标有信息增益、增益率和______。7.SparkSQL中,支持的分布式数据格式包括Parquet、ORC和______。8.数据挖掘中,“80/20规则”通常指______占比20%,______占比80%。9.分布式计算框架中,MapReduce的两个核心阶段是______和______。10.特征工程中,对类别型特征进行编码的常用方法有One-Hot编码和______编码。填空题答案1.HDFS2.RDD(弹性分布式数据集)3.无监督4.众数5.CREATETABLE6.基尼系数7.Avro8.有用数据;噪声/冗余数据9.Map;Reduce10.Label(标签)二、单项选择题(共10题,每题2分)1.以下哪个不是Hadoop生态组件?A.HDFSB.MapReduceC.SparkD.Hive2.K-Means算法中,初始聚类中心选择更合理的方法是?A.随机选择B.前k个点C.K-Means++D.所有点3.以下属于监督学习算法的是?A.K-MeansB.DBSCANC.逻辑回归D.PCA4.Hive中压缩比最高的文件格式是?A.TextFileB.SequenceFileC.ParquetD.CSV5.Spark中触发作业提交的操作是?A.mapB.filterC.reduceD.flatMap6.过拟合的解决方法不包括?A.增加训练数据B.正则化C.减少特征D.增加模型复杂度7.数据仓库的核心组件是?A.HBaseB.HiveC.CassandraD.MongoDB8.逻辑回归的输出结果是?A.分类标签B.概率值C.连续值D.聚类中心9.SparkStreaming不支持的实时数据源是?A.KafkaB.FlumeC.SocketD.HDFS10.评估分类模型准确性的指标是?A.RMSEB.MAEC.准确率D.R²单项选择题答案1.C2.C3.C4.C5.C6.D7.B8.B9.D10.C三、多项选择题(共10题,每题2分)1.属于Spark核心组件的有?A.SparkCoreB.SparkSQLC.SparkStreamingD.SparkMLlib2.数据预处理的主要步骤包括?A.数据清洗B.数据集成C.数据转换D.数据归约3.属于无监督学习算法的有?A.K-MeansB.DBSCANC.随机森林D.PCA4.Hadoop的优势包括?A.高容错性B.高扩展性C.低成本D.实时处理5.特征工程的常用方法包括?A.特征选择B.特征提取C.特征转换D.特征生成6.属于分布式数据库的有?A.HBaseB.CassandraC.MongoDBD.MySQL7.决策树的优点包括?A.可解释性强B.处理非线性关系好C.无需特征缩放D.对噪声敏感8.SparkRDD的特性包括?A.不可变B.分区C.容错D.弹性9.数据挖掘的常用任务包括?A.分类B.聚类C.回归D.关联规则挖掘10.属于模型评估指标的有?A.准确率B.召回率C.F1值D.混淆矩阵多项选择题答案1.ABCD2.ABCD3.ABD4.ABC5.ABCD6.ABC7.ABC8.ABCD9.ABCD10.ABCD四、判断题(共10题,每题2分)1.HDFS默认副本系数是3。()2.SparkRDD是不可变的。()3.逻辑回归输出连续值,属于回归算法。()4.K-Means对异常值不敏感。()5.Hive支持SQL查询。()6.决策树深度越大,泛化能力越强。()7.SparkStreaming是实时计算框架。()8.关联规则常用于购物篮分析。()9.HBase是面向列的分布式数据库。()10.随机森林只有一棵决策树。()判断题答案1.√2.√3.×4.×5.√6.×7.√8.√9.√10.×五、简答题(共4题,每题5分)1.简述HDFS的架构及核心组件。2.简述SparkRDD的弹性特性。3.简述数据预处理中缺失值处理的常用方法及适用场景。4.简述分类模型评估的常用指标(至少3个)。简答题答案1.HDFS采用主从架构,核心组件为NameNode和DataNode。NameNode管理元数据(文件路径、块映射、权限等);DataNode存储实际数据块,定期向NameNode汇报。SecondaryNameNode辅助合并编辑日志与镜像文件,不替代NameNode。HDFS通过块存储(默认64MB)实现大文件分布式存储,副本机制保障容错。2.SparkRDD的弹性体现在:①弹性存储:数据可存内存/磁盘,内存不足自动溢出;②弹性分区:分区数动态调整,优化并行度;③弹性容错:通过lineage记录转换关系,分区丢失时可重算,无需全备份。3.缺失值处理方法:①删除法(缺失比例<5%);②填充法(均值/中位数→数值型,众数→类别型,插值→时间序列);③模型填充(KNN/决策树→缺失比例5%-20%)。需结合数据类型、缺失比例选择。4.常用指标:①准确率(正确预测数/总样本,平衡数据);②召回率(正确正样本/实际正样本,关注漏检);③精确率(正确正样本/预测正样本,关注误检);④F1值(平衡精确率与召回率)。六、讨论题(共2题,每题5分)1.讨论K-Means与DBSCAN算法的适用场景及优缺点。2.讨论Spark与MapReduce的主要区别及Spark的优势。讨论题答案1.K-Means是距离-based聚类,需指定k,适用于簇大小均匀、球形数据,优点是效率高、易实现;缺点是对k敏感、异常值敏感、无法处理非球形簇。DBSCAN是密度-based,无需k,适用于含噪声、不规则簇(环形),优点是识别异常值、对形状不敏感;缺点是密度参数敏感、高维性能下降。实际中,规则簇用K-Means,不规则用DBSCAN,需调参适配数据。2.Spark与MapReduce的区别:MapReduce是两阶段批处理,中间结果写磁盘;S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河面油污清理施工方案(3篇)
- 就业指导课程思政
- 浙江警官学院就业方向
- 陶瓷原料准备工安全规程知识考核试卷含答案
- 焊剂烧结熔炼工诚信水平考核试卷含答案
- 酒精原料粉碎工安全教育知识考核试卷含答案
- 精制制盐工复测测试考核试卷含答案
- 通信终端设备制造工安全知识宣贯测试考核试卷含答案
- 宠物健康护理员安全宣贯知识考核试卷含答案
- 瓦楞纸箱成型工冲突解决模拟考核试卷含答案
- 2026文化和旅游部恭王府博物馆招聘应届毕业生4人考试备考试题及答案解析
- 2026年新国考公共基础知识专项试题及答案
- 2024版公路工程工艺工序标准化手册-路面分册
- 冰淇淋购买合同书模板
- 煤矿重大风险停产撤人制度
- 医疗机构患者隐私保护培训课件
- 腰痹的健康宣教
- 医院药学高质量发展规划(2026-2030 年)及 2026 年度实施要点
- 中电联电力交易员考试题库
- 脑部小血管病课件
- “时光雕琢帧颜恒美”-百雀羚绿宝石帧颜霜营销策划案
评论
0/150
提交评论