大数据分析师岗位招聘考试试卷及答案_第1页
大数据分析师岗位招聘考试试卷及答案_第2页
大数据分析师岗位招聘考试试卷及答案_第3页
大数据分析师岗位招聘考试试卷及答案_第4页
大数据分析师岗位招聘考试试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析师岗位招聘考试试卷及答案填空题(每题1分,共10分)1.Hadoop分布式文件系统的缩写是______。2.SQL中查询数据的核心关键字是______。3.MapReduce的核心阶段分为Map和______。4.常见的关系型数据库(举1种)是______。5.数据仓库设计三范式的核心是减少______。6.Spark的核心数据抽象是______。7.Python可视化库(除Matplotlib外)是______。8.分类问题的常见算法(除逻辑回归外)是______。9.缺失值填充的常用方法(除均值外)是______。10.YARN在Hadoop中的作用是______。单项选择题(每题2分,共20分)1.以下属于结构化数据的是?A.文本B.图像C.关系表D.音频2.Hadoop生态中负责资源调度的是?A.HDFSB.YARNC.MapReduceD.Spark3.SQL中`DISTINCT`的作用是?A.去重B.排序C.分组D.过滤4.Spark中属于转换操作的是?A.collect()B.count()C.map()D.first()5.数据仓库工具是?A.HiveB.HBaseC.KafkaD.Flume6.监督学习的核心特点是?A.无标签数据B.有标签数据C.无目标变量D.自动聚类7.异常值处理不包括?A.删除B.替换C.保留D.忽略8.实时计算框架是?A.StormB.MapReduceC.HiveD.Pig9.Python数据分析基础库是?A.NumPyB.TensorFlowC.PyTorchD.Keras10.无监督聚类算法是?A.K-MeansB.线性回归C.随机森林D.SVM多项选择题(每题2分,共20分)1.Hadoop核心组件包括?A.HDFSB.YARNC.MapReduceD.Spark2.数据预处理步骤包括?A.清洗B.集成C.转换D.归约3.结构化数据包括?A.CSV文件B.Excel表格C.网页文本D.关系表4.Spark的特点是?A.内存计算B.快速C.容错性D.仅离线5.机器学习类型包括?A.监督学习B.无监督学习C.强化学习D.深度学习6.可视化工具包括?A.TableauB.PowerBIC.EChartsD.Excel7.Hive支持的查询语言是?A.HQLB.SQLC.PythonD.Java8.实时处理场景包括?A.实时监控B.实时推荐C.离线分析D.日志分析9.数据仓库与数据库的区别是?A.面向主题B.集成数据C.非易失性D.实时更新10.NoSQL数据库包括?A.MongoDBB.HBaseC.CassandraD.MySQL判断题(每题2分,共20分)1.HDFS适合存储小文件。()2.SparkRDD是不可变的。()3.SQL`WHERE`子句用于分组。()4.数据仓库面向事务处理。()5.K-Means是监督学习。()6.Hive可直接操作HDFS数据。()7.Pandas用于数据分析。()8.Storm比MapReduce速度慢。()9.数据挖掘目的是提取隐藏模式。()10.YARN仅用于Hadoop生态。()简答题(每题5分,共20分)1.简述HDFS的主要特点。2.数据预处理的核心步骤有哪些?3.Spark与MapReduce的主要区别是什么?4.什么是数据仓库?它与数据库的核心差异?讨论题(每题5分,共10分)1.大数据项目中如何处理缺失值?结合实际场景说明。2.如何根据分析目标选择合适的可视化图表?举例说明。---答案填空题答案1.HDFS2.SELECT3.Reduce4.MySQL5.数据冗余6.RDD7.Seaborn8.决策树9.中位数填充10.资源管理与调度单项选择题答案1.C2.B3.A4.C5.A6.B7.D8.A9.A10.A多项选择题答案1.ABC2.ABCD3.ABD4.ABC5.ABC6.ABCD7.AB8.ABD9.ABC10.ABC判断题答案1.×2.√3.×4.×5.×6.√7.√8.×9.√10.×简答题答案解析1.HDFS特点:①高容错(多副本存储);②适合大文件(128M分块);③流式访问(批量处理);④廉价硬件适配;⑤跨平台兼容。2.预处理步骤:①清洗(缺失/异常/重复值);②集成(多数据源合并);③转换(归一化/编码);④归约(降维/抽样);⑤分割(训练/测试集)。3.区别:①计算模型:Spark内存计算,MapReduce分阶段磁盘IO;②速度:Spark快10-100倍;③场景:Spark支持离线/实时/机器学习,MapReduce仅离线;④API:Spark更丰富(Scala/Python)。4.数据仓库:面向主题、集成、非易失、随时间变化的分析数据集合。差异:①数据库面向事务(OLTP),数据仓库面向分析(OLAP);②数据库实时更新,数据仓库存历史汇总数据;③数据库三范式,数据仓库反范式(星型模型)。讨论题答案解析1.缺失值处理:①删除(缺失<5%,如用户画像少量特征缺失);②填充(数值用中位数,如年龄缺失;分类用众数,如城市缺失);③模型预测(用其他特征填,如浏览记录预测性别);④标记(新增“未知”标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论