大数据分析技师试卷及答案_第1页
大数据分析技师试卷及答案_第2页
大数据分析技师试卷及答案_第3页
大数据分析技师试卷及答案_第4页
大数据分析技师试卷及答案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析技师试卷及答案填空题(每题1分,共10分)1.Hadoop生态中分布式文件系统的核心是______。2.关系型数据库存储结构化数据的基本单元是______。3.Spark的核心数据抽象是______。4.常用聚类算法包括______(写1种即可)。5.实时计算框架常用的是______(写1种即可)。6.SQL中聚合函数SUM属于______函数。7.非结构化数据常见格式有______(写1种即可)。8.数据仓库的核心建模方法是______。9.数值型数据标准化常用方法是______。10.展示数据分布的可视化图表是______。答案:1.HDFS;2.表;3.RDD;4.K-means;5.Flink;6.聚合;7.文本;8.维度建模;9.Z-score标准化;10.直方图单项选择题(每题2分,共20分)1.以下属于NoSQL数据库的是?A.MySQLB.OracleC.MongoDBD.SQLServer2.MapReduce中Map阶段的输出是?A.键值对B.排序后键值对C.最终结果D.原始数据3.Spark中属于转换操作的是?A.count()B.collect()C.map()D.first()4.以下哪种是分类算法?A.线性回归B.K-meansC.逻辑回归D.聚类5.数据仓库与数据库的主要区别是?A.存储结构化数据B.支持实时查询C.面向分析决策D.支持事务6.Flink不具备的特性是?A.高吞吐量B.低延迟C.仅批处理D.事件时间处理7.数据预处理的步骤是?A.模型训练B.特征选择C.预测D.评估8.SQL中筛选数据的关键字是?A.GROUPBYB.WHEREC.ORDERBYD.JOIN9.数据湖的特点是?A.仅存结构化数据B.层级存储C.存储原始数据D.仅支持分析10.大数据常用可视化工具是?A.ExcelB.TableauC.WordD.PowerPoint答案:1-5:CACCC;6-10:CBBCB多项选择题(每题2分,共20分)1.Hadoop核心组件包括?A.HDFSB.MapReduceC.SparkD.YARN2.NoSQL数据库类型有?A.文档型B.键值型C.列族型D.关系型3.Spark部署模式有?A.LocalB.StandaloneC.YARND.Mesos4.机器学习任务类型包括?A.分类B.回归C.聚类D.强化学习5.数据预处理步骤有?A.数据清洗B.特征编码C.特征缩放D.模型评估6.实时计算框架有?A.StormB.FlinkC.SparkStreamingD.MapReduce7.常用可视化图表有?A.柱状图B.折线图C.饼图D.热力图8.Hive的作用是?A.SQL查询接口B.管理HDFS数据C.实时计算D.数据仓库工具9.特征工程内容包括?A.特征提取B.特征选择C.特征变换D.模型训练10.大数据应用场景有?A.金融风控B.推荐系统C.舆情分析D.智能客服答案:1.ABD;2.ABC;3.ABCD;4.ABCD;5.ABC;6.ABC;7.ABCD;8.ABD;9.ABC;10.ABCD判断题(每题2分,共20分)1.HDFS适合存储小文件。()2.SparkRDD是不可变的。()3.逻辑回归是分类算法。()4.数据仓库面向事务。()5.MongoDB是文档型NoSQL。()6.Flink支持批流一体。()7.SQLJOIN用于合并表。()8.聚类算法需要标注数据。()9.数据湖存储清洗后的数据。()10.Tableau是可视化工具。()答案:1.错;2.对;3.对;4.错;5.对;6.对;7.对;8.错;9.错;10.对简答题(每题5分,共20分)1.简述HDFS核心架构及作用。答案:HDFS采用主从架构,包含NameNode(主节点)和DataNode(从节点)。NameNode管理元数据(文件位置、权限等),不存实际数据;DataNode存储数据块(默认128MB),定期向NameNode汇报状态。HDFS适合存储大规模、高容错的非结构化数据,支持流式访问,是大数据存储的核心工具。2.什么是特征工程?简述主要步骤。答案:特征工程是将原始数据转化为模型可用特征的过程,影响模型效果。步骤包括:①数据清洗(处理缺失/异常值);②特征提取(从文本/图像中提取特征);③特征编码(类别型转数值型,如独热编码);④特征缩放(如Z-score,避免数值差异);⑤特征选择(筛选重要特征,减少维度)。3.简述SparkStreaming与Flink的区别。答案:SparkStreaming采用微批处理(秒级延迟),以批次为单位;Flink是真正流处理(毫秒级延迟),以事件为单位。Flink支持事件时间语义(处理乱序数据),SparkStreaming默认处理时间。Flink原生支持状态管理,适合有状态场景;SparkStreaming需Checkpoint实现状态管理。4.数据仓库与数据湖的区别?答案:①存储对象:数仓存清洗后的结构化数据;数湖存原始的结构/半结构/非结构化数据。②用途:数仓面向分析决策;数湖面向数据探索、机器学习。③架构:数仓维度建模(层级存储);数湖扁平化存储(无固定schema)。④性能:数仓查询快;数湖查询依赖后续工具。讨论题(每题5分,共10分)1.大数据分析在金融风控中的应用及挑战?答案:应用包括信用评估(多维度预测违约)、反欺诈(识别异常交易)、市场风险分析。挑战:①数据隐私(金融数据敏感,需合规);②数据质量(多源数据不一致);③实时性(欺诈检测需毫秒响应);④模型可解释性(监管要求决策透明)。需平衡隐私与利用,采用可解释AI,结合Flink提升实时性。2.如何选择企业大数据处理框架?答案:需考虑:①数据类型(结构化选Hive,非结构化选HDFS);②处理需求(实时选Flink,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论