版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年继续教育公需科目大数据技术及应用题库及答案一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.下列关于HDFS的说法正确的是()A.适合存储大量小文件B.NameNode负责存储实际数据块C.默认副本数为2D.数据块默认大小为128MB答案:D2.在MapReduce编程模型中,Shuffle阶段的核心作用是()A.将数据写入HDFSB.对Map输出结果进行分区、排序、合并C.启动Reduce任务D.执行用户自定义的map函数答案:B3.下列哪一项不是NoSQL数据库的共同特征()A.模式灵活B.支持ACID事务C.横向扩展能力强D.支持分布式部署答案:B4.Spark中RDD的容错机制主要依赖()A.检查点(Checkpoint)B.血统关系(Lineage)C.副本机制D.WAL日志答案:B5.在Kafka中,负责存储消费者偏移量的组件是()A.ZooKeeperB.BrokerC.ProducerD.Consumer答案:A6.下列算法中,最适合在SparkMLlib中实现文本分类的是()A.K-MeansB.FP-GrowthC.NaiveBayesD.ALS答案:C7.关于Hive的描述,错误的是()A.支持SQL-like查询语言B.默认执行引擎为MapReduceC.支持行级更新D.元数据存储在MySQL或Derby答案:C8.在Flink中,Exactly-Once语义的核心实现机制是()A.异步快照(AsynchronousBarrierSnapshotting)B.两阶段提交C.幂等写入D.事件时间窗口答案:A9.下列关于数据湖的说法正确的是()A.仅支持结构化数据B.schema-on-write模式C.存储原始数据副本D.不支持实时分析答案:C10.在HBase中,RowKey设计的最佳实践是()A.使用递增数字B.长度越长越好C.避免热点,采用散列或反转D.包含尽可能多的列信息答案:C11.下列哪项不是大数据5V特征()A.VolumeB.VelocityC.ValidityD.Variety答案:C12.在SparkSQL中,将DataFrame注册为临时视图的函数是()A.cache()B.persist()C.createOrReplaceTempView()D.registerTable()答案:C13.下列关于数据倾斜的说法正确的是()A.只会发生在Reduce阶段B.可通过增加分区彻底解决C.表现为某些Task执行时间远长于其他D.对性能无影响答案:C14.在Elasticsearch中,默认的分片数是()A.1B.3C.5D.7答案:C15.下列哪项不是Kafka的交付语义()A.At-Most-OnceB.At-Least-OnceC.Exactly-OnceD.At-Any-Once答案:D16.在SparkStreaming中,DStream的最小时间间隔由什么决定()A.batchIntervalB.slideIntervalC.windowLengthD.spark.default.parallelism答案:A17.下列关于数据仓库分层架构的描述,正确的是()A.ODS层用于数据挖掘B.DWD层保存原始日志C.DWS层面向主题汇总D.ADS层用于ETL开发答案:C18.在Hadoop生态中,负责资源调度的组件是()A.HDFSB.YARNC.MapReduceD.Hive答案:B19.下列哪项不是Flink的时间语义()A.处理时间B.事件时间C.注入时间D.系统时间答案:D20.在数据质量管理中,用于衡量“同一实体在不同系统中是否一致”的指标是()A.完整性B.一致性C.唯一性D.准确性答案:B21.下列关于数据脱敏的说法,错误的是()A.加密属于脱敏技术B.掩码会改变数据长度C.哈希不可逆D.脱敏后数据可直接用于生产答案:D22.在Spark中,行动(Action)操作的作用是()A.定义RDD依赖B.触发作业执行C.转换数据格式D.缓存RDD答案:B23.下列哪项不是常见的数据分区策略()A.哈希分区B.范围分区C.列表分区D.随机分区答案:D24.在HBase中,用于实现多版本并发控制的机制是()A.WALB.TimestampC.BloomFilterD.MemStore答案:B25.下列关于KafkaPartition的描述,正确的是()A.一个Partition只能被一个Consumer消费B.Partition数量一旦创建不可修改C.Partition内消息有序D.Partition副本数必须为奇数答案:C26.在数据治理体系中,负责制定数据标准的角色是()A.数据OwnerB.数据StewardC.数据CustodianD.数据User答案:B27.下列关于ClickHouse的描述,错误的是()A.列式存储B.支持高并发更新C.向量化执行D.适合OLAP场景答案:B28.在Spark中,使用广播变量的主要目的是()A.减少网络IOB.增加并行度C.提高容错性D.实现共享可变状态答案:A29.下列哪项不是数据血缘的用途()A.影响分析B.故障溯源C.权限控制D.合规审计答案:C30.在数据安全等级保护2.0中,大数据系统最低应满足几级要求()A.一级B.二级C.三级D.四级答案:C二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)31.下列哪些属于Hadoop生态中的数据存储格式()A.ParquetB.ORCC.AvroD.JSON答案:ABC32.以下哪些操作会导致Spark重新计算RDD()A.count()B.collect()C.map()D.reduce()答案:ABD33.关于Flink的Checkpoint,下列说法正确的有()A.可配置超时时间B.支持Exactly-OnceC.默认关闭D.可设置最大并发数答案:ABCD34.以下哪些属于数据治理的关键域()A.元数据管理B.数据标准C.数据生命周期D.网络拓扑答案:ABC35.下列哪些属于常见的数据倾斜解决方案()A.两阶段聚合B.随机前缀C.增加Reduce并行度D.使用Combiner答案:ABCD36.以下哪些属于Kafka的核心配置参数()A.acksB.batch.sizeC.linger.msD.erval.ms答案:ABC37.下列哪些属于数据质量自动稽核的常用规则()A.唯一性校验B.参照完整性C.波动阈值D.主键非空答案:ABCD38.以下哪些属于SparkSQL的外部数据源()A.HiveB.JDBCC.ElasticsearchD.HBase答案:ABCD39.下列哪些属于数据湖存储引擎()A.HDFSB.OSSC.S3D.DeltaLake答案:ABC40.以下哪些属于数据安全脱敏技术()A.掩码B.哈希C.加密D.令牌化答案:ABCD三、填空题(每空1分,共20分)41.HDFS默认块大小为________MB,副本因子为________。答案:128,342.Spark的任务调度器分为________调度和________调度两级。答案:DAG,Task43.Kafka的消息存储格式采用________文件结构,索引文件后缀为________。答案:分段日志,.index44.Flink的窗口分为________窗口、________窗口和会话窗口三类。答案:滚动,滑动45.Hive的元数据默认存储在________数据库,表类型分为________表和外部表。答案:Derby,内部46.数据质量维度包括完整性、一致性、________、________和及时性。答案:准确性,唯一性47.ClickHouse的压缩算法默认使用________,排序字段通过________子句指定。答案:LZ4,ORDERBY48.Elasticsearch集群中,默认主分片数为________,副本分片数为________。答案:5,149.数据血缘的三种粒度分别为________级、表级和________级。答案:库,字段50.在Spark中,累加器(Accumulator)支持________操作,不支持________操作。答案:聚合,读取四、简答题(共30分)51.(封闭型,6分)简述MapReduce中Combiner的作用及使用条件。答案:Combiner是本地化的Reduce,用于在Map端先做一次合并,减少网络IO;使用条件:函数必须满足交换律和结合律,如求和、求最大值。52.(封闭型,6分)列举SparkSQL实现谓词下推的三种场景。答案:Parquet格式支持列统计信息,可跳过整块;ORC的BloomFilter可跳过行组;JDBC数据源将过滤条件转为SQL下发到关系库。53.(开放型,8分)某电商公司每日新增订单表ods_orders(50GB),需按用户维度汇总金额至dws_user_amount,但出现数据倾斜,部分Task耗时10倍。请给出完整调优方案。答案:1.两阶段聚合:先对user_id加随机前缀做局部聚合,再去前缀全局聚合;2.调整并行度:setspark.sql.shuffle.partitions=800;3.使用Salting技术:将热点key拆分为N份,后缀随机数;4.开启AdaptiveQueryExecution,动态优化倾斜Join;5.将热点用户列表广播,走BroadcastHashJoin;6.结果表采用Z-Order排序,合并小文件,减少下游扫描。54.(封闭型,5分)写出Flink实现Exactly-Once语义的三个核心步骤。答案:1.启用Checkpoint,设置barrier间隔;2.Sink支持两阶段提交,预提交数据;3.Checkpoint完成时正式提交,失败时回滚。55.(开放型,5分)说明数据湖与数据仓库在Schema处理、成本、受众三方面的差异。答案:Schema:湖为schema-on-read,仓为schema-on-write;成本:湖使用对象存储,单位GB成本低于仓的MPP数据库;受众:湖面向数据科学家探索原始数据,仓面向业务人员固定报表。五、应用题(共50分)56.(计算类,15分)某日志文件1TB,单行平均1KB,存储于HDFS(块大小128MB,副本3)。请计算:(1)理论存储空间占用;(2)NameNode内存占用(假设每条元数据150B);(3)若采用Snappy压缩比0.5,实际存储空间。答案:(1)1TB×3=3TB;(2)1TB/1KB=1×10^9块,150B×1×10^9=150GB;(3)1TB×0.5×3=1.5TB。57.(分析类,15分)给定用户行为表user_action(user_id,item_id,action,ts),需统计最近7天每日UV、PV,且延迟不超过5分钟。请给出基于Flink的完整代码框架(Java/Scala均可),含窗口、水位线、触发器设置。答案:```scalaenv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)valstream=env.addSource(newFlinkKafkaConsumer[String]("action",schema,props)).assignAscendingTimestamps(_.ts).keyBy(_.action).window(TumblingEventTimeWindows.of(Time.days(1))).allowedLateness(Time.minutes(5)).aggregate(newUvPvAggFunc,newWindowResultFunc).addSink(newElasticsearchSink)```58.(综合类,20分)某市政府构建城市大脑,需整合交通、气象、公安、社保四大委办局数据,每日增量5TB,保留15年。要求:1.支持实时车流预警;2.支持历史碰撞分析;3.满足等保三级;4.年度预算不超过2000万元。请给出总体架构图、技术选型、成本估算、安全方案。答案:架构:采集层:Flume+Kafka,5TB/日,保留3天;实时层:Flink集群128TaskManager,每秒30万事件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市环境卫生管理规范与操作指南
- 团结友爱共度成长时光-小学主题班会课件
- 安全警钟长鸣筑牢安全防线小学中年级主题班会课件
- 对于2026年办事处调整的催办函8篇
- 2026年主任医师考试试题及答案
- 2026年涪陵区大渡口区党校系统人员招聘笔试备考试题及答案详解
- 2026年甘肃省白银市特岗教师招聘103人考试参考试题及答案详解
- 网络数据安全管理与隐秘保护手册
- 2026浙江杭州淳安县九九职业技能培训学校招聘7人考试参考题库及答案详解
- 2026新疆双河国投运营集团有限公司招聘(1人)考试备考试题及答案详解
- 2026河北廊坊市广阳区人民法院公开招聘司法辅助人员30名考试参考题库及答案详解
- 南方区域电力现货市场出清原理宣贯培训
- 电器公司企业介绍
- 2025中国旅游集团战略发展部副总经理公开招聘1人笔试历年参考题库附带答案详解
- 房屋建筑结构工程质量纠正与预防措施他
- 2026年国开电大农业经济基础形考强化训练附答案详解【完整版】
- 格柏操作流程
- 2025~2026学年浙江杭州市拱墅区八年级上学期期末道德与法治、历史、地理试卷-初中地理
- 车辆保密工作制度
- 2025年往年山师综评笔试题及答案
- 黑色素瘤2025年CSCO指南
评论
0/150
提交评论