版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025云南大数据开发岗笔试高频考点题附完整答案
一、单项选择题(每题2分,共20分)1.在HDFS中,默认的Block大小为A.32MBB.64MBC.128MBD.256MB2.SparkCore中负责将逻辑执行计划转换为物理执行计划的组件是A.DAGSchedulerB.TaskSchedulerC.BlockManagerD.ShuffleManager3.下列哪一项不是Kafka的ConsumerGroup特性A.组内负载均衡B.组间广播C.自动重平衡D.分区有序性保证4.Flink的Checkpoint机制使用的一致性快照算法是A.Two-PhaseCommitB.Chandy-LamportC.PaxosD.Raft5.在Hive中,对分区表进行静态分区插入时必须指定的关键字是A.DISTRIBUTEBYB.CLUSTERBYC.PARTITIOND.SORTBY6.HBase中用于存储列族数据的底层文件格式是A.ORCB.ParquetC.HFileD.SequenceFile7.使用Scala编写Spark程序时,下列哪个操作是窄依赖A.groupByKeyB.reduceByKeyC.distinctD.repartition8.在YARN的容量调度器中,支持动态占用空闲资源的特性称为A.PreemptionB.ElasticityC.DominantResourceFairnessD.NodeLocality9.关于数据倾斜,下列优化手段错误的是A.两阶段聚合B.加盐后二次聚合C.增大并行度D.强制使用MapJoin10.在ClickHouse中,最适合做高并发点查的表引擎是A.MergeTreeB.SummingMergeTreeC.MemoryD.Log二、填空题(每题2分,共20分)11.Hadoop3.x的YARNResourceManager高可用通过__________实现主备切换。12.Spark中,RDD的__________函数用来触发行动算子并持久化结果。13.Kafka的__________参数控制单个分区最大消息大小,默认1MB。14.Flink的StateBackend中,__________模式将状态存储在内存且会异步快照到文件系统。15.Hive默认的列分隔符为__________字符。16.HBase的RowKey设计应遵循__________原则,以避免热点。17.在SparkSQL里,__________提示可强制广播小表实现MapJoin。18.Linux下查看磁盘IO性能的常用工具是__________。19.使用Flume采集日志时,__________类型拦截器可对事件体进行正则提取。20.在Airflow中,任务实例的状态__________表示调度已就绪但尚未运行。三、判断题(每题2分,共20分,正确打“√”,错误打“×”)21.Spark的累加器支持在Transformation中多次更新并保证精确一次性。22.HDFS的NameNode元数据持久化文件为fsimage和edits。23.Kafka的Leader副本一定也是PreferredLeader。24.Flink的窗口计算中,SessionWindow必须有固定大小。25.ORC格式支持谓词下推,因此在Hive中查询速度通常优于TextFile。26.HBase中列族数量越多,随机读性能越好。27.SparkStandalone模式下,Driver可以运行在Worker节点内。28.ClickHouse的MaterializedView写入时会阻塞主表插入。29.YARN的FairScheduler支持队列间资源抢占。30.使用Azkaban调度Spark作业时,必须将Spark打包成zip上传。四、简答题(每题5分,共20分)31.简述Spark的RDD缓存机制及其使用场景。32.说明Kafka如何实现消息的顺序性以及限制条件。33.列举Flink与SparkStreaming在容错机制上的三点差异。34.描述HBase写入流程中,客户端如何定位目标RegionServer。五、讨论题(每题5分,共20分)35.结合云南旅游客流实时统计场景,讨论选择Flink还是SparkStreaming,并给出理由。36.针对省级医保数据仓库建设,讨论Hive与ClickHouse在多维分析中的优劣权衡。37.当Kafka集群出现频繁ISR收缩时,请从硬件、参数、业务三方面给出系统性调优思路。38.云南气象部门每日新增20TB雷达数据,讨论基于HDFS+Spark的存储与计算优化方案。答案与解析一、单项选择题1.C2.A3.B4.B5.C6.C7.B8.B9.D10.C二、填空题11.ZooKeeper12.saveAsTextFile(或任意行动算子,如count)13.max.partition.fetch.bytes14.RocksDBStateBackend15.\00116.散列+随机前缀/反转时间戳17.BROADCAST18.iostat19.Regex_extractor20.up_for_retry三、判断题21.×22.√23.×24.×25.√26.×27.√28.×29.√30.×四、简答题(每题约200字)31.RDD缓存通过persist或cache将分区数据保留在内存、磁盘或堆外内存,避免重复计算。适用于迭代算法、交互式查询、多次使用同一中间结果的场景。缓存级别包括MEMORY_ONLY、MEMORY_AND_DISK等,选择需权衡内存容量与容错成本。若内存不足,Spark按LRU淘汰旧分区,可配合checkpoint写入可靠存储,实现容错与加速双重目标。32.Kafka仅在分区内保证顺序,即同一生产者、同一分区、单线程发送时消息按写入顺序存储。实现机制是分区日志追加写,消费者按offset顺序拉取。限制包括:1.多分区全局无序;2.多线程并发写入同一分区可能乱序;3.启用幂等生产者后,重试仍保序,但跨分区的业务键需自行排序。33.1.快照粒度:Flink采用分布式异步屏障快照,毫秒级;SparkStreaming基于RDD血统,秒级。2.一致性:Flink支持Exactly-Once端到端;SparkStreaming需额外使用WAL+幂等输出才可达Exactly-Once。3.状态大小:Flink的增量检查点可处理TB级状态;SparkStreaming状态保存在Driver内存,易受限。34.客户端先访问ZooKeeper获取hbase:meta表位置,根据RowKey在meta表找到对应Region的RegionServer地址,然后将Put请求直接发送到该RegionServer。若Region发生分裂或迁移,客户端会再次查询meta表更新缓存,实现动态路由。五、讨论题(每题约200字)35.云南旅游客流需秒级延迟且存在高峰突增,Flink原生事件时间、低延迟、背压优秀,更适合;SparkStreaming微批模式延迟秒级,且需调优反压参数。Flink的CEP可实时识别拥堵,窗口灵活;SparkStreaming需借助StructuredStreaming,但成熟度略逊。综上选Flink。36.Hive基于MR/Tez,批处理稳定,生态丰富,支持复杂ETL,但延迟高;ClickHouse列式存储、向量化执行,查询毫秒级,适合高并发,但join弱、更新成本高。医保数据量大、查询维度多,可分层:ODS用Hive,明细宽表入ClickHouse供实时OLAP,兼顾成本与性能。37.硬件:升级万兆网卡、SSD,降低IOwait;参数:调大replica.lag.time.max.ms=60s,num.replica.fetchers=4,避免频繁追赶;业务:按峰值3倍评估分区数,减少单分区流量,启用压缩降低网络;监控:自定义指标,ISR波动超阈值即告
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院保卫处工作制度
- 医院妇委会工作制度
- 医院陪护工工作制度
- 单位反电诈工作制度
- 博物馆工会工作制度
- 卫生所人员工作制度
- 卫生院布病工作制度
- 县向市汇报工作制度
- 双告知认领工作制度
- 胃部健康:护理误区解读
- JJF 1049-2024温度传感器动态响应校准规范
- 起重机械安装维修程序文件及表格-符合TSG 07-2019特种设备质量保证管理体系
- 年产330万吨生铁(其中炼钢生铁78%,铸造生铁22%)的高炉炼铁车间工艺设计
- 110kV-GIS安装专项方案内容
- AQ-T 2081-2023 金属非金属矿山在用带式输送机安全检测检验规范
- 犹太复国主义
- 销售培训:利用故事营造销售情境
- 绿色建材评价 室内木门
- 漫画人物表情画法
- 贵州省情教程 第一章 特殊的地理环境
- 给水管道施工专项方案
评论
0/150
提交评论