版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020云南大数据行业秋招笔试押题3套卷附完整答案
一、单项选择题(每题2分,共20分)1.在HDFS中,默认一个数据块(Block)的大小是A.32MBB.64MBC.128MBD.256MB2.SparkCore默认的序列化方式是A.Java序列化B.Kryo序列化C.Avro序列化D.Protobuf序列化3.在Kafka0.10版本之后,消费者偏移量存储在A.ZooKeeperB.MySQLC.__consumer_offsetsTopicD.Redis4.下列算法中,最适合实时异常检测的是A.K-MeansB.IsolationForestC.AprioriD.FP-Growth5.Flink的Checkpoint机制基于哪种一致性协议A.Two-PhaseCommitB.Chandy-LamportC.PaxosD.Raft6.在Hive中,分桶表(BucketedTable)的主要作用是A.降低存储空间B.提高JOIN效率C.提高压缩比D.支持事务7.若某列式存储文件格式支持向量化读取,则该格式最可能是A.SequenceFileB.RCFileC.ParquetD.TextFile8.在YARN容量调度器中,队列资源抢占的默认超时时间为A.5sB.10sC.15sD.30s9.对高基数类别变量进行编码时,为降低内存占用应优先采用A.One-HotB.TargetEncodingC.HelmertD.Dummy10.在ClickHouse中,最适合做稀疏索引的引擎是A.MergeTreeB.SummingMergeTreeC.ReplacingMergeTreeD.Log二、填空题(每题2分,共20分)11.Hadoop3.x的NameNode联邦机制中,每个NameNode管理一部分________。12.SparkSQL的Catalyst优化器核心数据结构是________树。13.在Flink的时间语义中,________时间能够保证处理结果的确定性。14.KafkaProducer配置项________用于控制消息批量发送的延迟上限。15.HBase中,用于存储文件索引信息的数据结构是________。16.在数据倾斜场景下,Spark可通过________算子对Key进行加盐处理。17.Doris的MPP执行引擎采用________模型实现节点间并行。18.若Airflow任务实例状态为“up_for_retry”,则其下一次重试时间由________参数决定。19.在Elasticsearch中,________查询会对倒排索引进行缓存以提升性能。20.使用Scala编写SparkStreaming时,DStream的窗口长度必须是________长度的整数倍。三、判断题(每题2分,共20分)21.Spark的RDD一旦生成便不可修改,属于不可变数据集。22.Flink的Savepoint必须依赖Checkpoint才能生成。23.HDFS的ErasureCoding机制比三副本策略节省约50%存储空间。24.Kafka的Topic分区数只能增加,不能减少。25.HiveonTez的执行计划与HiveonMapReduce完全一致。26.在RedisCluster中,所有键必须通过CRC16算法映射到16384个槽。27.Presto的Coordinator节点可以直接与HDFSDataNode通信读取数据。28.ClickHouse的MaterializedView写入时不会阻塞主表插入。29.在TensorFlow2.x中,tf.function装饰的函数第一次执行时会生成静态图。30.使用Z-Score进行异常检测时,要求数据服从或近似服从正态分布。四、简答题(每题5分,共20分)31.简述Spark3.0AdaptiveQueryExecution(AQE)的三大核心优化点。32.说明KafkaISR列表收缩与扩张的触发条件及其对可用性的影响。33.写出Flink实现端到端Exactly-Once语义所需的两阶段提交步骤。34.列举HBaseRowKey设计的四项原则,并解释其中一项对扫描性能的影响。五、讨论题(每题5分,共20分)35.云南旅游流数据具有明显节假日波峰,讨论如何基于Flink构建一套低延迟的实时游客热力图系统,需涵盖数据源、状态存储、降级策略。36.某烟草企业每日新增5TB传感数据,讨论在Hadoop集群预算不变的情况下,采用ErasureCoding替代三副本的利弊及实施步骤。37.针对跨境电商平台,讨论如何使用ClickHouse构建高并发、高精准的实时漏斗分析模型,需说明物化视图与Bitmap联合方案。38.云南气象部门计划开放历史20年雷达数据,讨论基于Presto+Hive元数据的多租户安全查询架构,需涵盖脱敏、权限、资源隔离。答案与解析一、单项选择题1.C2.B3.C4.B5.B6.B7.C8.B9.B10.A二、填空题11.命名空间(Namespace)12.逻辑计划(LogicalPlan)13.事件(EventTime)14.linger.ms15.MetaIndex(或DataIndex)16.reduceByKey17.Volcano18.retry_delay19.ConstantScore20.batchinterval三、判断题21.T22.F23.T24.T25.F26.T27.F28.T29.T30.T四、简答题31.动态合并Shuffle分区、动态切换Join策略、动态优化数据倾斜;运行时根据统计信息把原1800分区合并为200,避免小文件;把SMJ转为BMJ减少网络IO;检测到倾斜后自动拆分重分区,提升任务并发度。32.当Follower副本超过replica.lag.time.max.ms未拉取消息即被移出ISR;当Follower追上LeaderLEO且延迟低于阈值则重新加入;收缩会降低可用性但避免读脏数据,扩张提升读可用性但增加ISR同步开销。33.预提交:Flink收到Checkpointbarrier后向外部系统写待提交数据并标记“预提交”;提交:JobManager通知所有算子执行正式提交;若预提交成功而提交失败,利用Checkpoint回滚至上一状态,确保每条记录只影响外部系统一次。34.长度原则、散列原则、业务+时间原则、唯一原则;如将时间戳放RowKey高位可形成顺序写,但易造成Region热点,通过哈希前缀反转可把热点分散到多Region,提升扫描并发度。五、讨论题35.数据源接入Kafka,按景区ID分区;Flink使用RocksDBStateBackend存储窗口状态,采用滑动窗口10s更新热力;使用RedisCluster存放聚合结果供GIS前端秒级拉取;高峰期开启采样降级,丢弃20%低优先级日志,保证99th延迟低于500ms。36.利:节省30%磁盘,支持RS-6-3策略,单节点故障恢复网络开销降低;弊:读写CPU升高15%,NameNode内存占用增加,需升级Hadoop3.x;实施:关闭旧目录三副本,新目录设置RS-6-3策略,滚动重启DataNode,监控EC重建队列长度,夜间低峰执行distcp迁移历史数据。37.明细表按(dt,event_type)分区,使用物化视图预聚合每日uidBitmap;漏斗步骤用bitmapAnd函数在毫秒级返回交集;通过Distributed表+ShardingKey(user_id)实现横向扩展;设置max_memory_usage=30G防止并发过大OOM;利用Rollup实现天到月的自动汇总,QPS可达2万。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业管理-餐饮公司综合管理制度
- 河北省秦皇岛市抚宁区台营学区重点达标名校2026届初三2月教学质量检测试题数学试题试卷含解析
- 广西贵港市覃塘区重点名校2025-2026学年初三下学期期末数学试题理试题分类汇编含解析
- 湖南省怀化市会同第一中学2026年初三下期末考试(数学试题理)试卷含解析
- 智研咨询发布:2026年中国文本转语音技术行业市场现状、发展概况、未来前景分析报告
- 安全教育培训制度流程
- 宁波公司绩效考核制度
- 保安公司财务收支审计制度
- 养护绩效考核制度
- 培训教育机构请假制度
- 2025年大学试题(财经商贸)-商品学历年参考题库含答案解析(5套)
- 学堂在线 雨课堂 学堂云 遥测原理 章节测试答案
- 交通船管理办法
- 学堂在线 雨课堂 学堂云 中国建筑史-史前至两宋辽金 章节测试答案
- 代理记账人员管理制度
- 公司管理层离职管理制度
- 船舶建造监理合同协议
- (高清版)DB33∕T 881-2012 浙江省地质灾害危险性评估规范
- 高中音乐鉴赏爵士乐说课
- 陕西单招数学试题及答案
- 2025新人教版七年级下册英语 Unit 2知识点梳理及语法讲义(答案版)
评论
0/150
提交评论