2026云南大数据行业入职笔试必考真题集附答案_第1页
2026云南大数据行业入职笔试必考真题集附答案_第2页
2026云南大数据行业入职笔试必考真题集附答案_第3页
2026云南大数据行业入职笔试必考真题集附答案_第4页
2026云南大数据行业入职笔试必考真题集附答案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026云南大数据行业入职笔试必考真题集附答案

一、单项选择题(每题2分,共20分)1.在Hadoop生态中,负责资源管理与任务调度的核心组件是A.Hive B.YARN C.HBase D.Flume2.下列哪项最能描述Kafka的“logcompaction”机制A.按key保留最新offset B.按时间窗口删除旧消息 C.按文件大小滚动 D.按消费组过滤3.在SparkRDD转换操作中,不会触发Shuffle的是A.groupByKey B.reduceByKey C.map D.distinct4.使用Flink实现Exactly-Once语义时,关键依赖的分布式一致性协议是A.Paxos B.Two-PhaseCommit C.Checkpoint D.Gossip5.在数据仓库分层模型中,DWD层的主要职责是A.原始数据落地 B.维度建模 C.明细事实清洗 D.指标汇总6.对高基数类别变量进行编码时,为降低内存并保留区分度,优先选择A.One-Hot B.TargetEncoding C.LabelEncoding D.HashingTrick7.在HBase中,用于实现Region快速分裂与负载均衡的底层数据结构是A.LSM-Tree B.B+Tree C.SkipList D.HashTable8.当Elasticsearch集群出现“脑裂”时,最先应调整的参数是A.discovery.zen.minimum_master_nodes B.index.number_of_replicas C.thread_pool.search.size D.bootstrap.memory_lock9.在AWSS3数据湖方案中,实现元数据集中管理与权限细粒度控制的服务是A.Athena B.Glue C.EMR D.Kinesis10.对TB级日志进行实时异常检测,兼顾低延迟与可解释性,首选算法是A.IsolationForest B.LSTMAutoEncoder C.K-Means D.DBSCAN二、填空题(每题2分,共20分)11.Hadoop3.x默认块大小为________MB。12.SparkSQL的默认Shuffle分区数是________。13.Flink中实现窗口聚合时,当事件时间乱序到达,需设置________来容忍迟到数据。14.在Hive里,开启向量化查询的执行引擎参数为________=true。15.使用Scala声明一个不可变Map的关键字是________。16.Elasticsearch7.x以后,一个索引默认被拆分为________个主分片。17.在Linux中,查看GPU显存占用的命令是________。18.数据血缘追踪的国际标准协议是________。19.根据GDPR,数据主体享有被遗忘权,对应条款编号为________。20.在Pythonpandas中,将category类型转回object类型的方法是________。三、判断题(每题2分,共20分)21.HDFS的NameNodeHA机制中,JournalNode负责存储编辑日志。22.Spark的广播变量只能在Driver端修改。23.Kafka的consumergrouprebalance触发条件之一是分区数扩大。24.在ClickHouse中,MergeTree表引擎支持事务回滚。25.使用Airflow时,池(pool)用于限制全局任务并发而非单DAG并发。26.L1正则化比L2更容易产生稀疏解。27.在HBase中,列族数量越多,随机读性能越高。28.DeltaLake的timetravel功能依赖版本日志,而非物理快照。29.数据湖与数据仓库的本质区别是是否支持Schema-On-Read。30.在Prometheus拉取模型中,目标服务必须主动推送指标。四、简答题(每题5分,共20分)31.简述MapReduce中“数据本地性”优化的三种级别及其触发条件。32.说明Flink的Checkpoint与Savepoint在作业恢复场景下的差异。33.列举三种降低SparkSQL小文件问题的常用策略,并给出原理。34.概述数据湖仓一体(LakeHouse)架构的四大核心特征。五、讨论题(每题5分,共20分)35.云南“数字烟草”项目需整合近二十年跨地市烟叶收购数据,请设计一套基于开源组件的主数据治理方案,需涵盖唯一标识、质量规则、血缘追踪与权限控制,并论证技术选型理由。36.某旅游平台欲在滇西热点线路实现实时人流预测,数据源包括票务、基站、车载GPS与天气,请讨论如何构建端到端的Lambda架构,并评估其潜在延迟与一致性瓶颈。37.面对跨境数据流动合规要求,云南跨境电商如何在AWS与本地IDC混合云环境下实现敏感数据脱敏与加密传输?请给出密钥生命周期管理与审计要点。38.假设省政府开放交通卡口视频流,鼓励企业开发拥堵预警模型,但原始视频含车牌等隐私信息,请讨论在模型训练阶段采用何种联邦学习框架,并评估通信开销与精度损失。答案与解析一、单项选择题1.B 2.A 3.C 4.C 5.C 6.D 7.A 8.A 9.B 10.A二、填空题11.128 12.200 13.allowedLateness 14.hive.vectorized.execution 15.Map 16.1 17.nvidia-smi 18.OpenLineage 19.Article17 20.astype('object')三、判断题21.√ 22.√ 23.√ 24.× 25.√ 26.√ 27.× 28.√ 29.√ 30.×四、简答题31.数据本地性分node-local、rack-local、off-switch三级。node-local指任务与数据块位于同一节点,优先调度;rack-local为同一机架,需经交换机;off-switch需跨机架,带宽最低。触发条件由YARN的延迟调度机制控制,当等待超时仍未满足高级本地性则降级。32.Checkpoint由Flink定时触发,状态存储在分布式存储,作业失败自动恢复;Savepoint由用户手动触发,可用于版本升级或迁移,保留算子UID,支持修改拓扑后恢复。Checkpoint格式与作业版本强绑定,Savepoint则提供向后兼容。33.策略一:自适应Shuffle分区,通过spark.sql.adaptive.enabled动态合并小分区;策略二:写入前repartition或coalesce,减少文件数;策略三:启用ORC/Parquet的bloomfilter与索引,合并小文件同时保持查询性能。原理在于减少写任务并发与后续合并开销。34.一、统一存储层采用开放格式如Parquet+Delta;二、事务支持通过MVCC实现ACID;三、Schema演进与强制,支持读写分离;四、计算引擎多样,Spark、Presto、Flink均可直接访问,避免数据搬迁。五、讨论题35.采用MySQL+Debezium捕获变更,Kafka传输,使用ApacheAtlas做血缘,HiveMetastore统一元数据,主数据通过UUID+业务编码双键,质量规则用GreatExpectations,权限由Ranger列级控制,选型理由:开源成熟、社区活跃、云南本地团队可维护。36.批层用Spark离线计算T+1指标,速度层用FlinkCEP处理Kafka流,输出到Redis供API查询;延迟瓶颈在GPS上传间隔与基站信令清洗,一致性瓶颈在双流join窗口对齐,可通过Flink的watermark与idletimeout缓解。37

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论