2022年云南大数据岗位笔试低分避坑指南配真题答案

上传人：落*** IP属地：北京上传时间：2026-04-15 格式：DOC 页数：7 大小：25.56KB 积分：7.19 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2022年云南大数据岗位笔试低分避坑指南配真题答案

一、单项选择题（每题2分，共20分）1.在HDFS中，默认一个数据块（Block）的大小为A.32MBB.64MBC.128MBD.256MB2.SparkCore中负责将RDD持久化到内存的函数是A.cache()B.persist()C.storage()D.memory()3.下列哪项不是Kafka的核心组件A.ProducerB.ConsumerC.ZooKeeperD.NameNode4.在Flink的DataStreamAPI中，窗口分配器（WindowAssigner）的作用是A.触发计算B.划分数据切片C.定义窗口生命周期D.清理状态5.Hive中用于分桶的关键字是A.PARTITIONEDBYB.CLUSTEREDBYC.SORTEDBYD.DISTRIBUTEBY6.使用Scala编写Spark程序时，以下哪种变量类型在Driver和Executor之间只读共享A.varB.valC.BroadcastD.Accumulator7.在HBase中，Region的拆分策略中默认的是A.ConstantSizeRegionSplitPolicyB.IncreasingToUpperBoundRegionSplitPolicyC.DisabledRegionSplitPolicyD.ManualRegionSplitPolicy8.下列关于数据倾斜的描述，正确的是A.只会发生在Map阶段B.只会发生在Reduce阶段C.可能发生在任何Shuffle阶段D.与并行度无关9.在Elasticsearch中，用于实现近实时搜索的底层数据结构是A.B+树B.LSM树C.倒排索引D.哈希表10.使用Python的pandas读取一个10GB的CSV文件时，最节省内存的做法是A.一次性read_csvB.使用chunksize分块读取C.先压缩再读取D.转换为HDF5再读取二、填空题（每题2分，共20分）11.Hadoop3.x的YARN资源调度器默认使用________调度器。12.SparkSQL的Catalyst优化器核心步骤包括解析、________、优化和代码生成。13.Kafka的每条消息实际写入时会被追加到该分区的________文件末尾。14.Flink实现端到端exactly-once语义的两阶段提交协议依赖________作为协调器。15.在Hive中，________函数可用于将一行数据转换成多行。16.HBase中，用于管理RegionServer上下线状态的守护进程是________。17.使用Sqoop将MySQL数据导入Hive时，参数________可指定是否以追加方式写入。18.Elasticsearch集群中，默认主节点选举算法为________。19.在Scala中，________关键字用于定义包级不可变变量。20.数据仓库分层模型中，DWD层的中文含义是________。三、判断题（每题2分，共20分）21.HDFS的NameNode内存充足时，小文件越多性能越好。22.Spark的RDD一旦持久化，后续所有Job都会自动使用缓存数据。23.Kafka的ConsumerGroup内，每个分区只能被同一个消费者实例消费。24.Flink的Checkpoint屏障（Barrier）是异步插入数据流的。25.Hive的严格模式下，orderby必须带limit限制。26.HBase的列族数量越多，随机读性能越高。27.Elasticsearch7.x起，一个索引默认被拆成5个分片。28.使用pandas的category类型可以显著降低重复字符串的内存占用。29.Hadoop的ErasureCoding比3副本机制更节省磁盘空间但修复速度更慢。30.Scala的caseclass默认实现了序列化接口。四、简答题（每题5分，共20分）31.简述SparkJob出现“Losttask”异常的三种常见根因及对应排查命令。32.说明KafkaConsumerRebalance的完整流程，并指出其中可能引发消费停顿的环节。33.列举FlinkSQL实现维表关联的三种方式，并对比其吞吐与延迟表现。34.写出HBaseRowKey设计的四大原则，并解释为何要避免“顺序写热点”。五、讨论题（每题5分，共20分）35.云南旅游实时大屏需展示每5分钟各景区客流TOP10，数据源为闸机日志（每秒5万条）。请给出基于Flink的端到端技术选型、并行度设置及exactly-once保障方案，并讨论在网络闪断场景下的恢复策略。36.某省政务数据湖采用Hive+Spark架构，随着数据量增长到PB级，出现小文件过多、NameNode内存暴涨、ETL耗时超8小时等问题。请从存储格式、计算引擎、调度策略、元数据治理四个维度提出综合优化方案，并评估实施成本与收益。37.云南特色农产品溯源系统使用HBase存储批次质检记录，业务方要求支持多条件模糊查询（如“2022年普洱地区重金属超标”）。请讨论RowKey与二级索引设计，并评估使用Elasticsearch作为外部索引的同步延迟、一致性及运维复杂度。38.省内医保风控需每日离线训练GBDT模型，特征工程涉及近2000维高稀疏向量，历史样本3亿条。请对比SparkMLlib、LightGBMonYarn、XGBoostonFlink三种方案的内存占用、训练时长、参数调优便利性，并给出在云主机预算有限情况下的选型建议。答案与解析一、单项选择题1.C2.B3.D4.B5.B6.C7.B8.C9.C10.B二、填空题11.Capacity12.逻辑计划13.log14.JobManager15.explode16.HMaster17.append18.Bully19.lazyval20.明细数据层三、判断题21.×22.×23.√24.√25.√26.×27.×28.√29.√30.√四、简答题31.根因一：ExecutorOOM，排查：yarnlogs-applicationId|grep“OutOfMemory”；根因二：网络抖动导致fetch失败，排查：spark.ui.stages查看“ShuffleRead”失败次数；根因三：磁盘损坏，排查：dmesg|grep“I/Oerror”。解决分别对应增加executor-memory、调高work.timeout、更换磁盘并重启NodeManager。32.流程：1.Coordinator发送JoinGroup请求；2.所有Consumer发送metadata；3.Coordinator计算分区分配方案；4.下发SyncGroup；5.Consumer开始fetch。停顿环节在3，若用户自定义分配策略复杂或分区数多，计算耗时增大，导致整个group处于空转，表现为消费lag瞬间上涨。33.方式一：异步I/O维表，吞吐高延迟低，需维表支持异步客户端；方式二：广播维表，延迟最低但维表需小于20MB；方式三：TemporalTableJoin，延迟中等，支持维表变更回溯，吞吐受状态后端限制。对比：异步I/O>广播>Temporal，延迟相反。34.原则：长度一致、散列性、业务可逆、短小精悍。顺序写热点指连续RowKey导致Region分裂后仍集中在一台RegionServer，形成写入瓶颈，需加盐、反转、哈希等方式打散。五、讨论题35.技术选型：FlinkKafkaSource→KeyBy景区→滑动窗口5min→TopNSQL→RedisSink。并行度：Source=Kafka分区数=闸机数/3，窗口算子并行度=景区数×2，Sink并行度=Redis分片数。exactly-once：开启checkpoint30s，Redis用幂等写入或事务。网络闪断：Flink自动重启策略+Kafka可配置允许最大连续失败次数3次，超过则报警人工介入，checkpoint保留最近5次，恢复时从最新成功点重放。36.存储格式：Hive表改为ORC+ZSTD，小文件合并每日ETL后执行altertableconcatenate；计算引擎：Spark改用AdaptiveQueryExecution，动态分区裁剪；调度策略：将大任务拆成微批，使用Airflow池子限并发；元数据治理：定期执行msckrepair后接analyzetablecomputestatistics。成本：开发人日约30，收益：NameNode内存降40%，ETL耗时缩至2.5小时，节省计算资源30%。37.RowKey设计：hash(农产品ID)+年月+批次号，保证散列；二级索引：建立Elasticsearch索引，字段包括地区、品类、质检日期、超标指标，采用nested结构存多条检测项。同步：使用KafkaConnectHBaseSink+ElasticsearchSink双写，延迟约3s；一致性通过Kafka事务保证，运维复杂度增加索引版本升级与集群

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2022年云南大数据岗位笔试低分避坑指南配真题答案

文档简介

温馨提示

最新文档

评论

2022年云南大数据岗位笔试低分避坑指南配真题答案

文档简介

温馨提示

最新文档

评论

相关文档