2022云南大数据行业入职笔试必考真题集附答案

上传人：1*** IP属地：北京上传时间：2026-04-17 格式：DOC 页数：6 大小：24.70KB 积分：6 举报 版权申诉

已阅读1页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2022云南大数据行业入职笔试必考真题集附答案

一、单项选择题，每题2分，共20分1.在HDFS中，负责管理文件系统命名空间并维护文件到块的映射关系的守护进程是A.DataNodeB.NameNodeC.ResourceManagerD.NodeManager2.下列关于KafkaPartition的描述，正确的是A.一个Topic只能有一个PartitionB.Partition数量一旦创建便不可修改C.同一Partition内消息保证顺序D.ConsumerGroup内所有Consumer订阅不同Partition3.在SparkRDD的转换操作中，不会触发作业执行的是A.mapB.collectC.countD.saveAsTextFile4.使用Flink实现Exactly-Once语义时，关键机制不包括A.CheckpointB.TwoPhaseCommitSinkC.StateBackendD.BloomFilter5.在Hive中，使用ORC文件格式相比TEXTFILE最显著的优势是A.支持update/deleteB.支持嵌套类型C.列式存储压缩率高D.支持事务6.下列算法中，属于无监督学习的是A.随机森林B.K-MeansC.XGBoostD.逻辑回归7.在HBase中，RowKey设计应避免A.散列化B.时间戳反转C.连续递增D.加盐8.数据仓库分层架构中，DWD层的主要职责是A.原始数据保留B.轻度汇总C.明细数据清洗D.维度建模9.下列关于数据倾斜的优化手段，错误的是A.两阶段聚合B.增加并行度C.使用随机前缀D.降低Reducer数量10.在Pythonpandas中，对DataFrame按列进行分组并求平均值的正确写法是A.df.groupby('col').mean()B.df.groupby('col').avg()C.df.mean().groupby('col')D.df.agg({'col':'mean'})二、填空题，每题2分，共20分11.Hadoop3.x默认的HDFS块大小为________MB。12.Spark中，一个Job会被划分为多个________，每个包含一组Task。13.Kafka通过________机制保证消息在Partition内有序。14.在Flink的时间语义中，________时间用于解决乱序事件。15.Hive默认的列分隔符为________字符。16.在XGBoost中，控制过拟合的参数通常缩写为________。17.HBase中，用于存储列族数据的底层文件格式是________。18.数据治理框架DAMA将数据质量维度分为________类。19.在Linux中，查看磁盘IO使用率的常用命令是________。20.使用Airflow调度任务时，定义DAG拓扑的Python文件需放在________目录下。三、判断题，每题2分，共20分21.SparkSQL的Catalyst优化器支持基于成本的优化。22.HDFS的副本放置策略中，同一机架最多存放两份副本。23.Flink的Checkpoint屏障由Source节点周期性注入。24.Hive的UDF函数必须用Java实现，不支持Python。25.在Kafka中，ConsumerOffset由Zookeeper直接管理。26.使用Parquet格式能够显著减少ORC的存储空间。27.数据湖强调“先建模，后入湖”的开发模式。28.在HBase中，删除操作实际上是一条墓碑记录。29.逻辑回归使用sigmoid函数将输出映射到0~1区间。30.使用Azkaban可以实现跨DAG的依赖调度。四、简答题，每题5分，共20分31.简述Spark广播变量的实现原理及其适用场景。32.说明Flink的Checkpoint与Savepoint的区别。33.列举三种常见的数据倾斜现象并给出对应解决思路。34.概述数据仓库缓慢变化维（SCD）类型2的实现步骤。五、讨论题，每题5分，共20分35.结合云南旅游客流数据，讨论如何构建实时游客预警系统，需涵盖数据源、技术选型、关键指标与算法模型。36.面对多源异构的农业物联网数据，探讨数据湖与数据仓库融合架构的优劣，并给出落地建议。37.云南高原特色农产品溯源场景中，如何利用区块链+大数据保证数据可信与隐私计算，请给出技术路线。38.在“东数西算”工程背景下，云南作为数据中心集群之一，如何设计绿色低碳的大数据机房，需讨论能源、网络与运维三方面。答案与解析一、单项选择题1.B2.C3.A4.D5.C6.B7.C8.C9.D10.A二、填空题11.12812.Stage13.顺序追加写14.EventTime15.\00116.eta/learning_rate17.HFile18.六19.iostat20.dags三、判断题21.T22.F23.T24.F25.F26.F27.F28.T29.T30.T四、简答题31.广播变量将只读数据集序列化后发送到各Executor，存储在BlockManager中，任务多次读取无需重复传输，适用于小表join、字典过滤等场景，可减少网络IO与内存占用。32.Checkpoint由Flink自动触发，用于故障恢复，生命周期绑定于作业；Savepoint需手动触发，存储路径独立，可用于版本升级、迁移、A/B测试，两者底层机制相同但元数据隔离。33.现象一：Key分布极不均，可用两阶段聚合加随机前缀；现象二：Join时某表热点Key，可拆分热点再合并；现象三：窗口聚合倾斜，可预聚合+增量窗口，或自定义Partitioner。34.步骤：1.为维度表增加代理键、生效时间、失效时间、当前标志；2.源数据变化时插入新行并更新旧行失效时间；3.ETL过程对比业务键判断变化；4.查询时通过时间范围获取历史版本。五、讨论题35.数据源包括信令数据、票务系统、景区闸机、交通卡口；技术选型用Kafka+Flink实时接入，Redis存分钟级聚合，离线用Spark校正；关键指标为区域密度、同比环比、拥堵指数；算法采用时间序列预测+LSTM，阈值触发短信与公众号推送。36.数据湖存原始IoT时序与图像，数据仓库存清洗后结构化指标；融合架构用Hive3+Iceberg提供ACID，兼顾分析效率与探索灵活；落地建议先湖后仓，冷热分层，压缩+纠删码降低存储，统一元数据用Atlas治理。37.技术路线：1.链下计算，链上存证，使用Fabric构建溯源联盟链；2.大数据层用Spark做隐私求交与质量评估；3.引入可信执行环境(TEE)实现

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2022云南大数据行业入职笔试必考真题集附答案

文档简介

温馨提示

最新文档

评论

2022云南大数据行业入职笔试必考真题集附答案

文档简介

温馨提示

最新文档

评论

相关文档