版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2022云南大数据运营岗入职笔试题附踩分点说明和答案
一、单项选择题(共10题,每题2分)1.在Hadoop生态中,负责资源管理与任务调度的核心组件是A.Hive B.YARN C.HBase D.Sqoop2.下列哪项最能准确描述Kafka的ConsumerGroup机制A.组内所有消费者共享一个offset B.组内每个分区只能被一个消费者实例消费C.组间offset自动同步 D.组内消费者可重复消费同一消息3.使用SparkSQL进行数据清洗时,若需剔除某列缺失率高于20%的字段,应优先调用的API是A.dropDuplicates B.dropna C.fillna D.replace4.在数据仓库分层理论中,DWD层的主要作用是A.保存原始日志 B.统一维度建模 C.明细事实清洗落地 D.面向主题汇总5.用户留存率计算中,次日留存的统计窗口为A.T+00:00-24:00 B.T+10:00-24:00 C.T+20:00-24:00 D.T+70:00-24:006.Flink实现Exactly-Once语义的关键机制不包括A.Checkpoint B.TwoPhaseCommitSink C.Kafka事务写 D.Event-Time窗口7.数据资产目录中“血缘关系”主要用于解决A.存储压缩 B.计算加速 C.影响分析与追溯 D.权限隔离8.在Linux生产环境中,快速定位某日志文件最后500条含“NullPointer”的行,应使用A.grep-A500NullPointer B.tail-500|grepNullPointerC.tail-f|grepNullPointer D.grepNullPointer|tail-5009.下列关于ROC曲线与AUC的说法正确的是A.AUC<0.5表示模型失效 B.ROC横轴为召回率 C.AUC越大模型区分度越好 D.ROC仅适用于二分类10.云南省“数字烟草”项目中,用于实时追踪烟叶烘烤温度的IoT数据接入协议最可能是A.FTP B.MQTT C.NFS D.JDBC二、填空题(共10题,每题2分)11.Hadoop3.x默认块大小为________MB。12.Spark中一个Job可包含多个________,其内部由Task组成。13.在MySQL8.0里,对JSON字段创建函数索引使用的关键字是________。14.数据治理元数据国家标准GB/T34960-2017将元数据分为业务、技术、________三类。15.Kafka将消息顺序写入________文件以保证高吞吐。16.使用Pythonpandas获取DataFrame前1%分位数的函数是________。17.数据安全等保2.0中,大数据系统安全扩展要求属于________级起步。18.维度建模里,缓慢变化维类型2通过新增________来保存历史。19.Airflow的DAG调度文件中,任务依赖使用________运算符声明上下游。20.根据《个人信息保护法》,处理敏感个人信息必须取得个人的________同意。三、判断题(共10题,每题2分,正确打“√”,错误打“×”)21.HDFSNameNode的内存大小与集群存储文件数量无关。22.SparkRDD的cache()默认存储级别是MEMORY_ONLY。23.Flink的WaterMark机制可完全解决乱序数据导致的计算延迟问题。24.数据湖与数据仓库的本质区别是是否支持结构化数据。25.在Linux中,命令“awk-F:'{print$3}'/etc/passwd”可列出所有用户UID。26.使用HiveonTez时,MapJoin可通过hint方式强制开启。27.业务连续性指标RPO衡量的是系统宕机后数据可恢复的时间长度。28.灰度发布属于A/B测试的一种工程化实现。29.在Tableau中,将维度拖至筛选器默认会生成上下文筛选器。30.云南省政务云“云上云”平台采用多活架构以保障异地容灾。四、简答题(共4题,每题5分)31.简述数据倾斜在SparkSQL中的典型表现及三种常用缓解方案。32.说明KafkaPartition副本Leader选举过程,并指出如何监控ISR列表收缩。33.概述数据资产盘点“6W1H”方法论,并给出两例可量化指标。34.写出使用Python实现MySQLbinlog实时解析到Kafka的核心步骤与依赖库。五、讨论题(共4题,每题5分)35.结合云南旅游客流实时统计场景,讨论FlinkCEP在识别“游客滞留”事件中的规则设计、状态存储与性能调优要点。36.省级政务大数据中心计划打通公安、交通、卫健三类敏感数据,请从合规、技术、运营三角度论述如何构建可信数据共享空间。37.某烟草集团每日新增5TB烘烤传感器数据,历史数据30PB,讨论冷热分级存储策略,需兼顾成本、查询时效及备份容灾。38.面对“数据要素市场化”政策,云南拟成立数据交易所,请就数据定价模型、质量评估、交易撮合与争议仲裁提出可落地框架。答案与踩分点一、单项选择题1.B 2.B 3.B 4.C 5.B 6.D 7.C 8.D 9.C 10.B二、填空题11.128 12.Stage 13.(JSON) 14.管理 15.log 16.quantile(0.01) 17.三 18.行/记录 19.>>或set_upstream 20.单独书面三、判断题21× 22√ 23× 24× 25√ 26√ 27× 28√ 29× 30√四、简答题(每题答对要点即可得满分,示例答案约200字)31.表现:某Task执行时长远高于平均,伴随OOM或磁盘溢出。方案:1.加盐重分区,对倾斜键加随机前缀;2.两阶段聚合,先局部聚合再全局聚合;3.广播join,将小表广播到各节点避免shuffle。32.过程:Controller监听Zookeeper的/brokers/topics/路径,当Leader宕机,从ISR列表选第一个存活副本成为新Leader;若ISR为空则等Unclean.leader.election.enable策略。监控:JMX指标UnderReplicatedPartitions、ISRShrinksPerSec,配置告警阈值。33.6W1H:Who数据责任人、What数据内容、Where存储位置、When更新频率、Why业务目标、Which质量标准、How使用方式。指标:字段完整率≥98%、数据更新延迟≤30min。34.步骤:1.安装pymysqlreplication库;2.创建BinLogStreamReader,指定connection_settings与server_id;3.逐条读取事件,过滤ROW格式event;4.将解析后JSON写入kafka-python的KafkaProducer;5.捕获异常并记录offset到Redis实现断点续传。五、讨论题(参考要点,言之成理即可)35.规则:连续30分钟位置在100米范围内且速度<0.5m/s;状态用ValueState保存首次触发时间;使用RocksDBStateBackend+增量Checkpoint降低延迟;通过并行度与微批间隔调优,将CPU利用率控制在75%以下。36.合规:基于“最小可用”原则做脱敏分级,引入隐私计算;技术:采用多方安全计算平台+区块链存证;运营:建立数据使用白名单、双人审批、定期审计,并设数据安全官。37.热数据:近7天放SSD+HDFS三副本,支持秒级查询;温数据:7天-3个月放SATA+EC策略,查询分钟级;冷数据:3个月后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江杭州拱墅区锦绣育才2026届中考物理试题命题比赛模拟试卷(17)含解析
- 江苏省泰州市泰兴市西城中学2026年初三下期终教学质量监控试卷含解析
- 云南省昆明市四校联考2025-2026学年中考全真模拟考试语文试题含解析
- 浙江省绍兴市诸暨市重点名校2026届普通高中毕业班单科质量检查数学试题试卷含解析
- 河南省平顶山市汝州市重点名校2026届初三第一次诊断考试(英语试题理)试卷含解析
- 江苏省徐州市沛县2026年初三下学期第八次月考英语试题试卷含解析
- 山东临清2026届初三下学期期末教学质量诊断(一模)语文试题含解析
- 托管运行合同
- 2026年水库捕鱼合同(1篇)
- 高中英语 Unit 1 A New Start Period 2 Using Language 教学设计
- 2025年广东省高职院校五年一贯制转段考试文化课测试(数学)
- 健康管理师资料:《健康管理师》 国家职业资格培训介绍
- 公务摄影拍摄技巧分享课件
- 第八章左拉优质获奖课件
- GB/T 7233.1-2023铸钢件超声检测第1部分:一般用途铸钢件
- 华为智慧化工园区解决方案-
- 刑法学(上册)马工程课件 第6章 犯罪客观方面
- 洁净厂房监理实施细则
- 静脉输液(最终版)课件
- 河北单招考试三类练习题及答案
- 中铁二十四局集团有限公司施工现场从业人员安全风险告知书
评论
0/150
提交评论