版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2022年云南大数据行业社招跳槽专属笔试题及答案
一、单项选择题,(总共10题,每题2分)1.在Hadoop3.x中,默认的块大小从128MB调整为A.64MBB.256MBC.512MBD.1GB2.Spark任务提交参数spark.sql.shuffle.partitions的默认值是A.100B.200C.400D.与vcore数相同3.下列哪种压缩格式支持原生splitA.GzipB.Bzip2C.LZOD.Snappy4.在Kafka0.10之后,Consumer的offset不再存储于A.ZooKeeperB.__consumer_offsetsC.本地文件D.Broker内存5.Flink的Checkpoint机制中,Exactly-once语义依赖的核心技术是A.幂等写B.两阶段提交C.异步快照D.事件时间6.HBase中用于实现二级索引的协处理器接口是A.ObserverB.EndpointC.WALObserverD.RegionObserver7.在Hive3.x中,默认的执行引擎是A.MapReduceB.TezC.SparkD.LLAP8.使用Scala编写SparkStreaming时,DStream的transform操作返回类型是A.RDD[T]B.DStream[T]C.Dataset[T]D.DataFrame9.在数据仓库分层理论中,DWD层的主要职责是A.原始数据保留B.轻度汇总C.明细数据清洗D.维度建模10.根据《个人信息保护法》,处理敏感个人信息应当取得A.口头同意B.明示同意C.默示同意D.无需同意二、填空题,(总共10题,每题2分)11.Hadoop的NameNode元数据持久化文件名为_______。12.Spark中,RDD的五大特征之一的“可分区”英文是_______。13.Kafka的ISR列表中,副本滞后超过_______秒将被踢出。14.Flink的StateBackend默认配置为_______。15.Hive的元数据存储在_______数据库中。16.HDFS的副本放置策略中,第一副本放在_______节点。17.在数据质量维度里,指“同一指标在不同系统取值相同”的维度叫_______。18.使用Python调用Spark时,对应的包名是_______。19.在阿里云MaxCompute中,一次SQL计算任务最小计费单位为_______GB小时。20.根据国标GB/T35273,个人信息保存期限应为实现目的所需的_______时间。三、判断题,(总共10题,每题2分)21.Spark的广播变量只能在Driver端修改。22.HBase的Region一旦分裂,旧Region会立即被删除。23.Kafka的Producer发送消息时,若acks=0则一定不会重复。24.Flink的CEP库支持在事件时间上匹配模式。25.Hive的分区字段可以作为SELECT的返回列。26.在HDFS中,DataNode通过长连接向NameNode发送心跳。27.数据血缘属于元数据管理的核心内容。28.SparkSQL的窗口函数执行前必须先进行distributeby。29.使用Parquet格式能够显著降低Namenode内存压力。30.《数据安全法》要求重要数据出境必须通过安全评估。四、简答题,(总共4题,每题5分)31.简述Spark的宽窄依赖区别,并说明其在容错中的作用。32.说明Kafka如何实现高吞吐量的顺序写磁盘。33.列举三种常见的数据倾斜场景,并给出HiveSQL层面的通用优化思路。34.描述Flink的EventTime与Watermark机制如何保障窗口计算的准确性。五、讨论题,(总共4题,每题5分)35.结合云南旅游客流实时统计场景,讨论FlinkCEP如何识别“游客在同一景区停留超4小时”的异常行为,并给出状态存储与恢复策略。36.某国企计划将离线数仓从HiveonMR迁移到SparkonYarn,请评估迁移风险、资源成本与回退方案。37.云南跨境数据流动频繁,试论述如何在合规前提下建立数据出境安全网关,技术选型与治理流程如何设计。38.对比DeltaLake、Hudi、Iceberg三种数据湖格式,结合云南高原农业时序数据特点,给出选型建议并说明理由。答案与解析一、单项选择题1.B2.B3.B4.A5.B6.A7.B8.B9.C10.B二、填空题11.fsimage12.partitioned13.replica.lag.time.max.ms=3014.RocksDBStateBackend15.MySQL/PostgreSQL(答其一即可)16.本地写入/客户端所在节点17.一致性18.pyspark19.0.0120.最短三、判断题21.√22.×23.×24.√25.√26.×27.√28.×29.√30.√四、简答题31.窄依赖指父RDD每个分区最多被一个子分区依赖,宽依赖指多个子分区依赖同一父分区。容错时,窄依赖只需重算丢失的父分区,宽依赖需重算整个父分区,因此宽窄依赖决定了重算粒度与代价。32.Kafka采用顺序追加写日志文件,避免磁盘随机寻址;通过页缓存与sendfile零拷贝机制减少内核态切换;批量压缩与批量发送降低网络包数量,从而实现高吞吐。33.场景:大表join空值key、groupby热点key、countdistinct无过滤。优化:过滤空值随机加盐再聚合、热点key两阶段聚合、改写countdistinct为子查询先分组再求和。34.EventTime以事件自带时间戳为准,Watermark随数据流入推进,表示“小于该时间的数据已到达”。窗口触发时若watermark超过窗口结束时间即计算,迟到数据通过allowedLateness侧输出,保障准确。五、讨论题35.使用CEP.pattern定义“进入景区事件后,在4小时内未离开”模式,采用循环模式times(1)后跟条件where停留时长>4h。状态用ValueState保存首次进入时间,开启RocksDB增量快照,checkpoint每30秒异步上传OSS,故障时从最新checkpoint恢复状态。36.风险:UDF兼容性、SQL语法差异、小文件爆炸;成本:内存型队列需1.5倍资源,Yarn动态资源池调优;回退:保留双跑链路30天,通过灰度流量开关比对结果一致性,差异超1%自动回滚。37.网关采用API网关+数据脱敏+流量镜像三重架构,技术选型WSO2+ApacheRanger+自研敏感识别引擎,治理流程:业务部门申请→数据安全小组评估→网信办备案→网关策略下发→流量审计日志留存3年,敏感数据先匿名化再出境。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肠胃炎的饮食调理指南培训
- 小学生健康科普
- 消防工程防火封堵施工工艺(含实例图片)
- 2026年成人高考土木工程(本科)建筑工程管理模拟试卷
- 2026年成人高考高起专政治理论模拟单套试卷
- COPD 健康教育的主要内容
- 《数据的图表呈现》教案-2025-2026学年苏科版(新教材)小学信息技术四年级下册
- 招聘考试真题及答案
- 造价师历年真题及答案
- 月二建真题及答案
- 儿科疾病作业治疗
- 保育员-生活管理-健康观察课件
- 2023浙江工业大学机械原理习题答案
- 中国铁塔股份有限公司代维单位星级评定方案2017年
- 江苏如东1100MW海上风电项目陆上换流站工程环评报告
- 江苏省无锡市江阴市2023年事业单位考试A类《职业能力倾向测验》临考冲刺试题含解析
- YS/T 885-2013钛及钛合金锻造板坯
- GB/T 34755-2017家庭牧场生产经营技术规范
- GB/T 32245-2015机床数控系统可靠性测试与评定
- 压力性损伤与失禁性皮炎的鉴别
- 进口DCS(DeltaV系统)培训教材
评论
0/150
提交评论