版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大数据培训测试题及答案
一、单项选择题(每题2分,共20分)1.在HDFS中,默认一个数据块的大小为A.32MBB.64MBC.128MBD.256MB2.SparkCore的默认存储级别是A.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK_ONLYD.OFF_HEAP3.下列算法中,属于关联规则挖掘的是A.K-meansB.AprioriC.SVMD.PageRank4.在Kafka中,负责分区副本同步的组件是A.ProducerB.ConsumerC.BrokerD.ISR5.若某列式存储格式支持向量化读取且与Pandas无缝集成,该格式最可能是A.AvroB.ORCC.ParquetD.SequenceFile6.Flink的Checkpoint机制基于哪种分布式快照算法A.Chandy-LamportB.RaftC.Two-PhaseCommitD.Gossip7.在Hive中,将查询结果保存到非分区表的同时生成统计信息,应使用的关键字是A.ANALYZEB.COMPUTESTATSC.EXPLAIND.COLLECT_SUMMARY8.当使用LSTM进行时间序列预测时,遗忘门的主要作用是A.更新细胞状态B.重置隐藏状态C.丢弃无关信息D.增强梯度流9.在数据治理成熟度模型中,第4级“Managed”强调A.流程标准化B.量化管理C.持续优化D.初始项目试点10.根据GDPR,数据主体行使“被遗忘权”时,控制者必须在多长时间内响应A.7天B.15天C.1个月D.3个月二、填空题(每题2分,共20分)11.Hadoop3.x的YARN资源调度器默认使用________调度策略。12.在SparkSQL中,将DataFrame注册为临时视图的函数是________。13.若Redis中键的过期策略采用定期抽样删除,则该策略称为________删除。14.当使用HBase的Coprocessor实现二级索引时,需继承的接口是________。15.在TensorFlow2.x中,用于开启即时执行模式的模块是________。16.数据仓库的星型模式由事实表和________表组成。17.在Airflow中,定义DAG默认参数的字段名为________。18.若某次A/B检验的p值为0.008,则显著性水平α取0.01时的结论为________原假设。19.使用Scala编写SparkStreaming时,接收TCP流需使用的类是________。20.在DeltaLake中,保证并发写事务原子性的日志文件格式为________。三、判断题(每题2分,共20分,正确打“√”,错误打“×”)21.HDFS的NameNode高可用方案中,ZKFC进程负责监控NameNode健康状态。22.Spark的RDD一旦生成,其分区数不可通过算子动态调整。23.Kafka的consumergroup再均衡期间,所有消费者都会暂停拉取消息。24.在Hive中,使用Tez引擎时,MapJoin一定会消除Reduce阶段。25.对于倾斜的连续特征,采用Min-Max归一化比RobustScaler更抗异常值。26.Flink的TableAPI在流模式下不支持全量聚合。27.数据湖强调“先建模后入湖”的严格模式。28.在PostgreSQL中,通过BRIN索引可以显著降低对高并发写入的锁争用。29.使用XGBoost时,增大subsample参数会降低模型方差。30.根据《网络安全法》,关键信息基础设施运营者采购网络产品应通过安全认证或检测。四、简答题(每题5分,共20分)31.简述HDFS写入流程中“数据流管道”建立的三步关键操作。32.说明Spark广播变量与累加器在容错机制上的差异。33.列举并解释Flink实现Exactly-Once语义的两项核心技术。34.概述数据治理中“元数据管理”对自助式分析平台的三点价值。五、讨论题(每题5分,共20分)35.结合Lambda与Kappa架构,讨论实时数仓在事件乱序场景下的权衡策略。36.针对PB级日志存储,对比Parquet与ORC在更新场景下的优劣,并给出选型建议。37.当模型训练数据出现概念漂移时,如何利用在线学习框架持续优化?请给出技术路线与风险点。38.在多云环境中,讨论数据主权法规对跨境数据复制与灾备架构设计的影响及应对方案。答案与解析一、单项选择题1.C2.A3.B4.D5.C6.A7.B8.C9.B10.C二、填空题11.CapacityScheduler12.createOrReplaceTempView13.惰性过期(或定期删除)14.RegionObserver15.tf.config.run_functions_eagerly16.维度17.default_args18.拒绝18.StreamingContext20.json三、判断题21√22×23√24×25×26√27×28√29×30√四、简答题31.客户端向NameNode申请创建文件;NameNode返回可写DataNode列表形成管道;客户端按序流式写入包,DataNode逐级转发并确认,完成管道建立。32.广播变量在任务失败重跑时由Driver重新分发,保证只读一致性;累加器在任务重试时自动去重,通过Driver端单点聚合,确保更新幂等。33.分布式快照Checkpoint记录全局状态;两阶段提交Sink将结果先预提交再正式提交,配合幂等写入实现端到端Exactly-Once。34.元数据提供数据血缘,帮助分析师快速定位指标来源;统一口径管理,消除同名不同义;影响分析功能,变更前评估下游影响,降低自助风险。五、讨论题35.Lambda用批层修正乱序,保证准确性但架构重;Kappa依赖乱序缓冲与水位线,在延迟与资源间取舍,可简化架构但需调大窗口,权衡实时性与成本。36.Parquet支持事务化更新需借助DeltaLake,写放大低;ORC原生ACID但合并小文件代价高,建议更新频繁选Parquet+Del
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1.4 欢欢喜喜庆国庆 教案道德与法治二年级上册统编版
- 八年级英语上册 Unit 6 Im going to study puter science. Grammar Focus be going to结构深度理解与综合应用教案
- 水润山河间思立苍穹下-高中地理·水的运动深度研学(高二下学期选用)
- 北师大版小学数学四年级上册《正负数》创新教学设计
- 八年级英语上册“以结构促表达”写作通关教案
- 安徽省中考化学复习讲座:物质检验与鉴别教学设计
- 《时间轴上的智慧:24时记时法》教案-人教版小学三年级数学下册
- 北师大版小学数学五年级上册第五单元《分数的意义》质量检测试卷讲评教学设计
- 八年级物理跨学科实践知识清单:隔音模型制作与声学探究
- 科学探索·思维启航-跨学科视域下的物理开学第一课(教学设计)
- 中考英语复习:语法选择10篇必考题型(广州专用)附答案
- 《重点区域生态保护和修复投资估算指南(试行)》
- 慢阻肺患者呼吸肌训练器械使用
- 2026年临床试验质量管理规范试题及答案
- 国铁集团招聘考试试题
- 2026年叉车模拟理论考试题库及完整答案一套
- 选矿厂技术管理
- (新教材)2026年春期部编人教版二年级下册语文 第八单元核心素养教案
- 浙江广电集团招聘笔试题库2026
- 2025年中保协保险原理知识测试题库及答案
- 医疗器械法规培训大纲
评论
0/150
提交评论