2026年360大数据笔试题及答案_第1页
2026年360大数据笔试题及答案_第2页
2026年360大数据笔试题及答案_第3页
2026年360大数据笔试题及答案_第4页
2026年360大数据笔试题及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年360大数据笔试题及答案

一、单项选择题,(总共10题,每题2分)1.在HDFS中,默认一个数据块的大小为A.32MBB.64MBC.128MBD.256MB2.SparkCore中负责将RDD转化为有向无环图调度执行的组件是A.DAGSchedulerB.TaskSchedulerC.BlockManagerD.ShuffleManager3.下列哪一项不是Kafka的核心概念A.TopicB.PartitionC.OffsetD.Container4.在Flink的时间语义中,EventTime是指A.数据进入Flink系统的时间B.数据被处理算子看到的时间C.事件在源端实际发生的时间D.窗口触发计算的时间5.使用Hive进行数据倾斜优化时,对热点Key添加随机前缀后再聚合的算子通常称为A.Map-sideJoinB.SkewJoinC.BucketJoinD.SortMergeJoin6.在HBase中,用于实现多版本并发控制的机制是A.WALB.MemStoreC.TimestampD.BloomFilter7.下列关于数据仓库星型模型的描述正确的是A.事实表引用维度表的主键B.维度表之间禁止存在关联C.所有维度表必须第三范式D.事实表不允许有冗余列8.在ClickHouse的MergeTree引擎中,数据按哪一列进行分区A.PRIMARYKEYB.ORDERBYC.PARTITIONBYD.SAMPLEBY9.使用Airflow调度ETL任务时,用于描述任务间依赖关系的核心对象是A.SensorB.OperatorC.DAGD.Hook10.在数据治理成熟度模型DAMA-DMBOK中,最高等级被称为A.ManagedB.DefinedC.QuantitativelyManagedD.Optimizing二、填空题,(总共10题,每题2分)11.Hadoop3.x中YARN资源调度器默认使用________调度器。12.SparkSQL的Catalyst优化器核心步骤包括解析、________、优化和代码生成。13.在Elasticsearch中,一个索引默认被划分为5个________。14.数据血缘追踪时,通常使用________图模型描述表与字段间的依赖关系。15.FlinkCheckpoint的底层依赖分布式一致性快照算法________。16.使用Scala编写Spark程序时,用________关键字声明一个广播变量。17.Hive中,将查询结果插入到分区表并自动创建分区目录的命令关键字是________。18.在数据质量评估维度中,字段空值占比属于________维度。19.KafkaProducer保证幂等性需要开启参数________。20.数据湖三剑客通常指Delta、________和Hudi。三、判断题,(总共10题,每题2分)21.HDFS的NameNode内存大小与文件数量无关,仅与数据块数量有关。22.Spark的shuffle操作一定会产生磁盘落地文件。23.Hive支持事务的前提条件是表必须为ORC格式并开启表属性transactional=true。24.Flink的KeyBy算子会改变数据的分区数。25.HBase中列族的数量越多,随机读性能越高。26.在数据仓库中,缓慢变化维类型2通过添加新行保留历史。27.ClickHouse的JOIN语法完全兼容MySQL语法。28.Airflow的Worker节点可以水平扩展以提升任务并发度。29.数据治理的核心目标之一是降低IT成本而非提升数据价值。30.使用Parquet格式存储数据时,列式存储有助于提高压缩率。四、简答题,(总共4题,每题5分)31.简述MapReduce中Combiner的作用及使用限制。32.说明SparkStreaming与Flink在容错机制上的主要差异。33.列举三种常见的数据倾斜场景并给出对应的监控指标。34.概述数据湖与数据仓库在Schema处理上的本质区别。五、讨论题,(总共4题,每题5分)35.结合Lambda架构痛点,讨论流批一体在实时数仓中的落地挑战与解决思路。36.当企业面临PB级日志存储与秒级查询需求时,论证选择ClickHouse还是Elasticsearch,并给出权衡维度。37.数据治理委员会在推行数据标准时,如何平衡业务部门灵活性与IT部门规范性?提出可落地的组织与流程方案。38.面对GDPR“被遗忘权”,大数据平台需在技术、流程、合规三方面做哪些改造?请给出可执行路线图。答案与解析一、单项选择题1.C2.A3.D4.C5.B6.C7.A8.C9.C10.D二、填空题11.Capacity12.逻辑计划13.主分片14.有向无环15.Chandy-Lamport16.broadcast17.dynamicpartition18.完整性19.enable.idempotence20.Iceberg三、判断题21.×22.×23.√24.√25.×26.√27.×28.√29.×30.√四、简答题31.Combiner是本地聚合函数,可减少Map端输出数据量,降低网络IO;限制为输入输出KV类型必须与Reducer一致,且业务逻辑需满足结合律与交换律。32.SparkStreaming基于RDD血统与WAL实现容错,故障时回溯批处理;Flink基于分布式一致性快照,故障时从最近checkpoint恢复,延迟更低且Exactly-once语义更强。33.场景1:JoinKey热点,监控最大分区记录数与平均记录数比值;场景2:GroupByKey热点,监控Task处理时长标准差;场景3:KafkaPartition倾斜,监控各Partition消费Lag差异。34.数据湖写时无Schema,读时解析,灵活演化;数据仓库存储前需定义Schema,写时校验,强调治理与一致性。五、讨论题35.Lambda维护两套代码与存储,流批结果易不一致;流批一体通过统一引擎与存储,如Flink+Iceberg,挑战在于实时与离线资源隔离、元数据同步、回刷历史数据,可用多版本快照与资源队列解决。36.ClickHouse列存压缩高、写入吞吐大、SQL友好,适合聚合查询;Elasticsearch倒排索引支持全文检索与高并发点查,存储成本高;若90%需求为时序聚合报表选ClickHouse,若需日志检索与仪表盘兼顾可选Elasticsearch,或采用双写分流。37.设立业务数据Owner与IT数据Steward双角色,建立标准评审委员会,采用敏捷迭代发布标准,配套数据质量S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论