2025年大数据技术专业技能考试试卷及答案

上传人：子*** IP属地：四川上传时间：2026-01-18 格式：DOCX 页数：19 大小：28.43KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据技术专业技能考试试卷及答案1.单项选择题（每题2分，共20分）1.1在HDFS中，NameNode的主要职责是A.存储实际数据块B.维护文件系统元数据C.执行Map任务D.压缩数据答案：B1.2SparkCore中RDD的默认分区器是A.HashPartitionerB.RangePartitionerC.GridPartitionerD.ManualPartitioner答案：A1.3下列哪一项不是Kafka的组件A.BrokerB.TopicC.SegmentD.RegionServer答案：D1.4在Flink的时间语义中，EventTime的生成位置是A.SourceOperatorB.WindowOperatorC.数据产生时刻D.JobManager答案：C1.5HBase中用于快速定位Region的索引结构是A.B+树B.LSM树C.跳表D.哈希表答案：B1.6若Hive表使用ORC格式，下列参数可控制行组大小的是A.hive.exec.orc.default.stripe.sizeB.hive.exec.orc.default.block.sizeC.hive.exec.orc.default.row.index.strideD.hive.exec.orc.default.buffer.size答案：A1.7在Scala中，下列代码片段valrdd2=rdd1.map(x=>(x,1)).reduceByKey(_+_)产生的rdd2的分区数等于A.rdd1的分区数B.集群核数C.spark.default.parallelismD.上游最大分区数答案：A1.8使用PySpark读取Parquet文件时，默认启用的下推优化是A.谓词下推B.投影下推C.聚合下推D.排序下推答案：A1.9在YARN容量调度器中，队列的最大AM资源比由下列参数决定A.yarn.scheduler.capacity.maximumapplicationsB.yarn.scheduler.capacity.<queuepath>.maximumamresourcepercentC.yarn.scheduler.capacity.nodelocalitydelayD.yarn.scheduler.capacity.<queuepath>.userlimitfactor答案：B1.10下列关于数据湖Iceberg的描述错误的是A.支持行级删除B.隐藏分区对用户透明C.仅支持Spark引擎D.提供快照隔离答案：C2.多项选择题（每题3分，共15分，多选少选均不得分）2.1下列属于FlinkCheckpoint持久化到HDFS所需配置的有A.state.backendB.state.checkpoints.dirC.state.savepoints.dirD.jobmanager.execution.failoverstrategy答案：A,B,C2.2在ClickHouse中，MergeTree引擎支持的特性包括A.主键索引B.数据分区C.实时更新D.数据副本答案：A,B,D2.3导致Spark作业出现数据倾斜的常见Key有A.空值B.用户IDC.时间戳D.省份编码答案：A,B,D2.4下列属于HDFS联邦之后新增的核心目录的有A./hdfsB./nameservicesC./routerD./observer答案：B,C2.5关于Kafka消息投递语义，正确的组合有A.atmostonce+异步刷盘B.atleastonce+幂等ProducerC.exactlyonce+事务ProducerD.atleastonce+手动提交位移答案：B,C,D3.填空题（每空2分，共20分）3.1HDFS默认块大小在Hadoop3.x中为________MB。答案：1283.2SparkSQL中，将DataFrame注册为临时视图的函数是________。答案：createOrReplaceTempView3.3FlinkCEP库中，模式序列以________关键字定义连续事件。答案：next3.4Hive中，查看表分区的命令是SHOW________。答案：PARTITIONS3.5KafkaConsumer的________参数控制一次poll的最大记录数。答案：max.poll.records3.6ClickHouse中，用于列式存储压缩的默认算法是________。答案：LZ43.7在YARN中，ApplicationMaster向________申请Container。答案：ResourceManager3.8HBase中，删除标记DeleteFamily对应的类型码是________。答案：13.9ORC文件索引中，RowGroupIndex又称________索引。答案：轻量级3.10数据湖DeltaLake的________文件记录事务日志。答案：_delta_log4.判断题（每题1分，共10分，正确打“√”，错误打“×”）4.1SparkStreaming的DStream可无缝转换为DataFrame。答案：√4.2HBase中一个列族对应一个MemStore。答案：√4.3Kafka的Partition副本数可以在线减少到1。答案：×4.4Flink的KeyBy会导致数据重新分区。答案：√4.5HiveonTez不支持LLAP。答案：×4.6ClickHouse的Distributed表引擎本身不存储数据。答案：√4.7HDFS的ErasureCoding策略RS631024k表示6个数据块3个校验块。答案：√4.8Spark3.x的AdaptiveQueryExecution默认关闭。答案：×4.9YARN的NodeManager负责启动ApplicationMaster。答案：×4.10DeltaLake的TimeTravel通过版本号或时间戳查询历史快照。答案：√5.简答题（封闭型，每题8分，共24分）5.1描述MapReduce中Shuffle的溢写流程，并指出可优化参数。答案：（1）Map端输出先进入环形缓冲区，默认占比80%时触发溢写；（2）后台线程按照Partitioner分区、Key排序，若配置Combiner则合并；（3）每溢写一次产生一个spill文件，最终多路归并为一个分区有序文件；（4）Reduce端通过HTTP拷贝对应分区，合并后进入Reduce函数。优化参数：mapreduce.task.io.sort.mb（缓冲区大小）mapreduce.map.sort.spill.percent（溢写阈值）pletedmaps（Reduce启动时机）。5.2列举Flink实现端到端exactlyonce的四个条件。答案：1.Source支持重放，如Kafka可重置offset；2.使用CheckpointedFunction保存算子状态；3.Sink支持两阶段提交，如KafkaProducer事务；4.开启Checkpoint并设置checkpointingMode为EXACTLY_ONCE。5.3简述HBaseRegion分裂的触发条件与分裂策略。答案：触发条件：（1）StoreFile大小超过hbase.hregion.max.filesize；（2）全局Compaction后文件仍大于阈值；（3）手动执行split命令。策略：（1）ConstantSizeRegionSplitPolicy：固定大小；（2）IncreasingToUpperBoundRegionSplitPolicy：根据Region数动态调整上限；（3）DisabledRegionSplitPolicy：禁止自动分裂。6.简答题（开放型，每题10分，共20分）6.1某电商公司日增日志500GB，需实时统计每分钟各品类PV、UV，延迟<5s，请给出技术选型与部署架构，并说明理由。答案：技术选型：Kafka+Flink+Redis+ClickHouse。架构：（1）日志采集层：Filebeat→Kafka，Topic按品类哈希分区，分区数=KafkaBroker核数×2，保证并行；（2）计算层：Flink作业，EventTime+Watermark允许乱序5s，并行度与Kafka分区一致；（3）状态存储：使用RocksDBStateBackend，Checkpoint到HDFS，5s间隔；（4）去重：UV采用布隆过滤器+RedisHyperLogLog，先本地去重再合并；（5）结果输出：分钟级结果写ClickHouse分布式表，按品类+时间分区；（6）监控：FlinkMetrics+Prometheus+Grafana，延迟告警阈值3s。理由：Kafka高吞吐，Flink低延迟且支持exactlyonce，ClickHouse查询快，Redis去重内存省。6.2讨论数据湖Iceberg在CDC场景下的应用优势与潜在瓶颈，并提出改进方案。答案：优势：（1）隐藏分区避免误删数据；（2）快照隔离保证读一致性；（3）支持行级更新删除，适合CDC；（4）时间旅行可回滚。瓶颈：（1）小文件多，Metadata文件膨胀；（2）合并文件需要RewriteDataFiles，资源消耗大；（3）HiveCatalog并发写入锁竞争。改进：（1）开启合并服务，按目标大小128MB定期Rewrite；（2）采用FlinkSQLIcebergSink，设置checkpoint触发commit，减少小文件；（3）使用HadoopCatalog替代HiveCatalog，避免锁；（4）引入Alluxio缓存Metadata，加速查询。7.计算题（共15分）7.1某Spark作业读取2TBSnappy压缩的Parquet文件，文件平均大小64MB，集群共100核，目标使每个任务处理时间约60s。已知Snappy解压后膨胀系数2，Parquet列剪枝后实际扫描数据为30%，单核读取速度200MB/s，估算合理分区数。（给出计算步骤）答案：实际扫描数据=2TB×2×30%=1.2TB=1228800MB单任务处理数据量≤200MB/s×60s=12000MB所需任务数≥1228800/12000≈103考虑并发核数100，取分区数=200（2倍核数）验证：1228800/200=6144MB<12000MB，满足最终答案：2008.综合分析题（共26分）8.1某省政务大数据平台汇聚公安、社保、交通三类数据，总量3PB，每日新增5TB，需支持多部门即席查询，平均QPS80，95%查询返回时间<3s。现有Hadoop3.x集群200节点，每节点32核128GB内存，12×8TBSATA盘。请完成以下任务：（1）给出存储层、计算层、调度层的技术选型与部署模式；（2）设计分层数据模型（ODS、DWD、DWS、ADS），并说明分区策略；（3）评估现有硬件瓶颈，提出扩容或优化方案；（4）列举安全合规措施（脱敏、加密、审计）。答案：（1）存储：HDFS+Iceberg，采用RS631024k，节省空间30%；计算：PrestoonYARN，动态资源池，最大并发查询60；调度：YARN容量调度，分政府、公安、社保、交通四队列，最小资源保证30%。（2）ODS：原始增量分区，dt+hour；DWD：按业务域+主键hash分区，采用Iceberg隐藏分区；DWS：按部门主题+年月分区，预聚合宽表；ADS：ClickHouse物化视图，按部门+指标+日分区。（3）瓶颈：CPU利用率低，内存不足导致Prestospill严重；网络千兆，跨节点扫描延迟高。优化：节点扩容至300，内存升级到256GB，网卡升级25GbE；引入Alluxio缓存热分区20%，减少IO40%。（4）脱敏：KMS+AES256列级加密，动态脱敏UDF身份证号、手机号；审计：Ranger记录select/insert日志，保存180天；传输：TLS1.3双向认证；分级：敏感数据单独VPC，堡垒机运维。9.编程题（共20分）9.1使用FlinkSQL实现实时订单风控，需求：输入Kafkatopic:order_log(json字段:order_id,user_id,amount,pay_time)规则：同一用户10分钟内连续下单金额之和>5000则输出告警。要求：（1）给出DDL建表语句；（2）写出FlinkSQL持续查询语句；（3）说明状态保留策略。答案：（1）CREATE

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据技术专业技能考试试卷及答案

文档简介

温馨提示

最新文档

评论

2025年大数据技术专业技能考试试卷及答案

文档简介

温馨提示

最新文档

评论

相关文档