2025年继续教育公需科目大数据技术及应用题库及答案

上传人：1*** IP属地：四川上传时间：2026-01-24 格式：DOCX 页数：19 大小：31.16KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年继续教育公需科目大数据技术及应用题库及答案单选题（每题1分，共30分。每题只有一个正确答案，请将正确选项字母填入括号）1.在HDFS中，负责保存文件块与DataNode映射关系的核心数据结构是（）A.FsImage B.EditLog C.BlockReport D.Namespace2.下列哪一项不是Kafka的核心组件（）A.Producer B.Broker C.ZooKeeper D.NameNode3.SparkRDD的默认分区数由哪个参数决定（）A.spark.default.parallelism B.spark.sql.shuffle.partitions C.spark.cores.max D.spark.executor.instances4.在Flink中，用于实现端到端exactlyonce语义的关键机制是（）A.Checkpoint B.Savepoint C.Window D.Slot5.若某HBase表预分区数为16，RowKey采用“hash(prefix)+timestamp”策略，则理论上数据均匀分布时每个Region约占总数据量的（）A.6.25% B.12.5% C.25% D.50%6.下列关于Parquet文件格式的描述，错误的是（）A.列式存储 B.支持嵌套数据模型 C.与Avro无缝集成 D.不支持谓词下推7.在Hive中，执行“SELECTFROMTCLUSTERBYcol”语句时，底层会触发（）A.仅Map任务 B.Map+Reduce任务 C.仅Reduce任务 D.本地任务8.使用ScalaAPI创建SparkDataFrame时，下列代码正确的是（）A.spark.read.json(“hdfs://path”) B.spark.json(“hdfs://path”) C.spark.load.json(“hdfs://path”) D.spark.read.format(“json”).load(“hdfs://path”)9.在Elasticsearch8.x中，默认取消使用的传输协议是（）A.HTTP B.TCP C.TransportClient D.RESTful10.某电商公司使用FlinkCEP检测“用户连续30秒内浏览商品≥5次且未下单”事件，应选择的模式量化词是（）A.times(5) B.timesOrMore(5).within(Time.seconds(30)) C.oneOrMore.within(30) D.times(5).followedBy(“unpaid”).within(30)11.在YARN容量调度器中，支持动态占用空闲资源的特性称为（）A.Preemption B.ElasticQueue C.DynamicShare D.AutoQueue12.下列关于数据湖Iceberg的ACID特性，错误的是（）A.支持行级更新 B.基于乐观并发控制 C.依赖HiveMetastore D.支持时间旅行查询13.若某Spark任务提交参数为executormemory4gexecutorcores2，则单个executor最多可同时运行的task数为（）A.1 B.2 C.4 D.814.在ClickHouse中，最适合做高基数去重的聚合函数是（）A.uniq B.uniqCombined C.uniqExact D.uniqHLL1215.使用Pythonpandas读取1GBCSV文件时，为降低内存占用，推荐使用的参数是（）A.dtype=str B.usecols C.chunksize D.nrows16.在Kafka2.8之后，可替代ZooKeeper的共识协议名称是（）A.KRaft B.Raft C.Zab D.Paxos17.某Hadoop集群副本因子为3，DataNodeA宕机30分钟后恢复，期间未发生数据写入，则触发的主要机制是（）A.BlockReplication B.Rebalancing C.BlockReport D.Heartbeat18.在SparkSQL中，将一列拆分为多行应使用的内建函数是（）A.split B.explode C.posexplode D.inline19.下列关于数据治理框架ApacheAtlas的描述，正确的是（）A.仅支持Hive血缘 B.使用MySQL存储元数据 C.提供RESTAPI D.不支持标签策略20.在Prometheus监控体系中，用于聚合5分钟平均请求速率的函数表达式为（）A.rate(http_requests_total[5m]) B.irate(http_requests_total[5m]) C.increase(http_requests_total[5m]) D.avg_over_time(http_requests_total[5m])21.某Flink任务并行度为6，Kafkatopic分区数为8，则消费端Subtask数为（）A.6 B.8 C.48 D.222.在HBase过滤器中，用于匹配RowKey前缀的过滤器类是（）A.SingleColumnValueFilter B.PrefixFilter C.RowFilter D.QualifierFilter23.下列关于DeltaLake“OPTIMIZE”命令的描述，正确的是（）A.仅合并小文件 B.触发全量重写 C.自动更新统计信息 D.会删除历史版本24.在SparkStructuredStreaming中，输出模式“update”的含义是（）A.每次输出全量结果表 B.仅输出与上次触发相比变化的行 C.仅输出新增行 D.不支持聚合查询25.使用TensorFlowOnSpark训练模型时，负责在YARN上申请资源的模块是（）A.TFNode B.SparkContext C.TensorFlow D.ClusterSpec26.在数据仓库分层理论中，DWD层主要完成（）A.原始数据保留 B.明细数据清洗 C.维度建模 D.指标汇总27.某企业采用Lambda架构，其SpeedLayer主要使用（）A.Hive B.SparkStreaming C.PostgreSQL D.HDFS28.在Snowflake弹性数据仓库中，负责查询优化的服务层称为（）A.CloudServices B.QueryAccelerator C.OptimizerEngine D.MetadataStore29.下列关于GDPR“被遗忘权”的技术实现，最合理的是（）A.物理删除所有副本 B.使用加密并销毁密钥 C.标记删除并定期重写 D.关闭集群30.在DataX离线同步任务中，控制并发channel数的参数是（）A.job.setting.speed.channel B.job.setting.speed.byte C.job.content.reader.parameter.channel D.job.content.writer.parameter.channel多选题（每题2分，共20分。每题至少有两个正确答案，多选少选均不得分）31.下列属于Flink状态后端的有（）A.MemoryStateBackend B.FsStateBackend C.RocksDBStateBackend D.HDFSStateBackend32.以下哪些操作会导致SparkDAG出现宽依赖（）A.groupByKey B.reduceByKey C.distinct D.map33.在HBase中，可用于提升顺序扫描性能的优化手段包括（）A.设置BloomFilter为ROWCOL B.关闭BlockCache C.启用压缩 D.设置TTL34.关于KafkaConsumerRebalance协议，下列说法正确的有（）A.高版本使用Cooperative粘性协议 B.触发条件包括分区数变化 C.会导致消费暂停 D.可通过partition.assignment.strategy配置35.下列属于数据质量维度指标的有（）A.准确性 B.一致性 C.及时性 D.可扩展性36.在ClickHouse中，支持作为ReplacingMergeTree引擎参数的有（）A.ver B.deleted C.partitionby D.orderby37.以下哪些属于SparkSQL提供的内建开窗函数（）A.row_number B.rank C.lag D.concat_ws38.在数据湖架构中，支持SchemaEvolution的存储格式有（）A.Avro B.Parquet C.ORC D.JSON39.使用Airflow调度ETL时，可触发DAG运行的方式包括（）A.CLI B.RESTAPI C.时间调度 D.消息队列40.下列关于华为MRS流式湖仓一体解决方案的描述，正确的有（）A.支持Hudi B.内置HetuEngine C.使用YARN统一资源 D.提供FlinkSQL作业模板填空题（每空1分，共20分）41.在Spark中，RDD的五大特征分别为____、____、____、____、____。42.HDFS默认块大小为____MB，若副本因子为3，则每个块最多存储在____个DataNode。43.Kafka消息保留策略可通过参数____和____共同控制。44.Flink的Checkpoint屏障算法称为____算法。45.在Hive中，将字符串“2025062012:30:45”转换为时间戳的函数为____。46.Elasticsearch集群健康状态三种颜色分别为____、____、____。47.数据治理中，用于唯一标识主数据的编码称为____。48.在Pythonpandas中，对DataFramedf按列col降序排序并取前10行的代码为____。49.使用Linux命令统计HDFS目录“/user/hive/warehouse/t”下文件总大小的命令为____。50.在YARN中，ApplicationMaster向ResourceManager申请资源的RPC协议接口为____。51.若某Parquet文件压缩比为5:1，原始CSV大小为100GB，则理论上Parquet大小为____GB。52.在SparkMLlib中，特征向量assembler类名为____。53.HBaseRegion分裂的触发条件之一为StoreFile大小超过____。54.在FlinkSQL中，声明一个持续5秒的滚动窗口语法为____。55.数据血缘的三种基本类型为____、____、____。56.使用Grafana添加Prometheus数据源时，默认访问路径为____。57.在DeltaLake中，查看表历史版本的SQL命令为____。58.若ClickHouse单节点MergeTree表每日新增10亿行，平均行大小64B，则每日新增存储约____GB。59.在数据安全分级中，CC标准EAL4级对应____保障级别。60.使用Sqoop将MySQL表导入HDFS时，指定并行度为4的参数为____。判断题（每题1分，共10分。正确打“√”，错误打“×”）61.SparkSQL的catalyst优化器支持基于代价的优化。（）62.HBase中删除数据会立即释放磁盘空间。（）63.Kafka的partition副本因子可以动态调大。（）64.Flink的keyBy操作一定产生网络shuffle。（）65.Parquet文件不支持列级压缩算法不同。（）66.在Hive3.0之后，已废弃MapReduce执行引擎。（）67.Elasticsearch集群增加节点后，分片会自动再平衡。（）68.使用DataX进行异构同步时，reader和writer必须一一对应。（）69.在YARN公平调度器中，可设置最小资源保证。（）70.数据湖与数据仓库的本质区别在于是否支持结构化数据。（）简答题（共30分）71.（封闭型，6分）简述Spark广播变量的实现原理，并说明使用场景。72.（封闭型，6分）列举Flink实现端到端exactlyonce语义的三要素，并简要说明各自作用。73.（开放型，8分）某省政务大数据平台需整合公安、社保、税务三部门数据，存在数据标准不一、更新频率不同、敏感字段混杂等问题，请给出数据治理实施步骤及技术选型建议。74.（封闭型，5分）写出HDFS写数据完整流程，并指出packet默认大小。75.（开放型，5分）说明ClickHouse为何在OLAP场景下性能优异，至少从存储和计算两方面分析。应用题（共40分）76.（计算类，10分）某电商公司使用SparkSQL统计每日GMV，事实表order_detail（分区dt，字段order_id,sku_id,price,qty,discount）记录约20亿条，平均行大小80B；维度表sku_info（字段sku_id,category）记录500万条，平均行大小200B。集群executor总内存200GB，executor数50，每个executor4cores。请计算：（1）仅考虑内存，估算广播join阈值上限（MB）；（2）若采用shufflejoin，估算shuffleread总数据量（GB）；（3）指出优化思路并给出代码片段（使用Scala或SQL）。77.（分析类，10分）给定Kafkatopic：user_behavior，分区10，日均消息1000万条，峰值QPS2万，消息平均大小2KB。消费者采用Flink，checkpoint间隔30秒，状态后端RocksDB，状态大小约8GB。请分析：（1）评估Kafka集群最小broker数（假设单broker写入吞吐150MB/s）；（2）若Flink任务并行度为12，计算checkpoint对Kafkabroker的额外读负载（MB/s）；（3）给出降低checkpoint耗时的配置参数。78.（综合类，20分）某市智慧交通项目需实时统计各路口最近5分钟车流量，要求延迟≤1分钟，历史数据保存3年，日均增量100GB。数据源为路口摄像头抓拍的JSON日志（字段：crossing_id,camera_no,plate_no,pass_time,lane_no,vehicle_type），需完成去重（同一车牌10分钟内重复经过不计），并支持按车道、车型、时段多维分析。请完成：（1）画出技术架构图（文字描述即可）；（2）给出Flink核心代码（Java/Scala均可），包括数据清洗、去重逻辑、窗口计算；（3）说明存储选型及分区策略；（4）给出基于Superset的可视化配置要点；（5）说明如何验证数据质量，列举三项指标及检测方法。答案单选：1C2D3A4A5A6D7B8D9C10B11B12C13B14C15C16A17C18B19C20A21A22B23C24B25A26B27B28A29C30A多选：31ABC32ABC33BC34ABCD35ABC36AD37ABC38ABC39ABCD40ABCD填空：41.分区、不可变、可并行、容错、位置感知42.128；343.log.retention.hours；log.retention.bytes44.ChandyLamport45.unix_timestamp46.green；yellow；red47.主数据编码（或MDM编码）48.df.sort_values(“col”,ascending=False).head(10)49.hdfsdfsdush/user/hive/warehouse/t50.ApplicationMasterProtocol51.2052.VectorAssembler53.hbase.hregion.max.filesize（默认10GB）54.TUMBLE(ts,INTERVAL‘5’SECOND)55.前向血缘；后向血缘；横向血缘56.http://prometheus:909057.DESCRIBEHISTORYtable_name58.6459.系统级60.m4判断：61√62×63√64√65×66×67√68×69√70×简答要点：71.Driver将广播变量序列化后切分block，通过TorrentBroadcast块管理器分发到executor，task运行时本地读取；适用于小表join、机器学习特征字典等。72.1.Checkpoint：分布式快照；2.Twophasecommit：外部系统原子提交；3.可重放数据源：如Kafka。73.步骤：1.组织牵头成立治理委员会；2.制定统一数据标准（命名、编码、口径）；3.技术选

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年继续教育公需科目大数据技术及应用题库及答案

文档简介

温馨提示

最新文档

评论

2025年继续教育公需科目大数据技术及应用题库及答案

文档简介

温馨提示

最新文档

评论

相关文档