2025年大数据技术与应用考试试题及答案

上传人：1*** IP属地：四川上传时间：2026-04-06 格式：DOCX 页数：19 大小：33.14KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据技术与应用考试试题及答案一、单项选择题（每题2分，共20分）1.在Hadoop生态中，负责将MapReduce作业调度到具体节点并监控执行进度的守护进程是A.NameNode B.ResourceManager C.NodeManager D.JobTracker答案：B解析：ResourceManager是YARN的核心组件，负责全局资源调度与作业生命周期管理；NodeManager管理单节点资源，NameNode仅负责HDFS元数据，JobTracker已被YARN取代。2.某电商公司使用SparkSQL对10TB用户行为日志做去重，最合理的去重算子是A.dropDuplicates() B.distinct() C.groupByKey().count() D.reduceByKey()答案：A解析：dropDuplicates()在DataSetAPI中采用基于哈希+排序的分布式去重，内存占用可控；distinct()需全量shuffle，groupByKey()会产生大量中间数据，reduceByKey()仅适用于键值对且语义不符。3.在Flink流处理中，当并行度为8、checkpoint间隔30s、端到端exactlyonce语义开启时，最可能引发反压的瓶颈是A.Source拉取Kafka速率过低 B.下游Sink写入MySQL延迟高 C.RocksDB状态后端磁盘故障 D.JobManagerGC时间过长答案：B解析：Sink端出现慢速外部系统会阻塞整个流水线，反压会逆向传播至Source；RocksDB故障会导致任务失败而非反压，GC过长影响调度但不会持续阻塞数据通道。4.某地市卫健委构建“健康码”数据湖，要求对1亿条14天轨迹做秒级即席查询，最合适的存储格式是A.ORC+ZSTD B.Parquet+SNAPPY C.DeltaLake+Parquet D.HBase+Phoenix答案：C解析：DeltaLake在Parquet基础上提供ACID、时间旅行与ZOrder索引，可秒级定位14天分区；HBase虽快但需预分区且不支持复杂列裁剪，ORC/Parquet纯列存无事务能力。5.使用Python调用阿里云MaxComputeSDK提交SQL任务时，必须设置的参数是A.endpoint B.access_key C.project D.quota答案：C解析：project是MaxCompute的顶层命名空间，endpoint/access_key可全局配置，quota为可选资源队列。6.在ClickHouse中，对一张MergeTree表执行ALTERUPDATE操作后，新版本数据写入A.新分区目录 B.原地替换旧文件 C.生成mutation文件异步合并 D.临时表再rename答案：C解析：ClickHouse采用异步mutation机制，UPDATE会生成mutation系统记录，后台线程按分区合并；不会立即重写，避免阻塞写入。7.某金融风控模型采用XGBoostonSpark，训练集正负样本1:99，以下采样策略最合理的是A.随机欠采样多数类至1:5 B.SMOTE过采样少数类至1:1 C.集成欠采样+代价敏感学习 D.直接加权不采样答案：C解析：金融场景需保留原始分布信息，集成欠采样（如BalanceCascade）结合代价敏感学习（scale_pos_weight）可兼顾召回与精准率；SMOTE在高维稀疏数据易生成噪声。8.在AWS云环境中，将KinesisDataStreams的实时数据以最小延迟接入S3，应选用A.KinesisDataFirehose B.Lambda触发写入 C.SparkStreaming直连 D.FlinkonEMR答案：A解析：Firehose提供<60s内置压缩、格式转换、S3批量写入，零代码运维；Lambda有5分钟超时限制，Spark/Flink需自行管理checkpoint。9.某企业基于DataX实现MySQL到Hive离线同步，对超大表（>5亿行）最优化切分方式是A.按自增id均匀切分 B.按时间字段+二级索引 C.按主键范围+数据采样估算 D.采用DataX限速不切片答案：C解析：主键范围切分可避免热点，采样估算行数使切片大小均衡；时间字段若无索引会导致全表扫描，均匀切分可能跨越多个数据文件。10.在Kubernetes上运行Presto集群，为防止CoordinatorOOM，需首要调整A.query.maxmemorypernode B.query.maxtotalmemory C.coordinatorJVMXmx D.task.concurrency答案：C解析：Coordinator不参与计算但需缓存元数据、查询计划，JVM堆不足直接OOM；query级参数限制任务内存，无法解决Coordinator自身堆压力。二、多项选择题（每题3分，共15分，多选少选均不得分）11.关于数据仓库分层，以下属于DWD层职责的有A.维度退化 B.统一命名规范 C.业务过程原子事实 D.维度建模冗余宽表 E.轻度汇总答案：A、B、C解析：DWD层保持原子粒度，进行数据清洗、维度退化、命名统一；冗余宽表与汇总属于DWS/ADS层。12.在Kafka2.8版本无Zookeeper模式下，下列组件或功能仍然依赖KRaftController的有A.分区leader选举 B.生产者幂等性 C.消费者组再均衡 D.topic删除 E.日志段压缩策略答案：A、D解析：KRaftController接管元数据，leader选举与topic删除需其持久化元数据；幂等性由broker端序列号保证，再均衡由groupcoordinator负责，压缩策略为broker本地任务。13.使用Elasticsearch8.x构建日志检索平台，可提升写入吞吐的配置包括A.增大refresh_interval B.关闭副本分片 C.采用datastream D.使用bulk线程池 E.开启index.translog.durability:async答案：A、B、D、E解析：关闭副本、增大刷新间隔、异步translog均降低磁盘IO；datastream为语法糖，不直接提升吞吐。14.以下属于数据血缘元数据标准OpenLineage支持的作业类型有A.SparkSQL B.dbt C.AirflowDAG D.FlinkDataStream E.GreatExpectations答案：A、B、C、D解析：OpenLineage已提供Spark、Flink、Airflow、dbt集成；GreatExpectations为数据质量工具，需额外适配器。15.某互联网APP采用Lambda架构，实时层用Flink，批处理层用Spark，合并层用HBase，合并层需保证A.幂等写 B.版本号字段 C.原子checkAndPut D.预分区策略 E.列族压缩答案：A、B、C、D解析：合并层需处理重复结果，幂等+版本号可覆盖旧值；checkAndPut防止竞态；预分区避免热点；列族压缩为存储优化，非合并层必选项。三、判断题（每题1分，共10分，正确打“√”，错误打“×”）16.在Hive3.0中，事务表必须分桶且文件格式为ORC。答案：√解析：Hive3.0事务机制依赖ORC的acidversion字段与分桶文件级写时复制。17.SparkStructuredStreaming的ForeachSink保证每条记录仅被处理一次，因此无需额外幂等逻辑。答案：×解析：ForeachSink无内置幂等，失败重试可能重复调用，需用户自定义幂等或事务机制。18.在Snowflake中，通过增加VirtualWarehouse的cluster数可线性提升并发查询性能。答案：√解析：Snowflake采用多集群共享存储，增加cluster可横向扩展并发，无需数据重分布。19.Hudi的COW表在更新时一定会产生basefile的新版本，因此读放大高于MOR表。答案：√解析：COW每次更新复制整个文件，读放大低但写放大高；MOR将更新写入log文件，读时合并，读放大高。20.使用PostgreSQLlogicalreplicationslot时，删除slot前必须先停止所有订阅端。答案：√解析：slot记录主库WAL位置，若未停止订阅直接删除slot，主库可能提前回收WAL导致订阅端无法继续。21.在ClickHouse中，使用Distributed表引擎写入数据时，会先在本地写临时文件再异步分发到分片，因此写入性能低于直接写本地表。答案：√解析：Distributed引擎需额外网络开销与本地缓存，性能低于直连本地表，但提供透明分片。22.数据治理中的“主数据管理”仅关注主数据质量，而不涉及主数据共享与授权。答案：×解析：主数据管理包括识别、清洗、合并、共享、授权、生命周期等全链路治理。23.在Python中，pandas.read_csv()指定dtype={'id':'Int64'}可避免将缺失值读为浮点NaN。答案：√解析：'Int64'为pandas可空扩展类型，支持缺失值且保持整数语义。24.使用Airflow时，若任务实例状态为“up_for_retry”，则下次重试时间由retry_delay与exponential_backoff共同决定。答案：√解析：retry_delay为基础间隔，exponential_backoff开启后按2^(n1)delay递增。25.在Kerberos认证体系中，ServicePrincipal的格式必须为“service/hostname@REALM”。答案：√解析：Kerberos标准约定，服务主体包含服务名、全小写FQDN与领域，便于KDC解析密钥表。四、填空题（每空2分，共20分）26.在HDFSFederation架构中，NameNode之间相互________，通过________共享数据块映射。答案：独立、BlockPool解析：每个NameNode管理独立的命名空间与BlockPool，DataNode向所有NN注册，实现横向扩展。27.Flink的Checkpoint屏障由________注入，当算子收到屏障后会触发________快照。答案：Source、异步解析：Source在数据流中插入屏障，算子异步快照状态并继续处理数据，实现ChandyLamport算法。28.在Hive中，设置“hive.exec.dynamic.partition.mode=________”可避免动态分区插入时因无静态分区列而报错。答案：nonstrict解析：strict模式要求至少一列为静态分区，nonstrict允许全动态。29.使用SparkMLlib训练GBDT模型时，可通过调整参数________控制树的最大深度，防止________。答案：maxDepth、过拟合解析：深度越大模型越复杂，交叉验证选择最优深度。30.在Kafka中，消费者组再均衡协议从“Eager”升级为“________”，实现________分区分配，减少STW。答案：Cooperative、增量解析：Cooperative协议允许消费者先释放部分分区，再分配新分区，避免全局暂停。31.数据湖仓一体（LakeHouse）的三大核心技术是________、________和________。答案：元数据层、事务日志、缓存加速解析：如DeltaLake、Iceberg、Hudi均提供元数据+事务+缓存，实现ACID与高性能。32.在Prometheus监控体系中，指标类型________用于记录数值随时间增加且可重启归零的计数器。答案：Counter解析：Counter只增不减，服务重启归零，适合请求总量。33.使用TensorFlowDataService时，通过设置“processing_mode=________”可实现动态数据分发给训练workers，提升________利用率。答案：distributed_epoch、GPU解析：distributed_epoch模式让worker按需拉取，避免数据重复，提高GPU饱和率。34.在数据安全分级中，GDPR将能直接或间接识别自然人的数据称为________数据，处理该数据需具备________法律依据。答案：个人、合法解析：Article4定义个人数据，Article6列出六种合法基础，如同意、合同、法定义务等。35.某企业采用DataMesh架构，将“订单域”数据产品发布到________注册表，消费者通过________方式获取数据。答案：数据、自服务解析：DataMesh强调域所有权与自服务，注册表提供发现与契约。五、简答题（每题10分，共30分）36.描述一次SparkSQL查询在Catalyst优化器中的完整转换流程，并指出在何种情况下会触发BHJ（BroadcastHashJoin）提示失效。答案：1)解析：Antlr4生成UnresolvedLogicalPlan；2)分析：Catalog解析表/列，生成LogicalPlan；3)逻辑优化：谓词下推、列裁剪、常量折叠、谓词合并等规则批(RuleBatch)迭代；4)生成物理计划：根据统计信息选择Join策略（BHJ、SMJ、SHJ）、生成WholeStageCodegen；5)提交执行：生成RDDDAG，由DAGScheduler转为Stage，TaskScheduler分发。失效场景：a)被广播表超过spark.sql.autoBroadcastJoinThreshold（默认10MB）且未强制hint；b)存在sortmergehint或shufflehashhint且统计信息缺失；c)AQE开启后运行时统计发现大表实际大小超限，自动回退SMJ；d)被广播表为子查询且含非确定性表达式，优化器无法估算大小。37.某短视频公司使用FlinkCEP检测“用户5分钟内连续点赞同一视频≥10次”的刷赞行为，请写出核心Pattern定义，并说明如何防止事件时间乱序导致的漏匹配。答案：Pattern<UserEvent,?>pattern=Pattern.<UserEvent>begin("start").where(newSimpleCondition<UserEvent>(){@Overridepublicbooleanfilter(UserEvente){returne.getType()==LIKE;}}).timesOrMore(10).within(Time.minutes(5)).consecutive();//严格连续防乱序：1)设置allowedLateness=1min，对迟到元素重触发窗口；2)使用sideOutputLateData收集超迟数据，异步写入Kafka延迟队列，由另一作业补偿匹配；3)在CEP.patternStream中指定EventTimeComparator，按业务时间戳升序；4)增大Flinkwatermark生成间隔与idleness检测，防止kafka分区空闲导致watermark不推进。38.说明在多云环境下，如何利用ApacheIceberg实现跨云数据共享与权限隔离，并给出最小权限的IAM策略示例（以AWS与阿里云为例）。答案：1)存储：使用S3兼容对象存储（如AWSS3与阿里云OSS），通过Iceberg的FileIO接口注册跨云catalog；2)元数据：将Icebergcatalog表元数据（metadata.json）存放于独立云原生RDSPostgreSQL，通过PrivateLink/高速通道实现多云VPC互通；3)权限：AWS侧：{"Version":"20121017","Statement":[{"Effect":"Allow","Action":["s3:GetObject","s3:PutObject","s3:DeleteObject"],"Resource":["arn:aws:s3:::sharediceberg/data/","arn:aws:s3:::sharediceberg/metadata/"]}]}阿里云侧：{"Statement":[{"Effect":"Allow","Action":["oss:GetObject","oss:PutObject","oss:DeleteObject"],"Resource":["acs:oss:::sharediceberg/data/","acs:oss:::sharediceberg/metadata/"]}]}4)网络：通过云企业网CEN与AWSTransitGateway建立IPSecVPN，仅开放443与5432端口；5)审计：启用CloudTrail与操作审计，将日志统一投递到共享的Loki日志湖，实现跨云审计。六、综合设计题（25分）39.某头部电商平台计划构建实时智能补货系统，业务需求如下：a)实时接入订单流、库存流、物流延迟流，秒级更新城市仓安全库存；b)历史18个月数据需支持即席多维分析，如“618大促期间华东地区SKU缺货率”；c)预测模型每日离线训练，特征需包含近7天滑动窗口统计；d)系统需符合等保三级，敏感字段如供应商电话需加密存储与脱敏查询；e)预算约束：峰值QPS8万，存储≤2PB，年度云成本≤500万元。请给出整体技术架构图（文字描述），说明各层组件选型理由，数据流向，关键表结构，以及成本优化策略。答案：1)架构：Source→Kafka→Flink→Doris→BI；Source→Kafka→SparkStreaming→FeatureStore→OfflineTraining→Model→FlinkUDF；Kafka→KafkaConnect→IcebergonOSS→Presto→Adhoc；MySQLBinlog→Maxwell→Kafka→FlinkCDC→Iceberg→HiveMetastore。2)组件选型：Kafka：支持8万QPS，单分区峰值5MB/s，按100分区×3副本部署；Flink：提供exactlyonce，状态用RocksDB+OSS增量checkpoint，单作业并行度400；Doris：MPP引擎，支持高并发点查与亚秒级聚合，3FE+15BE混部Kubernetes；Iceberg：开源、支持ACID、隐藏分区、ZOrder，避免小文件；Presto：跨源查询，支持Ic

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据技术与应用考试试题及答案

文档简介

温馨提示

最新文档

评论

2025年大数据技术与应用考试试题及答案

文档简介

温馨提示

最新文档

评论

相关文档