2025继续教育公需科目大数据技术及应用试题及答案

上传人：1*** IP属地：四川上传时间：2026-01-23 格式：DOCX 页数：22 大小：32.76KB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025继续教育公需科目大数据技术及应用试题及答案一、单项选择题（每题1分，共20分。每题只有一个正确答案，错选、多选均不得分）1.在Hadoop生态中，负责集群资源管理与任务调度的核心组件是A.HDFS B.YARN C.MapReduce D.Hive答案：B解析：YARN（YetAnotherResourceNegotiator）将资源管理与计算框架解耦，成为Hadoop2.x后统一的资源调度层，HDFS仅负责存储，MapReduce是计算框架，Hive是数据仓库工具。2.下列哪种存储格式最适合支持“列裁剪”与“谓词下推”，从而显著提升OLAP查询性能A.TextFile B.SequenceFile C.ORC D.JSON答案：C解析：ORC（OptimizedRowColumnar）在文件脚注中记录列统计信息，支持列裁剪与谓词下推，TextFile与JSON无列级索引，SequenceFile为行式且不支持压缩下推。3.SparkCore中，下列哪一项不是RDD的五大特征之一A.可分区 B.可序列化 C.可容错 D.可伸缩答案：D解析：RDD特征为：可分区、可序列化、可容错、位置感知、不可变；可伸缩是集群属性，非RDD自身特征。4.在Flink的时间语义中，用于处理“事件到达顺序与发生顺序不一致”的最佳时间属性是A.处理时间 B.摄入时间 C.事件时间 D.系统时间答案：C解析：事件时间（EventTime）基于数据自带的时间戳，结合Watermark机制可解决乱序与延迟问题，处理时间易受系统负载影响，摄入时间仅保证进入系统时的顺序。5.某电商公司使用Kafka记录用户点击流，若要保证“全局业务维度上的绝对有序”，最合理的分区策略是A.随机分区 B.按userId哈希分区 C.按商品类别分区 D.单分区答案：D解析：Kafka仅保证分区内有序，若要全局有序，只能使用单分区；哈希分区只能保证同一键有序，无法跨键全局有序。6.在HBase中，用于实现“多版本并发控制”的核心数据结构是A.MemStore B.HFile C.WAL D.LSMTree答案：D解析：HBase基于LSMTree（LogStructuredMergeTree）实现写入缓冲、合并与多版本存储，MemStore是内存组件，HFile是持久化文件，WAL仅保证写前日志。7.下列关于数据湖与数据仓库的对比，错误的是A.数据湖采用“读时模式” B.数据仓库强调“写时模式”C.数据湖仅支持结构化数据 D.数据仓库通常基于SchemaonWrite答案：C解析：数据湖支持结构化、半结构化与非结构化数据，SchemaonRead是其核心特征，C选项表述片面。8.在SparkSQL中，使用DataFrameAPI执行join时，默认的shuffle分区数由哪个参数决定A.spark.sql.shuffle.partitions B.spark.default.parallelismC.spark.executor.cores D.spark.sql.adaptive.enabled答案：A解析：spark.sql.shuffle.partitions默认200，直接控制join、groupBy等宽依赖算子的reduce端并行度；default.parallelism仅影响RDD默认并行度。9.某市政府构建城市大脑，需要实时聚合全市交通卡口过车记录，峰值每秒500万条，平均延迟要求<2s，最合适的流计算框架是A.Storm B.SparkStreaming C.Flink D.Flume答案：C解析：Flink基于纯流式引擎，支持高吞吐、低延迟与ExactlyOnce语义，SparkStreaming微批模式在秒级延迟下吞吐受限，Storm已逐步淘汰，Flume仅为采集工具。10.在数据治理体系中，用于量化“数据被正确记录的程度”的指标是A.一致性 B.完整性 C.准确性 D.及时性答案：C解析：准确性（Accuracy）衡量数据与真实世界的一致程度；完整性关注缺失值，一致性关注跨系统相同含义数据是否相等，及时性关注时效。11.使用Hive3.x时，若想利用LLAP（LowLatencyAnalyticalProcessing）实现毫秒级交互查询，必须启用的守护进程是A.HiveServer2 B.TezAM C.LLAPDaemon D.NodeManager答案：C解析：LLAPDaemon缓存列数据与索引，并常驻YARN容器，避免每次启动JVM，TezAM仅负责计算拓扑，HiveServer2为接入层。12.在ClickHouse中，最适合高并发点查的表引擎是A.MergeTree B.SummingMergeTree C.ReplacingMergeTree D.Memory答案：D解析：Memory引擎数据全驻内存，支持高并发点查，但掉电即失；MergeTree系列侧重批量插入与合并，非点查最优。13.某金融公司使用Debezium采集MySQLbinlog至Kafka，下游Flink消费时发现“update”事件被拆成“before”与“after”两条记录，为保证语义一致，应启用Debezium的哪种模式A.snapshot B.upsert C.transaction D.extractoldstate答案：B解析：upsert模式将update合并为一条带旧值的记录，方便下游幂等写入；snapshot仅做全量快照，transaction模式已废弃。14.在数据安全分级中，根据《GB/T35273—2020》，个人生物识别信息属于A.一般个人信息 B.敏感个人信息 C.重要数据 D.核心数据答案：B解析：生物识别信息一旦泄露将直接危害人身与财产安全，被列为敏感个人信息，需加密存储与明示同意。15.使用Airflow调度ETL时，若任务T1、T2可并行，T3依赖T1与T2，T4仅依赖T3，下列DAG定义正确的是A.T3.set_upstream([T1,T2]) T4.set_upstream(T3)B.T1.set_downstream(T3) T2.set_downstream(T3) T3.set_downstream(T4)C.T3>>[T1,T2] T4>>T3D.chain(T1,T2,T3,T4)答案：B解析：set_downstream可显式声明依赖链，A顺序反了，C语法错误，Dchain会线性串联，无法并行。16.在DeltaLake中，用于实现“时间旅行”查询的核心机制是A.WAL日志 B.事务日志JSON文件 C.检查点 D.快照隔离答案：B解析：DeltaLake将每次commit写成JSON事务日志，记录AddFile/RemoveFile，通过版本号即可回溯历史快照。17.某企业采用Elasticsearch存放日志，检索条件为“status:500ANDresponse_time>1000”，为提高召回率，应优先调整A.分片数 C.刷新间隔 C.映射字段类型 D.查询分词器答案：C解析：若response_time被映射为text，则范围查询将被分词导致失效，改为integer/keyword即可准确匹配；分片与刷新间隔影响性能而非召回。18.在联邦学习场景下，参与方A与B采用同态加密梯度聚合，主要解决A.数据异构 B.通信开销 C.隐私泄露 D.模型漂移答案：C解析：同态加密可在密文域完成梯度求和，服务器无法获知明文梯度，防止隐私泄露；数据异构需迁移学习，通信开销需压缩，模型漂移需正则。19.使用Pythonpandas处理1TBCSV时，出现MemoryError，最优雅的替代方案是A.逐块读取chunk B.转换为HDF5 C.使用DaskDataFrame D.增加虚拟内存答案：C解析：Dask提供与pandas兼容的API，支持延迟计算与分布式调度，可横向扩展至集群；chunk需手动管理状态，HDF5需格式转换，增虚拟内存治标不治本。20.在数据资产目录中，为每个字段标记“是否包含个人信息”属于A.业务元数据 B.技术元数据 C.操作元数据 D.安全元数据答案：D解析：安全元数据描述数据的敏感级别、加密算法、脱敏规则等，业务元数据描述含义，技术元数据描述类型长度，操作元数据描述访问频次。二、多项选择题（每题2分，共20分。每题至少有两个正确答案，多选、漏选、错选均不得分）21.下列属于HDFS高可用（HA）架构中NameNode共享存储实现方式的有A.NFS B.QJM C.ZooKeeper D.SharedNothing答案：A、B解析：QJM（QuorumJournalManager）与NFS均可作为共享编辑日志介质，ZooKeeper负责故障切换仲裁而非存储，SharedNothing是分布式数据库概念。22.关于Spark的内存管理，以下说法正确的有A.统一内存区域由Storage与Execution共享B.用户代码中的对象占用的区域为UserMemoryC.ReservedMemory固定300MB，不可调D.堆外内存由spark.memory.offHeap.enabled控制答案：A、B、D解析：ReservedMemory在1.6之后为300MB固定，不可通过参数调，但可通过重新编译源码修改，故C错；其余均正确。23.下列哪些算法可用于检测数据漂移（DataDrift）A.KS检验 B.PSI C.ChiSquare D.DBSCAN答案：A、B、C解析：KS、PSI、卡方均可衡量分布差异，DBSCAN为密度聚类，用于异常点检测而非漂移。24.在Kafka中，以下配置组合可保证“幂等生产”且“跨会话ExactlyOnce”A.enable.idempotence=true B.acks=allC.transactional.id=tx D.retries=0答案：A、B、C解析：幂等需enable.idempotence与acks=all，事务需transactional.id，retries=0将关闭重试，违背幂等。25.使用TensorFlowFederated构建联邦平均算法时，客户端本地训练需返回A.本地模型权重 B.梯度增量 C.样本数量 D.损失值答案：A、C解析：服务器按样本数加权平均权重，需客户端返回本地权重与num_examples；梯度增量用于FedSGD，损失值可选。26.下列属于数据血缘（DataLineage）自动捕获技术的有A.SQL静态解析 B.运行时Hook C.日志正则匹配 D.机器学习推断答案：A、B、C解析：静态解析、Hook插桩、日志匹配均为业界常用手段，机器学习推断尚处研究阶段，准确率不足。27.关于ClickHouse的MergeTree索引，正确的有A.主键索引为稀疏索引 B.分区键可与排序键不同C.二级索引支持bitmap D.支持事务回滚答案：A、B、C解析：MergeTree主键每8192行存一条索引，为稀疏；分区键可独立定义；二级索引支持set、bitmap、bloom_filter；不支持事务回滚。28.在数据脱敏技术中，属于“可逆加密”方案的有A.格式保持加密（FPE） B.哈希加盐 C.对称AES D.RSA答案：A、C、D解析：FPE、AES、RSA均可逆，哈希加盐不可逆。29.使用Airflow的TaskFlowAPI，下列装饰器功能正确的有A.@dag定义DAG B.@task定义任务 C.@monthly设置调度 D.@retry设置重试答案：A、B解析：@task（或@task.virtualenv）定义任务，@dag定义DAG；调度与重试通过参数设置，无@monthly、@retry装饰器。30.以下关于数据网格（DataMesh）四大原则的描述，正确的有A.领域所有权 B.数据即产品 C.自助数据平台 D.集中式治理答案：A、B、C解析：数据网格主张联邦式治理（FederatedGovernance），非集中式，D错。三、判断题（每题1分，共10分。正确打“√”，错误打“×”）31.HDFS的BlockSize一旦设定，后续可通过hdfsdfssetBlockSize命令在线修改已有文件块大小。答案：×解析：BlockSize属于文件写入时属性，已写入文件无法在线修改，需重新写入。32.Spark的RDD采用惰性求值，因此当调用action算子时，DAG才会被真正执行。答案：√33.Flink的Checkpoint屏障（Barrier）是插入到数据流中的特殊记录，与数据同序传输。答案：√34.Kafka的consumergroup再均衡（Rebalance）过程可以完全避免StoptheWorld，对业务零感知。答案：×解析：Rebalance会暂停拉取，导致短暂STW，无法完全避免。35.在数据仓库中，星型模型比雪花模型查询冗余度更高，因此性能一定更差。答案：×解析：星型模型通过冗余维度表减少关联，通常性能更好；雪花模型更规范，但需更多join。36.Elasticsearch默认使用TFIDF作为相关性评分算法，7.x后已切换为BM25。答案：√37.数据湖仅支持Parquet、ORC等列式格式，不支持行式JSON。答案：×解析：数据湖“SchemaonRead”理念支持任意格式，包括行式JSON、CSV、二进制等。38.联邦学习无需传输原始数据，因此天然满足GDPR数据出境限制。答案：√解析：仅传输加密梯度或模型参数，不传输个人原始数据，符合最小化原则。39.使用pandas的category类型可显著降低重复字符串的内存占用，并加速groupby操作。答案：√40.数据资产目录的成熟度模型中，Level5为“自治化”，由AI自动发现、自动修复数据质量问题。答案：√四、填空题（每空2分，共20分）41.在Hadoop3.x中，YARN的ResourceManager内部用于隔离用户资源的调度器有CapacityScheduler与________。答案：FairScheduler42.SparkSQL的Catalyst优化器核心步骤包括解析、________、优化与代码生成。答案：分析（Analysis）43.Flink实现端到端ExactlyOnce的两阶段提交协议需要外部系统支持________事务。答案：幂等或原子提交（答“可提交”亦可）44.数据治理框架DAMADMBOK将数据生命周期分为规划、________、使用、共享、归档、销毁六个阶段。答案：开发（或“开发/获取”）45.在ClickHouse中，用于快速过滤URL域名的函数是________。答案：domain()46.数据仓库的缓慢变化维（SCD）类型2通过新增行并标记________字段来记录历史。答案：时间戳或版本号47.使用Python进行特征缩放时，sklearn的StandardScaler基于________统计量做标准化。答案：均值与标准差48.在数据安全分类分级国标中，影响对象分为国家安全、公共利益、________、个人权益四类。答案：组织权益49.DeltaLake的________文件记录表版本的所有事务元数据。答案：_delta_log50.联邦学习中的“模型投毒”攻击通常通过上传恶意________来破坏全局模型。答案：梯度五、简答题（每题10分，共30分）51.描述HDFS写入流程中“Pipeline”机制，并说明其如何保障数据节点级容错。答案与解析：（1）客户端向NameNode申请新建文件，NN返回一个LocatedBlock，包含三个DataNode（默认副本数3）组成Pipeline。（2）客户端将数据按128MB切块，每块按64KBPacket流式发送给Pipeline第一个DN，DN1每收到一个Packet即转发给DN2，DN2再转发给DN3，形成链式Pipeline。（3）每个DN将Packet写入本地磁盘的同时，将校验和回传给上游，最终客户端收到DN1的ACK即视为写入成功。（4）若DN2宕机，DN1立即通知客户端与NN，NN重新分配新DN4，客户端从断点续传剩余Packet，已写入DN1的数据由DN1复制到DN4，保障副本数不降级。（5）流程完成，NN记录Block与DN映射，实现节点级容错。52.结合Lambda架构与Kappa架构的优缺点，说明“流批一体”架构如何在实际项目中落地。答案与解析：Lambda优点：离线层保证准确性，实时层保证低延迟，历史数据可重算；缺点：两

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025继续教育公需科目大数据技术及应用试题及答案

文档简介

温馨提示

最新文档

评论

2025继续教育公需科目大数据技术及应用试题及答案

文档简介

温馨提示

最新文档

评论

相关文档