2025继续教育公需科目大数据技术及应用试题及答案

上传人：1*** IP属地：四川上传时间：2025-11-06 格式：DOCX 页数：19 大小：33KB 积分：9.6 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025继续教育公需科目大数据技术及应用试题及答案一、单项选择题（每题2分，共20分）1.在Hadoop生态中，负责资源管理与任务调度的核心组件是A.Hive B.HDFS C.YARN D.Flume答案：C解析：YARN（YetAnotherResourceNegotiator）是Hadoop2.x之后引入的资源管理层，负责集群资源分配与任务生命周期管理，MapReduce、Spark等计算框架均可跑在YARN之上。2.下列哪项技术最适合实现毫秒级复杂事件处理（CEP）A.SparkStreaming B.Flink C.Sqoop D.Oozie答案：B解析：Flink采用truestreaming架构，事件逐条处理，内置CEP库，支持模式匹配、窗口、状态管理，延迟可压到毫秒级；SparkStreaming为微批，延迟通常在百毫秒级。3.在数据湖架构中，常被用来保存原始日志并支持schema-on-read的存储格式是A.ORC B.Parquet C.Avro D.DeltaLake答案：C解析：Avro采用行式存储+自描述schema，适合写密集、追加型日志；Parquet/ORC为列式，适合读优化；DeltaLake是事务层而非原始格式。4.某电商公司用Kafka做用户行为埋点，topic分区数为12，消费组内有6个实例，理论上最大并行度为A.2 B.6 C.12 D.72答案：C解析：Kafkaconsumergroup中，一个分区只能被组内一个实例消费，故并行度上限=min(分区数，实例数)=12。5.在SparkSQL中对两张千万级表做join，最易产生数据倾斜的key特征为A.唯一UUID B.连续自增ID C.空值占比高 D.均匀哈希答案：C解析：空值或热点key会导致某一分区数据量暴增，形成长尾任务；UUID、哈希均匀、自增ID一般分布均衡。6.下列关于HDFS写入流程的描述，正确的是A.客户端直接写入所有DataNodeB.先写NameNode内存，再流式写入DataNode管道C.默认副本策略为“同一机架三副本”D.写入期间DataNode宕机则整文件丢失答案：B解析：客户端请求NameNode分配块与DataNode列表，建立pipeline顺序写入，默认副本策略为“本机架两副本+异机架一副本”，宕机触发块复制，不会整文件丢失。7.在数据治理元模型中，描述“数据从哪个系统、经过哪些转换、最终到哪张表”的概念是A.血缘 B.影响 C.质量 D.安全答案：A解析：数据血缘（DataLineage）记录端到端流转路径，支持溯源与影响分析。8.某市政府开放数据平台要求“个人敏感信息不可被逆向识别”，最佳脱敏技术是A.MD5 B.对称加密 C.k-匿名+L-Diversity D.Base64答案：C解析：k-匿名确保等价类至少k条记录，L-Diversity要求敏感属性多样性，防止背景知识攻击；哈希、加密可逆或易撞库，Base64无保密性。9.在ClickHouse中，最适合做高并发点查的引擎是A.MergeTree B.SummingMergeTree C.ReplacingMergeTree D.Memory答案：D解析：Memory引擎数据全驻内存，无磁盘IO，支持高并发低延迟点查，但掉电即失；MergeTree系列侧重批量插入与压缩。10.某企业采用DataMesh思想构建域数据产品，以下做法最符合该理念A.统一数据湖归集所有域数据B.各域自管数据，以API/事件形式共享C.由中央数仓团队统一建模D.所有分析走ETL到Oracle答案：B解析：DataMesh强调域所有权、自助平台、产品思维与联邦治理，域内数据即产品，通过标准化接口共享，减少中央瓶颈。二、多项选择题（每题3分，共15分）11.下列属于NoSQL数据库CAP权衡中“CP”系统的有A.HBase B.MongoDB C.etcd D.Cassandra答案：A、C解析：HBase基于HDFS，强一致；etcd使用Raft，保证一致；MongoDB默认最终一致；Cassandra可调但侧重AP。12.导致Spark作业频繁FullGC的原因可能包括A.缓存未序列化 B.并行度不足 C.大对象广播变量 D.shuffle文件过多答案：A、C解析：未序列化对象占heap，广播变量默认20MB阈值，大对象直接进入老年代，易触发FullGC；并行度与shuffle文件影响CPU与磁盘，不直接触发GC。13.关于数据仓库分层，以下说法正确的有A.ODS层保存原始增量数据B.DWD层做轻度汇总C.DWS层面向主题域建宽表D.ADS层可直接对接报表答案：A、C、D解析：DWD为明细清洗层，保持原子性；轻度汇总在DWS；ADS面向应用，支持报表、API。14.在Kafka中，以下参数可提升吞吐量的有A.batch.size B.linger.ms C.acks=1 D.compression.type=lz4答案：A、B、D解析：batch.size与linger.ms增加批大小；lz4压缩降低网络IO；acks=1降低延迟但吞吐不如acks=0。15.使用Hive3.x事务表实现行级更新，必须满足A.表格式为ORC B.开启ACID开关 C.设置分桶 D.设置事务管理器为DbTxnManager答案：A、B、D解析：Hive3.x事务表仅支持ORC，需sethive.txn.manager=DbTxnManager并开启ACID；分桶非必须，但可提升并发。三、判断题（每题1分，共10分）16.在Flink中，Checkpoint屏障是异步注入的，不会阻塞数据流。答案：√解析：屏障随数据流向下游，异步触发快照，非阻塞。17.HDFSNameNode的fsimage文件记录了所有块与DataNode的映射关系。答案：×解析：fsimage仅记录文件目录树及块ID，块与DataNode映射在内存中，由DataNode上报，持久化在blk_文件。18.Parquet格式支持嵌套数据类型，且列式存储压缩比高于ORC。答案：×解析：两者均支持嵌套；ORC引入stripeindex、字典、bit编码，压缩比通常优于Parquet。19.在数据治理中，数据质量规则一旦定义，生命周期应与业务变化同步迭代。答案：√解析：业务规则、源系统结构会演进，质量规则需持续Review。20.SparkMLlib的ALS算法默认采用隐式反馈模型。答案：×解析：ALS支持显式与隐式，默认显式；需显式设置implicitPrefs=true才启用隐式。21.使用RedisCluster时，单个键值对最大容量为1GB。答案：×解析：RedisString最大512MB，与集群无关。22.在ClickHouse中，ReplacingMergeTree可自动去重，但查询时仍需使用FINAL修饰符保证即时去重。答案：√解析：ReplacingMergeTree后台合并时才去重，查询不带FINAL可能返回重复。23.数据湖与数据仓库的融合架构被业界称为“Lakehouse”，其事务层通常依赖DeltaLake、Hudi或Iceberg。答案：√解析：三大开源格式均提供ACID、timetravel、upsert能力。24.在Pythonpandas中，对百万级数据做逐行apply比向量化计算更快。答案：×解析：逐行apply为Python层循环，效率远低于Cython级别的向量化。25.使用Airflow调度Spark作业时，为保证幂等性，可在任务失败时自动重跑并覆盖原输出路径。答案：√解析：幂等设计需覆盖写或采用分区版本，避免脏数据。四、填空题（每空2分，共20分）26.Hadoop3.xYARN默认容器内存上限由参数__________控制，单位为__________。答案：yarn.scheduler.maximum-allocation-mb，MB解析：该参数决定ResourceManager可分配的最大内存，需与NodeManager一致。27.在Spark中，RDD的__________函数用于生成窄依赖，而__________函数会引入宽依赖。答案：map，reduceByKey解析：map保持分区不变，窄依赖；reduceByKey需shuffle，宽依赖。28.Kafka消费者的位移可以提交到__________系统主题，也可以手动__________管理。答案：__consumer_offsets，自定义存储解析：新版本Kafka默认将位移写入__consumer_offsets，支持自定义。29.数据治理的“4Q”模型包括Quality、Quantity、__________、__________。答案：Query，Quicken解析：Query代表可理解性，Quicken代表获取效率。30.在Hive中，将字符串“2025-06-3014:23:45”转为时间戳的函数为__________，再转回字符串的函数为__________。答案：unix_timestamp，from_unixtime解析：unix_timestamp返回秒级时间戳，from_unixtime可指定格式。31.FlinkCEP的模式序列中，__________关键词表示“紧随其后”，而__________表示“非紧邻后续”。答案：next，followedBy解析：next严格连续，followedBy允许中间有其他事件。32.在PostgreSQL中，实现行级安全的机制简称__________，通过__________表达式过滤可见行。答案：RLS，policy解析：CREATEPOLICY定义规则，ALTERTABLEENABLERLS启用。33.数据资产目录的搜索功能通常基于__________引擎，为提高召回率可对字段值做__________分词。答案：Elasticsearch，n-gram解析：n-gram可解决子串匹配，提升模糊查询效果。34.某SparkSQL表存储为Parquet，压缩算法为snappy，若要改为gzip，需设置__________参数并__________表重写。答案：pression.codec，INSERTOVERWRITE解析：该参数仅影响新写入，历史数据需重写。35.在Linux中，查看磁盘I/O实时情况的命令为__________，其中__________字段表示每秒写请求数。答案：iostat-x，wkB/s解析：iostat-x1显示扩展统计，wkB/s为写吞吐量。五、简答题（每题10分，共30分）36.描述一次完整的SparkSQL查询从SQL文本到返回结果的核心流程，并指出Catalyst优化器在其中扮演的角色。答案：1)SQL解析：SparkSession将文本经ANTLR4生成未解析逻辑计划；2)语义分析：Catalog解析表、列元数据，生成解析后逻辑计划；3)Catalyst优化：基于规则（PredicatePushdown、ColumnPruning、ConstantFolding等）和基于代价（JoinReorder、BroadcastHint）进行多轮转换，输出最优逻辑计划；4)物理计划：SparkPlanner将逻辑计划映射为可执行物理算子（BatchScan、SortMergeJoin、BroadcastHashJoin等），并估算代价；5)代码生成：WholeStageCodegen将物理算子拼接为Java字节码，减少虚函数调用；6)作业提交：物理计划转成RDDDAG，由DAGScheduler拆分为Stage，TaskScheduler将Task分发到Executor；7)执行与返回：Executor读取Parquet/ORC，经向量izedreader批量处理，结果汇总到Driver，通过JDBC/ThriftServer返回客户端。Catalyst作为可扩展查询优化器，提供规则库和代价模型，使SparkSQL无需修改内核即可添加新优化规则，是性能提升的核心。37.某省政务云计划建设实时数据湖，需接入Oracle、MySQL、IoT传感器日志、Web点击流四类数据，日均增量500GB，要求分钟级延迟，请给出技术选型和架构图关键组件说明。答案：技术选型：采集层：Oracle/MySQL使用DebeziumCDC解析binlog，输出Kafka；IoT设备通过MQTTbroker接入，FlinkMQTTConnector订阅；Web点击流经Nginx→Filebeat→Kafka。消息层：Kafka3.x集群，3节点×12TBSSD，分区按业务域划分，保留7天，开启lz4压缩。计算层：Flink1.17onYARN，每作业给予4GBheap、2slot，开启checkpointtoHDFS，10秒间隔，Exactly-once。存储层：原始区采用HudiMOR表，Parquet列存，gzip压缩，桶列选用主键哈希；加速区用ClickHouse集群，按业务主题建ReplacingMergeTree，承担秒级查询；冷数据通过HudiArchive移入OSSGlacier。元数据与治理：HiveMetastore3.x管理Hudi表，FlinkCatalog注册；Atlas采集血缘，Griffin跑质量规则；Ranger做细粒度权限。服务层：Presto/Trino统一联邦查询，JDBC对接BI；Superset提供可视化；API网关暴露数据服务。架构关键：1)CDC→Kafka→Flink→Hudi形成分钟级入湖链路；2)Hudi支持upsert与增量视图，满足省厅数据回补需求；3)ClickHouse作为Serving层，避免OLAP查询冲击Hudi；4)全链路开启TLS+Kerberos，满足等保2.0；5)通过GitOps管理Flink作业版本，实现CI/CD。38.说明数据要素流通市场中“可用不可见”技术的实现思路，并比较同态加密、联邦学习、可信执行环境（TEE）三种方案的优缺点。答案：“可用不可见”指在不暴露原始数据的前提下，完成计算或建模，结果可验证。实现思路：1)数据提供方将数据加密或分布化；2)计算方在加密域或隔离环境执行算法；3)结果经解密或聚合后返回需求方；4)通过区块链或审计日志保证过程可追溯。方案比较：同态加密：优点：密码学保障，理论安全高；缺点：性能低，仅支持有限运算（加法或乘法），深度电路计算开销指数级增长，落地场景受限。联邦学习：优点：数据不出域，适合联合建模，已有工业框架（FATE、PySyft）；缺点：需协调多方训练，通信开销大，存在梯度泄露风险，需配合差分隐私或安全聚合。TEE：优点：接近原生性能，支持复杂算法，开发改造成本低；缺点：依赖硬件（IntelSGX、AMDSEV），需信任芯片厂商，侧信道攻击风险，集群化扩展难。综合建议：统计汇总类场景可用同态加密；机器学习联合建模优先联邦学习；高并发、低延迟、复杂逻辑场景采用TEE，并引入远程认证与审计。六、综合应用题（25分）39.某大型连锁零售商拟基于会员、POS、电商、供应链四域数据，构建全域消费者标签体系，支撑精准营销、智能补货、动态定价三大业务。请完成：(1)设计整体数据链路，画出从源系统到标签服务的数据流图（文字描述即可）；(2)给出标签计算分层模型，并举例说明原子标签、组合标签、算法标签各两条；(3)针对“近30天高价值流失预警”算法标签，写出基于SparkMLlib的建模步骤与核心代码片段；(4)说明如何评估标签质量，并给出提升标签覆盖率的三种策略；(5)如果标签服务需对外部DSP提供毫秒级查询，请给出存储与缓存方案。答案：(1)数据流图：会员系统Oracle→Debezium→Kafka→FlinkCDC→Hudi会员明细；POS系统DB2→Sqoop批→HDFS→SparkETL→Hudi交易明细；电商日志→Filebeat→Kafka→Flink→Hudi行为明细；供应链MySQL→Maxwell→Kafka→Flink→Hudi库存明细；Hudibase表每日快照→SparkGraphX构建ID-Mapping→统一会员ID；明细层→DWS轻度汇总→SparkMLlib训练标签→写入Hudi标签结果表；标签结果→Flink同步至RedisCluster→APIGateway对外服务。(2)标签分层：原子标签：性别、年龄段；组合标签：近30天消费频次=sum(交易笔数)，近7天凌晨下单占比=凌晨订单/总订单；算法标签：高价值流失预警、品类偏好（Embedding聚类）。(3)建模步骤：1)样本抽取：从Hudi交易表取近90天有交易会员，标记最后交易日期距今>30天为正样本，<=7天为负样本，比例1:3；2)特征工程：RFM、品类多样性、优惠券敏感度、活动响应率、浏览-下单间隔，共42维；3)划分训练集、测试集7:3，采用分层采样；4)模型选择：GBDT二分类，使用SparkGBM；5)调参：maxDepth=5，maxIter=100，stepSize=0.1，交叉验证F1=0.82；6)保存模型至HDFS，注册MLflow；7)每日批预测，probability>0.7输出“高价值流失预警”标签。核心代码：```pythonfrompyspark.ml.classific

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025继续教育公需科目大数据技术及应用试题及答案

文档简介

温馨提示

最新文档

评论

2025继续教育公需科目大数据技术及应用试题及答案

文档简介

温馨提示

最新文档

评论

相关文档