2025年继续教育公需科目大数据技术及应用试题答案

上传人：1*** IP属地：四川上传时间：2026-01-27 格式：DOCX 页数：25 大小：32.30KB 积分：12 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年继续教育公需科目大数据技术及应用试题答案一、单项选择题（每题1分，共20分。每题只有一个正确答案，请将正确选项的字母填入括号内）1.下列哪一项最能准确描述大数据的“4V”特征？A.Volume、Velocity、Variety、ValueB.Volume、Velocity、Variety、VeracityC.Volume、Velocity、Virtualization、ValueD.Volume、Velocity、Variety、Visibility答案：B2.在Hadoop生态中，负责资源管理与任务调度的组件是：A.HDFSB.MapReduceC.YARND.Hive答案：C3.某电商公司每日新增日志2TB，保存周期90天，采用HDFS三副本策略，则存储裸容量约为：A.180TBB.360TBC.540TBD.720TB答案：C4.Spark相比MapReduce性能提升的核心原因是：A.采用SSD存储B.引入DAG内存计算C.使用10Gb网络D.支持SQL接口答案：B5.Kafka中保证消息顺序性的最小粒度单元是：A.BrokerB.TopicC.PartitionD.ConsumerGroup答案：C6.在数据仓库分层模型中，最接近原始日志的一层是：A.DWDB.DWSC.ODSD.ADS答案：C7.下列算法中，属于聚类算法的是：A.AprioriB.KMeansC.C4.5D.PageRank答案：B8.若某HDFS块大小为128MB，文件大小为1GB，则理论块数量为：A.7B.8C.9D.10答案：B9.在Flink的时间语义中，事件时间是指：A.数据进入Flink系统的时间B.数据被窗口算子处理的时间C.事件在源端实际发生的时间D.数据被Sink写出时间答案：C10.下列哪项不是数据倾斜的常见解决手段？A.两阶段聚合B.加盐重分区C.提高并行度D.增加副本数答案：D11.在HiveSQL中，用于将多行合并成一行的函数是：A.explodeB.concatC.collect_listD.lateralview答案：C12.某推荐系统采用协同过滤，若用户物品评分矩阵极度稀疏，最直接的副作用是：A.冷启动B.过拟合C.高延迟D.高内存占用答案：A13.在数据治理体系中，负责定义“同一客户只能有一个会员ID”的规则属于：A.元数据管理B.主数据管理C.数据血缘D.数据安全答案：B14.下列哪种压缩格式支持切片（split）？A.gzipB.bzip2C.lz4D.snappy答案：B15.在Spark中，以下哪种操作一定会触发宽依赖？A.mapB.filterC.unionD.groupByKey答案：D16.某集群共100节点，每节点12块硬盘，单盘4TB，采用HDFS三副本，则有效存储容量约为：A.1200TBB.1600TBC.2400TBD.4800TB答案：B17.在数据湖架构中，提供ACID事务能力的开源组件是：A.DeltaLakeB.FlumeC.SqoopD.ZooKeeper答案：A18.下列关于布隆过滤器的说法正确的是：A.可精确判断元素存在B.删除操作成本极低C.存在假阳性，无假阴性D.采用哈希链表结构答案：C19.在机器学习流水线中，对类别变量进行OneHot编码主要解决：A.量纲不一致B.高基数C.有序性D.缺失值答案：A20.某企业采用数据网格（DataMesh）架构，其核心治理原则是：A.集中式数据湖B.领域所有权C.单一团队负责D.统一物理模型答案：B二、多项选择题（每题2分，共20分。每题有两个或两个以上正确答案，多选、少选、错选均不得分）21.以下属于Hadoop3.x新特性的有：A.纠删码B.NameNode联邦C.YARN资源抢占D.支持GPU调度答案：A、D22.下列哪些场景适合使用流处理框架Flink？A.实时欺诈检测B.离线日报生成C.实时订单统计D.秒级异常告警答案：A、C、D23.关于Hive与Impala的描述，正确的有：A.Hive基于MapReduce，延迟高B.Impala基于MPP，延迟低C.Hive支持UDFD.Impala不支持SerDe答案：A、B、C24.数据倾斜可能导致的后果包括：A.任务卡死B.节点宕机C.处理时间剧增D.输出文件大小不一答案：A、C、D25.以下属于NoSQL数据库的有：A.HBaseB.MongoDBC.CassandraD.OracleRAC答案：A、B、C26.在Spark调优中，以下哪些做法可以减少GC压力？A.使用Kryo序列化B.提高executor内存C.减少shuffle分区D.使用offheap存储答案：A、B、D27.下列哪些技术可以实现“ExactlyOnce”语义？A.Kafka事务消息B.Flink两阶段提交C.SparkStreaming的receiver模式D.Pulsar事务答案：A、B、D28.关于数据血缘的作用，正确的有：A.追踪指标来源B.影响分析C.降低存储成本D.辅助合规审计答案：A、B、D29.以下属于数据质量维度的是：A.准确性B.一致性C.及时性D.可扩展性答案：A、B、C30.在构建用户画像时，可用于人口属性推断的数据有：A.收货地址B.浏览时段C.设备型号D.搜索关键词答案：A、B、C、D三、填空题（每空1分，共20分）31.HDFS默认块大小为________MB，Hadoop3.x支持的最大块大小为________MB。答案：128；51232.Spark任务提交命令中，参数numexecutors用于设置________数量。答案：Executor33.Kafka通过________机制实现消费者组内负载均衡。答案：Partition再均衡（Rebalance）34.在数据仓库维度建模中，________表用于存储业务过程的度量值。答案：事实35.若某表每日增量800万行，平均行长1KB，保存365天，则原始数据约________TB。答案：2.9236.Flink的Checkpoint机制基于________算法实现分布式快照。答案：ChandyLamport37.在Hive中，设置动态分区开关的参数为________。答案：hive.exec.dynamic.partition38.数据湖与数据仓库的最大区别是________先行。答案：Schemaonread39.在机器学习中，________曲线用于评估分类模型的阈值选择。答案：ROC40.某电商大促期间QPS峰值20万，若采用32核128GB节点，单节点可支撑1万QPS，则理论需________台节点。答案：2041.在SparkSQL中，函数date_sub用于日期________操作。答案：减法42.HBase的Region分裂触发条件之一是Region大小超过________阈值。答案：hbase.hregion.max.filesize43.在数据治理中，________是指对数据含义、格式、责任者等达成一致的过程。答案：标准化44.采用Parquet格式存储的优势包括列式存储、________、________。答案：压缩比高；谓词下推45.在推荐系统中，________指标衡量推荐结果中用户感兴趣的物品占比。答案：准确率（Precision）46.某Spark任务运行2小时，处理1TB数据，集群带宽10Gb/s，则理论最小耗时约________分钟。（忽略计算开销）答案：13.347.在数据安全等级保护中，大数据平台通常要求达到________级及以上。答案：348.在DeltaLake中，________命令可回滚表到历史版本。答案：RESTORE49.在数据科学工作流程中，________阶段耗时通常占比最高。答案：数据清洗50.采用布隆过滤器解决Hive大表关联时，可将________表放入内存。答案：小四、判断题（每题1分，共10分。正确打“√”，错误打“×”）51.Spark的RDD一旦生成便不可变。答案：√52.HDFS支持随机修改文件中间某段内容。答案：×53.Kafka的Partition数量只能在创建Topic时指定，后续无法扩容。答案：×54.在数据仓库中，星型模型比雪花模型查询性能更高。答案：√55.Flink的Watermark用于解决乱序事件时间计算问题。答案：√56.Hive支持事务的表必须采用ORC格式并分桶。答案：√57.采用gzip压缩的TextFile在MapReduce中可完美切片。答案：×58.在Spark中，累加器（Accumulator）可用于调试时把executor信息收集到driver。答案：√59.HBase的列族数量越多，性能越好。答案：×60.数据网格主张“数据即产品”，强调领域团队对数据全生命周期负责。答案：√五、简答题（共30分）61.（封闭型，6分）简述MapReduce中“Shuffle”阶段的具体流程，并指出优化数据倾斜的两种常用手段。答案：Shuffle阶段包括Map端分区、排序、溢写、合并，Reduce端拷贝、归并排序。优化倾斜：1.两阶段聚合（加随机前缀）；2.自定义分区，将热点key打散。62.（开放型，8分）某省政务云汇聚200个厅局数据，存在标准不一、质量参差、权责不清等问题。请结合数据治理理论，提出一套可落地的“一体化大数据中心”治理方案，需涵盖组织、标准、技术、运营四个维度。答案：组织：成立省级数据管理局，下设领域数据责任人（DPO），实行“一数一源一标准”责任制；标准：制定《政务数据元标准》《数据质量评分细则》《共享负面清单》，建立主数据编码体系；技术：搭建统一数据湖（Hive+Delta），部署数据质量工具（Griffin），实施元数据血缘（ApacheAtlas），引入隐私计算平台（FATE）保障安全；运营：建立数据资产目录门户，推行“数据产品化”计价结算，每季度召开数据质量评议会，引入第三方审计，KPI与财政拨款挂钩，形成持续改进闭环。63.（封闭型，6分）写出Spark中实现WordCount的完整Scala代码（仅核心逻辑），并指出哪一步触发宽依赖。答案：vallines=sc.textFile("hdfs://input")valwords=lines.flatMap(_.split(""))valpairs=words.map((_,1))valcounts=pairs.reduceByKey(_+_)counts.saveAsTextFile("hdfs://output")reduceByKey触发宽依赖。64.（开放型，10分）某视频平台日活1亿，日均上传500万条短视频，平均大小100MB，需支持秒级推荐与离线分析。请设计端到端大数据架构，需说明：1.数据摄入；2.存储；3.计算；4.推荐；5.治理。答案：1.摄入：移动端SDK埋点经FlumeKafka进入原始Topic，视频文件经CDN边缘节点回源到对象存储（S3协议），同时写Kafka文件消息；2.存储：对象存储作数据湖，HDFS存三副本，Iceberg管理视频元数据，Delta管理用户行为表；3.计算：Flink实时消费Kafka，秒级生成用户画像增量，Spark离线每日合并全量，训练深度学习模型（TensorFlowOnSpark）；4.推荐：线上服务采用TensorFlowServing+Faiss向量检索，特征存Redis集群，召回阶段用ItemCF与DSSM双塔模型，排序阶段用Wide&Deep，通过AB实验平台动态调权；5.治理：Atlas维护血缘，Griffin监控行级质量，Ranger做细粒度权限，数据分级（公开/内部/机密），敏感字段脱敏，每季度清理冷数据，生命周期管理节省30%存储。六、应用题（共50分）65.（计算类，10分）某运营商详单表t_call，字段：callerstring,calleestring,durationint,feedouble,call_timebigint。表为分区表，按dt分区，数据量365分区，每分区8亿行，总行数292亿，平均行长50字节。（1）估算原始数据裸容量；（2）若采用ORC+SNAPPY，压缩比5:1，求压缩后容量；（3）若HDFS三副本，求实际磁盘占用；（4）若采用纠删码RS63，冗余度1.5，求磁盘占用；（5）对比（3）（4）节省多少百分比。答案：（1）292×10^8×50字节=14600GB≈14.6TB；（2）14.6/5≈2.92TB；（3）2.92×3=8.76TB；（4）2.92×1.5=4.38TB；（5）节省(8.764.38)/8.76≈50%。66.（分析类，15分）给定用户行为表user_log：user_idstring,item_idstring,behaviorstring,tsbigint。behavior枚举：pv、cart、fav、buy。需求：统计最近30天，每个用户购买转化率（buy/pv），并找出转化率前1000名用户。要求：写出完整HiveSQL，包括分区过滤、去重、异常用户过滤（pv<10），并说明如何优化执行计划。答案：sethive.exec.dynamic.partition=true;withtmpas(selectuser_id,sum(casewhenbehavior='pv'then1else0end)aspv_cnt,sum(casewhenbehavior='buy'then1else0end)asbuy_cntfromuser_logwheredtbetween'20250501'and'20250530'groupbyuser_idhavingpv_cnt>=10)selectuser_id,buy_cnt/pv_cntasctrfromtmporderbyctrdesclimit1000;优化：1.分区裁剪，dt为一级分区；2.桶表按user_id分桶256桶，减少shuffle；3.开启CBO，收集统计信息；4.采用Tez引擎，并行度设为2000；5.对behavior建立Bloom索引，快速跳过非相关行。67.（综合类，25分）某市交通卡口每天产生10亿条过车记录，结构：car_idstring,卡口string,laneint,speedint,tsbigint,pic_urlstring。需求：A.实时统计每分钟内各卡口车流量；B.实时发现连续3次超速（speed>120）的车辆并告警；C.离线生成日均流量、平均速度、拥堵指数（01），并可视化；D.存储3年，节省成本。请给出：1.架构图（文字描述）；2.实时链路完整Flink代码（Java/Scala均可）；3.离线链路Hive表设计、分区、压缩；4.成本估算（原始36TB/年，压缩后7.2TB/年，三副本21.6TB，RS6310.8TB，冷存0.5倍5.4TB，3年总磁盘成本对比）；5.治理策略（质量、血缘、安全）。答案：1.架构：卡口前端→5G专网→Kafka（Topic:traffic）→Flink集群→Redis（分钟流量）→告警API；同时Kafka→Flume→HDFS（Raw）→Spark清洗→Hive分区表（dt,hr）→Superset可视化。2.Flink代码（Scala）：valenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing(60000)valkafka=env.addSource(newFlinkKafkaConsumer[String]("traffic",newSimpleStringSchema(),props))valstream=kafka.map(json=>parseToCaseClass(json))valminuteCnt=stream.map(r=>(r.卡口+"_"+r.ts/60000,1)).keyBy(_._1).window(TumblingProcessingTimeWindows.of(Time.minutes(1))).sum(1)minuteCn

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年继续教育公需科目大数据技术及应用试题答案

文档简介

温馨提示

最新文档

评论

2025年继续教育公需科目大数据技术及应用试题答案

文档简介

温馨提示

最新文档

评论

相关文档