2025年(大数据管理)大数据管理与应用试题及答案_第1页
2025年(大数据管理)大数据管理与应用试题及答案_第2页
2025年(大数据管理)大数据管理与应用试题及答案_第3页
2025年(大数据管理)大数据管理与应用试题及答案_第4页
2025年(大数据管理)大数据管理与应用试题及答案_第5页
已阅读5页,还剩15页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年(大数据管理)大数据管理与应用试题及答案1.单项选择题(每题1分,共20分)1.1在Hadoop生态中,负责资源管理与任务调度的核心组件是A.HDFS B.YARN C.MapReduce D.Hive答案:B1.2下列哪项技术最适合实现毫秒级交互式OLAP查询A.SparkRDD B.Presto C.Flume D.Sqoop答案:B1.3关于数据湖与数据仓库的差异,描述错误的是A.数据湖保存原始格式数据 B.数据仓库采用写时模式 C.数据湖不支持事务 D.数据仓库通常基于SchemaonRead答案:D1.4在Kafka中,保证同一分区消息全局有序的关键配置是A.acks=all B.retries=0 C.max.in.flight.requests.per.connection=1 D.enable.idempotence=false答案:C1.5使用SparkMLlib训练逻辑回归模型时,默认的优化算法是A.LBFGS B.SGD C.Adam D.CoordinateDescent答案:B1.6某电商表user_order(order_id,user_id,sku_id,order_date,amount)需按user_id做分桶,同时保证同一用户订单按order_date有序,应选择的Hive表存储格式为A.ORC+SortMergeBucket B.Parquet+HashBucket C.TextFile+RangePartition D.Avro+ListBucket答案:A1.7在Flink中,窗口函数apply()与process()的主要区别是A.能否访问窗口元数据 B.能否使用状态 C.能否输出侧流 D.能否设置延迟标记答案:C1.8下列哪项不是HDFSNameNode高可用方案A.QJM B.NFS C.ZKFC D.HDFSFederation答案:D1.9关于数据血缘,正确的是A.只能追踪表级依赖 B.无法与元数据系统解耦 C.可用于影响分析 D.不适用于实时链路答案:C1.10在数据质量管理框架中,属于“唯一性”指标的是A.主键重复率 B.缺失率 C.及时率 D.合规率答案:A1.11某Spark任务设置spark.sql.shuffle.partitions=200,但实际数据量仅50MB,最可能出现的性能问题是A.网络IO过高 B.小文件过多 C.GC时间过长 D.磁盘溢出答案:B1.12在ClickHouse中,最适合做高基数去重的数据结构是A.MergeTree B.SummingMergeTree C.AggregatingMergeTree D.ReplacingMergeTree答案:C1.13数据资产目录中,业务术语“GMV”最适合挂在哪一层A.技术元数据 B.操作元数据 C.业务元数据 D.管理元数据答案:C1.14关于数据主权,下列说法符合中国《数据安全法》的是A.境内收集的个人信息可无条件出境 B.重要数据出境需安全评估 C.跨境传输由企业自行备案即可 D.境外司法调取可直接提供答案:B1.15在DeltaLake中,哪项操作会生成新的事务日志版本A.查询 B.缓存 C.UPDATE D.CACHETABLE答案:C1.16某模型AUC从0.81提升到0.83,但线上AB实验转化率下降2%,最可能原因是A.训练集过拟合 B.特征穿越 C.样本权重失衡 D.实验分流不均答案:B1.17使用Airflow时,某任务设置retries=3、retry_delay=timedelta(minutes=5),最多可能延迟A.5min B.10min C.15min D.20min答案:C1.18在数据治理成熟度模型DGI中,第3级“定义级”核心标志是A.建立数据治理办公室 B.制定数据标准 C.实施数据质量监控 D.实现数据自治答案:B1.19下列哪项技术组合可实现端到端“Lambda架构”批流一体A.Spark+Storm B.Flink+Hive C.Kafka+SparkStructuredStreaming+Delta D.Flume+Impala答案:C1.20关于数据资产估值,描述正确的是A.只能用成本法 B.收益法需预测未来现金流 C.市场法需同类交易案例 D.数据资产不可折旧答案:C2.多项选择题(每题2分,共20分,多选少选均不得分)2.1下列哪些属于数据治理核心域A.元数据管理 B.主数据管理 C.数据生命周期 D.数据伦理 E.数据定价答案:ABCD2.2导致Kafka消费者重平衡的原因包括A.新消费者加入 B.消费者崩溃 C.分区数增加 D.消费位移提交失败 E.修改topic副本因子答案:ABC2.3在Spark中,以下操作会引起宽依赖的是A.groupByKey B.reduceByKey C.distinct D.map E.filter答案:ABC2.4数据质量规则库常用的技术实现包括A.Drools B.ApacheGriffin C.GreatExpectations D.dbttest E.Airflowsensor答案:ABCD2.5下列哪些算法可用于异常检测A.IsolationForest B.DBSCAN C.OneClassSVM D.XGBoost E.LSTMAutoEncoder答案:ABCE2.6关于数据脱敏,说法正确的是A.可逆加密属于脱敏 B.掩码需保持格式 C.哈希可防重放 D.脱敏后无需再授权 E.动态脱敏在查询时生效答案:BCE2.7在HDFS联邦架构下,以下正确的是A.多NameNode共享DataNode B.每个NameNode管理独立命名空间 C.客户端需挂载表路由 D.支持跨Namespace重命名 E.单点故障风险完全消除答案:ABC2.8数据网格(DataMesh)四大原则包括A.领域所有权 B.数据即产品 C.自助平台 D.联邦治理 E.集中仓库答案:ABCD2.9下列指标可用于衡量数据资产健康度A.数据新鲜度 B.查询响应时间 C.合规评分 D.血缘覆盖率 E.存储成本占比答案:ACDE2.10关于GDPR与《个人信息保护法》差异,正确的是A.GDPR无数据出境安全评估 B.个保法引入“敏感个人信息” C.两者均设72小时泄露通知 D.个保法无高额罚款 E.均赋予数据主体删除权答案:BCE3.填空题(每空1分,共20分)3.1HDFS默认块大小为________MB,若存储1个128MB文件,实际占用________个块。答案:128,13.2Spark中,DataFrame的join操作若未指定列,默认采用________连接,结果会出现________问题。答案:笛卡尔,数据爆炸3.3在Kafka2.8版本之后,如使用KRaft模式,可去掉对外部组件________的依赖。答案:ZooKeeper3.4数据质量维度中,Timeliness对应中文________。答案:及时性3.5某Hive表分区字段为dt,格式yyyyMMdd,若需删除20240101分区,SQL为ALTERTABLEtDROPPARTITION(dt=’________’);答案:202401013.6FlinkCheckpoint的底层一致性协议是________协议。答案:ChandyLamport3.7在Pythonpandas中,将DataFramedf的列col做zscore标准化,代码为df[‘col’]=(df[‘col’]df[‘col’].________)/df[‘col’].std()答案:mean()3.8数据资产估值的收益法公式V=∑(Rt/(1+r)^t),其中r代表________率。答案:折现3.9某ClickHouse表使用MergeTree引擎,按dt分区,按id排序,SQL中强制走分区裁剪的写法为WHEREdt________toDate(’20240101’)答案:=3.10在数据治理平台中,负责将技术名映射到业务名的元数据类型称为________元数据。答案:业务3.11数据安全等级分类中,国家核心数据实行________保护制度。答案:更加严格3.12某Spark任务读取ORC文件出现小文件过多,可使用Hive参数________合并小文件。答案:merge.smallfiles.avgsize3.13在数据血缘图谱中,节点出度表示该节点被________的次数。答案:引用3.14数据网格中,领域数据产品需对外提供________文档,以降低沟通成本。答案:SLA/Schema3.15根据《网络数据安全管理条例(征求意见稿)》,处理超过________万人个人信息应设数据安全负责人。答案:1003.16某模型训练集正负样本比例1:9,采用SMOTE过采样后,正负比例变为________。答案:1:13.17在Airflow中,任务task_a完成后触发task_b,应设置trigger_rule=’________’答案:all_success3.18数据质量监控告警升级策略中,连续________次触发同一规则未恢复,则短信通知总监。答案:33.19某企业采用DataVault建模,其中Hub表主键采用________键策略,避免业务变更冲击。答案:代理3.20在DeltaLake中,查看表历史版本的SQL为DESCRIBEHISTORYtable_name________答案:空(无需额外参数)4.简答题(共6题,每题8分,共48分)4.1(封闭型)列举并简要说明数据治理活动“数据标准化”包含的五个子任务。答案:1)制定数据标准框架,明确范围与原则;2)业务术语标准化,统一指标定义;3)代码值域标准化,建立主数据代码表;4)命名与格式规范,统一库表字段命名;5)标准发布与宣贯,建立评审与迭代流程。4.2(开放型)某金融公司计划将核心风控模型从离线T+1升级为实时T+0,请给出技术选型与实施步骤,并指出最大风险点。答案:技术选型:Kafka+Flink+Ceph+Redis+API网关;步骤:1)业务事件埋点改造,统一Kafkatopic;2)Flink流处理完成特征实时拼接;3)模型PMML转ONNX,嵌入Flink异步推理;4)结果写入Redis集群,API网关暴露服务;5)灰度发布,对比离线AUC与线上KS。最大风险:特征穿越,需确保离线特征与实时特征同源同口径,采用特征快照版本管理。4.3(封闭型)说明HiveORC文件在存储层实现谓词下推的三个必要条件。答案:1)表属性设置orc.pushdown=true;2)查询列建立BloomFilter或Min/Max索引;3)where条件为等值或范围查询,且字段类型与索引一致。4.4(开放型)某省政务数据共享平台需构建“数据主权沙箱”,请设计一套可落地的数据出境管控流程,包含技术、管理、法律三层。答案:技术层:部署API网关+数据脱敏网关,采用格式保留加密+数字水印,日志接入区块链存证;管理层:建立数据出境评审委员会,实行分级审批,敏感数据需省长办公会签;法律层:与境外接收方签署SCC标准合同,约定数据用途、删除期限、争议仲裁地,违约方承担营业额5%罚款。4.5(封闭型)解释Flink“精确一次”端到端语义的三要素,并给出KafkaProducer实现代码片段(Java伪代码)。答案:三要素:1)可重放数据源(Kafka可设置偏移);2)状态一致性Checkpoint;3)幂等或事务输出。伪代码:FlinkKafkaProducer<String>sink=newFlinkKafkaProducer<>(  "topic",  newSimpleStringSchema(),  properties,  FlinkKafkaProducer.Semantic.EXACTLY_ONCE);4.6(开放型)某视频平台日均新增PB级日志,需保存7年,冷数据访问频率低于1次/月,请给出分层存储与成本优化方案,并计算三年TCO。答案:方案:1)热层采用SSDHDFS,存放最近7天,副本数2;2)温层采用HDD,副本数2,启用EC4+2;3)冷层迁移至对象存储归档型,单价0.03元/GB/月;4)计算分离,Spot节点跑批。TCO:假设日增量1PB,三年1095PB,热层10PB×0.8元/GB×12月=96万元,温层200PB×0.25元×12=600万元,冷层785PB×0.03×36=848万元,总计约1544万元,较全SSD节省68%。5.计算与分析题(共4题,共52分)5.1(计算类,12分)某电商大促期间,Kafkatopicorder_topic共12分区,峰值写入速率180MB/s,每条消息平均2KB,副本因子3,计算所需网络带宽与磁盘写入IOPS,并给出集群规模建议。答案:单分区峰值吞吐=180/12=15MB/s;单Broker网卡需承载副本同步,峰值网卡=180×(31)=360MB/s≈2.88Gb/s,建议10Gb网卡;磁盘顺序写IOPS=(180×1024)/2=92160条/s,假设单盘200MB/s,需磁盘数=180/200≈1,考虑副本同时写,磁盘数=3,故最少3块盘;集群规模:按单机网卡上限900MB/s,需Broker数=360/900≈1,考虑高可用至少3台;结论:3Broker,每节点12×1TBSSD,10Gb网卡。5.2(分析类,12分)给定用户行为表user_log(user_id,event_time,event_type,page_id),需计算每日留存率(次日、7日、30日)。请写出SparkSQL完整脚本,并指出性能优化点。答案:脚本:WITHfirst_loginAS( SELECTuser_id,MIN(event_time)ASfst FROMuser_log GROUPBYuser_id),tmpAS( SELECTa.user_id,DATE(a.fst)ASfst_date,DATE(b.event_time)ASevt_date,  DATEDIFF(DATE(b.event_time),DATE(a.fst))ASdiff FROMfirst_logina JOINuser_logbONa.user_id=b.user_id)SELECTfst_date, COUNT(DISTINCTIF(diff=1,user_id,NULL))/COUNT(DISTINCTuser_id)ASd1_retention, COUNT(DISTINCTIF(diff=6,user_id,NULL))/COUNT(DISTINCTuser_id)ASd7_retention, COUNT(DISTINCTIF(diff=29,user_id,NULL))/COUNT(DISTINCTuser_id)ASd30_retentionFROMtmpGROUPBYfst_date;优化:1)first_login落盘为分区表,按dt写入;2)启用BroadcastHint,小表广播;3)事件表按user_id分桶,避免shuffle;4)采用ORC+ZSTD压缩。5.3(综合类,14分)某市卫健委整合30家医院电子病历,需建立主数据管理系统(MDM),请完成:1)画出主数据识别流程图(文字描述);2)设计患者主数据模型(含字段、主键、匹配规则);3)给出GoldenRecord合并冲突解决策略;4)评估上线后数据质量提升指标。答案:1)流程:源系统摸底→数据探查→主数据候选→业务确权→元数据注册→发布。2)模型:Patient(pid,id_card,passport,name,gender,birth_date,phone,addr,create_time,update_time,source_system,status),主键pid为UUID,业务键id_card+passport联合唯一。3)冲突策略:可信度打分,来源权重三甲医院>二甲>社区;时间戳最新优先;人工审核兜底。4)指标:主键重复率由2.3%降至0.01%,字段完整率由87%升至98%,同一患者跨院就诊识别率由78%升至96%。5.4(综合类,14分)某物流公司有运单表waybill(wb_id,order_id,src_city,dst_city,weight,create_time),需预测未来7天各线路货量,请完成:1)特征工程方案;2)模型选型与理由;3)训练窗口与标签构造;4)线上推理架构;5)效果评估指标与基线。答案:1)特征:日期维度(节假日、星期、节气),线路维度(src_dst编码、距离、历史同期均值),外部(天气、疫情等级),聚合特征(近1/3/7天货量、滑动标准差)。2)模型:Prophet处理节假日效应+LightGBM捕捉非线性,Stacking融合。3)训练窗口:滚动窗口,每天回溯365天,标签为未来7天每日货量序列。4)推理:Airflow每日凌晨触发特征ETL→Redis缓存→TensorFlowServing加载模型→API返回预测JSON。5)指标:MAPE基线12%,上线后降至7.8%;WAPE<8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论