2025年大数据分析工程师职业技能考核试题及答案解析

上传人：1*** IP属地：四川上传时间：2026-01-22 格式：DOCX 页数：24 大小：32.52KB 积分：12 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据分析工程师职业技能考核试题及答案解析一、单项选择题（每题1分，共20分。每题只有一个正确答案，错选、多选均不得分）1.在Hadoop生态中，负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案：B解析：YARN（YetAnotherResourceNegotiator）是Hadoop2.x引入的资源管理层，负责集群资源分配与任务调度。2.下列关于SparkRDD的描述，正确的是A.RDD支持细粒度原地修改 B.RDD依赖分为宽依赖与窄依赖C.RDD必须存储在HDFS D.RDD的partition数量不可变答案：B解析：RDD转换算子根据父分区与子分区关系分为窄依赖（一对一）与宽依赖（多对多），这是Shuffle优化的基础。3.在Flink中，用于保证ExactlyOnce语义的机制是A.Checkpoint B.Savepoint C.Slot D.TaskChain答案：A解析：分布式快照Checkpoint结合barrier对齐，可实现端到端ExactlyOnce。4.某电商表user_order(user_id,sku_id,order_time,price)，计算用户近30天GMV，SQL中应使用的窗口函数是A.row_number B.rank C.sum(price)over(partitionbyuser_idorderbyorder_timerangebetween30precedingandcurrentrow)D.lag(price,30)答案：C解析：rangebetween30precedingandcurrentrow以时间维度开窗，精确累加近30天销售额。5.使用Pythonpandas读取10GBCSV时，内存占用远高于磁盘文件大小，最可能的原因是A.文件压缩比高 B.CSV存储了重复列名 C.字符串自动推断为object且未使用categoryD.未关闭索引答案：C解析：objectdtype存储指针，字符串去重率低时膨胀显著；category可压缩至整数编码。6.在Kafka2.8之后，移除Zookeeper依赖的替代组件是A.KRaft B.SchemaRegistry C.KafkaConnect D.KafkaStreams答案：A解析：KRaft（KafkaRaftMetadataMode）用内置Raft元数据quorum替代外部ZK。7.某模型AUC=0.81，BrierScore=0.22，下列说法正确的是A.模型校准优于AUC=0.85,Brier=0.30 B.AUC高则Brier一定低C.BrierScore越小校准越好 D.AUC与Brier无关答案：C解析：BrierScore综合衡量校准与区分度，值越小越好；AUC仅衡量排序能力。8.在Hive中，将ORC表改为事务表需设置的表属性为A.transactional=true B.press=SNAPPY C.bucketed=true D.sorted=true答案：A解析：Hive3.x需显式设置transactional=true并分桶，方可支持ACID行级更新。9.使用XGBoost时，控制过拟合的参数不包括A.max_depth B.subsample C.colsample_bytree D.scale_pos_weight答案：D解析：scale_pos_weight用于类别不平衡，不直接约束模型复杂度。10.在Airflow中，任务实例状态为upstream_failed的含义是A.自身代码报错 B.上游任务失败导致本任务未调度C.被手动标记失败 D.重试次数耗尽答案：B解析：上游失败触发本任务直接置为upstream_failed，不再执行。11.关于数据湖Iceberg的隐藏分区，下列说法正确的是A.需手动添加分区列 B.查询时必须显式带分区过滤C.通过转换函数自动生成分区值，对用户透明 D.不支持时间分区答案：C解析：Iceberg支持通过year(ts)、bucket(id,16)等隐藏分区，用户按原始列查询即可命中。12.在ClickHouse中，最适合高并发点查的表引擎是A.MergeTree B.SummingMergeTree C.ReplacingMergeTree D.Memory答案：D解析：Memory引擎数据驻留内存，支持高并发低延迟点查，但掉电丢失。13.使用ElasticsearchDSL实现"查询标题含"Python"且状态为已发布，按发布时间倒序取前20"，下列写法正确的是A.{"query":{"bool":{"must":[{"match":{"title":"Python"}},{"term":{"status":"published"}}]}},"sort":[{"publish_time":"desc"}],"size":20}B.{"query":{"match":{"title":"Python"}},"filter":{"term":{"status":"published"}}}C.{"query":{"term":{"title":"Python"}},"sort":[{"publish_time":"asc"}]}D.{"query":{"range":{"status":"published"}}}答案：A解析：boolmust组合match与term，sort指定倒序，size控制返回条数。14.在Tableau中，将度量转为维度后，默认聚合方式变为A.求和 B.计数(不同) C.无聚合 D.平均值答案：C解析：维度字段不参与聚合，仅用于分组或切片。15.某时序数据每分钟一条，使用Prophet预测时发现节假日效应未体现，应优先调整的参数为A.changepoint_prior_scale B.holidays_prior_scale C.seasonality_mode D.interval_width答案：B解析：holidays_prior_scale控制节假日先验强度，值越大效应越显著。16.在MySQL8.0中，对JSON列进行索引最有效的方式是A.Btree索引 B.全文索引 C.多值索引 D.空间索引答案：C解析：多值索引可在JSON数组元素上建索引，支持memberof查询。17.使用Scikitlearn的Pipeline时，最后一步estimator必须实现的方法为A.transform B.fit_transform C.fit D.predict答案：C解析：Pipeline先依次transform，最后一步只需fit方法即可训练。18.在数据治理元模型中，负责描述"数据从哪里来、到哪里去"的是A.血缘关系 B.主数据 C.数据标准 D.数据质量规则答案：A解析：血缘（Lineage）追踪数据流转路径。19.某集群日均新增100TB原始日志，保存90天，压缩比1:5，采用3副本，则磁盘净容量需求约为A.5400TB B.1800TB C.2700TB D.900TB答案：A解析：100TB/天×90天×3副本÷5压缩=5400TB。20.在AB实验中发现实验组显著下降，但分群显示新用户提升、老用户下降，最合理的下一步是A.立即全量实验 B.关闭实验 C.进行分层实验或CUPED方差缩减 D.增加流量答案：C解析：用户异质性导致平均效应失真，需分层或CUPED校正。二、多项选择题（每题2分，共20分。每题至少有两个正确答案，多选、漏选、错选均不得分）21.下列属于FlinkTimeCharacteristics的有A.ProcessingTime B.IngestionTime C.EventTime D.WindowTime答案：ABC解析：Flink1.12之前提供三种时间语义，WindowTime并非独立characteristic。22.关于Hive与SparkSQL执行模式，正确的有A.HiveonSpark使用Spark作为执行引擎 B.SparkSQL可读取HivemetastoreC.HiveLLAP提供交互式查询 D.SparkSQL不支持桶表答案：ABC解析：SparkSQL支持桶表，故D错误。23.下列Python代码可正确实现DataFrame列缺失率统计的有A.df.isnull().mean() B.df.isna().sum()/len(df)C.df.count()/len(df) D.df.describe(include='all').loc['count']/len(df)答案：AB解析：C计算非缺失率，D的count不含缺失但需反向计算。24.使用Kettle进行ETL时，可用于增量抽取的组件有A.TableInput+变量替换时间戳 B.CDC（ChangeDataCapture）C.Insert/Update步骤 D.ModifiedJavaScriptValue答案：AB解析：C用于写入，D可编程但非原生增量抽取。25.下列属于NoSQL数据库CAP理论中"分区容错+可用"组合的有A.Cassandra B.MongoDB默认配置 C.HBase D.DynamoDB答案：AD解析：Cassandra与DynamoDB优先保证AP，HBase优先CP。26.在数据仓库分层中，DWD层常见特点有A.明细数据 B.轻度汇总 C.维度退化 D.三范式建模答案：AC解析：DWD保持明细并做维度退化，轻度汇总属DWS，三范式多见于ODS。27.关于LightGBM相对于XGBoost的优化，正确的有A.直方图算法降低内存 B.按叶子生长策略 C.支持类别特征直接输入 D.使用预排序答案：ABC解析：LightGBM放弃预排序，采用直方图。28.下列指标可用于评估聚类效果的有A.SilhouetteCoefficient B.CalinskiHarabaszIndexC.DaviesBouldinIndex D.F1score答案：ABC解析：F1需真实标签，聚类无监督时常用内部指标。29.在Linux中，可用来诊断磁盘IO瓶颈的命令有A.iostatx1 B.sard1 C.vmstat1 D.top答案：ABC解析：top查看CPU与内存，IO需iostat/sar。30.下列做法可提高HiveSQL执行效率的有A.使用ORC+SNAPPY B.小文件合并 C.避免select D.开启vectorizedquery答案：ABCD解析：四项均为常见优化手段。三、填空题（每空2分，共20分）31.在Spark中，默认的并行度参数为spark.default.parallelism，一般建议设置为________。答案：集群CPU核数×2~3倍解析：保证任务分片充足，避免资源等待。32.MySQL中，查看慢查询是否开启的命令是showvariableslike'________';答案：slow_query_log33.在Python中，使用pandas将category列转为数值最节省内存的方法为.astype('________')答案：category34.在Linux下，将文件file.csv按,分割并取第2列去重输出到新文件的awk命令为awkF,'{print$2}'file.csv|________>out.txt答案：sort|uniq35.在Elasticsearch中，默认分片数为________，副本数为________。答案：5；136.在Tableau计算字段中，计算同比增长率的函数为(ZN(SUM([Sales]))LOOKUP(ZN(SUM([Sales])),________))/ABS(LOOKUP(ZN(SUM([Sales])),________))答案：12；12（假设按月分区）37.在HDFS中，NameNode内存消耗主要与________数量成正比。答案：块（block）38.在Prophet中，设置年季节性为傅里叶阶数10的参数为yearly_seasonality=________答案：1039.在Airflow的DAG文件中，设置任务并发池的参数为________=Pool('pool_name')答案：pool40.在ClickHouse中，创建分布式表需使用引擎________答案：Distributed四、简答题（封闭型，每题6分，共30分）41.简述Spark广播变量实现原理及其使用场景。答案：广播变量通过TorrentBroadcast将只读数据分发到各Executor，BlockManager缓存避免多次网络传输；适用于小表join、字典过滤等场景，可减少Shuffle与内存占用。42.说明FlinkCheckpoint与Savepoint的区别。答案：Checkpoint由Flink自动触发，用于故障恢复，生命周期随作业；Savepoint需手动触发，存储位置独立，可用于版本升级、迁移、A/B分支，数据结构与Checkpoint兼容但元数据更丰富。43.写出Hive中动态分区的两个限制条件。答案：1.必须开启nonstrict模式（sethive.exec.dynamic.partition.mode=nonstrict）；2.至少一个静态分区列在前。44.解释数据倾斜在MapReduce中的产生原因，并给出两种缓解方案。答案：原因：key分布不均导致某Reducer处理数据量远大于其他。方案：1.两阶段聚合（加随机前缀）；2.使用Combiner局部聚合；3.自定义分区函数打散热点key。45.列举三种评估二分类模型校准度的可视化方法。答案：1.可靠性曲线（ReliabilityCurve）；2.校准直方图（CalibrationPlot）；3.预测概率分桶后观察正例占比与预测均值偏差。五、开放型简答题（每题10分，共30分）46.某电商公司日活千万，拟构建实时用户画像系统，请给出技术选型、数据流转架构及保证ExactlyOnce的关键措施。答案：技术选型：Kafka→Flink→Redis/ClickHouse→微服务。数据流转：客户端埋点→Kafka→FlinkCEP识别行为→状态存储计算标签→异步写Redis(热标签)与ClickHouse(冷标签)。ExactlyOnce：Kafka事务producer+Flink两阶段提交Sink+幂等Redislua脚本+ClickHouseReplacingMergeTree去重键。47.描述一次完整的数据治理落地流程，并说明如何量化治理效果。答案：流程：1.现状调研（血缘、质量、安全）；2.制定标准（命名、元数据、质量规则）；3.工具落地（ApacheAtlas+Griffin+Ranger）；4.培训与运营；5.持续监控。量化：元数据覆盖率≥95%、数据质量评分提升30%、安全合规审计0违规、下游投诉下降50%。48.某模型离线AUC提升2%，但上线后业务指标下降，请给出排查思路与验证方案。答案：排查：1.特征穿越检查（时间泄露）；2.样本差异（离线近90天，线上实时分布漂移）；3.延迟标签导致负样本未标记；4.特征工程在线离线不一致。验证：1.回溯实验（replay过去7天实时数据）；2.shadowmode对比预测分布；3.特征重要性监控；4.采用CUPED减少方差再评估。六、应用题（共60分）49.计算题（15分）某短视频平台采用AB实验评估新推荐算法，指标为次留（次日留存）。实验组样本n1=2000000，留存x1=1540000；对照组n0=2000000，x0=1500000。（1）计算两组留存率与绝对提升；（2）使用两样本Z检验判断显著性（α=0.05）；（3）给出95%置信区间；（4）若每日新增400万，估算一年提升留存用户数。答案：（1）p1=1.54/2=0.77，p0=1.5/2=0.75，绝对提升Δ=2%。（2）合并方差SE=sqrt[p(1p)(1/n1+1/n0)]，p=(x1+x0)/(n1+n0)=0.76，SE=0.000436，Z=Δ/SE=0.02/0.000436≈45.87>1.96，拒绝原假设，显著。（3）CI=Δ±1.96×SE=0.02±0.00085→[0.01915,0.02085]。（4）400万×365×0.02≈292万。50.分析题（15分）给定用户行为表user_log(user_idstring,tsbigint,eventstring,pagestring)，数据量500亿行，存储于ORC分区表，分区字段dt（天）。需计算"最近30天内，每天首次登录且首次登录后10分钟内发生搜索事件的用户数"。请写出完整SparkSQL（含临时视图、窗口函数、时间戳转换），并说明性能优化点。答案：sql转换秒级时间戳为分钟桶，减少shufflewithtmpas(selectuser_id,dt,min(from_unixtime(ts))asfirst_login_time,collect_list(struct(ts,event))asevtsfromuser_logwheredtbetweendate_sub(current_date,30)andcurrent_dateandeventin('login','search')groupbyuser_id,dt),search_in_10as(selectuser_id,dtfromtmpwheresize(filter(evts,x>x.event='search'andx.ts<=unix_timestamp(first_login_time)+600))>0)selectdt,count(distinctuser_id)asuvfromsearch_in_10groupbydtorderbydt;优化：1.先按dt分区裁剪30天；2.列式读取仅event,ts,user_id；3.桶表+sortedbyuser_id减少collect_list；4.调整spark.sql.adaptive.enabled=true自动优化倾斜。51.综合题（30分）某零售企业提供数据：1.商品表item(item_id,cate,brand,price)；2.销售流水表sales(item_id,qty,amt,dt)；3.库存表stock(item_id,warehouse_id,stock_qty,dt)。需求：a.构建数据仓库总览分层模型（给出每层的表名、字段、分区、主键）；b.计算"近7天品类库存周转率"指标，定义：周转率=销售数量/平均库存，平均库存=（期初+期末）/2；c.使用Python+ClickHouse实现该指标每日自动更新，并可视化展示趋势；d.说明如何监控指标异常并自动告警。答案：a.分层模型ODS：ods_sales(item_id,qty,amt,dt,etl_time)分区dt；ods_stock(item_id,warehouse_id,stock_qty,dt,etl_time)分区dt；DIM：dim_item(item_id,cate,brand,price,start_dt,end_dt)分区end_dt；DWD：dwd_sales_di(item_id,cate,qty,amt,dt)分区dt，主键item_id+dt；dwd_stock_di(item_id,cate,stock_qty,dt)分区dt，按warehouse汇总；DWS：dws_item_cate_7d(cate,turnover_rate,stat_date)分区sta

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据分析工程师职业技能考核试题及答案解析

文档简介

温馨提示

最新文档

评论

2025年大数据分析工程师职业技能考核试题及答案解析

文档简介

温馨提示

最新文档

评论

相关文档