2025年大数据分析师专业素质测评试题及答案

上传人：1*** IP属地：四川上传时间：2026-01-20 格式：DOCX 页数：22 大小：31.86KB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据分析师专业素质测评试题及答案一、单项选择题（每题1分，共20分。每题只有一个正确答案，请将正确选项字母填入括号内）1.在Hadoop生态中，负责资源管理与任务调度的组件是（）A.HDFS B.YARN C.MapReduce D.Hive答案：B2.下列关于数据仓库与数据湖的说法，正确的是（）A.数据仓库只能存储结构化数据B.数据湖不支持SchemaonReadC.数据仓库通常采用星型或雪花模型D.数据湖不支持事务一致性答案：C3.在Spark中，RDD的哪一类操作会触发实际的分布式计算（）A.map B.filter C.reduceByKey D.persist答案：C4.使用Python进行缺失值处理时，pandas中dropna方法默认删除（）A.含有任何缺失值的行 B.含有任何缺失值的列C.全为缺失值的行 D.全为缺失值的列答案：A5.在Kafka中，负责持久化消息并保证顺序的单元是（）A.Broker B.Topic C.Partition D.ConsumerGroup答案：C6.下列算法中，属于无监督学习的是（）A.XGBoost B.KMeans C.RandomForest D.LogisticRegression答案：B7.在SQL优化中，最能够显著减少磁盘I/O的索引类型是（）A.Bitmap索引 B.B+树索引 C.Hash索引 D.聚簇索引答案：D8.使用Flink实现ExactlyOnce语义的核心机制是（）A.异步快照+状态回滚 B.两阶段提交 C.幂等写入 D.事件时间窗口答案：A9.在A/B测试中，若显著性水平α=0.05，检验功效1β=0.8，则第二类错误概率为（）A.0.05 B.0.2 C.0.8 D.0.95答案：B10.下列关于数据倾斜的描述，错误的是（）A.表现为少数节点处理大量数据B.可通过加盐技术缓解C.必然导致内存溢出D.在Join阶段易发生答案：C11.在Python中，使用sklearn的StandardScaler对训练集fit后，对测试集应（）A.重新fit B.使用transform C.同时fit_transform D.不做处理答案：B12.在Hive中，开启向量查询执行的核心参数是（）A.hive.execution.engine B.hive.vectorized.execution.enabledC.hive.cbo.enable D.hive.optimize.index.filter答案：B13.下列关于ROC曲线的说法，正确的是（）A.曲线越靠近左上角模型越差B.AUC=0.5表示模型无区分能力C.适用于多分类评估D.横轴为召回率答案：B14.在Elasticsearch中，实现父子文档关联的字段类型是（）A.nested B.object C.join D.geo_point答案：C15.使用HBaseRowKey设计时，为避免热点应优先采用（）A.自增ID B.哈希前缀+时间戳 C.倒序时间戳 D.固定长度字符串答案：B16.在数据治理成熟度模型DAMADMBOK中，最高级是（）A.Managed B.Defined C.Optimized D.Repeatable答案：C17.下列关于L1与L2正则的描述，正确的是（）A.L1更易产生稀疏解 B.L2又称LassoC.L1不可用于特征选择 D.L2对异常值更敏感答案：A18.在Airflow中，任务实例状态为upstream_failed表示（）A.自身代码报错 B.上游任务失败C.被手动跳过 D.被调度器取消答案：B19.使用Tableau计算同比增长率时，应优先使用表计算函数（）A.LOOKUP B.WINDOW_SUM C.RUNNING_SUM D.RANK答案：A20.在数据伦理审查中，GDPR提出的“被遗忘权”对应法律条款是（）A.Article5 B.Article6 C.Article17 D.Article30答案：C二、多项选择题（每题2分，共20分。每题有两个或两个以上正确答案，多选、少选、错选均不得分）21.下列属于SparkSQL优化策略的有（）A.谓词下推 B.列式存储 C.代码生成 D.动态资源池答案：A、B、C22.在Kafka中，保证消息顺序需满足的条件包括（）A.单Partition B.单Consumer实例C.生产者指定Key D.开启幂等生产者答案：A、C、D23.以下属于时间序列异常检测算法的有（）A.SHESD B.IsolationForest C.Prophet+残差控制图 D.DBSCAN答案：A、B、C24.使用pandas进行数据合并时，支持的方式有（）A.merge B.join C.concat D.append答案：A、B、C、D25.在HDFS高可用架构中，ZKFC的作用包括（）A.监控NameNode健康 B.触发主备切换C.管理JournalNode同步 D.维护Zookeeper分布式锁答案：A、B、D26.下列属于Flink窗口类型的有（）A.Tumbling B.Sliding C.Session D.Global答案：A、B、C、D27.在机器学习特征工程中，处理高基数类别变量的方法有（）A.目标编码 B.留一编码 C.哈希编码 D.Word2Vec答案：A、B、C28.下列关于数据血缘的说法，正确的有（）A.可用于影响分析 B.支持字段级追溯C.依赖主动解析SQL D.无法跨平台采集答案：A、B、C29.在Python中，可用来实现模型解释性可视化的库有（）A.SHAP B.LIME C.ELI5 D.Yellowbrick答案：A、B、C、D30.以下属于数据安全脱敏技术的有（）A.掩码 B.加密 C.数据置换 D.差分隐私答案：A、B、C、D三、填空题（每空2分，共20分）31.在Hive中，将查询结果保存为ORC格式并启用压缩的参数是___press___。答案：press32.使用sklearn.metrics计算F1分数时，若类别不平衡应设置参数___average='weighted'___。答案：average='weighted'33.在FlinkCEP中，定义连续事件模式的关键词是___next___。答案：next34.在PostgreSQL中，实现递归查询的关键字是___withrecursive___。答案：withrecursive35.在Linux中，查看磁盘I/O使用情况的常用命令是___iostatx1___。答案：iostatx136.在Scala中，Spark累加器的初始化函数为___SparkContext.accumulator(0)___。答案：SparkContext.accumulator(0)37.在Tableau中，将维度字段转换为度量字段的快捷操作为___拖拽至度量区域或右键>转换为度量___。答案：拖拽至度量区域或右键>转换为度量38.在Elasticsearch集群中，默认发现机制使用端口号为___9300___。答案：930039.在Python中，使用joblib实现模型磁盘持久化的函数为___joblib.dump___。答案：joblib.dump40.在数据治理中，衡量数据准确性的指标通常用___ErrorRate=|错误记录数|/|总记录数|___表示。答案：ErrorRate=|错误记录数|/|总记录数|四、判断题（每题1分，共10分。正确打“√”，错误打“×”）41.在Spark中，DataFrame的API性能一定低于RDD。（×）42.Kafka的ConsumerGroup内每个分区只能被一个消费者实例消费。（√）43.XGBoost不支持类别型特征直接输入，必须做OneHot编码。（×）44.在HBase中，删除数据后立即执行MajorCompaction可真正释放磁盘空间。（√）45.使用Elasticsearch的match查询时，默认运算符为OR。（√）46.在Python中，numpy的random.seed(42)可保证多线程结果可复现。（×）47.在Flink中，事件时间窗口必须搭配Watermark才能触发计算。（√）48.数据湖一旦写入就无法更新，只能追加。（×）49.在Tableau中，参数只能用于计算字段，不能作为筛选器。（×）50.在GDPR框架下，数据处理合法性的基础包括“合法利益”。（√）五、简答题（共30分）51.（封闭型，6分）简述HDFS写入流程中Packet队列的作用，并说明其如何保障数据完整性。答案：客户端将文件切分为Packet（默认64KB）后放入DataQueue队列，DataStreamer线程异步将Packet发送给Pipeline中的第一个DataNode；每个DataNode收到后写入本地磁盘并转发给下游，同时把确认信息放入AckQueue。若某节点失败，客户端从AckQueue移除对应Packet并重新加入DataQueue，确保所有副本写入成功后才从队列移除，从而保障完整性。52.（开放型，8分）某电商公司日活2000万，订单表每日新增10亿条，需构建实时数仓。请给出技术选型并说明理由，要求支持秒级延迟、可回滚、支持AdHoc查询。答案：1.采集层：使用Kafka集群，按订单ID哈希分区，单Topic720Partition，保证并行度与顺序。2.计算层：FlinkSQL提供ExactlyOnce，开启Checkpoint到HDFS（10s间隔），使用RockDBStateBackend支持大状态。3.存储层：明细层写入HBase+Phoenix，RowKey设计为哈希前缀+用户ID+倒序时间戳，避免热点；汇总层写入ClickHouse，利用MergeTree引擎+物化视图，实现秒级聚合；维度层用MySQL+Canal实时同步到Redis，提供低延迟维表Join。4.回滚机制：Flink保存点+Hive外部表分区回溯，重放Kafka指定位点。5.AdHoc：Presto统一查询HBase、ClickHouse、Hive，通过自定义Connector下推谓词，实现毫秒到秒级响应。6.资源隔离：使用YARN队列+FlinkSlotGroup，保证实时任务与离线任务互不干扰。53.（封闭型，6分）给出一种在Spark中解决数据倾斜的加盐方案，并说明如何还原结果。答案：对倾斜Key添加随机前缀（0N），将原RDD拆分为N份，与同样加盐的维表扩容副本进行Join；Join完成后去掉前缀得到中间结果；对中间结果按原始Key聚合，若存在sum、count等场景，需二次聚合：sum(value)保持不变，count需累加；最终得到与未加盐一致的结果。54.（开放型，10分）某金融风控模型训练集正负样本比例1:99，模型AUC=0.96，但上线后KS下降30%。请分析可能原因并提出改进方案。答案：原因：1.时间穿越：训练集使用未来变量；2.样本偏差：训练集为人工审核样本，分布与线上全量差异大；3.特征失效：关键变量在上线后被业务策略调整；4.标签延迟：正样本标签未完全生成，导致线下虚高；5.概念漂移：宏观经济变化导致用户行为分布偏移。改进：1.重新采样：采用时间外验证（OOT），按月份滚动训练验证；2.拒绝推断：对拒绝样本使用HardNegativeMining+标签扩散，修正分布；3.特征监控：建立PSI（PopulationStabilityIndex）日报，PSI>0.2自动告警；4.模型更新：使用OnlineLearning（FTRL）每日增量更新；5.集成策略：XGBoost+深度学习Wide&Deep，融合后KS提升8%；6.灰度发布：采用ThompsonSampling动态探索，减少损失。六、应用题（共60分）55.（计算类，15分）某视频平台2024年12月1日全站DAU为1.2亿，当日新增用户180万，次日留存率为46%，7日留存率为28%，30日留存率为14%。假设每日新增用户恒定，且留存率稳定。(1)计算2025年1月1日的DAU中，由2024年12月新增用户贡献的部分（精确到万）。(2)若目标2025年1月整体DAU达到1.5亿，且新增用户不变，求平均30日留存率需提升多少个百分点。答案：(1)12月1日新增180万，30日后即1月1日留存14%，贡献180×0.14=25.2万≈25万。(2)设需提升x个百分点，则1月留存率为(14+x/100)。1月DAU=老用户+新用户。老用户=1.2亿180万×14%=1.2亿25.2万≈1.1975亿；新用户贡献=180万×(14+x/100)；总DAU=1.1975+0.018×(14+x)=1.5亿解得x≈(1.51.1975)/0.01814≈16.814=2.8个百分点。56.（分析类，15分）给出某零售公司2024年四季度每日销售额部分数据（单位：万元）：[3200,3100,3050,3000,2950,2980,3150,3400,3600,3800,4200,4500,4800,5100,5300,5500,5600,5400,5200,5000,4800,4600,4400,4300,4200,4100,4000,3900,3800,3700](1)使用3σ准则检测异常日并列出日期索引（假设1日为起点）。(2)采用7日移动平均重新计算第15日销售额预测值，并给出绝对误差。答案：(1)均值μ=4333，σ≈753。上下界=4333±3×753→[2074,6592]，所有数据均在界内，故无异常。(2)7日移动平均预测第15日=(8日到14日之和)/7=(3400+3600+3800+4200+4500+4800+5100)/7=4200；真实值5300，绝对误差=|53004200|=1100万元。57.（综合类，30分）某市政府开放数据平台提供出租车GPS与订单数据，字段包括：vehicle_id,order_id,lon,lat,timestamp,passenger_count,revenue。数据规模：2024年全年，约200亿条，大小8TB，已存储在HDFS（Parquet+Snappy）。现需完成以下任务：a.计算每日早晚高峰（7:009:00，17:0019:00）平均载客里程与空驶率；b.识别并输出2024年“黑车”嫌疑车辆Top100（定义：日均订单>50且平均载客里程>40km，同时夜间（22:005:00）订单占比>40%）；c.将结果写入ClickHouse并支持亚秒级可视化。请给出完整技术方案、核心SQL/代码、性能优化措施及资源评估。答案：1.技术方案：计算引擎：Spark3.4onYARN，动态资源分配，Executor4核16G×800，Driver16G；存储：结果表ClickHouse本地MergeTree，分区字段dt+hour；调度：Airflow每日02:00启动，依赖原始数据完整性信号。2.核心代码：(1)读取与过滤：df=spark.read.parquet("hdfs://ns/taxi/2024/.parquet")df=df.filter(hour("timestamp").isin([7,8,17,18]))(2)计算早晚高峰指标：frompyspark.sql.functionsimportrush=df.groupBy(to_date("timestamp").alias("dt"))\.agg(avg(when(passenger_count>0,sqrt(pow(lonlag(lon).over(Window.partitionBy("vehicle_id","order_id").orderBy("timestamp")),2)+pow(latlag(lat).over(...),2))111000)).alias("avg_dist_m"),sum(when(passenger_count==0,1).otherwise(0))/count("").alias("empty_rate"))(3)识别黑车：black=df.groupBy("vehicle_id")\.agg(countDistinct("order_id").alias("daily_order"),avg(when(hour("timestamp").isin([22,23,0,1,2,3,4,5]),1).otherwise(0)).alias("night_ratio"),

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据分析师专业素质测评试题及答案

文档简介

温馨提示

最新文档

评论

2025年大数据分析师专业素质测评试题及答案

文档简介

温馨提示

最新文档

评论

相关文档