版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据分析工程师资格认证试卷及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在HDFS中,NameNode的主要职责是()。A.存储实际数据块B.管理文件系统元数据C.执行Map任务D.执行Reduce任务答案:B2.下列关于SparkRDD的描述,正确的是()。A.RDD支持细粒度原地修改B.RDD的容错机制基于检查点C.RDD的转换操作是惰性求值D.RDD必须物化到磁盘才能被复用答案:C3.在Flink的时间语义中,EventTime的确定依赖于()。A.系统当前时钟B.数据元素中自带的时间戳C.Source算子启动时间D.Checkpoint完成时间答案:B4.若某电商订单表order_info包含列order_id、user_id、order_time、amount,现需统计每日GMV,下列SQL最合理的是()。A.selectdate(order_time),sum(amount)fromorder_infogroupby1;B.selectorder_time,sum(amount)fromorder_info;C.selectorder_id,sum(amount)fromorder_infogroupbyorder_id;D.selectuser_id,sum(amount)fromorder_infowhereorder_time>='20250101';答案:A5.在Kafka2.8之后,移除Zookeeper依赖的替代组件是()。A.KRaftB.SchemaRegistryC.KafkaConnectD.KafkaStreams答案:A6.使用Hive创建外部表时,关键字是()。A.EXTERNALB.OUTSIDEC.FOREIGND.OUTER答案:A7.在Pythonpandas中,对DataFramedf按列col升序排序并返回新对象的正确写法是()。A.df.sort('col')B.df.sort_values('col',inplace=True)C.df_sorted=df.sort_values('col')D.df.order('col')答案:C8.下列算法中,属于聚类算法的是()。A.AprioriB.DBSCANC.XGBoostD.FPGrowth答案:B9.在A/B测试中,若显著性水平α=0.05,则置信度为()。A.99%B.97.5%C.95%D.90%答案:C10.使用HBaserowkey设计时,为避免热点应优先采用()。A.自增整型B.哈希前缀+时间戳C.纯时间戳D.固定字符串答案:B11.在Airflow中,任务实例状态为upstream_failed的含义是()。A.自身代码抛异常B.上游任务失败导致本任务未调度C.被手动标记为失败D.重试次数耗尽答案:B12.若某特征x的取值范围为[0,120],采用MinMax缩放至[0,1],则原始值60缩放后为()。A.0.5B.0.25C.0.6D.0.75答案:A13.在ClickHouse中,最适合做高基数去重的聚合函数是()。A.uniqB.countDistinctC.uniqExactD.uniqCombined答案:D14.下列关于数据湖的说法,错误的是()。A.支持结构化与半结构化数据B.强调SchemaonReadC.必须基于HDFS实现D.通常与对象存储兼容答案:C15.在Python中,使用scikitlearn将类别变量转为数值,应首选()。A.LabelEncoderB.OneHotEncoderC.OrdinalEncoderD.StandardScaler答案:B16.若某决策树最大深度为5,则其最多拥有叶子节点数为()。A.16B.31C.32D.64答案:C17.在TensorFlow2.x中,关闭eagerexecution的代码是()。A.pat.v1.disable_eager_execution()B.tf.eager.exit()C.tf.function=FalseD.tf.disable_v2_behavior()答案:A18.使用Sqoop将MySQL数据导入Hive时,若目标表不存在,需加参数()。A.createhivetableB.hiveimportC.hiveoverwriteD.hivepartitionkey答案:A19.在Prometheus的查询语句中,计算过去5分钟HTTP请求平均延迟的函数是()。A.rate(http_request_duration_seconds_sum[5m])B.increase(http_request_duration_seconds_count[5m])C.histogram_quantile(0.5,http_request_duration_seconds)D.avg_over_time(http_request_duration_seconds[5m])答案:D20.若某模型在训练集AUC=0.98,验证集AUC=0.72,则最可能出现()。A.欠拟合B.过拟合C.数据泄露D.类别不平衡答案:B二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)21.下列属于Flinkexactlyonce保障机制依赖的组件有()。A.CheckpointB.StateBackendC.BarrierD.Kafka事务答案:ABCD22.关于Hive与SparkSQL的比较,正确的有()。A.Hive默认执行引擎为MapReduceB.SparkSQL支持向量化读取ORCC.Hive支持动态分区裁剪D.SparkSQL不支持UDF答案:ABC23.下列Python代码可正确实现DataFrame列归一化的有()。A.df['x']=(df['x']df['x'].mean())/df['x'].std()B.df['x']=df['x']/df['x'].max()C.df['x']=(df['x']df['x'].min())/(df['x'].max()df['x'].min())D.df['x']=sklearn.preprocessing.scale(df['x'])答案:ACD24.在Kafka中,提高消费者吞吐量的调优手段有()。A.增大fetch.min.bytesB.增大max.poll.recordsC.增大session.timeout.msD.使用批量提交答案:ABD25.下列属于NoSQL数据库CAP权衡中放弃一致性(C)的系统有()。A.CassandraB.MongoDB默认配置C.HBaseD.DynamoDB最终读答案:AD26.关于数据仓库分层,描述正确的有()。A.ODS层保存原始数据B.DWD层进行维度退化C.DWS层面向主题汇总D.ADS层直接供报表查询答案:ABCD27.下列属于特征选择过滤法的有()。A.方差选择B.卡方检验C.递归特征消除D.互信息答案:ABD28.在AirflowDAG中,可触发下游任务重试的参数有()。A.retriesB.retry_delayC.retry_exponential_backoffD.max_active_runs答案:ABC29.下列关于ClickHouseMergeTree引擎的说法,正确的有()。A.按主键排序存储B.支持数据分区C.支持副本机制需借助ReplicatedMergeTreeD.支持更新删除使用ALTERUPDATE答案:ABCD30.下列属于实时数仓常见Lambda架构缺点有()。A.维护两套代码B.重新计算成本高C.时效性低D.存储冗余答案:ABD三、填空题(每空1分,共20分)31.在Linux中,查看当前目录磁盘使用情况的命令是dush.。32.HDFS默认块大小为128MB。33.Spark中,设置任务并行度参数为spark.sql.shuffle.partitions。34.MySQL中,查看慢查询日志是否开启的变量名是slow_query_log。35.Flink的窗口算子中,滚动时间窗口的函数名为Tumble。36.在Python中,使用pandas读取parquet格式文件应调用函数read_parquet。37.若某特征服从标准正态分布,则其偏度为0。38.在机器学习评价指标中,F1score的取值范围是[0,1]。39.Kafka的每个分区副本集合中,负责读写请求的副本称为leader。40.在Hive中,将字符串转为时间戳的函数是unix_timestamp。41.若决策树使用基尼系数作为划分标准,则基尼系数越小表示节点纯度越高。42.在Airflow中,任务之间通过set_upstream或set_downstream方法建立依赖。43.使用scikitlearn进行交叉验证的函数名是cross_val_score。44.在Prometheus中,标签名必须满足正则表达式[azAZ_][azAZ09_]。45.若某SQL执行计划出现SeqScan,则优化方向是添加索引。46.在HBase中,删除数据实际上写入了一条墓碑标记。47.数据治理元数据三维包括业务元数据、技术元数据与操作元数据。48.在TensorFlow中,模型保存为SavedModel格式使用的API是tf.saved_model.save。49.若某A/B实验样本量计算中,检验效能1β=0.8,则β=0.2。50.在ClickHouse中,查看建表语句的系统表是system.tables。四、判断题(每题1分,共10分。正确打“√”,错误打“×”)51.SparkStreaming的延迟级别默认在秒级,而Flink可做到毫秒级。√52.Hive支持事务的表必须存储在ORC格式且开启表属性transactional=true。√53.在Kafka中,consumergroup.id相同则消息会被重复消费。×54.XGBoost的目标函数只包含损失函数,不含正则项。×55.在Linux中,命令lsof可查看端口占用情况。√56.数据仓库维度建模中,雪花模型比星型模型查询性能更高。×57.使用pandas的merge函数时,how='outer'表示全外连接。√58.在FlinkCEP中,模式序列后加.oneOrMore表示贪婪匹配。√59.对类别不平衡数据集,仅使用准确率评估模型效果会失真。√60.在HDFS中,DataNode与NameNode通过RPC心跳机制通信,默认间隔为1小时。×五、简答题(共30分)61.(封闭型,6分)简述MapReduce中Shuffle阶段的具体流程,并指出其对性能的影响因素。答案:Shuffle阶段包括Map端溢写、分区、排序、合并、拉取、Reduce端归并排序。影响因素:1.Map端缓冲区大小;2.磁盘IO速度;3.网络带宽;4.分区数;5.合并策略;6.数据倾斜。62.(开放型,6分)某电商公司“秒杀”场景下,订单表每秒写入10万条,需实时统计当前库存,请给出技术选型与理由。答案:选用Flink+Redis+MySQL。Flink提供毫秒级延迟与exactlyonce;Redis存放库存缓存,利用INCR原子操作扣减;MySQL做最终一致性库存落盘,通过binlog反馈给Flink做校验补偿。理由:高吞吐、低延迟、支持事件时间、可容错。63.(封闭型,6分)描述Hive动态分区插入数据时产生大量小文件的原因,并给出两种以上优化方案。答案:原因:每行数据即触发一次分区写入,导致文件数=分区数×mapper数。优化:1.启用hive.merge.mapfiles=true,任务末合并;2.在插入前按分区字段distributeby+clusterby,减少mapper数;3.启用hive.optimize.sort.dynamic.partition=true,使单reducer写单分区;4.调大hive.exec.reducers.bytes.per.reducer,降低reducer数。64.(开放型,6分)给定用户行为日志,字段:uid,event_time,event_type,page。需识别用户连续30分钟内浏览页面超过10次且未下单(event_type=order)的“浏览流失”人群,请写出FlinkSQL实现思路。答案:1.定义source表接入kafka;2.使用TUMBLE窗口,size=30分钟;3.过滤event_type=page;4.按uid窗口聚合统计page次数;5.使用LEFTJOIN同窗口内event_type=order的子查询,若order次数为0则保留;6.将结果写入sink表供下游营销系统。65.(封闭型,6分)解释ClickHouse的“稀疏索引”机制,并说明如何设计roworder以提升范围查询性能。答案:ClickHouse每8192行形成1个granule,只存储首行主键值作为稀疏索引。查询时通过索引确定granule范围,再顺序扫描。设计roworder应将范围查询字段置于主键最左,保证单调性,避免高基数随机列打头,减少granule扫描量。六、计算与分析题(共30分)66.(计算类,10分)某模型预测用户是否下单,测试集10000条,其中正样本1000。模型预测结果:TP=800,FP=200,FN=200,TN=8600。计算精确率、召回率、F1score、AUC近似值(提示:TPR=召回,FPR=FP/(FP+TN))。答案:精确率P=TP/(TP+FP)=800/1000=0.8召回率R=TP/(TP+FN)=800/1000=0.8F1=2PR/(P+R)=2×0.8×0.8/1.6=0.8TPR=0.8,FPR=200/8800≈0.0227AUC近似=0.5+(TPRFPR)/2=0.5+0.7773/2≈0.888767.(分析类,10分)给定用户日活跃表dau(dt,uid,os,province,active_time)。发现近7天每日UV环比下跌5%,请写出逐步排查的SQL与可视化思路。答案:1.计算分日UV:selectdt,count(distinctuid)uvfromdauwheredtbetween'20250601'and'20250607'groupbydtorderbydt;2.计算环比:selectdt,uv,lag(uv)over(orderbydt)prev,(uvlag(uv)over(orderbydt))/lag(uv)over(orderbydt)ratio;3.下钻维度:按os、province分组,计算各维度环比,定位下跌集中维度;4.绘制折线图:x=dt,y=uv,叠加维度拆分颜色;5.若某省下跌显著,再按城市、版本细分,结合外部事件(天气、竞品活动)归因。68.(综合类,10分)某物流公司需预测未来7天每日货量,历史365天每日货量数据,含节假日、促销、天气字段。请给出完整建模方案,包括特征工程、模型选择、评估指标、上线部署。答案:特征工程:1.日期特征(星期、节假日、月初月末、年假前后);2.滞后特征(滞后1~30天货量、滑动7天均值、滑动标准差);3.滚动节假日窗口促销标记;4.天气(温度、降水、风速)按城市加权平均;5.外部经济指标(电商GMV同比)。模型选择:Prophet基线+LightGBM融合,Prophet捕获节假日与趋势,LightGBM捕获高维非线性;stacking第二层用线性回归加权。评估:滚动窗口时间序列交叉验证,指标sMAPE、MAE、MAPE,要求sMAPE<8%。部署:1.每日凌晨00:30Airflow调度;2.训练节点使用GPU服务器,预测节点CPU容器;3.模型保存为pickle+pmml双格式;4.预测结果写入Redis队列,供下游排班系统调用;5.监控实际货量与预测偏差>10%触发告警,自动重训。七、编程与SQL题(共30分)69.(Python,10分)编写函数fill_null_with_mode,对pandasDataFrame所有类别列缺失值用众数填充,返回新DataFrame,要求原地不修改。答案:importpandasaspddeffill_null_with_mode(df):df_new=df.copy()cat_cols=df_new.select_dtypes(include=['object','category']).columnsforcolincat_cols:mode_val=df_new[col].mode().iloc[0]ifnotdf_new[col].mode().emptyelseNonedf_new[col]=df_new[col].fillna(mode_val)returndf_new70.(SQL,10分)订单表order_info(order_id,user_id,product_id,qty,price,order_time),求每个用户最近三笔订单的每单购买件数(qty)列表,按订单时间倒序,结果字段:user_id,qty_list。答案:withrnkas(selectuser_id,qty,row_number()over(partitionbyuser_idorderbyorder_timedesc)rnfromorder_info)selectuser_id,group_concat(qtyorderbyrnseparator',')qty_listfromrnkwherern<=3groupbyuser_id;71.(HQL,10分)用户登录日志表login_log(uid,login_time),计算20250601至20250607连续登录3天及以上的用户列表,输出uid、起始日期、连续天数。答案:withtmpas(selectuid,login_time,date_sub(login_time,row_number()over(partitionbyuidorderbylogin_time))grpfromlogin_logwherelogin_timebetween'20250601'and'20250607'),aggas(selectuid,grp,min(login_time)start_date,count(1)daysfromtmpgroupbyuid,grp)selectuid,start_date,daysfromaggwheredays>=3orderbyuid,start_date;八、综合设计题(共40分)72.背景:某视频平台日均上传量200TB,原始视频需转码为480P、720P、1080P、4K四档,转码后总量为原始3倍。要求:1.支持水平扩展;2.转码任务优先级按会员>普通>游客;3.失败任务需重试3次;4.实时查看队列长度;5.成本可控。请设计一套基于大数据架构的转码调度系统,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年剥绒机合作协议书
- 2025年烟草、盐加工机械合作协议书
- 2025年铜及铜合金材项目发展计划
- 2025年橡塑改性弹性体合作协议书
- 班主任师德师风培训课件
- 2026年绿色资产支持商业票据项目投资计划书
- 2025年山东省青岛市中考英语真题卷含答案解析
- 牛的发情鉴定技术
- 2025年08月份内镜护士(洗消相关)理论考试卷及答案
- 2026年理财规划师之三级理财规划师题库(附带答案)
- 生态修复技术集成-深度研究
- 中小企业专利质量控制指引编制说明
- 旅游行业安全风险管控与隐患排查方案
- 专题15 物质的鉴别、分离、除杂、提纯与共存问题 2024年中考化学真题分类汇编
- DL-T5418-2009火电厂烟气脱硫吸收塔施工及验收规程
- 复方蒲公英注射液在痤疮中的应用研究
- 高考数学专题:导数大题专练(含答案)
- 腘窝囊肿的关节镜治疗培训课件
- 淮安市2023-2024学年七年级上学期期末历史试卷(含答案解析)
- 课件:曝光三要素
- 2023-2024学年山东省淄博市临淄区八年级(上)期末数学试卷(五四学制)(含解析)
评论
0/150
提交评论