2025年大数据分析师资格考试试卷及答案_第1页
2025年大数据分析师资格考试试卷及答案_第2页
2025年大数据分析师资格考试试卷及答案_第3页
2025年大数据分析师资格考试试卷及答案_第4页
2025年大数据分析师资格考试试卷及答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年大数据分析师资格考试试卷及答案1.单项选择题(每题1分,共20分)1.1在HDFS中,默认一个数据块(Block)的大小是A.32MB B.64MB C.128MB D.256MB答案:C1.2下列Python语句执行后,变量x的值为importpandasaspddf=pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})x=df['A'].corr(df['B'])A.0 B.1 C.1 D.NaN答案:B1.3在SparkSQL中,用于将DataFrame注册为临时视图的API是A.cache() B.createOrReplaceTempView() C.persist() D.registerTable()答案:B1.4若某电商网站日均PV为2亿,峰值QPS为30000,则其峰值倍数为A.1.3 B.3.9 C.12.96 D.129.6答案:C1.5下列关于KafkaPartition的描述,正确的是A.一个Partition只能被一个ConsumerGroup内的一个Consumer消费B.Partition数量一旦创建不可调整C.Partition副本数必须等于Broker数D.Partition越多吞吐量一定越高答案:A1.6在SQL优化中,最可能触发全表扫描的写法是A.SELECTidFROMuserWHEREphone=B.SELECTidFROMuserWHEREYEAR(birth)=1990C.SELECTidFROMuserWHEREid=10086D.SELECTidFROMuserWHEREphoneLIKE'138%'答案:B1.7使用梯度下降法求解逻辑回归时,若学习率过大,将导致A.收敛变慢 B.无法收敛 C.过拟合 D.欠拟合答案:B1.8在Hive中,下列数据类型占用存储空间最大的是A.INT B.BIGINT C.STRING D.DECIMAL(38,0)答案:D1.9某时间序列模型残差通过ADF检验得到的p值为0.01,则A.残差平稳 B.残差非平稳 C.原序列平稳 D.无法判断答案:A1.10在Flink中,用于实现精确一次语义的检查点机制依赖A.幂等Sink+可回放Source B.异步增量Checkpoint C.两阶段提交 D.以上全部答案:D1.11下列关于XGBoost的描述,错误的是A.默认对缺失值自动学习分裂方向B.支持自定义目标函数C.基学习器只能是CART树D.支持特征子采样答案:C1.12若随机变量X服从泊松分布Pois(λ),则Var(X)=A.λ² B.λ C.e^λ D.1/λ答案:B1.13在数据仓库分层架构中,DWD层的主要职责是A.原始数据备份 B.明细数据清洗 C.宽表汇总 D.应用接口答案:B1.14使用MapReduce实现WordCount时,Shuffle阶段排序的键是A.单词 B.文件名 C.偏移量 D.行号答案:A1.15下列关于数据倾斜的解决方案,属于“打散key”思想的是A.两阶段聚合 B.mapsidejoin C.增加reduce并行度 D.使用Combiner答案:A1.16在Python中,使用multiprocessing模块时,若进程间需要共享大数组,应首选A.Queue B.Pipe C.Array+sharedmemory D.Manager().list答案:C1.17若某分类模型在测试集上AUC=0.85,则其Gini系数约为A.0.7 B.0.85 C.0.15 D.0.425答案:A1.18在ClickHouse中,最适合做高基数去重计算的函数是A.uniq B.uniqCombined C.uniqExact D.uniqHLL12答案:B1.19下列关于数据湖的说法,正确的是A.数据湖只能存储结构化数据B.数据湖不支持事务C.数据湖支持SchemaonreadD.数据湖与数据仓库互斥答案:C1.20若某Spark任务运行日志显示“Lostexecutor12onnode3:ContainerkilledbyYARNforexceedingmemorylimits”,则优先调优参数应为A.spark.sql.shuffle.partitionsB.spark.executor.memoryC.spark.default.parallelismD.spark.executor.cores答案:B2.多项选择题(每题2分,共20分,每题至少有两个正确答案,多选少选均不得分)2.1下列属于Hadoop3.x新特性的有A.ErasureCoding B.YARNFederation C.MapReduceUber模式默认开启 D.支持GPU资源调度答案:ABD2.2在Pythonpandas中,可用来检测缺失值的函数有A.isna() B.isnull() C.notna() D.complete.cases()答案:ABC2.3下列算法中,天然支持输出特征重要性评分的有A.RandomForest B.LightGBM C.KMeans D.LogisticRegression(penalty='l1')答案:ABD2.4关于Flink窗口机制,正确的有A.滚动窗口长度固定 B.滑动窗口可以有重叠 C.会话窗口按间隙时间合并 D.全局窗口默认触发器为Never答案:ABC2.5在SQL性能调优中,可能导致索引失效的写法有A.WHEREcol+1>10 B.WHEREcolLIKE'%abc' C.WHEREcolISNULL D.WHEREcolIN(子查询)答案:ABD2.6下列属于NoSQL数据库CAP理论中“CP”系统的有A.HBase B.MongoDB(副本集) C.etcd D.Cassandra(可调一致性)答案:AC2.7下列关于PCA的描述,正确的有A.主成分方向对应协方差矩阵最大特征值特征向量B.各主成分之间线性无关C.必须对原始特征做标准化D.可用于降噪答案:ABD2.8在HiveSQL中,可用于行转列的函数有A.collect_list B.collect_set C.explode D.lateralview答案:CD2.9下列属于时间序列异常检测算法的有A.STL+IQR B.IsolationForest C.Prophet D.LSTMbasedAutoEncoder答案:ABD2.10下列关于数据治理关键活动,属于元数据管理范畴的有A.数据血缘采集 B.数据标准制定 C.数据质量规则库 D.主数据识别答案:ABC3.填空题(每空2分,共20分)3.1在Linux中,查看当前目录下各子目录磁盘占用大小的命令是duhmaxdepth=13.2若某Hive表分区字段为dt,格式为yyyyMMdd,则查询最近7天数据的WHERE写法为dtbetweendate_sub(current_date,6)andcurrent_date3.3在Pythonnumpy中,生成形状为(3,4)且元素服从标准正态分布的随机数组的代码为np.random.randn(3,4)3.4在Spark中,将RDD转成DataFrame并指定schema的API为createDataFrame(rdd,schema)3.5若某决策树节点信息增益为0.3,父节点信息熵为0.8,则分裂后加权子节点信息熵为0.53.6在MySQL中,查看某表索引使用情况的命令为SHOWINDEXFROMtable_name3.7若某逻辑回归模型系数β=[0.2,0.5],则特征x1每增加1单位,对数几率增加0.23.8在FlinkTableAPI中,将流表注册为视图的语句为tableEnv.createTemporaryView("view_name",table)3.9在ClickHouse中,创建MergeTree表必须指定的两个关键字段为ORDERBY和PARTITIONBY3.10若某KafkaTopic有6Partition,ConsumerGroup内消费者数量为4,则最多可同时消费的Partition数为44.简答题(共30分)4.1(封闭型,6分)简述MapReduce中Combiner的作用及使用条件。答案:Combiner是本地reduce,用于减少Map输出数据量,降低网络IO;必须满足函数满足交换律和结合律,如sum、max;不能改变最终reduce结果,如求平均不可直接用Combiner。4.2(开放型,8分)某电商公司“秒杀”场景下,数据库瞬时写入量超出磁盘IOPS上限,导致延迟飙升。请给出三种以上技术方案并对比优劣。答案:1.消息队列削峰:Kafka+异步落库,优点解耦、可扩展,缺点需保证幂等及消费延迟。2.分库分表+热点散列:将库存行拆成多行,优点分散写压力,缺点复杂度增加、需处理扣减原子性。3.Redis预扣库存:先内存扣减再异步同步DB,优点极高吞吐,缺点需处理Redis宕机回滚。4.队列合并+批量写入:将多条insert合并为batch,优点降低IOPS,缺点实时性下降。综合:一般组合使用,Redis+Kafka+最终一致性为业界主流。4.3(封闭型,6分)写出使用Pythonscikitlearn对鸢尾花数据集进行标准化后用KMeans聚类并输出轮廓系数的完整代码。答案:fromsklearn.datasetsimportload_irisfromsklearn.preprocessingimportStandardScalerfromsklearn.clusterimportKMeansfromsklearn.metricsimportsilhouette_scoreX,y=load_iris(return_X_y=True)X=StandardScaler().fit_transform(X)km=KMeans(n_clusters=3,random_state=0).fit(X)print(silhouette_score(X,km.labels_))4.4(开放型,10分)某视频平台日活1亿,需构建实时用户画像标签系统。请给出技术架构图关键组件、数据流转过程及保证ExactlyOnce的要点。答案:组件:日志采集(Flume/Filebeat)→Kafka→FlinkCEP/ETL→Redis(热标签)→HBase(冷标签)→ClickHouse(分析)→API服务。数据流:客户端埋点→日志服务器→KafkaTopic按userId分区→Flink关联维度表(异步IO)→状态(ValueState/MapState)计算标签→双写Redis+HBase→Checkpoint两阶段提交。ExactlyOnce:Kafka可回放Source+FlinkCheckpoint+幂等Sink(Redis用lua脚本,HBase用CheckAndPut),开启两阶段提交,Checkpoint间隔30s,失败回滚至上次成功状态。5.应用题(共60分)5.1计算题(12分)给定某商品最近12个月销量(万件):[12,10,13,11,14,12,15,13,16,14,17,15],请用简单指数平滑法(α=0.3)预测第13个月销量,并给出平滑公式及每一步计算结果(保留两位小数)。答案:S1=y1=12S2=0.310+0.712=11.40S3=0.313+0.711.40=12.18S4=0.311+0.712.18=11.83S5=0.314+0.711.83=12.48S6=0.312+0.712.48=12.34S7=0.315+0.712.34=13.14S8=0.313+0.713.14=13.10S9=0.316+0.713.10=13.97S10=0.314+0.713.97=13.98S11=0.317+0.713.98=14.89S12=0.315+0.714.89=14.92第13个月预测值为14.92万件。5.2分析题(16分)某运营商提供用户上网日志,字段:user_id,start_time,end_time,up_bytes,down_bytes,site。需统计每用户每日夜间(23:00–05:00)流量占比,并找出流量前100用户。请写出完整SparkSQL实现并解释性能调优点。答案:CREATETEMPVIEWtrafficASSELECTuser_id,DATE(start_time)ASdt,CASEWHENhour(start_time)>=23ORhour(start_time)<5THENup_bytes+down_bytesELSE0ENDASnight_bytes,up_bytes+down_bytesAStotal_bytesFROMlog_table;SELECTuser_id,dt,SUM(night_bytes)/SUM(total_bytes)ASnight_ratioFROMtrafficGROUPBYuser_id,dt;CREATETEMPVIEWuser_ratioASSELECTuser_id,AVG(night_ratio)ASavg_night_ratio,SUM(total_bytes)AStotal_flowFROMtrafficGROUPBYuser_id;SELECTFROMuser_ratioORDERBYtotal_flowDESCLIMIT100;调优:1.分区裁剪+过滤下推,先wherestart_timebetween;2.bucket表按user_id分桶256桶;3.开启spark.sql.adaptive.enabled;4.缓存中间traffic表;5.使用ZSTD压缩。5.3综合题(32分)背景:某银行信贷风控需构建客户违约预测模型。数据:样本100万,特征500维,正负样本比例1:19,训练集/测试集按7:3拆分。任务:(1)给出处理类别不平衡的三种策略并给出Python代码片段;(2)选择两种模型(XGBoost、LightGBM)对比,列出关键超参数、调优方法、评价指标;(3)给出模型可解释性方案;(4)若模型上线后KS值从0.42降至0.30,给出排查思路。答案:(1)策略:a.欠采样:RandomUnderSampler(random_state=42)b.SMOTE过采样:SMOTE(k_neighbors=5)c.代价敏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论