2025年大数据科学与应用职业资格考试试卷及答案_第1页
2025年大数据科学与应用职业资格考试试卷及答案_第2页
2025年大数据科学与应用职业资格考试试卷及答案_第3页
2025年大数据科学与应用职业资格考试试卷及答案_第4页
2025年大数据科学与应用职业资格考试试卷及答案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年大数据科学与应用职业资格考试试卷及答案1.单项选择题(每题1分,共20分)1.1在HDFS中,NameNode的主要职责是A.存储实际数据块B.管理文件系统元数据C.执行Map任务D.执行Reduce任务答案:B1.2下列哪一项不是Spark相比HadoopMapReduce的优势A.内存计算B.更丰富的算子C.强制使用YARN调度D.支持迭代算法答案:C1.3在Kafka中,负责持久化消息且以顺序写磁盘提升性能的组件是A.ProducerB.ConsumerC.BrokerD.ZooKeeper答案:C1.4若某电商用户行为表user_action(user_id,item_id,action_type,ts)数据量达120亿行,采用Hive分区策略,下列最合理的是A.按user_id哈希分区B.按action_type分区C.按dt=to_date(ts)分区并子按item_id哈希分桶D.不加分区直接存储答案:C1.5Flink的Checkpoint机制使用下列哪种分布式快照算法A.ChandyLamportB.RaftC.TwoPhaseCommitD.Paxos答案:A1.6在HBase中,RowKey设计应避免A.散列化B.时间戳前缀C.反转URLD.加盐答案:B1.7使用Pythonpandas读取10GBCSV时,下列做法最能降低内存占用A.一次性读入后删除无用列B.使用dtype参数指定列类型C.先采样再读全量D.强制使用float64答案:B1.8在机器学习中,F1score的取值范围是A.[1,1]B.[0,1]C.[0,+∞)D.(∞,+∞)答案:B1.9下列哪种图算法可用于发现社交网络中的“关键意见领袖”A.PageRankB.FloydWarshallC.PrimD.Kmeans答案:A1.10某Spark任务提交参数:executormemory8gexecutorcores4numexecutors100,则集群理论最大并行度为A.100B.400C.800D.3200答案:B1.11在数据治理中,属于“数据血缘”核心记录内容的是A.字段业务含义B.字段负责人C.上游表与下游表依赖关系D.字段安全等级答案:C1.12下列关于数据湖的说法正确的是A.仅支持结构化数据B.必须预先定义SchemaC.通常采用“读时模式”D.不支持ACID事务答案:C1.13在Python中,使用numpy.random.seed(42)的作用是A.提高随机数生成速度B.保证随机数可重复C.降低内存占用D.生成真随机数答案:B1.14某时序数据库写入吞吐要求每秒500万点,最适合的存储模型是A.行存B+树B.列存+LSMTreeC.哈希索引D.位图索引答案:B1.15在数据仓库分层架构中,DWD层主要完成A.原始数据接入B.明细数据清洗C.宽表汇总D.指标沉淀答案:B1.16下列关于数据倾斜的描述正确的是A.只会发生在Shuffle阶段B.可通过两阶段聚合缓解C.增加并行度一定解决D.与键分布无关答案:B1.17在TensorFlow2.x中,tf.data.Dataset.prefetch()的作用是A.增加批次大小B.实现数据预取重叠计算C.自动混洗D.缓存到磁盘答案:B1.18某分类模型在测试集上Accuracy=0.95,但Recall=0.30,说明A.模型过拟合B.模型欠拟合C.正类样本极少D.阈值过高答案:D1.19在PostgreSQL中,对JSONB字段建立GIN索引可显著提升A.精确匹配B.范围查询C.包含查询D.排序答案:C1.20下列哪项最能体现数据中台的“复用性”目标A.统一数据湖B.统一主数据C.统一数据服务APID.统一报表平台答案:C2.多项选择题(每题2分,共20分;每题至少有两个正确答案,多选少选均不得分)2.1下列属于NoSQL数据库的是A.MongoDBB.Neo4jC.RedisD.Oracle答案:ABC2.2在SparkSQL中,以下函数可用于窗口分析的有A.row_number()B.lag()C.collect_list()D.explode()答案:ABC2.3造成Hive查询慢的典型原因包括A.小文件过多B.分区字段选择不当C.启用Tez引擎D.数据倾斜答案:ABD2.4下列属于特征选择方法的有A.卡方检验B.L1正则C.PCAD.互信息答案:ABD2.5关于KafkaConsumerGroup,正确的有A.组内每个分区只能被一个消费者实例消费B.消费者可随时加入或退出C.分区数增加可立即提高并行度D.消费者偏移量由Broker强制管理答案:ABC2.6在数据质量评估维度中,属于“一致性”指标的有A.同一客户在不同系统ID一致B.数值范围符合业务规则C.编码格式统一D.记录不重复答案:AC2.7下列操作可能导致数据泄露(dataleakage)的有A.先整体标准化再划分训练/测试B.用未来特征训练历史模型C.交叉验证前做特征选择D.训练集和测试集同分布答案:ABC2.8在Flink中,支持exactlyonce语义的条件包括A.启用CheckpointB.使用可重放SourceC.使用幂等SinkD.禁用异步IO答案:ABC2.9关于数据仓库星型模型,正确的有A.事实表引用维度表外键B.维度表高度规范化C.查询性能优于雪花模型D.易于业务理解答案:ACD2.10下列属于时间序列预测算法的有A.ProphetB.LSTMC.XGBoostD.ARIMA答案:ABD3.填空题(每空2分,共20分)3.1在Linux中,查看当前文件夹下各子目录磁盘使用情况的命令是Mat(diskhmaxdepth=1)。答案:duhmaxdepth=13.2HDFS默认块大小为128MB,若文件大小为1.2GB,则理论存储需占用Mat(10)个块。答案:103.3在SQL中,将两个表做全外连接的关键字是Mat(FULLOUTERJOIN)。答案:FULLOUTERJOIN3.4若随机变量X服从标准正态分布,则P(X≤0)=Mat(0.5)。答案:0.53.5在Python中,使用Mat(pd.merge(df1,df2,on='key',how='inner'))实现两表内连接。答案:pd.merge(df1,df2,on='key',how='inner')3.6Spark中,将RDD转为DataFrame的隐式转换需导入Mat(spark.implicits._)。答案:spark.implicits._3.7在Elasticsearch中,实现字段全文检索的查询类型是Mat(match)。答案:match3.8若某决策树最大深度为5,则叶节点最多可能有Mat(32)个。答案:323.9在Kafka2.x中,Producer保证幂等需设置Mat(enable.idempotence=true)。答案:enable.idempotence=true3.10数据治理元数据管理国家标准编号为Mat(GB/T360732018)。答案:GB/T3607320184.判断题(每题1分,共10分;正确打“√”,错误打“×”)4.1Hive支持行级更新。×4.2Redis是单线程模型,因此无法利用多核CPU。×4.3在Spark中,mapPartitions比map函数减少函数调用开销。√4.4数据仓库分层中,ODS层数据通常不做清洗。√4.5XGBoost只能运行在单机环境。×4.6使用gzip压缩的HDFS文件支持split。×4.7Flink的CEP库可用于复杂事件处理。√4.8数据湖与数据仓库无法共存于同一企业架构。×4.9在MySQL中,InnoDB支持事务而MyISAM不支持。√4.10过采样一定会导致模型过拟合。×5.简答题(封闭型,每题5分,共20分)5.1简述MapReduce中Shuffle阶段的具体流程。答案:Map端将输出结果按分区函数分成若干分区,并在内存缓冲区排序,当缓冲区达到阈值时溢写到本地磁盘,生成多个溢写文件,再进行多路归并排序形成最终分区文件;Reduce端通过HTTP拉取对应分区的数据,合并后按key分组,供Reduce函数处理。5.2说明Hive中动态分区与静态分区的区别。答案:静态分区在插入语句中显式指定分区值,适合分区值已知且数量少;动态分区由查询结果列值决定分区值,无需手动指定,适合批量写入大量分区,但需开启动态分区模式并注意小文件问题。5.3列举三种解决Spark数据倾斜的常见手段并给出适用场景。答案:1.两阶段聚合:适用于count、sum等聚合且倾斜键较少;2.随机前缀扩容:适用于join且一侧表倾斜,将倾斜键分散到多个任务;3.增加并行度:适用于数据本身均匀但任务数不足,通过repartition增加分区。5.4说明Flink的TimeCharacteristic中EventTime与ProcessingTime的差异。答案:EventTime是事件本身携带的时间戳,反映业务发生时刻,需配合watermark处理乱序;ProcessingTime是节点系统时钟,处理简单但无法应对乱序与延迟,适用于低延迟、可容忍非确定性场景。6.简答题(开放型,每题10分,共20分)6.1某互联网公司日活3000万,拟构建实时用户画像系统,请给出技术选型、架构图要点及可能遇到的最大挑战。答案:技术选型:Kafka收集行为日志,Flink做实时ETL与特征计算,Redis存储秒级标签,HBase存明细,ClickHouse供OLAP,API网关对外服务;架构要点:端到端exactlyonce,维表异步Join,异步Checkpoint,分层标签(基础、统计、模型),灰度回刷;最大挑战:1.行为乱序导致标签漂移,需watermark+状态管理;2.维表更新一致性,需版本号控制;3.高并发读写下Redis热key,需本地缓存+分片;4.实时与离线标签一致性,需Lambda架构校验。6.2某市交通部门拟通过浮动车GPS数据预测未来1小时路网平均速度,请给出完整建模流程、特征工程、算法选择与评估指标,并讨论数据偏差问题。答案:流程:1.数据接入Kafka,Flink清洗去噪;2.路段匹配,计算5分钟粒度速度;3.特征工程:历史同期速度、天气、节假日、事件、POI、上下游速度、时间编码;4.模型:先GBDT建立基线,再用Seq2Seq+Attention捕捉时空依赖;5.评估:MAE、RMSE、路段覆盖率、预测延迟;偏差问题:浮动车样本偏出租/公交,需加权采样+多源融合;异常事件样本少,需SMOTE过采样;概念漂移用在线学习更新。7.应用题(计算类,每题10分,共20分)7.1某电商大促期间,订单表order(order_id,user_id,amount,ts)共50亿行,需计算每分钟GMV及同比增幅。给出SparkSQL实现并估算内存消耗。答案:```sqlwithtmpas(selectdate_format(ts,'yyyyMMddHH:mm')asminute,sum(amount)asgmvfromordergroupbydate_format(ts,'yyyyMMddHH:mm')),tmp2as(selectminute,gmv,lag(gmv,1)over(orderbyminute)aslast_gmvfromtmp)selectminute,gmv,(gmvlast_gmv)/last_gmvasgrowthfromtmp2;```估算:每行16字节,50亿行约800GB,经分区下推过滤后约扫描200GB,聚合中间结果每分钟1行,共1440行,内存约几十MB,可完全放入内存。7.2某分类任务正负样本比例1:99,总样本1000万,采用随机森林,每棵树样本子采样0.1,特征子采样0.3,树深10,求单棵树平均叶节点数及总模型所需内存。答案:叶节点数上限2^10=1024,平均约700;单棵树节点总数约1400,每节点存特征阈值、左右指针、样本计数,约32字节,单棵树内存700×32≈22KB;若100棵树,总内存≈2.2MB,可忽略。8.应用题(分析类,每题15分,共30分)8.1某视频平台发现用户次日留存率下降5%,给定日志表login(user_id,login_date)与注册表register(user_id,reg_date),请写出SQL诊断下降原因并给出可视化方案。答案:1.计算逐日留存:```sqlselecta.reg_date,datediff(b.login_date,a.reg_date)asdays,count(distinctb.user_id)1.0/count(distincta.user_id)asretentionfromregisteraleftjoinloginbona.user_id=b.user_idgroupbya.reg_date,days;```2.对比下降前后7日留存曲线,发现第1日留存骤降;3.细分渠道、版本、地域,发现某渠道在1月10日上线新版,导致崩溃率上升;4.可视化:用Superset画留存热力图,渠道做切片,崩溃率叠加折线;5.建议:回滚新版,灰度发布,增加崩溃上报。8.2某物流公司有车辆GPS表gps(car_id,lat,lon,upload_time),需识别异常停留(连续30分钟上传坐标半径200米内),给出FlinkCEP伪代码并讨论边界问题。答案:```scalaPattern.begin[GPS]("start").where(_.speed<

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论