(2025年)大数据知识竞赛试题附答案_第1页
(2025年)大数据知识竞赛试题附答案_第2页
(2025年)大数据知识竞赛试题附答案_第3页
(2025年)大数据知识竞赛试题附答案_第4页
(2025年)大数据知识竞赛试题附答案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2025年)大数据知识竞赛试题附答案一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在Hadoop生态中,负责资源管理与任务调度的核心组件是()A.HDFS  B.YARN  C.MapReduce  D.Hive答案:B2.下列关于KafkaPartition的描述,正确的是()A.一个Topic只能有一个PartitionB.Partition数量一旦创建便不可扩容C.同一Partition内消息严格有序D.ConsumerGroup内所有消费者订阅不同Partition会导致重复消费答案:C3.在SparkRDD的转换操作中,下列哪个操作会产生宽依赖()A.map  B.filter  C.union  D.groupByKey答案:D4.若某电商网站日均UV为2亿,峰值QPS为30万,则其峰值QPS与日均UV的比值最接近()A.0.015%  B.0.15%  C.1.5%  D.15%答案:B5.在Flink的时间语义中,EventTime是指()A.数据进入Flink系统的时间B.数据被窗口算子处理的时间C.数据在源头产生时携带的时间戳D.数据被Sink写出外部系统的时间答案:C6.使用HBaseRowKey设计时,为了避免热点写,下列策略最有效的是()A.使用自增ID作为RowKeyB.使用哈希前缀+时间戳C.使用纯时间戳倒排D.使用连续字符串前缀答案:B7.在数据仓库分层模型中,DWD层的主要职责是()A.保存原始日志不做清洗B.保存明细事实数据,完成清洗与规范化C.保存汇总指标数据D.保存维度数据答案:B8.下列关于数据倾斜的优化手段,错误的是()A.两阶段聚合(局部聚合+全局聚合)B.增加Reducer数量C.使用随机前缀打散热点KeyD.将Join操作改为笛卡尔积答案:D9.在ClickHouse的MergeTree引擎中,数据按哪个字段进行分区()A.PRIMARYKEY  B.PARTITIONBY子句指定字段C.ORDERBY字段  D.SAMPLEBY字段答案:B10.某模型AUC从0.81提升到0.83,但线上CTR下降2%,最可能的原因是()A.训练集过拟合  B.验证集欠拟合C.特征穿越  D.样本不平衡答案:C11.在Airflow中,任务实例task_instance的状态不包括()A.running  B.upstream_failed  C.retry  D.paused答案:D12.使用Elasticsearch进行聚合分析时,下列哪个桶聚合可以按日期分组()A.terms  B.range  C.date_histogram  D.filter答案:C13.在数据治理的元数据管理中,业务元数据不包含()A.指标口径定义  B.表责任人  C.字段描述  D.数据文件大小答案:D14.若某Hive表存储为ORC格式,block大小为256MB,下列参数可直接控制ORC文件压缩算法的是()A.hive.exec.reducers.bytes.per.reducerB.pressC.mapreduce.input.fileinputformat.split.maxsizeD.hive.merge.size.per.task答案:B15.在推荐系统的冷启动问题中,下列方法属于基于内容的冷启动的是()A.利用用户社交关系  B.利用物品标签信息C.利用矩阵分解  D.利用多臂老虎机探索答案:B16.下列关于数据湖的说法,正确的是()A.数据湖只能保存结构化数据B.数据湖不支持事务C.数据湖支持SchemaonreadD.数据湖必须基于HDFS实现答案:C17.在SparkSQL中,将DataFrame注册为临时视图后,其生命周期作用域为()A.整个SparkContext  B.整个SparkSessionC.当前线程  D.当前Application答案:B18.若某SQL执行计划中出现“SortMergeJoin”,说明两张表()A.至少一张表在Join列上有索引B.两张表都按Join列排序并分桶C.两张表都小于10MBD.使用了mapsidejoinhint答案:B19.在数据质量监控规则中,唯一性校验通常使用()A.COUNT(DISTINCT)与COUNT()比较B.MAX与MIN差值C.标准差阈值D.正则表达式匹配答案:A20.在Python的Pandas中,对DataFramedf按列A分组后求列B前20%分位数的代码为()A.df.groupby('A').B.quantile(0.2)B.df.groupby('A').B.median()0.2C.df.groupby('A').B.mean()0.2D.df.groupby('A').apply(lambdax:x.B.quantile(0.2))答案:A21.在机器学习特征工程中,对高基数类别变量进行目标编码时,为防止过拟合,通常采用()A.交叉验证目标编码  B.onehot编码C.哈希编码  D.等宽分箱答案:A22.下列关于Zookeeper在Kafka中的作用,错误的是()A.保存ConsumerGroup偏移量(旧版本)B.进行BrokerLeader选举C.保存Topic配置信息D.保存Producer消息缓存答案:D23.在数据安全等级分类中,PII是指()A.公共信息接口  B.个人身份信息C.主数据索引  D.图片信息接口答案:B24.若某离线任务每日凌晨2点启动,依赖上游表T,T的产出完成时间为1点30分,但偶尔延迟到3点,为保证任务稳定,最佳策略是()A.将任务推迟到4点启动B.使用AirflowSensor进行动态感知C.每天人工检查D.取消该任务答案:B25.在数据可视化中,适合展示两个连续变量相关关系的图表是()A.饼图  B.箱线图  C.散点图  D.雷达图答案:C26.在SparkStreaming中,DStream的滑动窗口操作window(windowLength,slideInterval)要求()A.slideInterval必须大于windowLengthB.windowLength必须是batchInterval的整数倍C.windowLength必须小于batchIntervalD.slideInterval可以不是batchInterval的整数倍答案:B27.在数据资产目录中,BloodLineage是指()A.数据血缘  B.数据质量评分  C.数据安全等级  D.数据生命周期答案:A28.若某MySQL表使用InnoDB引擎,主键为自增ID,批量导入数据时,为了提升写入性能,通常建议()A.关闭自适应哈希索引B.关闭双写缓冲C.按主键顺序批量写入D.随机写入以打散热点答案:C29.在数据合规的GDPR条款中,数据主体享有的权利不包括()A.被遗忘权  B.可携带权  C.修改权  D.永久存储权答案:D30.在ClickHouse中,使用MaterializedView实时聚合时,为了保障幂等写入,通常依赖()A.ReplacingMergeTree  B.SummingMergeTreeC.AggregatingMergeTree  D.CollapsingMergeTree答案:A二、多项选择题(每题2分,共20分。每题至少有两个正确答案,多选、少选、错选均不得分)31.下列属于NoSQL数据库CAP理论中“可用性”牺牲的场景有()A.MongoDB写操作等待副本集多数节点确认B.HBaseRegionServer宕机后等待重新分配C.Cassandra配置为ALL一致性级别D.RedisCluster节点故障时拒绝写入答案:A、C32.在Spark3.0中,AdaptiveQueryExecution带来的优化包括()A.动态调整Reducer数量B.动态切换Join策略C.动态优化数据倾斜D.动态调整Executor内存答案:A、B、C33.下列属于数据仓库缓慢变化维SCDType2的做法有()A.增加新行并标记有效时间区间B.覆盖原值C.增加新列保存历史值D.增加版本号字段答案:A、D34.在特征选择方法中,属于过滤法的有()A.方差选择法  B.互信息法  C.L1正则化  D.卡方检验答案:A、B、D35.下列关于数据湖仓一体(LakeHouse)的描述,正确的有()A.支持ACID事务B.使用Parquet+DeltaLake格式C.计算与存储耦合D.支持Schema演进答案:A、B、D36.在Python中,使用multiprocessing库进行并行计算时,为了避免数据拷贝开销,可采用()A.使用进程池并传入大型只读对象B.使用shared_memory共享内存C.使用Ray分布式框架D.使用threading库答案:B、C37.下列属于实时数仓Lambda架构特点的有()A.批层与流层同时运行B.最终一致性C.同一套代码维护D.需要合并批流结果答案:A、B、D38.在数据脱敏技术中,属于可逆加密算法的有()A.AES128  B.RSA2048  C.SHA256  D.FPE格式保持加密答案:A、B、D39.下列关于ElasticsearchMapping的描述,正确的有()A.text类型默认会分词B.keyword类型用于精确匹配C.字段类型一旦创建不可修改D.多字段支持使用fields参数答案:A、B、D40.在数据资产估值的维度中,常被纳入评估的有()A.数据稀缺性  B.数据准确性  C.数据时效性  D.数据存储格式答案:A、B、C三、填空题(每空1分,共20分)41.在HDFS中,默认Block大小为________MB,副本因子为________。答案:128,342.在Kafka2.8之后,________模式允许不再依赖Zookeeper,使用内置的________元数据管理。答案:KRaft,Raft43.在Spark中,RDD的________函数用于将分区数据聚合到Driver端,而________函数用于在每个分区内先聚合再shuffle。答案:collect,combineByKey44.若某Hive表分区字段为dt,格式为yyyyMMdd,则使用MSCKREPAIRTABLE命令可以________,但无法识别________目录。答案:自动修复分区,非标准子目录45.在Flink的Checkpoint机制中,Barrier对齐机制会导致________延迟,使用________模式可牺牲一致性换取延迟。答案:反压,AT_LEAST_ONCE46.在数据可视化中,________图适合展示累积占比,________图适合展示多维数据对比。答案:帕累托,雷达47.在Python的NumPy中,生成形状为(3,4)且服从标准正态分布的随机数组的代码为________。答案:np.random.randn(3,4)48.在数据治理的PDCA循环中,P指________,C指________。答案:Plan,Check49.在ClickHouse中,使用________引擎可以支持去重,使用________语句可以强制后台合并。答案:ReplacingMergeTree,OPTIMIZETABLEFINAL50.在数据合规的《个人信息保护法》中,处理敏感个人信息必须取得________同意,并告知________。答案:单独,处理目的与方式四、简答题(共30分)51.(封闭型,6分)简述MapReduce中Shuffle阶段的具体流程,并指出其性能瓶颈。答案:Shuffle阶段包括Map端溢写、分区、排序、合并,Reduce端拷贝、合并排序。性能瓶颈:磁盘IO、网络传输、排序比较操作、内存缓冲区不足导致频繁溢写。52.(开放型,8分)某电商公司大促期间,实时GMV指标延迟升高,请给出排查思路与优化方案。答案:排查思路:1.检查Kafka消费组Lag;2.检查Flink反压指标;3.检查ClickHouse写入性能;4.检查网络带宽。优化:1.增加Flink并行度;2.开启MiniBatch、LocalGlobal聚合;3.使用Redis缓存热点维度;4.将ClickHouse写入改为异步批量;5.降级非核心指标。53.(封闭型,6分)写出使用SparkSQL创建临时视图view_a,计算用户近30天消费金额的SQL,并说明如何防止数据倾斜。答案:CREATETEMPORARYVIEWview_aASSELECTuser_id,SUM(amount)ASamtFROMdwd_orderWHEREdtBETWEENdate_sub(current_date,29)ANDcurrent_dateGROUPBYuser_id;防止倾斜:1.增加salt前缀随机打散;2.两阶段聚合;3.过滤异常用户;4.调整shuffle分区数。54.(开放型,10分)阐述数据资产目录的建设流程,并给出指标标准化方案。答案:流程:1.元数据采集(自动解析+人工补录);2.数据血缘解析(SQL解析+API埋点);3.数据分级分类(敏感+业务维度);4.质量评分(完整性、准确性、及时性、唯一性);5.资产门户发布。标准化:1.指标命名规范:业务域_过程_度量_周期;2.口径文档模板:业务定义+技术定义+SQL模板+责任人;3.版本控制:Git管理口径文档;4.评审机制:DataCouncil每月评审;5.自动化校验:SQL解析与指标库比对,口径变更告警。五、应用题(共50分)55.(计算类,15分)某短视频公司推荐系统,离线样本1亿条,特征维度5000,稀疏率0.8%,使用SparkMLlib训练逻辑回归。已知:每条样本平均占用2KB(含String索引);Executor内存4GB,核心数4;目标在30分钟内完成训练;网络带宽10Gbps,磁盘顺序读200MB/s。求:1.估算所需Executor数量;2.若使用LBFGS,迭代100次,每次约需1.2倍数据扫描,计算总读取数据量;3.判断磁盘或网络是否为瓶颈。答案:1.数据总量=1e82KB=200GB;内存每Executor可用约3GB(扣除系统与缓存),每轮需加载200GB1.2/100=2.4GB,可并行分区数=200GB/2.4GB≈84,考虑内存并发=3GB/2.4GB≈1.2,取并发度84,每Executor并发任务=4,需Executor=84/4=21,向上取整24。2.总读取=200GB1.2=240GB。3.磁盘:24Executor200MB/s=4.8GB/s,读取240GB需50s,远小于30min;网络:240GB/10Gbps≈192s,亦小于30min;两者均非瓶颈,内存与CPU为瓶颈。56.(分析类,15分)给出某电商订单表dwd_order字段:order_id,user_id,sku_id,price,cnt,amt,dt。要求使用SQL计算近7天每日的“新客首单GMV”与“老客GMV”,并解释如何识别新客。答案:识别新客:用户历史最早订单日期=当日日期则为新客。SQL:WITHfirst_orderAS(SELECTuser_id,MIN(dt)ASfirst_dtFROMdwd_orderGROUPBYuser_id),detailAS(SELECTdt,user_id,SUM(amt)ASgmvFROMdwd_orderWHEREdtBETWEENdate_sub(current_date,6)ANDcurrent_dateGROUPBYdt,user_id)SELECTa.dt,SUM(CASEWHENa.dt=b.first_dtTHENa.gmvELSE0END)ASnew_user_gmv,SUM(CASEWHENa.dt>b.first_dtTHENa.gmvELSE0END)ASold_user_gmvFROMdetailaJOINfirst_orderbONa.user_id=b.user_idGROUPBYa.dtORDERBYa.d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论