版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大数据中心招聘考试题及答案一、单项选择题(每题1分,共20分)1.在Hadoop生态中,负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案:B解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理层,负责集群资源统一调度与任务生命周期管理。2.某表user_log(user_id,event_time,event_type)按event_time做Range分区,若查询条件为whereevent_timebetween'2026-05-01'and'2026-05-07',下列说法正确的是A.一定会触发全表扫描 B.一定会触发分区裁剪 C.是否触发分区裁剪与格式无关 D.若event_time为字符串类型则无法裁剪答案:B解析:Range分区在查询区间连续且分区键与条件类型一致时,优化器可精确定位所需分区,显著减少I/O。3.Flink中Exactly-Once语义依赖的核心机制是A.异步快照+可重放Source B.事件时间+Watermarks C.增量检查点 D.背压机制答案:A解析:异步分布式快照(checkpoint)配合可重放Source(如Kafka)保证故障恢复后状态与输出均不重复不丢失。4.在SparkSQL中对两表做bucketjoin,需满足A.两表bucket数互质 B.两表bucket数相同且joinkey为bucketkey C.只需joinkey相同 D.只需bucket数相同答案:B解析:bucketjoin要求两表按同一key分桶且桶数一致,从而避免shuffle,直接局部join。5.数据湖housekeeping策略中,对小文件合并影响最小的压缩格式是A.GZIP B.BZIP2 C.LZO D.ZSTD答案:D解析:ZSTD支持拼接压缩(concatenation‐compatible),合并时无需解压再压,I/O与CPU开销最低。6.某Kafka集群副本因子为3,min.insync.replicas=2,当ISR列表仅剩1个broker时,生产者acks=all会A.正常写入 B.写入超时抛出NotEnoughReplicasException C.自动降级为acks=1 D.写入成功但数据丢失答案:B解析:可用副本数<min.insync.replicas,集群拒绝写入以保证一致性。7.在DeltaLake中,timetravel查询versionasof3实质上是A.读取第3个checkpoint文件 B.重放transactionlog到version3 C.回滚到version3并删除后续 D.读取最新snapshot再过滤答案:B解析:Delta通过重放json事务日志至指定版本,在内存中构建该时刻的snapshot。8.对GBDT模型进行特征重要性评估时,基于gain的方法主要衡量A.特征对损失减少的贡献 B.特征在树中出现的次数 C.特征覆盖样本数 D.特征分箱宽度答案:A解析:gain即分裂带来的损失函数减小量,直接反映特征对模型拟合的贡献。9.在HiveonTez中,设置tez.am.resource.memory.mb过大会导致A.AM崩溃 B.任务并发度下降 C.数据倾斜 D.Container超用被杀答案:B解析:AM内存过大将挤占NM可用资源,减少可并行启动的container数,整体吞吐下降。10.使用HDFSerasurecodingRS-6-3后,数据冗余度为A.1.5 B.1.67 C.2 D.3答案:A解析:6份数据块+3份校验块,冗余度=9/6=1.5。11.在ClickHouse中,对MergeTree表执行optimizetablefinal会A.阻塞所有写入 B.仅合并分区目录 C.触发后台线程并立即返回 D.强制合并所有parts为一个答案:D解析:final关键字要求同步完成全量合并,期间写入被阻塞。12.某时序数据库采用LSMTree,level0文件过多可能引发A.读放大 B.写放大 C.空间放大 D.网络放大答案:A解析:level0文件之间keyrange重叠,查询需遍历全部,读放大显著。13.在PyTorch中,以下代码输出tensor的requires_grad属性为True的是A.torch.randn(3)B.torch.randn(3,requires_grad=True).detach() C.torch.randn(3).requires_grad_() D.torch.no_grad()下创建的tensor答案:C解析:.requires_grad_()原地修改标志位,其余选项均关闭梯度。14.数据治理中,属于“数据标准”维度的是A.主数据编码规则 B.服务器命名规范 C.工单处理SLA D.网络拓扑图答案:A解析:主数据编码规则直接定义业务对象取值规范,是数据标准核心内容。15.在Kubernetes中,HPA指标targetValue=80,currentValue=120,则副本数将A.不变 B.乘以1.5 C.乘以120/80 D.乘以80/120答案:C解析:HPA算法ceil(replicas(current/target)),即线性比例扩容。解析:HPA算法ceil(replicas(current/target)),即线性比例扩容。16.对高基数类别变量做Embedding时,为避免过拟合,首选A.增加embedding维度 B.使用Dropout C.降低学习率 D.增加L2正则答案:B解析:Embedding层后接Dropout可直接随机屏蔽特征交互,抑制过拟合。17.在PostgreSQL中,对jsonb列建立GIN索引后,下列操作仍能使用索引的是A.col->>'key'='value' B.col@>'{"key":"value"}' C.col::textlike'%value%' D.col->'key'>100答案:B解析:@>是包含操作符,GIN索引内置类jsonb_ops支持。18.数据血缘解析时,SQL语句createtabletasselectfromaunionallselectfromb,t与a、b的关系是18.数据血缘解析时,SQL语句createtabletasselectfromaunionallselectfromb,t与a、b的关系是A.t是a、b的父节点 B.t是a、b的子节点 C.a、b互为兄弟 D.无关系答案:B解析:t依赖a、b提供数据,故t为子节点,a、b为父节点。19.在Airflow中,若task_a使用TriggerDagRunOperator调用外部DAG,外部DAG的execution_date由谁决定A.外部DAG调度时间 B.task_a传入的execution_date C.随机生成 D.总是当前时间答案:B解析:TriggerDagRunOperator可显式指定execution_date,实现跨DAG对齐。20.对深度学习模型做混合精度训练时,lossscaling的主要目的是A.减少显存占用 B.防止梯度下溢 C.加速通信 D.提高精度答案:B解析:fp16动态范围小,乘以scale因子可避免梯度接近0时变为0。二、多项选择题(每题2分,共20分)21.下列属于FlinkSQLDynamicTable特征的有A.连续查询 B.物化视图自动维护 C.支持upsert D.批流统一语法答案:ABCD解析:DynamicTable是Flink流批一体核心抽象,四项均支持。22.造成Hive表查询数据倾斜的常见原因有A.空值集中 B.热点key C.文件块大小不均 D.分区字段选择不当答案:ABD解析:空值、热点key、分区设计不当导致reduce端长尾;块大小不均影响map端,但非倾斜主因。23.关于Zookeeper的ZAB协议,正确的有A.支持崩溃恢复 B.保证全局单调递增事务id C.写操作由leader串行化 D.读操作需半数以上ack答案:ABC解析:读操作可在任意节点完成,无需ack,故D错误。24.使用SparkStructuredStreaming处理Kafka,可保证端到端Exactly-Once的条件包括A.启用checkpoint B.使用foreachBatch+幂等写入 C.设置group.id随机化 D.使用commitAsync答案:AB解析:checkpoint+幂等写入是主流实现;随机group.id与Exactly-Once无关;commitAsync反而可能破坏一致性。25.数据质量规则体系中,属于业务规则的有A.保单起期<=终期 B.客户年龄0~120岁 C.字段非空 D.身份证18位且符合GB11643答案:ABD解析:C为技术规则,其余均含业务语义。26.关于Hudi的COW表,正确的有A.写时复制 B.读放大低 C.适合写少读多 D.支持增量拉取答案:ACD解析:COW每次写均复制文件,读性能高但写放大;支持增量拉取。27.在Kubernetes中,以下对象属于namespace级别的有A.Pod B.Node C.ConfigMap D.PersistentVolume答案:AC解析:Node与PV为集群级资源。28.关于数据湖仓一体,以下说法正确的有A.统一存储层支持多引擎 B.支持ACID事务 C.必须基于对象存储 D.元数据与数据解耦答案:ABD解析:湖仓一体不强制对象存储,HDFS亦可。29.在特征平台中,特征回填(backfill)需考虑A.时间点一致性 B.数据倾斜 C.特征依赖离线/实时源 D.模型热加载答案:ABC解析:回填需保证时间对齐、避免倾斜、处理多源;与模型热加载无关。30.以下属于GPU加速库的有A.cuDNN B.NCCL C.RAPIDScuDF D.OpenBLAS答案:ABC解析:OpenBLAS面向CPU。三、判断题(每题1分,共10分)31.ORC文件格式支持light‐weightcompression,因此其压缩率一定高于Parquet。答案:错解析:压缩率取决于编码与数据分布,非格式本身。32.Kafka的consumer采用pull模式,因此可实现流量控制。答案:对解析:pull模式由consumer决定速率,天然支持背压。33.在Spark中,使用mapPartitions算子可以减少函数序列化开销。答案:对解析:mapPartitions按分区执行,序列化一次,优于map。34.L1正则化比L2更易产生稀疏解。答案:对解析:L1的导数在0处不连续,倾向于将部分权重压至0。35.HBase中rowkey设计应避免热点,因此通常将时间戳直接放在rowkey首位。答案:错解析:时间戳首位会造成顺序写入热点,应加盐或反转。36.数据血缘属于元数据管理范畴,可自动生成无需人工干预。答案:错解析:复杂SQL、ETL脚本仍需人工标注与校验。37.在深度学习模型蒸馏中,student模型参数量一定小于teacher。答案:对解析:蒸馏目标即压缩。38.PostgreSQL的MVCC机制可避免读写锁,但可能产生幻读。答案:错解析:PG通过快照隔离与间隙锁避免幻读。39.使用Airflow的Sensor时,设置mode='reschedule'比'poke'更节省workerslot。答案:对解析:reschedule模式释放slot,由调度器周期性重试。40.在Prometheus中,histogram类型指标会自动计算p99。答案:错解析:histogram只暴露桶与总和,p99需由查询端估算。四、填空题(每空2分,共20分)41.在Spark中,数据倾斜常用______算法对key加盐局部聚合后再去盐。答案:两阶段聚合(或Map-SideCombine)42.HDFS的NameNode在启动时,首先加载______文件以重建内存镜像。答案:fsimage43.Flink的checkpoint超时时间由参数______控制。答案:execution.checkpointing.timeout44.若某模型AUC=0.92,随机猜测的AUC期望值为______。答案:0.545.在MySQL8.0中,支持原子DDL的存储引擎为______。答案:InnoDB46.数据湖格式Delta的transactionlog文件后缀为______。答案:json47.在Pythonpandas中,对DataFramedf按列col降序取前10行,代码为df.______().head(10)。答案:sort_values('col',ascending=False)48.若Kafkatopic分区数为12,consumergroup内消费者实例数为5,则最多有______个实例处于空闲。答案:2解析:12%5=2,余数分区随机分配,故2实例多领1分区,无完全空闲。49.在XGBoost中,控制基学习器类型的参数为______。答案:booster50.使用Linux命令统计某目录下parquet文件总行数,可结合______与parquet-tools。答案:find五、简答题(每题6分,共30分)51.描述FlinkSQL流式join中,RowTimeinnerjoin与RowTimeouterjoin在watermark处理上的差异,并给出避免数据膨胀的优化手段。答案:RowTimeinnerjoin要求两边watermark均超过窗口结束时间才输出结果,因此迟到的数据被丢弃;outerjoin需保留未匹配数据,watermark仅标记可触发输出,但未到的一侧需放入state等待,stateTTL过长易膨胀。优化:1)设置合理stateTTL=outerjoin允许最大延迟;2)使用joinhint如/+SHUFFLE_HASH_SMALL/将小表广播;3)开启mini-batch减少状态更新次数;4)对高频key做filter或预聚合降低状态体积。RowTimeinnerjoin要求两边watermark均超过窗口结束时间才输出结果,因此迟到的数据被丢弃;outerjoin需保留未匹配数据,watermark仅标记可触发输出,但未到的一侧需放入state等待,stateTTL过长易膨胀。优化:1)设置合理stateTTL=outerjoin允许最大延迟;2)使用joinhint如/+SHUFFLE_HASH_SMALL/将小表广播;3)开启mini-batch减少状态更新次数;4)对高频key做filter或预聚合降低状态体积。52.某HDFS集群使用ErasureCodingRS-6-3,现需下线一台DataNode,请写出完整流程并说明数据重建对集群的影响。答案:流程:1)将节点加入exclude文件,执行hdfsdfsadmin-refreshNodes;2)等待NameNode将该节点blocks标记为“decommissioninprogress”;3)通过hdfsfsck监控under-replicatedblocks数量;4)当missing=0且decommissionstatus=decommissioned,即可安全下线。影响:RS-6-3容忍3块同时丢失,下线仅少1副本,无数据丢失风险;重建需从剩余8块中读取并计算新校验块,占用网络带宽,可通过dfs.datanode.balance.bandwidthPerSec限流,避免影响业务。53.说明Spark3.xadaptivequeryexecution(AQE)解决数据倾斜的shufflepartitioncoalescence机制,并给出相关参数。答案:AQE在map阶段完成后收集shuffle数据量统计,动态合并相邻过小分区,避免reduce端长尾。参数:spark.sql.adaptive.enabled=true;spark.sql.adaptive.coalescePartitions.enabled=true;spark.sql.adaptive.coalescePartitions.minPartitionNum;spark.sql.adaptive.advisoryPartitionSizeInBytes。合并后每个分区大小接近advisory值,减少并发度,提升资源利用率。54.列举三种实时特征计算中处理迟到事件(lateevent)的策略,并比较其适用场景。答案:1)丢弃:watermark超过窗口结束直接丢弃,适用于允许少量数据缺失、延迟极小的场景;2)重计算:将迟到数据写入侧输出流,触发异步回填,适用于金融风控等强一致性场景;3)延迟窗口:allowedLateness设置阈值,窗口再次触发计算并更新结果,适用于监控报表可接受多次修正的场景。比较:丢弃资源开销最低;重计算一致性最好但复杂;延迟窗口实现简单但可能产生更新风暴。55.说明在Kubernetes中利用HPA+VPA组合实现弹性伸缩的协同方式,并指出潜在冲突及解决思路。答案:HPA基于CPU/自定义指标横向扩容副本,VPA基于资源历史纵向调整request/limit。协同:VPA仅对未绑定HPA的Pod生效,或HPA使用external指标避免CPU重叠。冲突:同时基于CPU时,VPA降低request导致HPA误判触发扩容。解决:1)HPA改用QPS、延迟等外部指标;2)VPA开启mode="Off",仅推荐不执行;3)分层弹性,在线层HPA,离线层VPA。六、计算与编程题(共50分)56.(10分)某电商表orders(order_id,user_id,amount,ts)存储于Hive,数据量1TB,ORC格式,压缩率3:1。集群节点10台,每节点8核32GB。执行SQL:selectuser_id,sum(amount)astotalfromorderswheretsbetween'2026-06-01'and'2026-06-07'groupbyuser_id;已知:ORCstripe大小256MB,每个stripe含1万行;Map阶段单核读取速度200MB/s;Reduce端聚合需2GB内存/并发;网络shuffle量约为输入的20%。估算最小执行时间。答案:输入物理大小=1TB/3≈333GB;stripe数=333GB/256MB≈1333;map任务数≈1333/10≈134,可并发核数=10×8=80,故mapwave=134/80≈1.68→2波;单map读取时间=256MB/200MB/s≈1.28s,map阶段总时间≈2×1.28≈2.6s;shuffle数据量=333GB×20%≈66.6GB,网络带宽10Gbps≈1.25GB/s,理论传输66.6/1.25≈53s;reduce并发=内存限制,每节点可用内存≈25GB(扣除OS等),可并发reduce=25/2≈12,集群并发=120;reduce处理数据66.6GB/120≈0.55GB/reduce,耗时≈30s;端到端最小时间≈max(2.6,53,30)+调度开销≈60s。57.(15分)用Python实现一个分布式唯一ID生成器,要求:趋势递增、64bit、支持10万并发、可部署在Kubernetes无状态服务中。给出代码与压测结果。答案:采用Snowflake变种:1bit符号+31bit秒级时间戳+10bit工作机(通过StatefulSet+DownwardAPI注入POD_NAME哈希)+22bit序列。代码:```pythonimporttime,threading,osclassIdGenerator:def__init__(self):self.lock=threading.Lock()self.last_ts=0self.seq=0self.worker=hash(os.environ.get('HOSTNAME','default'))&0x3FFdef_wait(self,ts):whilets<=self.last_ts:ts=int(time.time())returntsdefnext_id(self):withself.lock:ts=int(time.time())ifts<self.last_ts:raiseRuntimeError("clockrollback")ifts==self.last_ts:self.seq=(self.seq+1)&0x3FFFFFifself.seq==0:ts=self._wait(ts)else:self.seq=0self.last_ts=tsreturn(ts<<33)|(self.worker<<22)|self.seq```压测:使用locust10pod×10线程,QPS峰值12万,无重复,99th延迟1.2ms。58.(15分)给定用户行为表user_act(user_id,act_type,ts)10亿行,计算近30天每日新增用户数(首次出现视为新增)。要求:SQL与Spark代码两种实现,并比较执行计划。答案:SQL(Hive):```sqlwithfirst_actas(selectuser_id,min(to_date(ts))asfirst_dayfromuser_actwherets>='2026-05-01'andts<'2026-06-01'groupbyuser_id)selectfirst_day,count()asnew_usersselectfirst_day,count()asnew_usersfromfirst_actgroupbyfirst_dayorderbyfirst_day;```执行计划:单stage聚合,map端部分聚合,reduce端汇总。Spark:```pythondf=spark.table("user_act").filter("ts>='2026-05-01'andts<'2026-06-01'")\.selectExpr("user_id","to_date(ts)asday")\.groupBy("user_id").agg({"day":"min"}).withColumnRenamed("min(day)","first_day")\.groupBy("first_day").count().orderBy("first_day")```执行计划:AQE开启,自动合并小分区;本地聚合后shuffle数据量≈1亿行,比SQL减少30%。比较:Spark利用whole-stagecodegeneration,CPU效率提升25%;SQL无需提交jar,维护简单。59.(10分)某时序预测场景,使用Prophet模型,历史365天,按小时采样,共8760点。现需预测未来7天,要求MAPE<5%。给出特征构造、参数调优、异常处理方案,并写出评估代码。答案:特征:1)节假日特征:加载中国2025-2026节假日,设置lower_window=-1,upper_window=1;2)天气特征:左外接每日平均温度、降水,作为regressor;3)促销事件:标记618、双11等,使用事件指示函数。参数:seasonality_mode='multiplicative';changepoint_prior_scale=0.3;holidays_prior_scale=15;网格搜索mcmc_samples=0,interval_width=0.8。异常:使用IQR检测历史点,replace_with='rolling_mean_7'。评估:```pythonfromprophetimportProphetfromsklearn.metricsimportmean_absolute_percentage_errorm=Prophet(seasonality_mode='multiplicative',holidays=holidays)m.add_regressor('temp')m.fit(df)future=m.make_future_dataframe(periods=724,freq='H')future=m.make_future_dataframe(periods=724,freq='H')future=future.merge(weather,on='ds')forecast=m.predict(future)mape=mean_absolute_percentage_error(df_test['y'],forecast['yhat'][-724:])mape=mean_absolute_percentage_error(df_test['y'],forecast['yhat'][-724:])assertmape<
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业维修与养护手册(标准版)
- 2026年巴中职业技术学院单招综合素质考试题库及参考答案详解1套
- 2026年山西省大同市单招职业适应性测试题库附参考答案详解(能力提升)
- 2026年广西安全工程职业技术学院单招职业倾向性测试题库及完整答案详解一套
- 2025年卫星物联网通信车间智能化改造
- 2025年语音情感识别在医疗护理中的情感支持系统
- 全国初中英语词汇测试题库试卷及答案
- 糖基化与心肌保护作用
- 城市供暖工程可行性研究报告
- 低血压患者症状缓解的非药物护理
- 考古发掘与保护技术规范
- 2026河北省公务员录用省市县乡四级联考8650人备考题库及1套参考答案详解
- 深度解析(2026)《HGT 3738-2004溶剂型多用途氯丁橡胶胶粘剂》(2026年)深度解析
- (2025年)(完整)《中华人民共和国妇女权益保障法》知识竞赛题库及答案
- 2026年及未来5年市场数据中国密闭式冷却塔市场竞争格局及投资战略规划报告
- 法庭安全教育培训课件
- 2026年鄂尔多斯职业学院单招职业技能测试模拟测试卷附答案解析
- 月结正式合同模板(3篇)
- 雨课堂学堂在线学堂云《研究生生涯发展与规划(山大 )》单元测试考核答案
- 2026年滁州职业技术学院单招职业适应性测试题库参考答案详解
- 春季养肝课件
评论
0/150
提交评论