2020年云南大数据公司校招专属笔试题+官方标准答案_第1页
2020年云南大数据公司校招专属笔试题+官方标准答案_第2页
2020年云南大数据公司校招专属笔试题+官方标准答案_第3页
2020年云南大数据公司校招专属笔试题+官方标准答案_第4页
2020年云南大数据公司校招专属笔试题+官方标准答案_第5页
已阅读5页,还剩4页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020年云南大数据公司校招专属笔试题+官方标准答案

一、单项选择题,(总共10题,每题2分)1.在HDFS中,默认一个Block的大小为A.32MBB.64MBC.128MBD.256MB2.SparkRDD的transformation操作特点是A.立即执行B.触发磁盘写入C.惰性求值D.直接输出结果3.Kafka中保证分区内部消息顺序的组件是A.ConsumerGroupB.PartitionC.TopicD.Broker4.在Flink的DataStreamAPI里,用于设置事件时间特征的关键字是A.ProcessingTimeB.IngestionTimeC.EventTimeD.WindowTime5.下列算法中,属于集成学习Bagging思想的是A.AdaBoostB.XGBoostC.RandomForestD.LightGBM6.在Hive中,用于将子查询结果保存为临时视图的关键字是A.TEMPB.WITHC.CACHED.STORE7.对高维稀疏特征进行在线学习的常用优化器是A.SGDB.L-BFGSC.FTRLD.RMSprop8.在HBase中,用于快速定位Region的元数据表名称是A..meta.B.-ROOT-C.hbase:metaD.namespace:meta9.根据CAP理论,Zookeeper在出现网络分区时优先保证A.一致性B.可用性C.分区容错性D.最终一致性10.在数据治理成熟度模型中,第4级“ManagedandMeasurable”强调的核心是A.建立数据仓库B.元数据自动化C.量化指标驱动D.主数据合并二、填空题,(总共10题,每题2分)11.Hadoop3.x默认的YARN资源调度器是__________。12.Spark中,使用__________算子可以将一个RDD按照Key进行重新分区并本地聚合。13.在Kafka的Producer配置中,参数__________控制消息发送的确认级别。14.Flink的Checkpoint机制通过__________算法实现分布式快照一致性。15.在数据倾斜场景下,对MapJoin进行优化时常把大表放在__________端。16.使用Elasticsearch进行聚合查询时,__________桶类型可以实现类似SQL的groupby功能。17.在Python的Pandas里,将DataFrame的索引重置为默认整数的函数是__________。18.基于Item-based协同过滤的核心是计算物品之间的__________相似度。19.在Airflow中,任务实例的状态“up_for_retry”表示任务__________。20.数据血缘追溯时,通常用__________图模型描述表与表之间的依赖关系。三、判断题,(总共10题,每题2分)21.HDFS的NameNode内存大小与集群存储文件数量无关。22.SparkSQL的Catalyst优化器会把逻辑计划翻译成物理计划。23.Kafka的ConsumerOffset只能保存在Zookeeper中。24.Flink的KeyedStream必须调用keyBy()生成。25.XGBoost支持在损失函数中加入L1与L2正则项。26.Hive的严格模式会禁止笛卡尔积查询。27.HBase中列族的数量对读写性能没有影响。28.在数据仓库中,星型模型的维度表通常规范化到BCNF。29.使用LRU策略的缓存,当缓存未命中时必然发生淘汰。30.数据脱敏的“K-匿名”要求每条记录至少与K-1条记录不可区分。四、简答题,(总共4题,每题5分)31.简述MapReduce中Combiner与Reducer的区别与适用场景。32.说明Spark广播变量解决什么问题,并给出使用注意事项。33.概述Flink的Watermark机制如何平衡延迟与准确性。34.列举三种常见的数据倾斜症状,并给出对应的快速诊断命令或指标。五、讨论题,(总共4题,每题5分)35.结合Lambda与Kappa架构优缺点,讨论云南旅游实时大屏应如何选择并阐述理由。36.针对“健康码”场景每天十亿级记录,讨论分区策略、索引设计及TTL机制的综合方案。37.当机器学习模型离线AUC提升但线上CTR下降时,从数据、特征、模型三维度展开排查思路。38.云南多山导致机房网络抖动频繁,讨论如何在HBase写入链路中兼顾可用性与一致性,并给出参数调优细节。官方标准答案一、单项选择题1.C2.C3.B4.C5.C6.B7.C8.C9.A10.C二、填空题11.CapacityScheduler12.combineByKey13.acks14.Chandy-Lamport15.构建/小表(left)16.terms17.reset_index18.余弦或Cosine19.失败并等待重试20.有向无环(DAG)三、判断题21.×22.√23.×24.√25.√26.√27.×28.×29.×30.√四、简答题答案31.Combiner是本地聚合函数,运行在Map端,减少Shuffle数据量;Reducer是全局聚合,运行在Reduce端。适合Combiner的场景为聚合操作满足交换律与结合律,如sum、max;若业务逻辑需要全局视野则不能用Combiner。32.广播变量把只读小数据集分发到各Executor,避免多次网络传输与重复序列化,解决Join或查找时冗余拉取问题。使用时变量应不可变且大小不超过Driver内存,避免存储大对象导致GC压力,并在不再需要时unpersist。33.Watermark基于最大事件时间减去允许延迟阈值,标记流处理进度;当Watermark超过窗口结束时间即触发计算,从而容忍迟到数据。调大阈值可提高准确性但增加延迟,调小则相反,需结合业务可接受延迟与数据乱序程度权衡。34.症状1:Reduce阶段长时间卡在99%;诊断看JobHistory中个别ReduceTask耗时。症状2:SparkUI中某分区记录数远超平均;用rdd.glom().map(len).collect()查看。症状3:HBase热点Region读写请求集中;在MasterUI观察请求分布或查看RegionServer日志。五、讨论题答案35.Lambda需维护批流两套代码,运维复杂但历史回算稳;Kappa统一流批,代码简洁但重放成本高。旅游大屏对秒级延迟敏感且需24h回算昨日峰值,建议采用Kappa并用Flink的批流一体API,同时用HDFS冷存作为重放源,兼顾实时与回溯。36.按用户ID哈希预分区128桶,避免热点;二级分区按天+小时,便于TTL;RowKey设计为hash|reverse(ts)|userId,使最近数据连续;启用MOB存储大字段;Phoenix创建覆盖索引仅含查询列;设置CF.TTL=30d,每天MajorCompact清理过期,节省山地区域有限磁盘。37.数据维:检查离线训练集与线上日志分布是否一致,用PSI>0.1判定漂移;特征维:对比线上实时特征缺失率、异常值比例,定位特征工程链路延迟;模型维:查看线上预测分布是否偏移,采用小批量A/B回滚旧模型,若CTR恢复则证明新模型过拟合,需加正则、降学习率或重新采样。38.采用HBase异步写入+WAL异步刷盘,参数hbase.regionserver.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论