2026年大数据工程师认证考核试题及答案_第1页
2026年大数据工程师认证考核试题及答案_第2页
2026年大数据工程师认证考核试题及答案_第3页
2026年大数据工程师认证考核试题及答案_第4页
2026年大数据工程师认证考核试题及答案_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据工程师认证考核试题及答案在大数据流式计算场景中,某电商平台需要处理每秒十万级别的用户点击行为数据,要求延迟控制在百毫秒级别,以下框架中最适合的是哪个?选项A.HadoopMapReduceB.FlinkC.SparkSQLD.Hive答案:B。解析:MapReduce是批处理框架,延迟极高,不适合低延迟流式场景;SparkSQL主打结构化数据批处理,原生流处理基于微批架构,延迟通常在秒级,达不到百毫秒级别的要求;Hive是基于Hadoop的数据仓库工具,用于离线批查询,不支持实时流式处理;Flink是原生流式计算框架,支持事件时间语义、恰好一次处理保证,可支持高吞吐场景下的百毫秒级低延迟处理,完全符合题目要求。以下关于数据仓库维度建模中星型模型和雪花模型的描述,正确的是?选项A.雪花模型的冗余度比星型模型更高B.星型模型的查询关联次数更多C.雪花模型通过拆分维度表减少了数据冗余D.星型模型更适合规范化设计,存储空间利用率更高答案:C。解析:星型模型将所有维度表直接与事实表关联,不拆分维度表,数据冗余度更高,查询时仅需关联一次维度表,关联次数少、查询速度更快;雪花模型会对层级复杂的维度表进一步拆分,将部分子维度拆分为独立的维度表,减少了数据冗余,符合三范式规范化要求,但查询时需要关联更多维度表,关联次数多、查询效率更低。因此A、B、D描述错误,C正确。在HDFS中,默认块大小为128MB,一个大小为200MB的文件会被划分为几个块?选项A.1B.2C.3D.4答案:B。解析:HDFS采用分块存储,第一个块存储128MB后,剩余200MB-128MB=72MB,单独存储为第二个块,总共2个块,因此选B。以下哪种算法不属于聚类算法?选项A.K-MeansB.DBSCANC.AprioriD.GMM答案:C。解析:Apriori是关联规则挖掘算法,用于挖掘数据中的频繁项集,不属于聚类算法;K-Means是划分式聚类算法,DBSCAN是密度聚类算法,GMM是高斯混合模型聚类,都属于聚类算法,因此选C。Spark中RDD的窄依赖和宽依赖描述正确的是?选项A.窄依赖中一个父RDD的分区会被子RDD多个分区依赖B.宽依赖会产生Shuffle过程C.所有的转换操作都会产生宽依赖D.窄依赖无法进行流水线优化答案:B。解析:窄依赖的定义是一个父RDD分区最多仅被一个子RDD分区依赖,因此可以进行流水线优化,不会触发Shuffle过程;宽依赖的定义是一个父RDD分区会被多个子RDD分区依赖,必然触发Shuffle过程。map、filter等转换操作属于窄依赖,仅groupByKey、reduceByKey等聚合操作会产生宽依赖。因此A、C、D描述错误,B正确。计算二分类模型的AUC指标,AUC值为0.5说明该分类模型的效果是?选项A.模型效果优于随机猜测B.模型效果和随机猜测相当C.模型效果完全完美D.模型效果比随机猜测还差答案:B。解析:AUC的取值范围为0-1,AUC=0.5说明模型区分正负样本的能力和随机猜测一致;AUC>0.5说明效果好于随机猜测;AUC=1说明模型完全分类正确;AUC<0.5说明效果差于随机猜测,因此选B。以下属于HBase特点的是?选项A.适合存储半结构化、非结构化数据B.基于行存储,随机读写性能好C.支持动态扩展分区D.适合高并发低延迟的随机查询场景答案:ACD。解析:HBase是分布式列式NoSQL数据库,不是基于行存储,B错误;HBase适合存储海量稀疏的半结构化、非结构化数据,支持Region动态拆分扩展,可以应对高并发低延迟的随机读写场景,因此ACD正确。关于数据湖和数据仓库的区别,下列描述正确的有?选项A.数据湖存储原始数据,数据仓库一般存储经过加工处理后的结构化数据B.数据湖支持多元数据存储,数据仓库主要支持结构化数据C.数据湖存储成本通常低于数据仓库D.数据湖的数据治理难度低于数据仓库答案:ABC。解析:数据湖可存储结构化、半结构化、非结构化等全类型原始数据,数据仓库主要存储整合加工后的结构化数据用于分析决策,A、B正确;数据湖一般基于廉价对象存储存储原始数据,相同数据量下存储成本低于数据仓库,C正确;数据湖采用读时模式,数据杂乱无结构,数据治理复杂度远高于数据仓库,D错误,因此选ABC。以下关于一致性哈希的描述,正确的有?选项A.一致性哈希解决了分布式缓存扩容时数据迁移量大的问题B.一致性哈希的哈希环是闭合的C.当节点数量变化时,一致性哈希只会迁移少量数据D.一致性哈希无法解决数据倾斜问题答案:ABC。解析:一致性哈希将节点和数据都映射到长度为2^32的闭合哈希环上,数据顺时针匹配最近节点,新增节点时仅需迁移该节点到下一个节点区间内的数据,相比普通哈希取模,迁移数据量大幅降低,解决了扩容迁移量大的问题,A、B、C正确;一致性哈希可以通过引入虚拟节点的方式解决数据倾斜问题,D错误,因此选ABC。在特征工程中,特征选择的常用方法有哪些?选项A.方差选择法B.递归特征消除C.主成分分析PCAD.卡方检验答案:ABD。解析:主成分分析PCA属于特征降维方法,是将原始高维特征通过线性变换生成新的低维特征,不是从原始特征中选择部分特征的特征选择方法;方差选择法通过移除低方差特征筛选有效特征,递归特征消除通过迭代训练移除权重低的特征,卡方检验筛选和标签相关性高的特征,都属于特征选择方法,因此选ABD。某短视频平台每天产生PB级别的用户行为日志,需要实现实时计算用户的日活UV指标,请设计合理的计算方案,说明技术选型、计算流程,以及可能遇到的问题和解决方案。参考答案:技术选型采用Kafka+Flink+Redis/ClickHouse的架构,其中Kafka用于对接采集的用户行为日志,实现流量削峰缓冲,Flink承担实时流计算任务,最终计算结果存储到Redis或ClickHouse支持业务查询。计算流程分为三层:1.数据采集层:客户端通过埋点采集用户的浏览、点赞、进入直播间等行为,上报到采集服务后写入Kafka,按照行为类型和日期做分区,保证数据有序性。2.流计算层:Flink消费Kafka中的日志数据,按照业务要求划分单日滚动窗口,选择事件时间配合水位线处理数据乱序,窗口触发后对用户ID去重统计日活UV。3.结果存储层:将计算得到的每日UV结果写入Redis或ClickHouse,供运营后台展示或下游业务调用。可能遇到的问题及解决方案:(1)亿级用户UV去重时,存储所有用户ID会占用大量内存,导致OOM。解决方案:如果业务允许一定误差,采用HyperLogLog基数估计算法,仅需要十几KB内存就可以实现误差率低于5%的亿级UV估算,满足业务统计需求;如果要求精准UV,可以采用BitMap存储,针对连续的用户ID,存储空间远低于存储原始ID,或者采用哈希分桶法,将用户ID打散到多个分区分治去重,最终合并结果,降低单节点内存压力。(2)数据乱序导致UV统计结果不准确。解决方案:设置合理的水位线,允许一定范围内的延迟,同时开启迟到数据的侧输出处理,对于超过最大允许延迟的迟到数据,输出到侧流后单独更新结果,保证最终结果准确。(3)高峰流量导致Flink作业背压。解决方案:扩容Kafka分区数,匹配Flink作业的并行度,针对不同算子调整并行度,优化分区均衡策略,避免数据倾斜,必要时开启增量检查点降低检查点的写入压力。说明大数据场景下数据倾斜产生的原因,以及常用的解决方法。参考答案:数据倾斜指分布式计算中,少数几个分区或节点处理的数据量远大于其他节点,导致整体作业运行速度被拖慢,甚至出现内存溢出的问题。产生的核心原因:1.业务本身数据分布不均,例如统计创作者内容曝光时,头部创作者的曝光量是普通创作者的千倍万倍,按照创作者ID分组时,头部创作者对应的分区数据量远高于其他分区;2.Key设计不合理,大量无效值(如null、空字符串)默认归为同一个Key,集中到同一个分区;3.Shuffle阶段默认分区策略不合理,无法打散不均匀的Key,导致数据集中到少数分区。常用解决方法:1.过滤无效Key:如果倾斜由大量null等无效Key导致,提前在Shuffle前过滤掉这些无效Key,避免集中倾斜。2.加盐打散法:给倾斜的大Key添加随机前缀,将一个大Key拆分为N个小Key分散到不同分区,先局部聚合,再去掉前缀做全局聚合,把原本一个分区的压力分摊到多个分区。3.大Key单独处理:将倾斜的大Key提前拆分出来,分配更多的计算资源单独计算,最终和其他小Key的聚合结果合并,避免大拖慢整体任务。4.优化分区策略:适当增加Shuffle分区数,让每个分区处理的数据量降低,或者自定义分区策略,打散倾斜Key。5.替换聚合算法:在countdistinct等UV统计场景,采用HyperLogLog、BitMap等算法压缩数据量,降低倾斜带来的内存压力。简述HBase的Rowkey设计原则,举例说明不同业务场景下的设计思路。参考答案:HBase的Rowkey决定了数据的分布和查询效率,核心设计原则包括:1.唯一性:必须保证每行数据的Rowkey唯一,避免数据写入覆盖冲突。2.散列性:避免Rowkey单调递增导致热点问题,也就是所有新写入数据都落到同一个Region,导致该Region压力远高于其他节点,一般通过前缀散列、反转Rowkey的方式打散,让数据均匀分布到多个Region。3.长度原则:Rowkey不宜过长,一般不超过100字节,因为Rowkey会保存在HBase的所有单元格中,过长会额外占用大量存储,降低查询效率,一般设计为10-30字节最优。4.查询优化原则:按照业务常用的查询条件设计Rowkey结构,将常用查询条件放在Rowkey前缀,利用Rowkey的有序性提升范围查询效率。场景举例:1.用户订单查询场景:业务一般按照用户ID查询该用户的所有订单,要求查询速度快、数据分布均匀,Rowkey可设计为「用户ID哈希取模前缀+用户ID+订单时间倒序+订单ID」,前缀

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论