版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据职称评审题库及答案一、单项选择题(每题1分,共20分)1.在Hadoop生态中,负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案:B2.下列关于KafkaPartition的描述,正确的是A.一个Topic只能有一个PartitionB.Partition数量一旦创建不可修改C.每个Partition内部消息有序D.ConsumerGroup内所有Consumer订阅不同Topic答案:C3.Spark中触发Job提交的算子是A.map B.filter C.reduceByKey D.collect答案:D4.在Hive执行计划优化阶段,PredicatePushdown主要解决A.数据倾斜 B.网络I/O C.磁盘I/O D.CPU计算答案:C5.使用Flink实现ExactlyOnce语义的核心机制是A.异步快照Checkpoint B.事件时间 C.窗口函数 D.并行度答案:A6.数据仓库分层模型中,DWD层主要存储A.原始日志 B.明细事实数据 C.汇总指标 D.维度编码表答案:B7.在PythonPandas中,将DataFramedf的列名改为col_dict映射,正确语句是A.df.columns=col_dict B.df.rename(columns=col_dict,inplace=True)C.df.set_axis(col_dict) D.df.map(col_dict)答案:B8.下列算法属于集成学习Bagging思想的是A.AdaBoost B.RandomForest C.XGBoost D.LightGBM答案:B9.在数据治理成熟度模型DGI中,最高等级是A.Managed B.Defined C.Optimized D.Adhoc答案:C10.使用Scala编写SparkStructuredStreaming,输出模式Complete要求A.必须包含聚合操作 B.必须包含排序 C.必须包含Watermark D.必须包含Join答案:A11.在HDFS3.x中,Block默认副本数为A.2 B.3 C.4 D.1答案:B12.下列关于数据湖说法错误的是A.支持结构化与半结构化数据 B.强调SchemaonReadC.必须基于HDFS实现 D.通常与对象存储结合答案:C13.在SQL优化中,利用Bitmap索引最适用的场景是A.高基数列等值查询 B.低基数列等值查询 C.范围查询 D.模糊匹配答案:B14.使用Elasticsearch7.x创建索引时,默认分片数为A.1 B.3 C.5 D.7答案:C15.在数据安全分级中,PII是指A.公共信息接口 B.个人身份信息 C.主键索引 D.图片识别接口答案:B16.在FlinkCEP库中,定义连续事件模式应使用A.Pattern.begin() B.Pattern.where() C.Pattern.followedBy() D.Pattern.oneOrMore()答案:A17.下列关于数据血缘描述正确的是A.只能追踪表级依赖 B.无法展示字段级转换逻辑C.可用于影响分析 D.无法与元数据系统集成答案:C18.在Airflow中,Sensor类型的Task作用是A.执行Shell命令 B.等待某一条件满足 C.发送邮件 D.触发DAG答案:B19.使用Redis实现分布式锁,解决死锁的关键参数是A.ttl B.nx C.ex D.px答案:A20.在数据质量评估维度中,Completeness用于衡量A.数据是否及时 B.数据是否缺失 C.数据是否一致 D.数据是否准确答案:B二、多项选择题(每题2分,共20分,多选少选均不得分)21.下列属于NoSQL数据库CAP权衡中放弃Consistency的系统有A.MongoDB B.Cassandra C.HBase D.DynamoDB答案:B、D22.在Spark中可能导致数据倾斜的操作包括A.groupByKey B.reduceByKey C.join D.mapPartitions答案:A、B、C23.以下属于数据脱敏常用算法A.掩码 B.哈希 C.加密 D.随机化答案:A、B、D24.在Kafka0.11之后支持的事务特性包括A.跨Partition原子提交 B.跨Session幂等 C.消费生产原子性 D.跨Topic全局排序答案:A、C25.使用HBaseRowKey设计原则包括A.避免热点 B.长度固定 C.包含时间戳倒序 D.包含散列前缀答案:A、C、D26.以下属于FlinkTime类型A.ProcessingTime B.IngestionTime C.EventTime D.SystemTime答案:A、B、C27.在数据仓库缓慢变化维SCD类型中,可保留历史版本的方案A.Type0 B.Type2 C.Type4 D.Type6答案:B、C、D28.下列属于Python内存优化技巧A.使用category类型 B.使用iterator替代list C.使用copy.deepcopy D.使用memory_profiler答案:A、B、D29.在机器学习模型评估中,可用于不平衡数据集的指标A.AUCROC B.F1score C.Accuracy D.AUCPR答案:A、B、D30.以下属于云原生数据仓库特点A.存算分离 B.Serverless弹性 C.强制本地磁盘 D.按量计费答案:A、B、D三、填空题(每空1分,共20分)31.在Linux中,查看当前文件夹下各子目录磁盘使用情况的命令是duhmaxdepth=132.HDFS中,NameNode内存主要保存Block与DataNode的映射关系,该数据结构称为FsImage33.Spark默认的序列化方式是Java序列化,官方推荐使用Kryo34.在MySQL8.0中,支持原生JSON数据类型的二进制存储格式为BSON35.FlinkCheckpoint的存储后端可配置为Memory、FileSystem和RocksDB36.数据治理中,元数据分为业务元数据、技术元数据与操作元数据37.在Python中,使用pandas.read_csv读取大文件时,可添加参数chunksize实现分块读取38.Elasticsearch集群发现机制默认使用Zen协议,7.x之后替换为ClusterBootstrap39.在数据仓库中,事实表分为事务型、周期快照型与累积快照型40.XGBoost的目标函数由损失函数与正则项两部分组成41.在Kafka中,消费者位移保存在内部主题__consumer_offsets42.数据质量规则库通常包含规则编号、规则名称、规则类型、阈值、责任人字段43.在Scala中,使用lazy关键字修饰变量可实现延迟加载44.Hive3.x默认执行引擎为Tez,可通过sethive.execution.engine=spark切换45.在数据湖架构中,提供统一元数据层并实现事务支持的开源项目是ApacheIceberg46.使用RedisCluster时,数据分片采用16384个哈希槽47.在机器学习特征工程中,对高基数类别变量进行编码可采用TargetEncoding48.数据资产目录的核心功能包括搜索、血缘、权限与标签49.在Airflow中,通过XCom机制实现跨Task数据传递50.在BI工具Tableau中,将多个工作表合并展示的功能称为Dashboard四、简答题(共6题,每题8分,共48分)51.封闭型:简述MapReduce中Shuffle阶段的具体流程,并指出优化数据倾斜的两种策略。答案:Shuffle包括Map端溢写、分区、排序、合并、压缩,Reduce端拷贝、归并排序。优化倾斜:1.自定义Partitioner打散热点Key;2.在Map端加入随机前缀,Reduce后再二次聚合。52.开放型:结合业务场景,说明如何在Lambda架构基础上演进为Kappa架构,并给出至少两点代价。答案:Lambda维护批、速两层代码,Kappa通过统一流层消除批层。演进步骤:1.确认事件可重放,Kafka保留期足够;2.用Flink实现离线同等计算逻辑;3.下线批层集群。代价:1.流处理资源消耗上升;2.历史数据重放耗时增加;3.对实时计算稳定性要求更高。53.封闭型:列出数据质量维度至少五项,并给出对应量化公式或SQL示例。答案:Completeness:select1count(cust_id)/count()fromuserConsistency:selectcount()fromajoinbona.key=b.keywherea.status<>b.statusTimeliness:selectavg(unix_timestamp(current_timestamp)unix_timestamp(update_time))/3600fromtableValidity:selectcount()whereage<0orage>120Uniqueness:selectcount()count(distinctid)fromtableAccuracy:selectsum(abs(predictedactual))/count()fromresult54.开放型:说明在多云环境下,如何设计跨云数据同步方案,需考虑网络、安全、一致性三点。答案:网络:使用云厂商专线或VPN打通VPC,同步任务走内网地址;安全:数据先在上云KMS加密,跨云传输采用TLS1.3,桶策略限制源IP;一致性:采用事件时间+校验和,同步后对比行级CRC,差异触发重传,利用断点续传与幂等写入保证最终一致。55.封闭型:解释Flink中Watermark生成机制,并给出延迟乱序数据超过允许延迟时的处理代码片段。答案:Watermark随事件时间推进,允许最大延迟5秒:.assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(5)))超延迟数据使用sideOutput:vallateTag=OutputTagTstream.getSideOutput(lateTag).addSink(lateDataSink)56.开放型:描述一次A/B测试完整流程,并指出大数据平台在其中的三项关键支撑。答案:流程:1.设定目标与假设;2.分流与实验设计;3.数据收集;4.指标计算;5.显著性检验;6.决策与复盘。大数据支撑:1.实时分流日志采集(Kafka+Flink);2.离线指标聚合(SparkSQL);3.可视化与显著性检验平台(Jupyter+自研API)。五、应用题(共4题,共62分)57.计算类(15分)某电商公司日活1000万,用户平均访问时长10分钟,每分钟产生日志0.5MB。计算:(1)每日原始日志量(GB);(2)若采用LZO压缩比3:1,压缩后存储量;(3)若保存30天,需多少块4TB硬盘(副本因子3)。答案:(1)1000万100.5MB=50000000MB≈46.6TB(2)46.6/3≈15.5TB(3)15.5330/4≈348.75→349块58.分析类(16分)给定用户标签表user_tag(user_idstring,tag_idstring,update_timetimestamp),数据量20亿行,存储格式ORC,压缩率5:1。要求:1.计算每个tag的当日新增用户数;2.输出格式tag_id,new_user_cnt;3.执行时间不超过5分钟。请给出表设计、分区策略、SQL及资源估算。答案:分区:dtstring,tag_idstring,桶列user_id桶数1024。SQL:insertoverwritetabletag_new_userpartition(dt='20250620')selecttag_id,count(distinctuser_id)asnew_user_cntfromuser_tagwheredt='20250620'anduser_idnotin(selectuser_idfromuser_tagwheredt<'20250620')groupbytag_id;资源:Spark动态资源,executor200个,内存8G,并行度2048,预估4分钟完成。59.综合类(15分)某视频App拟构建实时热度榜,指标含播放量、点赞量、评论量,要求5秒更新一次,Top100准确率>99%。请给出技术选型、端到端架构图文字描述、ExactlyOnce保证措施。答案:选型:Kafka→Flink→Redis→APIGateway。架构:客户端埋点→KafkaTopic三分区→Flink作业keyBy视频ID,窗口5秒,使用ValueState累加三个指标,触发TopN算法(最小堆维护100),结果写RedisSortedSet,API轮询Redis。ExactlyOnce:Flink开启Checkpoint,KafkaProducer幂等+事务,Redis采用Lua脚本覆盖写,保证原子。60.设计类(16分)设计一套支持千亿级日志、保存90天、冷热分层、支持秒级关键字查询的日志平台,需包含:1.数据流图;2.存储层表结构;3.冷热迁移策略;4.成本估算(0.08元/GB/月冷,0.35元/GB/月热)。答案:1.数据流:Filebeat→Kafka→Logstash→Iceberg表(HDFS)→冷备OSS。2.表结构:日志
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丙烯酸树脂装置操作工岗前评优考核试卷含答案
- 钽铌加工材制取工岗前变更管理考核试卷含答案
- 松香浸提工岗前评审考核试卷含答案
- 土石方挖掘机司机班组考核竞赛考核试卷含答案
- 货运调度员操作安全测试考核试卷含答案
- 煤提质工岗前工艺规程考核试卷含答案
- 汽车美容装潢工班组安全知识考核试卷含答案
- 玻纤织布带工诚信模拟考核试卷含答案
- 电工合金金属粉末处理工岗前进阶考核试卷含答案
- 平板显示膜涂布工班组评比竞赛考核试卷含答案
- 五年级上册道法期末模拟试卷及答案
- 财务信息化与财务共享服务模式2025年可行性分析报告
- 烟花爆竹经营零售申请书
- 《鲤鱼的遇险》读书分享
- 融媒体中心党支部2025年前三季度党建工作总结范文
- 提升施工企业安全管理水平的关键措施与路径探索
- 自动扶梯应急预案演练计划(3篇)
- GB/T 16271-2025钢丝绳吊索插编索扣
- 暴盲的中医护理方案
- GB/T 20871.62-2025有机发光二极管显示器件第6-2部分:测试方法视觉质量和亮室性能
- 旋挖钻机地基承载力验算2017.7
评论
0/150
提交评论