2025年大数据工程师职业资格认证考试题库(附答案)

上传人：1*** IP属地：四川上传时间：2026-01-27 格式：DOCX 页数：24 大小：32.53KB 积分：12 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据工程师职业资格认证考试题库(附答案)一、单项选择题（每题1分，共30分。每题只有一个正确答案，请将正确选项字母填入括号内）1.在HDFS中，默认的块大小为A.32MB B.64MB C.128MB D.256MB答案：C2.SparkCore中负责将RDD持久化到磁盘的存储级别是A.MEMORY_ONLY B.MEMORY_AND_DISK_SER C.DISK_ONLY D.OFF_HEAP答案：C3.在Kafka2.8版本之后，移除ZooKeeper依赖的新共识协议称为A.Raft B.Paxos C.Zab D.ViewstampedReplication答案：A4.Flink的Checkpoint机制中，用于在故障恢复时保证端到端恰好一次语义的屏障是A.watermark B.checkpointbarrier C.savepoint D.latencymarker答案：B5.若Hive表partitionedby(dtstring,countrystring)，则以下哪个分区路径符合规范A.dt=20250615/country=CN B.20250615/CN C.dt/20250615/country/CN D.country=CN/dt=20250615答案：A6.在HBase中，用于快速定位Region的索引结构是A.BloomFilter B.LSMTree C.META表 D.ZooKeeper节点答案：C7.下列关于数据湖Iceberg的叙述，错误的是A.支持行级更新 B.基于HDFS存储 C.仅支持Spark引擎 D.提供ACID语义答案：C8.使用Scala编写SparkStreaming程序时，DStream的转换操作flatMap的返回类型是A.DStream[T] B.DStream[Iterable[T]] C.DStream[Array[T]] D.DStream[RDD[T]]答案：A9.在YARN容量调度器中，当队列资源不足时，最先被抢占的资源是A.当前队列的pending容器 B.其他队列的空闲容器 C.当前队列的running容器 D.全局预留容器答案：B10.若MySQLbinlog格式为ROW，使用Canal解析后写入Kafka，以下哪种序列化方式可保证字段顺序一致A.JSON B.Avro C.Protobuf D.以上均可答案：B11.在ClickHouse中，最适合做高基数去重的聚合函数是A.uniq B.uniqCombined C.uniqExact D.uniqHLL12答案：B12.若某Parquet文件schema包含optionalint32id，读取时为NULL，则SparkSQL返回的DataFrame中该列类型为A.IntegerType B.LongType C.DecimalType D.抛出异常答案：A13.在Airflow中，用于确保任务实例幂等性的核心机制是A.task_id+execution_date B.dag_id+run_id C.try_number D.job_id答案：A14.当TensorFlowOnSpark训练过程中出现数据倾斜，优先调整的参数是A.numExecutors B.batchSize C.inputMode D.reservations答案：B15.在数据治理元数据管理中，属于技术元数据的是A.业务术语 B.数据标准 C.字段血缘 D.数据质量规则答案：C16.若Elasticsearch集群出现“circuit_breaking_exception”，最可能的原因是A.磁盘损坏 B.字段映射冲突 C.内存熔断 D.主节点失联答案：C17.在数据仓库缓慢变化维SCDType2中，用于标识历史版本的字段通常不包括A.start_date B.end_date C.is_current D.hash_diff答案：D18.使用Pythonpandas读取1GBCSV时，以下哪种方式内存占用最小A.pd.read_csv(path) B.pd.read_csv(path,dtype=str) C.pd.read_csv(path,usecols=[0,1]) D.pd.read_csv(path,chunksize=10000)答案：D19.在DeltaLake中，执行VACUUM操作默认保留的小时数为A.0 B.24 C.168 D.720答案：C20.若Prometheus监控FlinkJobManager，需暴露的指标端口为A.8081 B.9249 C.9090 D.3000答案：B21.在数据安全GDPR场景下，数据主体行使“被遗忘权”时，技术层面最优先实现的能力是A.数据脱敏 B.数据备份 C.数据溯源 D.数据删除答案：D22.若某Spark任务提交参数为confspark.sql.shuffle.partitions=200，当数据量为10TB时，每个分区平均大小约为A.50GB B.5GB C.512MB D.50MB答案：B23.在数据质量评估维度中，用于衡量同一字段在不同系统取值一致性的指标是A.完整性 B.一致性 C.准确性 D.及时性答案：B24.当Hadoop集群启用Kerberos后，以下哪项操作无需kinit即可执行A.hdfsdfsls/ B.yarnapplicationlist C.访问本地file:/// D.提交MapReduce作业答案：C25.在Kafka中，consumergroup重新均衡的触发条件不包括A.消费者加入 B.消费者退出 C.topic分区数增加 D.broker宕机答案：D26.若使用Debezium采集Oracle，需在数据库端开启的日志模式为A.ARCHIVELOG B.NOARCHIVELOG C.FORCELOGGING D.SUPPLEMENTALLOG答案：D27.在数据建模维度建模中，表示“销售额”应归为A.维度 B.事实 C.属性 D.层次答案：B28.若某HiveSQL执行计划出现“MapJoinOperator”，则表明A.自动转换为SortMergeJoin B.小表广播 C.倾斜连接 D.桶连接答案：B29.在FlinkTableAPI中，将流表转换为动态表并执行SQL，必须声明的表类型为A.TEMPORARY B.TEMPORARYSYSTEM C.VIEW D.MATERIALIZED答案：A30.若使用AWSGlue爬网程序更新DataCatalog，以下哪种格式不支持自动推断分区列A.Parquet B.JSON C.CSV D.XML答案：D二、多项选择题（每题2分，共20分。每题有两个或两个以上正确答案，多选、少选、错选均不得分）31.以下哪些组件属于Hadoop生态中的数据存储层A.HDFS B.Ozone C.Alluxio D.YARN答案：ABC32.关于SparkSQL的Catalyst优化器，正确的说法有A.使用规则优化策略 B.支持代价模型 C.生成Java字节码 D.支持列式存储下推答案：ABD33.在数据湖架构中，以下哪些技术方案支持ACID事务A.DeltaLake B.Iceberg C.Hudi D.Parquet答案：ABC34.以下哪些操作会触发Flink的checkpointA.env.enableCheckpointing(5000) B.手动触发savepoint C.作业失败重启 D.调用System.exit答案：ABC35.关于KafkaProducer的幂等性，正确的有A.需设置enable.idempotence=true B.要求acks=all C.要求retries>0 D.要求max.in.flight.requests.per.connection≤5答案：ABCD36.在ClickHouse的MergeTree引擎中，以下哪些列可以作为orderby的候选A.低基数列 B.高基数列 C.经常用于过滤的列 D.经常用于聚合的列答案：BCD37.以下哪些属于数据血缘的自动采集方式A.SQL解析 B.AgentHook C.日志审计 D.手动登记答案：ABC38.在Elasticsearch中，以下哪些设置可以减少集群FullGC频率A.降低heapsize B.使用G1GC C.增加refresh_interval D.关闭doc_values答案：BC39.以下哪些Python库支持分布式DataFrameA.Dask B.RayDataset C.Modin D.Pandas答案：ABC40.在数据治理主数据管理MDM中，以下哪些属于核心实体A.客户 B.产品 C.订单事件 D.供应商答案：ABD三、填空题（每空1分，共20分）41.在HDFS中，NameNode通过________文件持久化命名空间镜像，通过________文件记录增量编辑日志。答案：fsimage,edits42.Spark中，RDD的五大特征分别为partitioner、dependencies、________、________、________。答案：compute,partitions,preferredLocations43.Flink的StateBackend默认配置为________，若需将状态存储到HDFS，可切换为________。答案：HashMapStateBackend,FsStateBackend44.Kafka的consumeroffset若存储于内部topic，则该topic名称为________。答案：__consumer_offsets45.在Hive中，将非分区表转换为分区表的命令关键字为________。答案：EXCHANGEPARTITION46.HBase的Region分裂触发条件之一为单个Region大小超过________。答案：hbase.hregion.max.filesize（默认10GB）47.数据质量规则“字段x取值范围在[0,100]”属于________类规则。答案：有效性48.在PostgreSQL中，查看当前活跃连接数的系统视图为________。答案：pg_stat_activity49.若使用Sqoop将MySQL数据导入Hive，参数________可控制Map任务并发数。答案：m或nummappers50.在Airflow的DAG文件中，用于标记任务失败重试延迟时间的参数为________。答案：retry_delay51.ClickHouse中，用于查看表级别的数据压缩率的系统表为________。答案：system.parts52.在Iceberg中，记录快照信息的元数据文件后缀为________。答案：.json53.若Elasticsearch索引写入拒绝率升高，优先调整的线程池为________。答案：write54.在Scala中，SparkDataFrame的explain()方法默认显示________计划。答案：optimizedlogical55.数据脱敏算法中，将“张三”替换为“张”属于________脱敏。答案：掩码56.在Linux中，查看磁盘I/O使用情况的命令为________。答案：iostat57.若Flink作业使用EventTime，必须声明________生成器。答案：WatermarkStrategy58.在数据仓库中，表示“订单金额”在事实表中通常采用________类型字段。答案：度量（或事实）59.若使用Prometheus监控NodeExporter，默认抓取路径为________。答案：/metrics60.在Python中，pandas.read_sql()依赖的底层库为________。答案：SQLAlchemy四、简答题（共30分）61.（封闭型，6分）简述SparkSQL执行流程中的逻辑优化阶段常见的三种规则，并给出每条规则的作用。答案：1.谓词下推（PushDownPredicate）：将过滤条件尽可能推到数据源端，减少I/O。2.列裁剪（ColumnPruning）：只读取查询需要的列，减少网络与内存开销。3.常量折叠（ConstantFolding）：在编译期计算常量表达式，减少运行时计算。62.（开放型，6分）某电商公司每日新增500GB日志，需实时统计每分钟UV，请给出两种技术方案并比较其延迟、吞吐、一致性。答案：方案A：Kafka+FlinkSQL+Redis延迟：秒级；吞吐：百万/秒；一致性：exactlyonce需开启checkpoint与幂等写入。方案B：Kafka+SparkStructuredStreaming+DeltaLake延迟：10秒级；吞吐：十万/秒；一致性：exactlyonce通过batchsink实现。比较：A延迟更低，B支持批流一体且存储可回溯。63.（封闭型，6分）说明HBaseRowKey设计的三项原则，并解释如何避免热点。答案：1.唯一性：确保业务主键或组合键唯一。2.散列性：使用反转、加盐或哈希避免顺序写入。3.长度可控：减少存储与比较开销。避免热点：将时间戳反转或加盐前缀，使写入分散到多Region。64.（开放型，6分）某金融公司需对敏感字段“身份证号”进行加密存储，同时支持等值查询，请给出完整技术方案。答案：1.采用确定性AES256GCM加密，同一明文得同一密文，支持等值匹配。2.在Hive端创建自定义UDF，写入时加密，读取时解密。3.密钥托管于KMS，列级授权通过Ranger控制。4.对加密列建立BloomFilter索引，加速等值查询。5.定期轮换密钥，重加密采用双写+灰度切换。65.（封闭型，6分）列举FlinkCheckpoint与Savepoint的三点差异。答案：1.触发方式：Checkpoint由Flink自动定时触发，Savepoint需手动命令。2.生命周期：Checkpoint默认作业终止后删除，Savepoint持久保留。3.兼容性：Savepoint允许跨Flink版本升级，Checkpoint仅兼容同版本。五、应用题（共50分）66.（计算类，10分）某Spark批作业读取2TBSnappy压缩Parquet文件，集群共100vcore，400GB内存，spark.sql.shuffle.partitions=800，每个分区平均压缩后大小为2GB，Snappy解压比约3:1。估算shuffleread阶段总数据量，并判断当前分区数是否合理，给出调整建议。答案：解压后数据量=2TB×3=6TB；shuffleread约6TB；800分区，每分区7.5GB，超过推荐200MB。应提高分区数至6TB/200MB≈30000，或降低单个任务处理量，避免GC与长尾。67.（分析类，10分）给出Kafka集群出现“ISR频繁收缩”现象的排查步骤与根因分析。答案：步骤：1.监控ISR列表、UnderReplicatedPartitions指标。2.查看broker日志是否存在“fetcherlag”。3.检查磁盘IO、网络延迟、GC日志。4.查看replica.socket.timeout参数。根因：1.网络抖动或带宽不足。2.follower磁盘IO瓶颈导致拉取延迟。3.参数replica.socket.timeout设置过小。4.单分区数据突增，leader高负载。68.（综合类，15分）某视频平台需构建用户行为数据仓库，源数据包括：1.客户端埋点JSON日志，日均500GB，字段含user_id、video_id、event_time、event_type、ip、device。2.MySQL业务库：user_profile、video_info、payment，总量300GB，每日增量5GB。要求：a)给出完整ETL链路，含采集、清洗、建模、调度；b)给出星型模型事实表与维度表设计；c)说明如何保证端到端ExactlyOnce。答案：a)链路：采集：Flume→Kafka→HDFS；Canal→Kafka→HDFS。清洗：SparkStructuredStreaming解析JSON，过滤异常IP，统一时区。建模：SparkSQL每日离线写入DeltaLake分层（ODS→DWD→DWS→ADS）。调度：Airflow每日00:30启动，依赖上游HDFS_SUCCESS文件。b)模型：事实表：f_user_event(user_key,video_key,event_time_key,event_type,duration,ip)分区dt。维度表：d_user,d_video,d_time,d_device。c)ExactlyOnce：Kafka开启幂等producer；Sparkcheckpoint到HDFS；DeltaLake事务写；MySQL端采用幂等replaceinto。69.（计算类，10分）某ClickHouse表采用MergeTree，按(dt,user_id)排序，dt为Date类型，user_id为UInt64。执行查询：selectcount()fromtwheredt='20250615'anduser_id=123456789；已知数据量30亿行，dt范围365天，user_id基数5亿。估算索引过滤后读取数据行数，并给出优化建议。答案：dt='20250615'命中约30亿/365≈8219万行；user_id索引为跳表，假设粒度8192，需读取8219万/8192≈1万个granule，共1万×8192≈8192万行。建议：将高基数user_id放在排序键第一位，减少granule数量；增加采样查询或物化视图。70.（综合类，15分）某物流公司实时计算车辆GPS轨迹，需求：1.每30秒输出车辆最近5分钟平均速度；2.若连续5分钟速度低于5km/h则报警；3.结果写入MySQL，支持更新。请给出Flink作业完整代码框架（Java或Scala），含状态描述、窗口定义、侧输出报警、幂等写入。答案：核心代码（Scala）：```scalavalenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing(10000)env.setStateBackend(newFsStateBackend("hdfs://ns/flink/checkpoint"))valkafkaSource=KafkaSource.builder().setTopics("gps").setValueOnlyDeserializer(newGpsSchema).build()valstream=env.fromSource(kafkaSource,WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(10)),"gps")valspeedWindow=stream

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据工程师职业资格认证考试题库(附答案)

文档简介

温馨提示

最新文档

评论

2025年大数据工程师职业资格认证考试题库(附答案)

文档简介

温馨提示

最新文档

评论

相关文档