2025年7月ict大数据考试题含答案

上传人：1*** IP属地：四川上传时间：2026-04-25 格式：DOCX 页数：19 大小：27.32KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年7月ict大数据考试题含答案一、单项选择题（每题2分，共30分）1.关于HDFS的副本机制，以下描述错误的是：A.默认副本数为3B.副本放置策略中，第二个副本与第一个副本在同一机架不同节点C.客户端读取数据时优先选择本地副本D.副本数可通过dfs.replication参数调整答案：B（第二个副本通常与第一个副本在不同机架的节点，第三个副本与第二个副本同一机架）2.Spark中RDD的持久化操作（persist）默认的存储级别是：A.MEMORY_ONLYB.MEMORY_AND_DISKC.MEMORY_ONLY_SERD.DISK_ONLY答案：A（默认使用MEMORY_ONLY，即仅内存存储未序列化数据）3.以下不属于Kafka消费者组特性的是：A.同一组内消费者共同消费主题分区B.不同组消费者可重复消费相同消息C.消费者组通过group.id标识D.组内消费者数量必须等于分区数答案：D（消费者数量超过分区数时，多余消费者无法分配分区）4.数据湖（DataLake）与传统数据仓库（DataWarehouse）的核心区别在于：A.数据存储格式（结构化vs非结构化）B.数据处理模式（批处理vs流处理）C.数据访问权限（高权限vs低权限）D.数据存储成本（高成本vs低成本）答案：A（数据湖支持结构化、半结构化、非结构化数据，数据仓库以结构化为主）5.Flink中用于处理乱序事件时间数据的关键机制是：A.Watermark（水位线）B.Checkpoint（检查点）C.Window（窗口）D.State（状态）答案：A（Watermark用于界定事件时间的进度，允许一定延迟）6.HBase的RowKey设计中，以下策略最可能导致热点问题的是：A.哈希散列RowKey前缀B.时间戳倒序作为RowKeyC.顺序递增的自增IDD.组合多维度字段作为RowKey答案：C（顺序递增的RowKey会导致数据集中写入RegionServer，引发热点）7.以下不属于数据清洗主要任务的是：A.处理缺失值B.转换数据格式C.计算衍生指标D.纠正错误数据答案：C（计算衍生指标属于数据特征工程，非清洗任务）8.关于Kudu与HBase的对比，正确的是：A.Kudu支持高效的点查和范围查询，HBase擅长随机读写B.Kudu适合实时写入、实时分析场景，HBase适合历史数据存储C.Kudu基于LSM树，HBase基于列式存储D.Kudu的表结构固定，HBase支持动态列答案：D（Kudu表结构需预定义，HBase列族固定但列可动态添加）9.以下哪个工具属于实时数据采集范畴？A.SqoopB.FlumeC.CanalD.Oozie答案：C（Canal用于捕获数据库Binlog实现实时增量采集，Flume主要用于日志采集但通常为批量）10.数据倾斜（DataSkew）在Spark任务中的典型表现是：A.任务整体执行时间短，但个别Stage耗时久B.Shuffle阶段数据传输量均匀C.所有Executor内存使用均衡D.GC频率低且耗时少答案：A（数据倾斜导致个别分区数据量过大，对应Task执行缓慢）11.关于DeltaLake的特性，错误的是：A.支持ACID事务B.兼容Parquet格式C.仅支持批处理，不支持流处理D.支持时间旅行（TimeTravel）答案：C（DeltaLake支持流批一体处理）12.以下不属于Hive元数据存储支持的数据库是：A.MySQLB.PostgreSQLC.OracleD.HBase答案：D（Hive元数据通常存储在关系型数据库中，HBase为NoSQL）13.机器学习中，处理高维稀疏数据时，最适合的算法是：A.线性回归B.决策树C.支持向量机（SVM）D.逻辑回归答案：D（逻辑回归对高维稀疏数据处理效率较高，SVM在高维下易过拟合）14.实时计算中，“Exactly-Once”语义的实现依赖于：A.幂等写入+CheckpointB.仅Checkpoint机制C.仅事务性写入D.无序事件处理答案：A（需要Checkpoint记录状态，结合幂等或事务写入保证精确一次）15.数据治理的核心目标是：A.提升数据处理速度B.确保数据质量与合规性C.降低存储成本D.增加数据种类答案：B（数据治理关注数据的准确性、完整性、一致性及合规性）二、填空题（每题2分，共20分）1.Hadoop3.x中引入的纠删码（ErasureCoding）技术，默认针对______文件启用（填存储类型）。答案：归档2.SparkSQL中，DataFrame的底层执行计划优化器称为______。答案：Catalyst3.Flink的状态后端（StateBackend）中，______适合大状态、长窗口或大键值状态场景（填具体类型）。答案：RocksDBStateBackend4.Kafka的消息传递语义中，“At-Least-Once”需要结合______机制实现。答案：位移提交（OffsetCommit）5.HBase的RegionServer负责管理多个______，每个由多个Store组成。答案：Region6.数据仓库分层中，DWD层的全称是______。答案：数据明细层（DataWarehouseDetail）7.实时计算框架中，______是Flink为事件时间处理定义的延迟数据缓冲机制（填英文术语）。答案：AllowedLateness8.机器学习特征工程中，对类别型特征常用的编码方法是______（至少写一种）。答案：独热编码（One-HotEncoding）/标签编码（LabelEncoding）9.数据湖仓一体（LakeHouse）架构中，元数据管理通常采用______标准（填具体项目）。答案：ApacheIceberg/DeltaLake/Hudi（任填其一）10.解决Spark数据倾斜的常用方法包括______、______（至少写两种）。答案：加盐哈希、过滤异常值、增加并行度、自定义分区器（任填两种）三、简答题（每题8分，共40分）1.简述Hadoop3.x相较于2.x的主要改进（至少列出4点）。答案：（1）HDFS纠删码支持：减少存储成本，默认对归档文件启用；（2）YARN资源隔离：引入cgroups实现更细粒度的资源（CPU、内存）隔离；（3）HDFSNamenode元数据联邦：支持横向扩展，解决单Namenode瓶颈；（4）支持Java8及以上版本，优化GC性能；（5）MapReduce任务支持Container重用，减少启动开销。2.对比SparkRDD与DataFrame的优缺点及适用场景。答案：RDD（弹性分布式数据集）是Spark早期的核心抽象，优点是灵活（支持任意类型数据、低阶操作）、容错性强（通过血统恢复）；缺点是缺乏结构化信息，执行效率较低（需手动优化），适合需要细粒度控制数据处理逻辑的场景（如复杂的自定义算子）。DataFrame是带元数据的结构化数据集，优点是利用Catalyst优化器自动提供高效执行计划，支持类SQL操作，便于与外部存储（如Hive）集成；缺点是灵活性较低（依赖Schema），适合结构化数据处理、统计分析、ETL等场景。3.说明Flink中Window（窗口）的分类及典型应用场景。答案：Flink窗口分为时间窗口（TimeWindow）、计数窗口（CountWindow）、会话窗口（SessionWindow）。（1）时间窗口：基于事件时间或处理时间划分，如滚动窗口（TumblingWindow，无重叠）用于统计每分钟的订单量；滑动窗口（SlidingWindow，有重叠）用于统计每5分钟内过去30分钟的平均流量；（2）计数窗口：基于事件数量划分，如每100条日志计算一次平均值，适用于数据量驱动的场景；（3）会话窗口：基于事件间隔划分（如用户30分钟无行为则会话结束），适用于用户会话分析（如网页访问时长）。4.数据仓库分层设计的意义是什么？常见的分层结构（至少4层）及各层职责。答案：意义：通过分层实现数据解耦、提升复用性、简化维护复杂度，同时隔离原始数据与业务数据，保障数据质量。常见分层（以经典四层为例）：（1）ODS层（原始数据层）：存储原始日志、数据库备份等原始数据，保持“原始性”，不做清洗；（2）DWD层（数据明细层）：对ODS数据清洗（去重、补全、格式转换），提供全局统一的明细数据，支持原子查询；（3）DWS层（数据汇总层）：基于DWD层按主题/业务线汇总（如用户、订单主题），提供轻度聚合的宽表，支持快速查询；（4）ADS层（应用数据层）：针对具体业务需求（如报表、推荐）提供最终数据，直接提供给前端应用。5.简述Kafka在大数据架构中的角色及核心优势（至少4点）。答案：角色：作为高吞吐量的分布式消息队列，承担实时数据管道（DataPipeline）的核心组件，连接数据生产者（如日志系统、数据库）与消费者（如Flink、Spark、数据仓库）。核心优势：（1）高吞吐量：支持百万级消息/秒的写入，适合大数据场景；（2）持久化存储：消息基于磁盘存储，可配置保留策略，支持离线重放；（3）分区与副本机制：通过分区实现水平扩展，副本保障高可用性；（4）消费者组：支持多应用并行消费同一主题，满足不同下游需求；（5）流处理集成：与Flink、SparkStreaming等框架深度集成，支持实时计算。四、综合题（每题15分，共30分）1.某电商公司需构建用户行为分析系统，要求支持：（1）实时统计（最近1小时）用户点击、加购、下单的转化漏斗；（2）离线分析（每日）用户行为路径（如页面A→B→C的跳转频率）；（3）数据需保留3年，支持历史回溯。请设计技术架构，说明各组件作用及数据流程。答案：技术架构设计如下：（1）数据采集层：客户端埋点：通过JSSDK/APPSDK采集用户行为事件（点击、加购、下单），包含用户ID、页面ID、事件类型、时间戳等字段；实时采集：使用Kafka作为消息队列，接收客户端发送的事件数据（Topic：user_behavior_events），利用Kafka的高吞吐和持久化特性缓冲数据；离线采集：通过Flume定时（如每小时）将Kafka中数据导出至HDFS/对象存储（如OSS），或直接由KafkaConnect同步至HDFS（存储格式为Parquet）。（2）实时处理层：实时计算：使用ApacheFlink消费Kafka数据，设置事件时间窗口（1小时滚动窗口），结合Watermark处理乱序数据；指标计算：在窗口内统计各环节（点击→加购→下单）的用户数，输出转化漏斗指标至Redis（缓存）或ClickHouse（实时数据库），供前端报表实时展示。（3）离线处理层：数据存储：HDFS/对象存储作为冷数据存储，保留3年数据，按日期分区（如dt=2025-07-01）；数据清洗：使用Hive/Spark对原始数据清洗（去重、过滤无效事件），提供DWD层明细数据（存储为Parquet，压缩格式Snappy）；行为路径分析：通过SparkSQL或HiveQL计算用户行为路径（使用窗口函数或图算法），统计页面跳转频率，结果存储至HiveDWS层（宽表）；历史查询：通过Presto/Trino对Hive表进行即席查询，支持历史数据回溯。（4）数据存储与应用层：实时存储：ClickHouse存储实时漏斗指标，支持低延迟查询；离线存储：Hive存储明细层、汇总层数据，支持批量分析；应用输出：前端报表工具（如Superset、Tableau）连接ClickHouse和Hive，展示实时漏斗和离线行为路径分析结果。数据流程总结：用户行为事件→Kafka→Flink（实时处理）→ClickHouse/Redis；同时Kafka→HDFS→Hive（离线处理）→HiveDWS→报表工具。2.某金融企业需对客户交易数据进行风险检测，要求识别异常交易（如短时间内高频转账、跨地域大额交易）。假设交易数据包含字段：用户ID、交易时间、交易金额、交易地点（经纬度）、交易类型（转账/消费）。请设计大数据解决方案，包括：（1）数据处理流程；（2）关键技术选型及理由；（3）异常检测的主要特征工程方法。答案：（1）数据处理流程：①数据采集：实时采集银行核心系统、支付网关的交易数据，通过Kafka接收并缓存；②数据清洗：使用Flink实时清洗数据（过滤重复交易、补全缺失的经纬度、转换时间格式）；③特征提取：基于实时窗口（如5分钟）计算用户交易频率、最近1小时最大交易金额、跨地域距离（通过经纬度计算）等特征；④模型推理：将提取的特征输入预训练的异常检测模型（如IsolationForest、LSTM），输出异常评分；⑤

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年7月ict大数据考试题含答案

文档简介

温馨提示

最新文档

评论

2025年7月ict大数据考试题含答案

文档简介

温馨提示

最新文档

评论

相关文档