2025年大数据技术概论考试题及答案_第1页
2025年大数据技术概论考试题及答案_第2页
2025年大数据技术概论考试题及答案_第3页
2025年大数据技术概论考试题及答案_第4页
2025年大数据技术概论考试题及答案_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年大数据技术概论考试题及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于大数据5V特征的扩展维度?A.Volume(容量)B.Veracity(真实性)C.Variability(多变性)D.Value(价值)答案:C(传统5V包括Volume、Velocity、Variety、Veracity、Value,Variability是部分文献提出的扩展维度,但2025年主流教材已将其纳入基础特征,本题考察对最新定义的辨析,正确选项应为命题时设定的干扰项,实际应确认教材定义。此处假设命题以原始5V为基础,故答案选C)2.关于分布式文件系统HDFS,以下描述错误的是?A.采用主从架构,NameNode管理元数据B.默认块大小为128MB,可配置调整C.适合存储小文件,支持随机读写D.数据副本机制提升可靠性答案:C(HDFS设计目标是大文件存储,小文件会导致NameNode内存压力;随机读写效率低,主要支持流式读取)3.Spark计算框架中,RDD的核心特性不包括?A.不可变(Immutable)B.分区(Partitioned)C.惰性计算(LazyEvaluation)D.实时事务支持(ACID)答案:D(SparkRDD强调分布式内存计算,不直接支持ACID事务,事务支持需结合外部存储或扩展组件)4.以下哪种技术最适合处理毫秒级实时数据流?A.HadoopMapReduceB.ApacheFlinkC.ApacheHiveD.ApachePig答案:B(Flink是专为实时流处理设计的框架,支持毫秒级延迟;MapReduce是批处理,Hive/Pig基于MapReduce)5.数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别在于?A.数据存储介质(磁盘/内存)B.数据结构化程度(结构化/非结构化)C.数据处理模式(批处理/流处理)D.数据使用对象(技术人员/业务人员)答案:B(数据湖存储原始的、多格式的数据(结构化/半结构化/非结构化),数据仓库存储经过清洗、结构化的业务数据)6.隐私计算技术中,联邦学习(FederatedLearning)的核心目标是?A.在不共享原始数据的前提下联合建模B.对数据进行端到端加密传输C.实现数据的匿名化脱敏处理D.确保数据存储的物理隔离答案:A(联邦学习通过交换模型参数而非原始数据,实现跨机构联合训练,保护数据隐私)7.以下哪项不属于Kafka的核心组件?A.BrokerB.TopicC.CheckpointD.ConsumerGroup答案:C(Checkpoint是流处理框架如Flink的容错机制,Kafka核心组件包括Broker、Topic、Producer、Consumer、ConsumerGroup)8.大数据实时处理场景中,“水位线(Watermark)”主要用于解决?A.数据乱序问题B.数据倾斜问题C.资源调度问题D.状态存储问题答案:A(水位线是流处理系统中衡量事件时间进度的机制,用于处理延迟或乱序到达的数据,确定何时触发窗口计算)9.关于数据湖仓一体(LakeHouse)架构,以下描述正确的是?A.仅支持结构化数据存储B.融合了数据湖的灵活性和数据仓库的事务性C.依赖传统关系型数据库实现D.不支持SQL查询答案:B(LakeHouse结合数据湖的多格式存储能力与数据仓库的ACID事务、SQL支持,解决数据湖的元数据管理和一致性问题)10.边缘计算与大数据结合的主要优势是?A.降低数据传输到云端的延迟和成本B.提升云端计算资源利用率C.简化数据清洗流程D.增强数据存储的可靠性答案:A(边缘计算在数据源附近处理数据,减少需上传至云端的数据量,降低延迟和网络成本)二、填空题(每空1分,共20分)1.大数据技术栈中,HBase基于__________存储模型设计,适合__________查询场景。答案:列族(ColumnFamily);随机读/写2.ApacheSpark的核心组件包括__________(负责任务调度)、__________(内存计算抽象)和__________(SQL查询引擎)。答案:DAGScheduler(或调度模块);RDD(弹性分布式数据集);SparkSQL3.数据采集阶段常用的工具中,Flume主要用于__________数据的收集,Kafka主要用于__________数据的传输。答案:日志;流式4.分布式计算中的一致性模型“最终一致性”指__________,而“强一致性”要求__________。答案:经过一段时间后所有副本数据一致;任何时刻所有副本数据完全一致5.数据清洗的主要步骤包括__________、__________、__________和__________。答案:缺失值处理;异常值检测;重复值删除;格式标准化6.隐私计算技术主要包括__________、__________和__________(列举三种)。答案:联邦学习;安全多方计算(MPC);同态加密7.数据湖的存储层通常采用__________格式(如Parquet、ORC),元数据管理需解决__________和__________问题。答案:列式存储;多版本控制;一致性8.实时流处理系统的容错机制主要通过__________和__________实现,例如Flink的__________机制。答案:检查点(Checkpoint);状态快照;分布式快照三、简答题(每题8分,共40分)1.简述Hadoop生态中HDFS、YARN和MapReduce的角色分工及协作流程。答案:HDFS负责分布式存储,提供高容错的大文件存储服务;YARN(资源调度器)管理集群资源,负责任务的资源分配和监控;MapReduce是计算框架,将任务分解为Map和Reduce阶段。协作流程:用户提交MapReduce作业→YARN的ResourceManager分配资源→NodeManager启动Container运行任务→任务从HDFS读取数据→执行Map和Reduce操作→结果写回HDFS。2.对比批处理与流处理的适用场景,说明SparkStreaming与Flink在处理模型上的差异。答案:批处理适合大规模历史数据处理(如每日报表),延迟较高(分钟级到小时级);流处理适合实时数据处理(如实时推荐、监控告警),延迟低(毫秒级到秒级)。SparkStreaming基于微批处理(Micro-Batch),将流数据划分为小批次处理;Flink基于事件时间(EventTime)和水位线(Watermark),支持真正的流式处理,可精确控制乱序数据和延迟数据的处理逻辑。3.数据湖在实际应用中面临哪些挑战?如何通过LakeHouse架构解决?答案:挑战包括:①元数据管理复杂(多格式、多版本);②缺乏事务支持(无法保证数据一致性);③分析能力不足(难以直接支持SQL和BI工具)。LakeHouse通过以下方式解决:①采用开放的列式存储格式(如DeltaLake),支持ACID事务;②集成元数据管理系统(如ApacheHudi的时间旅行功能);③兼容数据仓库的查询接口(支持SQL、BI工具对接),实现“存储-计算-分析”一体化。4.解释数据倾斜(DataSkew)的成因及解决方法。答案:成因:数据分布不均,某些键(Key)对应的数据量远大于其他键,导致部分任务处理时间过长,甚至内存溢出。解决方法:①预处理阶段对倾斜键进行拆分或聚合(如添加随机前缀);②调整分区策略(如自定义Partitioner);③增加并行度,分散负载;④使用广播变量(BroadcastJoin)替代ShuffleJoin,避免数据集中。5.结合GDPR和《数据安全法》,说明大数据应用中隐私保护的关键技术和实践要点。答案:关键技术:①脱敏技术(匿名化、去标识化);②隐私计算(联邦学习、安全多方计算);③访问控制(角色权限管理、最小权限原则);④加密技术(传输加密、存储加密)。实践要点:①数据收集遵循“最小必要”原则;②明确数据用途并获得用户授权;③建立数据生命周期管理(定期删除冗余数据);④实施隐私影响评估(PIA),识别高风险场景;⑤公开数据处理规则,保障用户知情权和删除权。四、综合题(每题10分,共20分)1.某电商平台需构建用户行为分析系统,要求实时分析用户点击、加购、下单等行为,支持“最近1小时各商品点击量”“当日用户下单转化率”等指标。请设计技术方案,包括数据采集、存储、处理、分析各环节的技术选型及理由。答案:(1)数据采集:使用Flume或Logstash收集前端埋点日志(点击、加购等行为数据),通过Kafka作为消息队列缓存,解决数据突发流量问题(Kafka高吞吐量、持久化存储)。(2)数据存储:实时数据暂存于Kafka(保留7天),历史数据写入HDFS或数据湖(如DeltaLake)存储原始日志;计算结果(如点击量、转化率)写入HBase(实时查询)或ClickHouse(OLAP分析)。(3)数据处理:采用Flink作为流处理引擎,处理实时数据流:①定义事件时间窗口(1小时滑动窗口)计算点击量;②通过连接用户信息表(广播变量优化)计算下单转化率(下单数/点击数)。(4)分析展示:使用Superset或Tableau对接ClickHouse,可视化实时指标;通过API将结果提供给业务系统(如推荐系统)。选型理由:Kafka保证数据不丢失且支持高并发;Flink支持毫秒级延迟和事件时间处理,适合实时指标计算;DeltaLake支持ACID事务,保障历史数据一致性;ClickHouse适合高并发OLAP查询,满足业务快速分析需求。2.某金融机构需联合多家银行进行反欺诈模型训练,但因数据隐私限制无法直接共享用户交易数据。请设计基于隐私计算的解决方案,说明技术路径、关键步骤及需解决的核心问题。答案:技术路径:采用横向联邦学习(参与方数据特征相同、样本不同),结合安全多方计算(MPC)保障参数交换安全。关键步骤:(1)数据预处理:各银行对本地交易数据进行标准化处理(如时间戳统一、金额归一化),去除敏感字段(如用户姓名),保留特征(交易金额、频次、设备信息等)。(2)模型初始化:中心服务器提供初始模型参数(如逻辑回归的权重),分发给各参与方。(3)本地训练:各银行使用本地数据训练模型,计算梯度(或损失函数),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论