版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年(完整)大数据试题及答案一、单项选择题(每题2分,共20分)1.以下关于大数据平台架构的描述中,错误的是()。A.数据湖(DataLake)通常存储原始数据,支持多格式存储B.数据仓库(DataWarehouse)以关系模型为主,强调结构化数据C.实时数仓(Real-timeDataWarehouse)的典型技术栈包括Flink+ClickHouseD.湖仓一体(LakeHouse)架构中,数据湖与数据仓库需通过ETL完全隔离答案:D2.某电商平台需对用户行为日志(日均10TB,格式为JSON)进行实时分析,要求延迟低于1秒,最适合的计算框架是()。A.HadoopMapReduceB.SparkBatchC.FlinkD.Hive答案:C3.在HDFS(HadoopDistributedFileSystem)中,若一个文件大小为300MB,默认块大小为128MB,副本数为3,则HDFS会提供()个数据块。A.2B.3C.6D.9答案:B(300/128≈2.34,向上取整为3个块)4.关于SparkRDD(ResilientDistributedDataset)的特性,以下描述错误的是()。A.RDD是不可变的分布式数据集B.RDD支持基于内存的计算,提高迭代计算效率C.RDD的持久化(Persist)操作会将数据存储到磁盘,而缓存(Cache)仅存储到内存D.RDD通过血缘(Lineage)信息实现容错答案:C(Cache是Persist的特例,默认存储级别为MEMORY_ONLY)5.某企业需构建用户画像系统,要求支持高并发查询(QPS≥10万)和快速更新(秒级),最适合的存储引擎是()。A.HBaseB.HiveC.MySQLD.Redis答案:A(HBase基于HDFS,支持高并发随机读写,适合实时查询场景)6.以下不属于数据清洗主要任务的是()。A.处理缺失值(MissingValues)B.检测并修正异常值(Outliers)C.对数据进行特征提取(FeatureExtraction)D.统一数据格式(如日期格式YYYY-MM-DD)答案:C(特征提取属于特征工程,非数据清洗核心任务)7.在联邦学习(FederatedLearning)中,“横向联邦”与“纵向联邦”的主要区别是()。A.横向联邦共享样本特征,纵向联邦共享样本IDB.横向联邦样本重叠多、特征重叠少,纵向联邦特征重叠多、样本重叠少C.横向联邦适用于跨机构协作,纵向联邦适用于单机构内部D.横向联邦需要中心服务器,纵向联邦不需要答案:B(横向联邦(水平联邦):样本重叠多,特征空间相同但用户不同;纵向联邦(垂直联邦):特征重叠多,样本空间不同但用户相同)8.某实时数据流需计算“过去1小时内每个商品的点击次数”,且要求窗口可滑动(如每5分钟输出一次),最适合的窗口类型是()。A.滚动窗口(TumblingWindow)B.滑动窗口(SlidingWindow)C.会话窗口(SessionWindow)D.全局窗口(GlobalWindow)答案:B(滑动窗口允许窗口重叠,通过设置窗口大小和滑动间隔实现滑动输出)9.关于DataOps(数据运营)的核心目标,以下描述最准确的是()。A.提高数据存储容量B.加速数据从开发到生产的交付流程,保障数据质量与可靠性C.替代数据工程师的手动操作D.优化数据可视化效果答案:B(DataOps通过自动化、协作和流程优化,缩短数据价值交付周期)10.以下关于DeltaLake的描述中,错误的是()。A.支持ACID事务(原子性、一致性、隔离性、持久性)B.仅支持Parquet格式存储C.提供时间旅行(TimeTravel)功能,可访问历史数据版本D.适用于数据湖与数据仓库的融合场景答案:B(DeltaLake支持Parquet、ORC等多种格式,核心是元数据管理与事务支持)二、填空题(每题2分,共10分)1.大数据处理的典型流程包括数据采集、______、数据存储、数据处理、数据分析与数据应用。答案:数据清洗2.Spark中,______是任务调度的基本单位,一个Stage由多个该单位组成,其数量等于RDD的分区数。答案:Task(任务)3.Flink的时间类型包括事件时间(EventTime)、摄入时间(IngestionTime)和______。答案:处理时间(ProcessingTime)4.数据湖仓一体(LakeHouse)架构的核心是通过______层统一管理元数据、事务和权限,实现湖与仓的无缝融合。答案:元数据(或“事务元数据”)5.在Hive中,______表(ManagedTable)的数据由Hive完全管理(包括删除表时删除数据),而______表(ExternalTable)的数据存储在外部路径,删除表时仅删除元数据。答案:管理(或“内部”);外部三、简答题(每题8分,共40分)1.简述HDFS的架构设计及各组件的核心功能。答案:HDFS采用主从(Master-Slave)架构,核心组件包括NameNode、DataNode和SecondaryNameNode(或CheckpointNode)。NameNode(主节点):管理文件系统元数据(如文件目录、块与DataNode的映射关系),处理客户端的文件操作请求,是系统的逻辑中心。DataNode(从节点):存储实际数据块(默认128MB),执行数据块的读写操作,并定期向NameNode汇报块状态(如心跳机制)。SecondaryNameNode(或CheckpointNode):辅助NameNode进行元数据检查点(Checkpoint)提供,定期合并FsImage(内存元数据快照)和EditLog(操作日志),降低NameNode重启时的恢复时间。2.对比SparkRDD与FlinkDataStream的异同。答案:相同点:均为分布式数据集抽象,支持链式操作(如map、filter),具备容错机制(RDD通过血缘,DataStream通过检查点)。不同点:计算模型:RDD基于批量处理(Batch),适合离线计算;DataStream基于流处理(Stream),适合实时计算。状态管理:DataStream内置状态后端(如RocksDB、内存),支持复杂状态操作;RDD需通过累加器(Accumulator)或广播变量(Broadcast)间接管理状态。时间语义:DataStream支持事件时间、水印(Watermark)等精确时间处理;RDD无原生时间概念,需通过窗口函数模拟。延迟:DataStream延迟通常为毫秒级,RDD批量处理延迟为分钟级或更高。3.设计一个电商用户行为数据(包含用户ID、商品ID、行为类型(点击/加购/下单)、时间戳)的实时ETL流程,需说明关键步骤及技术选型。答案:关键步骤及技术选型:(1)数据采集:使用Kafka作为消息队列,接收来自客户端的行为日志(如Flume或Logstash采集后发送至Kafka),利用Kafka的高吞吐量(百万级TPS)和持久化存储特性缓冲数据。(2)实时清洗:通过Flink或SparkStructuredStreaming消费Kafka数据,进行清洗操作(如过滤无效行为、处理缺失的用户ID、统一时间戳格式)。例如,使用Flink的ProcessFunction检测异常IP(如短时间内大量点击)并过滤。(3)维度关联:将清洗后的数据与用户维度表(如用户等级、注册时间)和商品维度表(如商品类目、价格)关联。维度表可存储于HBase或Redis(支持快速查询),通过Flink的AsyncI/O实现异步关联,避免阻塞流处理。(4)数据输出:清洗关联后的数据写入实时数仓(如ClickHouse或Hologres),支持秒级查询;同时写入数据湖(如DeltaLake)用于离线分析。4.简述数据脱敏(DataMasking)的常见方法及其适用场景。答案:常见方法及适用场景:(1)替换(Replacement):将敏感字段替换为固定值(如将真实姓名替换为“用户_XXX”),适用于需要保留数据格式但隐藏真实信息的场景(如测试环境数据)。(2)随机化(Randomization):对数值型敏感数据(如年龄、收入)添加随机偏移(如±5%),适用于统计分析场景(需保持数据分布特征)。(3)脱敏(Anonymization):通过哈希(Hash)或加密(如AES)处理敏感信息(如手机号、身份证号),适用于需要数据可用但不可逆的场景(如第三方数据共享)。(4)截断(Truncation):保留部分敏感信息(如将截断为“1385678”),适用于展示类场景(如用户个人中心)。(5)差分隐私(DifferentialPrivacy):在数据中添加可控噪声,保证单个记录的隐私不被泄露,适用于高精度统计需求(如政府人口数据发布)。5.说明实时数仓(如Flink+ClickHouse架构)与传统离线数仓(Hive+MySQL架构)的核心差异。答案:核心差异体现在以下方面:(1)数据时效性:实时数仓支持秒级/分钟级数据更新(如Flink实时计算后直接写入ClickHouse);离线数仓通常为T+1(次日)或小时级更新(如Hive每天凌晨执行ETL)。(2)计算模型:实时数仓基于流处理(如Flink的EventTime+Watermark),支持窗口计算、状态管理;离线数仓基于批量处理(如Hive的MapReduce),适合大规模历史数据计算。(3)存储结构:实时数仓采用列式存储(如ClickHouse的MergeTree),支持高并发点查和聚合查询;离线数仓多采用行式存储(如Hive的TextFile)或列式存储(ORC/Parquet),但更侧重批量读写。(4)应用场景:实时数仓用于实时监控(如双11订单量实时大屏)、实时推荐(如用户点击后立即更新推荐结果);离线数仓用于历史趋势分析(如年度销售报表)、数据挖掘(如用户分群模型训练)。四、应用题(每题15分,共30分)1.某电商平台需分析“2025年Q1用户复购行为”,数据包括:用户表(user):user_id(主键)、register_time(注册时间)、city(城市)订单表(order):order_id(主键)、user_id(外键)、order_time(下单时间)、amount(金额)、status(状态,1=有效,0=无效)要求:(1)写出HiveSQL查询,计算每个城市的用户复购率(复购用户数/总用户数,保留4位小数)。(2)说明复购用户的定义(如:在Q1内下单≥2次且至少1次有效订单的用户)。答案:(1)复购用户定义:2025年Q1(1月1日-3月31日)内,user_id对应的有效订单(status=1)数量≥2的用户。(2)HiveSQL实现:```sqlWITH-筛选Q1有效订单,计算每个用户的有效订单数user_order_cntAS(SELECTu.city,o.user_id,COUNT(1)ASvalid_order_cntFROMuseruJOINorderoONu.user_id=o.user_idWHEREo.order_timeBETWEEN'2025-01-01'AND'2025-03-31'ANDo.status=1GROUPBYu.city,o.user_id),-计算各城市总用户数(Q1内有至少1次有效订单的用户)city_total_usersAS(SELECTcity,COUNT(DISTINCTuser_id)AStotal_usersFROMuser_order_cntGROUPBYcity),-计算各城市复购用户数(有效订单数≥2)city_rebuy_usersAS(SELECTcity,COUNT(DISTINCTuser_id)ASrebuy_usersFROMuser_order_cntWHEREvalid_order_cnt>=2GROUPBYcity)-计算复购率SELECTctu.city,ROUND(cre.rebuy_users/ctu.total_users,4)ASrebuy_rateFROMcity_total_usersctuJOINcity_rebuy_userscreONctu.city=cre.city;```2.某视频平台需实时计算“每分钟新增UV(独立访客数)”,数据流为用户播放日志(字段:user_id、device_id、event_time(事件时间)、video_id),要求:(1)设计基于Flink的实时计算方案,说明关键步骤及窗口、时间语义的选择。(2)针对大流量场景(如百万级QPS),提出2种优化UV计算的方法。答案:(1)Flink实时计算方案:关键步骤:①数据源:从Kafka消费用户播放日志,指定event_time作为时间属性(使用事件时间,避免处理时间带来的延迟误差)。②时间戳分配与水印(Watermark):使用BoundedOutOfOrdernessTimestampExtractor,设置最大延迟为5秒(允许事件乱序),提取event_time作为时间戳。③窗口定义:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广安鑫鸿集团有限公司招聘备考题库及完整答案详解1套
- 2026年广州市花都区第一幼儿园招聘备考题库及答案详解一套
- 2026年图木舒克唐王城国有资产投资有限公司市场化选聘生产经营副总经理备考题库完整答案详解
- 2026年中复神鹰碳纤维西宁有限公司招聘备考题库及一套参考答案详解
- 2026年乐山市沙湾区医疗集团嘉农镇中心卫生院招聘备考题库完整答案详解
- 2026年国投国证投资(上海)有限公司招聘备考题库参考答案详解
- 2025年度下半年台州市黄岩区公开选调8名公务员备考题库完整参考答案详解
- 2025年光泽县县属国有企业专岗招聘退役军人备考题库有答案详解
- 2026年安龙国家山地户外运动示范公园招聘2名会计备考题库及参考答案详解一套
- 2026年凯里市华鑫高级中学教师招聘备考题库及1套参考答案详解
- 肿瘤化疗导致的中性粒细胞减少诊治中国专家共识解读
- 2025年查对制度考核考试题库(答案+解析)
- 云南省2025年普通高中学业水平合格性考试历史试题
- 骨关节疾病危害课件
- 《再见2025欢迎2026》迎新年元旦主题班会
- 猫屎咖啡介绍
- DB54T 0540-2025 区域性强降雨气象评估标准
- 2025-2026 学年三年级 道德与法治 随堂检测 试卷及答案
- 广西贵百河2025-2026学年高一上学期12月联考语文试题
- 《手术室护理实践指南(2025版)》
- 四川省2025年高职单招职业技能综合测试(中职类)汽车类试卷(含答案解析)
评论
0/150
提交评论