版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据技术与应用专业期末考试试题及答案一、单项选择题(共20题,每题2分,共40分)1.以下关于Hadoop分布式文件系统(HDFS)的描述中,错误的是()。A.NameNode负责管理文件元数据,包括文件块位置信息B.DataNode存储实际数据块,默认副本数为3C.HDFS适合存储大量小文件,因为其元数据管理效率高D.客户端通过NameNode获取文件块的位置信息后,直接与DataNode交互读写数据2.某电商平台需要对用户实时点击流数据进行统计(如每分钟UV、点击量),最适合的计算框架是()。A.HadoopMapReduceB.SparkCoreC.FlinkD.Hive3.关于SparkRDD(弹性分布式数据集)的特性,以下说法正确的是()。A.RDD是不可变的,所有转换操作都会提供新的RDDB.RDD的持久化只能使用内存存储(MEMORY_ONLY)C.RDD的分区数一旦确定无法修改D.RDD的转换操作(如map、filter)是立即执行的4.数据湖(DataLake)与传统数据仓库(DataWarehouse)的核心区别在于()。A.数据湖仅存储结构化数据,数据仓库存储半结构化/非结构化数据B.数据湖强调“存后处理”,数据仓库强调“处理后存”C.数据湖的存储成本更高,数据仓库更适合海量数据存储D.数据湖不支持SQL查询,数据仓库支持复杂分析5.在Kafka消息队列中,消费者组(ConsumerGroup)的作用是()。A.保证消息的有序性B.实现消息的广播或负载均衡消费C.提高生产者的写入吞吐量D.存储消息的元数据信息6.以下不属于数据清洗主要任务的是()。A.处理缺失值(如填充、删除)B.纠正数据中的错误(如日期格式错误)C.对数据进行归一化或标准化D.合并重复记录7.机器学习中,为防止模型过拟合(Overfitting),以下方法不适用的是()。A.增加训练数据量B.降低模型复杂度(如减少决策树深度)C.使用L1/L2正则化D.增加模型的隐藏层神经元数量8.某企业需要构建实时数据大屏,要求延迟低于1秒,应优先选择的技术栈是()。A.Flink+Redis+EChartsB.SparkStreaming+HBase+TableauC.MapReduce+HDFS+PowerBID.Hive+MySQL+Excel9.关于DeltaLake的特性,以下描述错误的是()。A.支持ACID事务,解决数据湖的写冲突问题B.仅支持结构化数据存储,不支持半结构化数据C.提供时间旅行(TimeTravel)功能,可回滚历史版本D.与Spark、Flink等计算引擎深度集成10.数据仓库的分层架构中,DWD层(数据明细层)的主要作用是()。A.存储原始未加工的数据(如日志、数据库备份)B.对数据进行清洗、去重、规范化处理,保留明细数据C.整合多源数据,构建主题宽表,支持快速查询D.存储聚合后的统计结果,直接用于业务展示11.在Hive中,以下关于分区(Partition)和分桶(Bucket)的描述正确的是()。A.分区是物理上的文件分割,分桶是逻辑上的哈希分桶B.分区适合用于大范围的数据过滤(如按日期过滤),分桶适合用于JOIN优化C.分区的数量没有限制,分桶的数量必须为2的幂次D.分区表和分桶表都只能存储在HDFS中12.以下关于Flink窗口(Window)的分类,正确的是()。A.时间窗口(TimeWindow)和计数窗口(CountWindow)B.滑动窗口(SlidingWindow)和滚动窗口(TumblingWindow)仅属于时间窗口C.会话窗口(SessionWindow)的触发条件是固定时间间隔D.所有窗口类型都需要定义窗口的大小(WindowSize)13.某公司使用Spark进行数据处理,任务执行时出现“DriverOutOfMemoryError”,可能的原因是()。A.Executor的内存分配不足B.Driver端聚合了过多数据(如collect操作后处理大数组)C.Shuffle过程中数据量过大,导致磁盘IO瓶颈D.RDD的分区数过少,并行度不足14.数据治理的核心目标是()。A.提高数据存储效率B.确保数据的准确性、完整性、一致性和安全性C.优化数据处理流程的性能D.降低数据存储成本15.在机器学习模型训练中,以下哪项操作属于特征工程(FeatureEngineering)?()A.调整学习率(LearningRate)B.对类别特征进行独热编码(One-HotEncoding)C.选择损失函数(LossFunction)D.设置早停(EarlyStopping)阈值16.关于Kubernetes(K8s)在大数据集群管理中的应用,以下说法错误的是()。A.可以实现Hadoop、Spark等服务的容器化部署与弹性扩缩容B.替代YARN作为资源管理框架,提供更细粒度的资源调度C.通过Pod管理计算节点,支持服务的快速故障恢复D.需要为每个大数据组件单独配置容器镜像,增加了运维复杂度17.某银行需要对用户交易数据进行实时风险检测(如异常转账),应优先选择的技术方案是()。A.使用Hive离线处理T+1数据,提供风险报告B.通过Flink实时处理数据流,结合规则引擎和机器学习模型C.利用SparkCore批量处理历史数据,训练模型后离线预测D.基于Kafka存储原始数据,定期手动分析18.以下关于数据血缘(DataLineage)的描述,错误的是()。A.记录数据从产生到最终使用的全链路路径B.主要用于数据质量追溯和问题定位C.仅需在数据仓库中实现,数据湖无需血缘管理D.可以通过元数据管理工具(如ApacheAtlas)实现19.在HBase中,RowKey的设计原则不包括()。A.尽量短,减少存储和IO开销B.散列分布,避免热点问题C.按时间倒序排列,便于最新数据快速查询D.包含所有业务字段,确保唯一性20.以下属于非关系型数据库(NoSQL)的是()。A.MySQLB.OracleC.HBaseD.SQLServer二、填空题(共10题,每题2分,共20分)1.Hadoop生态中,负责资源管理和任务调度的组件是__________。2.Spark的计算模型是__________(填“批处理”“流处理”或“批流一体”)。3.数据仓库的三层架构通常包括源数据层(ODS)、__________(DWD)和应用层(ADS)。4.Flink中,__________是数据处理的最小时间单位,用于事件时间(EventTime)的水位线(Watermark)计算。5.Kafka的消息存储在__________中,每个该结构可以划分为多个段(Segment)以提高读写效率。6.机器学习中,准确率(Accuracy)的计算公式是__________(用TP、TN、FP、FN表示)。7.数据湖的典型存储格式是__________(如Parquet、ORC等列式存储格式)。8.Hive的元数据默认存储在__________数据库中(如MySQL、Derby)。9.实时计算中,__________延迟(Latency)是指数据从产生到处理完成的时间间隔。10.大数据安全的核心技术包括数据加密、__________(如角色权限控制)和数据脱敏等。三、简答题(共5题,每题8分,共40分)1.简述HDFS的“一次写入,多次读取”设计原则及其原因。2.说明SparkRDD的持久化(Persistence)与检查点(Checkpoint)的区别。3.数据清洗的主要步骤有哪些?请列举并简要说明。4.对比Flink的事件时间(EventTime)和处理时间(ProcessingTime),说明各自的适用场景。5.数据治理需要解决哪些核心问题?请至少列举4个并简要解释。四、综合应用题(共2题,每题20分,共40分)1.某电商公司需要构建用户行为分析系统,目标是实时统计“最近1小时内各商品的点击量”和“每日UV(独立访客数)”。请设计技术方案,包括:(1)数据采集:用户行为数据(如点击时间、商品ID、用户ID、IP)的采集方式;(2)数据存储:实时数据和离线数据的存储方案(需说明存储系统及选择理由);(3)数据处理:实时统计和离线统计的计算框架及关键步骤;(4)结果展示:如何将统计结果可视化(需说明工具或技术)。2.给定某网站日志数据(格式:时间戳|用户ID|页面URL|访问时长|设备类型),要求使用SparkSQL完成以下分析任务:(1)统计当日各页面的访问次数(按访问次数降序排列);(2)计算当日用户的平均访问时长(按设备类型分组);(3)找出当日访问次数最多的前10个用户ID。请写出具体的实现步骤(包括数据加载、清洗、分析的SQL语句或Spark代码逻辑)。参考答案一、单项选择题1.C2.C3.A4.B5.B6.C7.D8.A9.B10.B11.B12.A13.B14.B15.B16.D17.B18.C19.D20.C二、填空题1.YARN(YetAnotherResourceNegotiator)2.批流一体3.明细数据层4.毫秒(或时间戳单位,具体根据Flink配置)5.主题(Topic)的分区(Partition)6.(TP+TN)/(TP+TN+FP+FN)7.Parquet(或ORC,答案合理即可)8.MySQL(或Derby,默认Derby但生产环境常用MySQL)9.端到端(End-to-End)10.访问控制(或权限管理)三、简答题1.设计原则:HDFS文件一旦写入完成(关闭),不能修改,只能追加或读取。原因:(1)简化一致性管理:避免多线程修改带来的锁竞争和数据不一致问题;(2)适合大数据场景:大数据处理通常是批量写入、多次分析,修改需求少;(3)提高读写效率:固定文件内容后,DataNode可优化存储布局(如预分配块),NameNode元数据管理更简单。2.区别:(1)持久化:将RDD缓存到内存或磁盘,通过血缘关系(Lineage)重建数据,适用于多次复用同一RDD的场景;(2)检查点:将RDD写入HDFS等可靠存储,切断血缘关系,适用于长依赖链的RDD(如迭代计算),避免因节点故障导致全链路重算。3.主要步骤:(1)缺失值处理:填充(均值、中位数、模型预测)或删除缺失记录;(2)异常值检测:通过统计方法(如Z-score)或机器学习模型识别并修正;(3)数据标准化:统一单位(如时间格式、数值范围);(4)去重:识别并合并重复记录;(5)纠正错误:修复逻辑矛盾(如年龄为负数)。4.事件时间:基于数据本身的提供时间(如日志中的时间戳),适用于需要准确反映业务时间的场景(如用户行为分析,需按实际发生时间统计);处理时间:基于数据被处理系统接收的时间,适用于对延迟敏感、无需严格按事件时间统计的场景(如实时监控系统,关注当前处理进度)。5.核心问题:(1)数据质量:确保数据准确、完整、一致(如解决缺失值、错误值问题);(2)数据安全:防止敏感信息泄露(如用户隐私数据加密);(3)元数据管理:记录数据的来源、定义、血缘关系(便于追溯和理解数据);(4)数据标准:统一数据命名、格式、编码规则(避免多源数据冲突);(5)权限控制:规范不同角色对数据的访问和操作权限(如限制非授权用户查询敏感数据)。四、综合应用题1.技术方案设计:(1)数据采集:使用埋点工具(如GoogleAnalytics、神策)在前端页面嵌入JS脚本,捕获用户行为数据;通过Kafka消息队列实时收集数据(低延迟、高吞吐量)。(2)数据存储:实时数据:Kafka(短期缓存,支持实时消费)+Redis(存储最近1小时点击量,利用内存读写快速更新);离线数据:HDFS(长期存储)+Hive(构建数据仓库,存储每日全量用户行为数据)。(3)数据处理:实时统计:Flink作为计算框架,设置1小时滑动窗口(或滚动窗口)统计商品点击量;使用BloomFilter或HyperLogLog估算UV(减少内存占用);离线统计:每日凌晨通过Spark批量处理Hive表中的数据,计算当日UV(去重用户ID)。(4)结果展示:使用ECharts或Grafana开发实时大屏,展示各商品点击量趋势;通过Tableau或QuickBI提供离线日报,展示每日UV变化。2.SparkSQL实现步骤:(1)数据加载与清洗:```scala//加载日志数据,假设存储路径为hdfs:///logs/weblogvallogDF=spark.read.option("sep","\\|").csv("hdfs:///logs/weblog").toDF("timestamp","user_id","page_url","duration","device_type")//清洗数据:过滤无效记录(如duration为负数或NULL)valcleanedDF=logDF.filter("duration>0ANDuser_idISNOTNULL")```(2)统计当日各页面访问次数:```sql-假设当日为2025-06-01,提取日期字段cleanedDF.createOrReplaceTempView("web_log")valdailyPageCount=spark.sql("""SELECTpage_url,COUNT()ASvisit_count|FROMweb_log|WHEREDATE_FORMAT(FROM_UNIXT
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2370-2026建筑运行阶段碳排放计量技术规范
- GB/T 30423-2025高压直流设施系统试验
- 枣阳运力课堂考试题目及答案
- 养老院老人康复理疗服务质量管理制度
- 养老院老人健康监测人员激励制度
- 养老院环境卫生制度
- 高一数学套卷题目及答案
- 办公室员工健康与安全管理制度
- 边防协管员培训制度
- 试析民商事仲裁中的证据制度
- 市政设施巡查及维护方案
- 大型活动安保工作预案模板
- 2025年文化遗产数字化保护与开发:技术创新与经济效益研究报告
- 2026中国电信四川公用信息产业有限责任公司社会成熟人才招聘备考题库及答案详解参考
- 南瑞9622型6kV变压器差动保护原理及现场校验实例培训课件
- 统编版(2024)七年级上册道德与法治期末复习必背知识点考点清单
- 山西焦煤考试题目及答案
- 2026年春节放假前员工安全培训
- (2025版)成人肺功能检查技术进展及临床应用指南解读课件
- 《春秋》讲解课件
- 青少年抑郁障碍的护理与康复训练
评论
0/150
提交评论