版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据HCIA习题库及答案一、单项选择题(每题2分,共40分)1.以下关于大数据4V特征的描述中,错误的是()。A.Volume(大量):数据规模从TB级跃升至PB甚至EB级B.Velocity(高速):数据产生和处理速度要求实时或准实时C.Variety(多样):仅包括结构化数据(如关系型数据库表)D.Value(价值):需要通过分析挖掘数据中的潜在价值答案:C(解析:Variety包括结构化、半结构化(如JSON、XML)和非结构化数据(如文本、图片、视频))2.HDFS默认的块大小是()。A.32MBB.64MBC.128MBD.256MB答案:C(解析:HDFS2.x及以上版本默认块大小为128MB,早期版本为64MB)3.以下哪项不是Hive的核心组件?()A.MetastoreB.HiveServer2C.ResourceManagerD.HiveCLI答案:C(解析:ResourceManager是YARN的组件,负责资源管理)4.Spark中,RDD的“转换(Transformation)”操作具有()特性。A.立即执行B.惰性计算C.仅在内存中执行D.不产生新的RDD答案:B(解析:转换操作不会立即计算,而是记录计算逻辑,触发行动(Action)时才执行)5.HBase的RowKey设计中,以下哪种策略容易导致“热点问题”?()A.哈希散列RowKeyB.时间戳逆序排列C.顺序递增的RowKeyD.随机字符串拼接RowKey答案:C(解析:顺序递增的RowKey会导致新数据集中写入同一个Region,引发热点)6.以下关于YARN的描述,正确的是()。A.NodeManager负责全局资源调度B.ApplicationMaster仅管理Hadoop任务C.ResourceManager通过Container分配资源D.YARN不支持Spark、Flink等框架答案:C(解析:ResourceManager负责资源的全局分配,以Container为单位;NodeManager管理节点资源;ApplicationMaster为每个应用程序实例管理任务;YARN是通用资源管理框架,支持多种计算框架)7.数据清洗中,处理“缺失值”的方法不包括()。A.删除包含缺失值的记录B.用字段均值/中位数填充C.用相邻记录值插值填充D.直接保留缺失值用于建模答案:D(解析:缺失值可能导致模型训练错误,需处理后再建模)8.以下哪项是Flink的核心特性?()A.基于微批处理的实时计算B.天然支持事件时间(EventTime)和水印(Watermark)C.仅支持离线批处理D.依赖HDFS作为唯一存储层答案:B(解析:Flink是流批一体引擎,基于事件时间处理,支持水印解决乱序数据问题)9.某电商平台需分析“用户点击-加购-下单”的转化漏斗,最适合的技术是()。A.HBase实时查询B.Hive离线聚合C.SparkStreaming实时计算D.FlinkCEP复杂事件处理答案:D(解析:CEP(复杂事件处理)用于检测序列事件模式,适合转化漏斗分析)10.以下关于Kafka的描述,错误的是()。A.基于发布-订阅模式的消息队列B.消息存储在Topic的Partition中C.消费者组内消费者共享PartitionD.不支持消息持久化答案:D(解析:Kafka通过日志文件实现消息持久化,默认保留一定时间)11.大数据平台部署时,若需支持高并发查询(如每秒10万次请求),优先选择的存储系统是()。A.HDFSB.HBaseC.HiveD.MySQL答案:B(解析:HBase基于列存储,支持高并发随机读写,适合实时查询场景)12.Spark中,使用()操作可以将两个RDD按键合并。A.joinB.unionC.reduceByKeyD.cogroup答案:A(解析:join操作根据键进行内连接,union是合并两个同类型RDD,reduceByKey是按键聚合,cogroup是分组关联)13.以下哪项不属于数据脱敏技术?()A.哈希匿名化(如MD5)B.替换敏感字段(如将“1381234”替换手机号)C.数据抽样(随机选取10%记录)D.差分隐私(添加随机噪声)答案:C(解析:数据抽样是减少数据量的方法,不涉及敏感信息保护)14.Hive中,若需将查询结果直接写入HBase,最便捷的方式是()。A.编写MapReduce程序B.使用Hive的HBase存储句柄(StorageHandler)C.导出为文本文件后手动导入HBaseD.通过SparkSQL中转答案:B(解析:Hive支持通过StorageHandler直接与HBase集成,无需额外开发)15.分布式计算中,“数据本地化”(DataLocality)的核心目标是()。A.减少网络传输开销B.提高CPU利用率C.简化任务调度逻辑D.降低存储成本答案:A(解析:将计算任务分配到数据所在节点,避免跨节点传输数据)16.以下关于ZooKeeper的描述,正确的是()。A.用于大数据集群的配置管理和协调B.支持强一致性读写C.仅用于HBase的RegionServer管理D.数据存储基于关系模型答案:A(解析:ZooKeeper是分布式协调服务,用于配置管理、选举、分布式锁等;支持顺序一致性;HBase、Kafka等均依赖其协调)17.某企业需构建实时数仓,要求支持“秒级”数据入仓和即席查询,最优技术栈是()。A.Kafka+Flink+HiveB.Kafka+SparkStreaming+HBaseC.ODS(原始数据层)→DWD(明细层)→DWS(汇总层)→ADS(应用层),基于Flink实时计算D.ODS→DWD→DWS→ADS,基于Hive离线处理答案:C(解析:实时数仓需通过流计算(如Flink)实现各层实时更新,支持秒级响应)18.以下哪项是Hadoop3.x的新特性?()A.引入HDFSFederationB.支持纠删码(ErasureCoding)C.默认块大小64MBD.仅支持Java开发MapReduce答案:B(解析:Hadoop3.x引入纠删码替代副本机制,降低存储成本;HDFSFederation是Hadoop2.x特性)19.数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是()。A.数据湖仅存储结构化数据,数据仓库存储多类型数据B.数据湖在存储时不定义模式(Schema-on-Read),数据仓库在写入时定义模式(Schema-on-Write)C.数据湖用于离线分析,数据仓库用于实时查询D.数据湖由关系型数据库构建,数据仓库由分布式文件系统构建答案:B(解析:数据湖支持多类型数据,采用读时模式;数据仓库需提前定义模式,适合结构化数据)20.以下关于大数据安全的措施,错误的是()。A.对敏感数据加密存储(如AES-256)B.开放所有集群端口便于调试C.启用Kerberos进行身份认证D.审计用户操作日志答案:B(解析:开放所有端口会增加安全风险,需通过防火墙限制访问)二、多项选择题(每题3分,共30分。至少2个正确选项,错选、漏选均不得分)1.以下属于Hadoop生态组件的有()。A.HiveB.SparkC.FlinkD.ZooKeeper答案:A、D(解析:Hadoop生态包括HDFS、YARN、Hive、HBase、ZooKeeper等;Spark、Flink是独立计算框架,但可运行在YARN上)2.Spark的优势包括()。A.内存计算提升迭代任务效率B.支持多种编程语言(Scala、Java、Python、R)C.仅支持批处理,不支持流处理D.内置MLlib机器学习库和GraphX图计算库答案:A、B、D(解析:Spark通过SparkStreaming和StructuredStreaming支持流处理)3.HBase的RowKey设计原则包括()。A.长度越短越好(减少存储和网络开销)B.避免顺序递增(防止热点)C.包含时间戳以便按时间范围查询D.必须使用哈希值保证唯一性答案:A、B、C(解析:RowKey需唯一,但不强制哈希,可结合业务逻辑设计)4.数据清洗的常见任务有()。A.处理重复记录B.纠正错误数据(如年龄为-5)C.统一数据格式(如日期“2023/1/1”转为“2023-01-01”)D.直接删除所有非结构化数据答案:A、B、C(解析:非结构化数据需根据需求处理,而非直接删除)5.Kafka的Partition特性包括()。A.每个Partition是有序的日志文件B.Partition数量可动态调整C.同一消费者组内的消费者只能消费一个PartitionD.多Partition支持并行消费答案:A、B、D(解析:消费者组内消费者可消费多个Partition,Partition数量可通过命令调整)6.以下关于YARN的ResourceManager(RM)和NodeManager(NM)的描述,正确的是()。A.RM负责全局资源调度,NM负责节点资源管理B.RM故障会导致所有正在运行的任务终止C.NM定期向RM汇报节点状态D.RM直接管理Container的生命周期答案:A、B、C(解析:ApplicationMaster管理Container的生命周期,RM不直接管理)7.实时数据处理与离线数据处理的区别有()。A.实时处理延迟通常在秒级或毫秒级,离线处理在分钟级或小时级B.实时处理需处理流数据,离线处理处理批量数据C.实时处理对系统稳定性要求更高D.实时处理不需要考虑数据乱序问题答案:A、B、C(解析:实时处理需通过水印等机制解决乱序数据问题)8.以下属于NoSQL数据库的有()。A.HBase(列式存储)B.Redis(键值存储)C.MongoDB(文档存储)D.MySQL(关系型存储)答案:A、B、C(解析:MySQL是关系型数据库,属于SQL范畴)9.大数据平台调优的常见策略包括()。A.调整HDFS块大小以匹配任务需求B.增加YARN的Container内存以减少GC开销C.关闭Hive的推测执行(SpeculativeExecution)以避免资源浪费D.对大表进行分区或分桶以提高查询效率答案:A、B、D(解析:推测执行用于解决慢任务,通常不建议关闭)10.数据湖的典型技术栈包括()。A.HDFS/对象存储(如AWSS3)作为存储层B.DeltaLake/Hudi/Iceberg作为元数据管理框架C.Spark/Flink作为计算引擎D.Hive作为唯一查询工具答案:A、B、C(解析:数据湖支持多种查询工具,如Presto、Trino等)三、判断题(每题1分,共10分。正确填“√”,错误填“×”)1.HDFS适合存储小文件,因为其元数据管理效率高。()答案:×(解析:HDFS存储小文件会占用大量NameNode内存,降低性能)2.Spark的RDD是不可变的,转换操作会提供新的RDD。()答案:√(解析:RDD的不可变性保证了容错性,转换操作提供新RDD)3.Hive的分区(Partition)是逻辑划分,实际数据按目录存储。()答案:√(解析:Hive分区对应HDFS目录,分桶对应目录内的文件)4.Kafka的消费者组(ConsumerGroup)中,消费者数量超过Partition数量时,多余消费者无法消费数据。()答案:√(解析:一个Partition最多被一个消费者组内的一个消费者消费)5.HBase的RegionServer负责管理多个Region,每个Region对应表的一个RowKey范围。()答案:√(解析:Region是HBase的分布式存储单元,由RegionServer管理)6.数据仓库(DataWarehouse)主要用于OLTP(在线事务处理),支持高频增删改。()答案:×(解析:数据仓库用于OLAP(在线分析处理),支持复杂查询,OLTP由关系型数据库支持)7.Flink的Checkpoint机制用于故障恢复,默认启用且无需配置。()答案:×(解析:Checkpoint需要手动配置间隔时间、存储路径等参数)8.分布式系统中,CAP定理指的是一致性(Consistency)、可用性(Availability)、分区容错性(PartitionTolerance)三者不可兼得。()答案:√(解析:CAP定理是分布式系统的核心理论)9.数据脱敏后的数据可以直接用于机器学习,无需额外处理。()答案:×(解析:脱敏可能破坏数据原有分布,需验证对模型效果的影响)10.云原生大数据平台(如AWSEMR、阿里云E-MapReduce)支持弹性扩缩容,降低资源浪费。()答案:√(解析:云原生平台通过容器化和编排工具实现资源弹性管理)四、简答题(每题6分,共30分)1.简述HDFS的读写流程(以读流程为例)。答案:HDFS读流程:(1)客户端调用FileSystem.open()获取文件输入流;(2)向NameNode请求文件块位置信息;(3)NameNode返回块所在DataNode列表(优先本地节点);(4)客户端直接与DataNode建立连接,读取块数据(通过TCP套接字);(5)读取完成后关闭连接,若读取失败则尝试其他DataNode副本。2.说明Spark中RDD的容错机制。答案:RDD通过“血统(Lineage)”机制实现容错。RDD记录了其依赖的父RDD和转换操作(如map、filter),当某个分区数据丢失时,Spark根据血统重新计算该分区,而非复制存储所有数据。此外,可通过checkpoint将RDD持久化到存储系统(如HDFS),避免重新计算长血统链的开销。3.对比Hive和SparkSQL的异同。答案:相同点:均支持类SQL语法,用于结构化数据处理;底层可依赖HDFS、HBase等存储;支持与其他大数据组件集成。不同点:Hive基于MapReduce,适合离线批处理(延迟较高);SparkSQL基于内存计算,支持实时/准实时分析(延迟较低);Hive元数据存储在Metastore(如MySQL),SparkSQL元数据可临时内存存储或集成HiveMetastore;SparkSQL支持更丰富的数据源(如JDBC、JSON、Parquet)。4.数据清洗中,处理“异常值”的常用方法有哪些?答案:(1)统计检验法:通过Z-score(标准差)或IQR(四分位距)识别超出范围的值;(2)业务规则法:根据业务逻辑定义合理范围(如年龄0-150岁);(3)可视化法:通过箱线图、散点图直观发现异常;(4)处理方式:删除异常记录(适用于少量异常)、修正异常值(如用均值替换)、保留异常并标注(需结合业务分析其合理性)。5.简述Flink的“时间窗口(TimeWindow)”和“水印(Watermark)”的作用及关系。答案:时间窗口用于将无限流数据划分为有限的时间区间(如滚动窗口、滑动窗口),便于统计分析(如每5分钟的订单量)。水印是Flink处理乱序数据的机制,用于标记“某个时间点之前的数据已全部到达”,触发窗口计算。水印随数据时间戳推进,当水印时间超过窗口结束时间时,窗口关闭并计算结果。水印允许设置延迟时间(如允许10秒延迟),避免因乱序数据提前关闭窗口导致结果不准确。五、综合题(每题15分,共30分)1.某电商企业需构建用户行为分析系统,要求:(1)实时采集APP端的点击、加购、下单事件;(2)支持实时查询“最近1小时各商品的点击量”;(3)每日凌晨提供前一日的“商品销售TOP10”报表。请设计技术方案(包括数据采集、存储、计算、查询组件选型及流程)。答案:技术方案设计如下:(1)数据采集:使用Kafka作为消息中间件,APP端通过埋点SDK将事件(JSON格式,包含用户ID、商品ID、事件类型、时间戳)发送至Kafka的“user_behavior”Topic,利用Kafka的高吞吐量和持久化特性缓冲实时数据流。(2)实时计算:使用Flink作为流计算引擎,消费Kafka数据,按“商品ID”和“事件类型”分组,定义1小时滚动窗口(Window),统计点击量。结果写入HBase(列族设计:cf:click_count),支持实时查询。(3)离线计算:每日凌晨,Kafka数据通过Flume或KafkaConnect导入HDFS(存储路径:/user/hive/warehouse/user_behavior.db/dt=2025-xx-xx),Hive通过外部表关联该路径。使用HiveSQL或SparkSQL执行离线聚合,计算前一日各商品的下单量,结果存储至Hive的“daily_sales_top10”表,并导出至MySQL(或ClickHouse)供报表系统查询。(4)实时查询:前端系统通过HBase的JavaAPI或REST接口,根据商品ID查询HBase中“最近1小时点击量”;离线报表通过BI工具(如Tableau、Superset)连接MySQL,展示“商品销售TOP10”。(5)扩展优化:Kafka设置多Partition(如10个)提升并行消费能力;Flink启用Checkpoint(每5分钟)保障故障恢复;HBase表按商品ID哈希分Region,避免热点;Hive表按日期分区,提高查询效率。2.某企业大数据集群(50节点)出现性能问题:Hive查询耗时过长,Spark任务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学五年级英语期中考试真题解析
- 一年级语文单元教学方案参考
- 部编版四年级语文教学设计指南
- 金融企业财务指标分析实操指南
- 宠物行业市场调研与消费者行为分析
- 建筑工地扬尘治理与监控方案
- 工程市场的销售思路
- 车队轮胎承包合同
- 小学二年级经典诵读教案
- 9、古代科技 耀我中华 教案
- 电梯结构与原理-第2版-全套课件
- 月度安全检查表
- GB/T 3655-2022用爱泼斯坦方圈测量电工钢带(片)磁性能的方法
- GB/T 6882-2016声学声压法测定噪声源声功率级和声能量级消声室和半消声室精密法
- GB/T 228.3-2019金属材料拉伸试验第3部分:低温试验方法
- GB/T 18492-2001信息技术系统及软件完整性级别
- GA 1051-2013枪支弹药专用保险柜
- 阳极氧化工艺操作规程
- 创力-ebz260使用维护说明书
- 储能温控系统行业分析分析
- 14欣赏建筑之美课件
评论
0/150
提交评论