2026年大数据HCIA复习题(含答案)_第1页
2026年大数据HCIA复习题(含答案)_第2页
2026年大数据HCIA复习题(含答案)_第3页
2026年大数据HCIA复习题(含答案)_第4页
2026年大数据HCIA复习题(含答案)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据HCIA复习题(含答案)1.以下选项中,不属于大数据4V特性的是()A.数据量大(Volume)B.数据类型多(Variety)C.数据价值密度高(Value)D.处理速度快(Velocity)答案:C解析:大数据的核心特性中,数据价值密度低是典型特征,例如监控视频中只有极少片段是有效数据,因此C选项表述错误。2.下列选项中,属于Hadoop核心组件中负责分布式存储的是()A.YARNB.MapReduceC.HDFSD.ZooKeeper答案:C3.以下哪一种数据类型属于结构化数据()A.网页文本B.关系型数据库中的表数据C.视频文件D.微信聊天语音答案:B4.在默认配置下,HDFS中一个块的副本数是多少()A.1B.2C.3D.4答案:C5.YARN架构中,负责整个集群资源的管理与调度的组件是()A.NodeManagerB.ResourceManagerC.ApplicationMasterD.Container答案:B6.以下属于大数据常见应用场景的有()A.电商用户精准推荐B.城市交通路况预测C.金融反欺诈风控D.医疗辅助诊断答案:ABCD7.下列场景适合用HDFS存储的有()A.存储TB级以上的大文件B.存储海量小文件C.需要一次写入多次读取的业务D.需要低延迟数据访问的业务答案:AC解析:HDFS针对大文件存储优化,不适合存储海量小文件,NameNode存储元数据会带来过大内存压力;同时HDFS设计偏向高吞吐量,不满足低延迟访问需求,因此BD错误。8.ZooKeeper作为分布式协调服务,具备的核心特性包括()A.顺序一致性B.原子性C.单一视图D.可靠性答案:ABCD9.MapReduce计算过程主要分为哪两个核心阶段()A.Input阶段B.Map阶段C.Reduce阶段D.Output阶段答案:BC10.HBase是基于HDFS开发的分布式列存数据库,适合存储结构化、半结构化数据。()A.正确B.错误答案:A11.NameNode负责存储HDFS中所有文件的块数据,不存储元数据信息。()A.正确B.错误答案:B解析:HDFS中NameNode存储文件系统的元数据信息,DataNode存储实际的块数据,因此本题表述错误。12.下列组件中,属于分布式协调服务,常用于解决分布式系统一致性问题的是()A.HBaseB.ZooKeeperC.FlumeD.Kafka答案:B13.在Hadoop2.x及以上版本默认配置下,HDFS一个块的大小是()A.64MBB.128MBC.256MBD.512MB答案:B14.以下组件中,专门用于分布式海量日志采集的是哪一个()A.FlumeB.SqoopC.HiveD.Spark答案:A15.Kafka作为高吞吐量的分布式消息队列,它的实际消息存储单元是()A.TopicB.PartitionC.BrokerD.Producer答案:B解析:Topic是Kafka中逻辑层面的消息分类,实际消息存储在Topic的分区(Partition)中,因此选B。16.以下属于Hive的特点的是()A.本质是基于Hadoop的数据仓库工具B.支持类SQL语法,降低大数据开发门槛C.可以直接存储结构化数据,不依赖HDFSD.支持自定义函数,适合离线数据分析场景答案:ABD解析:Hive本身不存储数据,底层依赖HDFS存储数据,依赖YARN运行计算任务,因此C选项错误。17.Spark相比MapReduce的优势有哪些()A.基于内存计算,中间结果存储在内存中,迭代运算速度远快于MapReduceB.提供了丰富的高阶API,开发更便捷C.支持批处理、流处理、SQL查询、机器学习等多场景统一计算D.原生不支持资源调度,不需要依赖YARN答案:ABC解析:Spark可以依托YARN、Standalone、Kubernetes等多种方式做资源调度,生产环境中大多依赖YARN进行资源管理,因此D选项错误。18.HBase适合的业务场景有()A.结构化数据海量存储,需要随机实时读写B.存储半结构化、非结构化数据C.需要复杂多表关联分析的离线统计业务D.需要低延迟的超高吞吐量读写场景答案:ABD解析:HBase是分布式KV数据库,不支持复杂的多表关联查询,这类场景更适合Hive等数据仓库工具,因此C选项错误。19.Sqoop主要用于在关系型数据库和Hadoop生态系统之间传输数据,支持全量同步和增量同步。()A.正确B.错误答案:A20.Flink是流处理引擎,只支持流处理,不支持批处理。()A.正确B.错误答案:B解析:Flink以流为核心设计思想,将批处理视为有界流,原生同时支持流处理和批处理,因此本题表述错误。21.以下哪一项不属于Hadoop生态系统中的数据同步工具()A.SqoopB.DataXC.FlinkD.Canal答案:C解析:Flink是分布式计算引擎,不属于数据同步工具。22.大数据采集过程中,针对数据库的增量数据采集,常用的方式不包括()A.基于时间戳同步B.基于binlog同步C.全量扫描同步D.基于触发器同步答案:C解析:全量扫描同步是每次同步全量数据,不属于增量采集方式。23.下面关于数据仓库的描述,正确的是()A.数据仓库主要用于实时事务处理B.数据仓库中的数据通常是从不同数据源整合而来,面向主题组织C.数据仓库中的数据经常需要更新修改D.数据仓库不支持大数据量存储答案:B解析:数据仓库面向分析,是面向主题、集成、相对稳定、反映历史变化的数据集合,不面向实时事务处理,数据一般不频繁修改,因此只有B表述正确。24.以下关于Lambda架构的描述,正确的是()A.Lambda架构分为批处理层、速度层、服务层三层B.Lambda架构只处理实时数据,不需要处理批量数据C.Lambda架构只能用Hadoop一种组件实现D.Lambda架构不需要合并批量计算和实时计算的结果答案:A25.大数据生命周期一般包含以下哪些环节()A.数据采集B.数据存储C.数据处理D.数据分析E.数据可视化答案:ABCDE26.以下属于非关系型数据库(NoSQL)常见分类的有()A.键值存储数据库B.列存储数据库C.文档存储数据库D.图存储数据库答案:ABCD27.HDFS中SecondaryNameNode的作用是替代NameNode存储元数据,可以直接接管NameNode的对外服务工作。()A.正确B.错误答案:B解析:SecondaryNameNode的核心作用是帮助NameNode合并edits日志,减少NameNode启动时间,仅作为辅助节点,不能直接替代NameNode提供服务,因此本题表述错误。28.消费者组是Kafka中用于实现消费负载均衡和故障转移的机制,同一个消费者组中的多个消费者可以同时消费同一个分区的消息。()A.正确B.错误答案:B解析:同一个分区在同一个消费者组中,只能分配给一个消费者消费,因此本题表述错误。29.在Hive中,内部表和外部表的区别,描述正确的是()A.删除内部表时,会同时删除表的元数据和HDFS上的实际存储数据B.删除外部表时,会同时删除实际存储的数据和元数据C.内部表不支持分区,外部表支持分区D.外部表不适合共享数据,内部表适

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论