2025年《hadoop基础练习》核心考点速记速练300题（附答案）

上传人：r*** IP属地：山东上传时间：2025-11-28 格式：DOCX 页数：87 大小：105.13KB 积分：15 举报 版权申诉

已阅读5页，还剩82页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGEPAGE1一、单选题1.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？A、1B、2）C、3D、4答案：B解析：（hadoop上传的文件超过block设置，都会分开存储，只是在处理时会作为一个split处理，是由压缩方式决定的，不支持并行处理（分割）2.关于MapReduce的描述错误的是（）A、MapReduce框架会先排序map任务的输出B、通常，作业的输入输出都会被存储在文件系统中C、通常计算节点和存储节点是同一节点D、一个Task通常会把输入集切分成若干独立的数据块答案：D3.测试Sqoop是否能够正常连接MySQL数据库命令是（）A、sqooplist-database--connectjdbc:mysql://:3306/--usernameroot-PB、sqooplist-databases--connectionjdbc:mysql://:3306/--usernameroot-PC、sqooplist-databases--connectjdbc:mysql://:3306/--usernameroot-LD、sqooplist-databases--connectjdbc:mysql://:3306/--usernameroot-P答案：D4.在Java中，线程是Java的（）机制A、检查B、解释执行C、并行D、并发答案：D5.hadoop______中将海量数据分割于多个节点，由每个节点并行计算，将得到的结果归并到输出。A、应用场景B、分布式计算C、分阶段计算D、高效处理答案：B6.NameNode在启动时自动进入安全模式，在安全模式阶段，说法错误的是A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B、根据策略对数据块进行必要的复制或删除C、当数据块最小百分比数满足最小副本数条件时，会自动退出安全模式D、文件系统允许有修改答案：D7.SequenceFile用于合并HDFS中的大量小文件，下列关于SequenceFile的描述错误的是（）。A、在SequenceFile中，每一对被看作一条RecordB、记录压缩是对每条记录进行压缩C、SequenceFile主要是由一个Header和多个Record组成D、Header中包含存储压缩算法答案：A8.HDFS默认的块大小是多少（）A、32MBB、64MBC、128MBD、256MB答案：B9.下列选项中那些是Hadoop2.x版本独有的进程（）A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode答案：C10.Hadoop完全分布模式配置免密登录是要？A、实现主节点到其他节点免密登录B、实现从节点到主节点的免密登录C、主节点和从节点任意两个节点之间免密登录D、以上都不是答案：C11.hadoop2.0与hadoop1.0区别（）A、增加MapReduce2B、增加YARNC、增加HDFS2D、增加容错机制答案：B12.在HDFS中，默认一个块多大？A、64MBB、32KBC、128KBD、16KB答案：A13.大数据是指不用随机分析法这样的捷径，而采用（）的方法A、所有数据B、绝大部分数据C、适量数据D、少量数据答案：A14.在Java中，关于Xml的文档结构描述错误的是A、一个基本的Xml文档通常由序言和文档元素两部分组成B、Xml文档中的序言可以包括Xml声明、处理指令和注释C、Xml文档中的元素以树形结构排列D、Xml文档的声明必须要写答案：D15.在Linux中，在使用匿名登录ftp时，用户名为（）A、GuestB、userC、rootD、anonymous答案：D16.关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）A、配置java环境变量B、配置Hadoop环境变量C、配置EclipseD、配置ssh答案：C17.写入数据到HDFS的Sink组件是（）。A、HiveSinkB、HBaseSinkC、HDFSSinkD、HadoopSink答案：C18.在Java中，现有一条XPath匹配规则如下“//productName[contains（text（）,’手机’）],对于这条匹配规则的说法正确的是A、可以查找所有内容等于‘手机’的productName标签B、可以查找所有内容以‘手机’开头的productName标签C、可以查找所有内容包含‘手机’的productName标签D、可以查找所有内容以‘手机’结尾的productName标签答案：C19.狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台，不包括下面哪个组件？A、HDFSB、MapReduceC、YarnD、HBase答案：D20.YARN的调度算法不包括以下哪种？A、FIFOSchedulerB、StackSchedulerC、FairSchedulerD、CapacityScheduler答案：B21.HFile数据格式中的KeyValue数据格式中Value部分是（）。A、拥有复杂结构的字符串B、字符串C、二进制数据D、压缩数据答案：C22.HDFS采用了什么模型？A、分层模型B、主从结构模型C、管道-过滤器模型D、点对点模型答案：B23.在Python中，下面代码的输出结果是print（0.1+0.2==0.3）A、FALSEB、TRUEC、FALSED、TRUE答案：C24.在Python中，可以采用“模块”的方式来组织代码,以下描述不正确的是：A、一个.py文件就称之为一个模块（Module）。模块的名字就是文件的名字。B、Python中也可以使用“包”来管理各种模块文件。可使用工具创建包或在文件夹中创建”__init__.py”文件产生包。C、使用模块将相同功能的函数分别放到不同的文件里。D、使用模块将不同功能的函数分别放到不同的文件里。答案：C25.Hadoop的储存框架叫什么（）A、LustreB、MooseFSC、MogileFSD、HDFS答案：D26.在Python中，（）语句隐藏了一个包含了关闭的逻辑，类似try…catchA、whereB、withC、yieldD、contextlib答案：B27.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高扩展性、高吞吐率等特征，适合的读写任务是A、一次写入，少次读写B、多次写入，少次读写C、一次写入，多次读写D、多次写入，多次读写答案：C28.在大数据项目规划阶段中，（）阶段确认大数据项目范围和建设目标。A、需求调研B、业务调研C、数据需求D、项目规划答案：A29.以下哪一项不属于Hadoop可以运行的模式（）A、单机（本地）模式B、伪分布式C、互联网模式D、分布式模式答案：C30.下列哪一种命令格式是不正确的（）A、get表行健列族B、scan表时间戳起始行健结束行健C、alter表列族D、put表行键列族:列值答案：B31.在Java中，为了从文本文件中逐行读取内容,应该使用哪个处理流对象?A、BufferedReaderB、BufferedWriterC、BufferedlnputstreamD、Bufferedoutputstream答案：A32.在Java的File类的方法中，用于列举某个目录下所有子目录及子文件名的方法是A、length（）B、getName（）C、list（）D、listFiles（）答案：C33.下面哪项是Hadoop的作者？（）A、MartinFowlerB、DougcuttingC、MarkElliotZuckerbergD、KentBeck答案：B34.下列关于数据处理流程，说法有误的是？A、在传统的数据处理流程中，存储的数据是旧的B、在传统的数据处理流程中，需要用户主动发出查询来获取结果C、传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中D、流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务答案：D35.HMaster的主要作用是（）A、用于启动任务管理多个HRegionServerB、负责响应用户I/O请求，向HDFS文件系统读写数据C、负责协调集群中的分布式组件D、最终保存HBase数据行的文件答案：A36.Hadoop中节点之间的进程通信是通过什么协议来实现的（）A、HTTPB、SMTPC、SSHD、RPC答案：D37.ZooKeeper需要的相关家暴一共有几个？A、5B、6C、7D、8答案：C38.在HBase的组件中，哪一个负责日志记录（）A、HRegionB、HFileC、MemStoreD、WAL答案：D39.以下选项哪个命令可以查看主机信息（A）A、nmclidevB、nmcliconshC、ifupteam0D、teamdctlteam0st答案：A40.在Java中，执行以下代码后，说法正确的是＆#x000D;publicclassTestextendsThread{＆#x000D;publicstaticvoidmain（Stringargs[]）{＆#x000D;Testtest=newTest（）;＆#x000D;test.start（）;＆#x000D;try{＆#x000D;test.sleep（3000）;＆#x000D;}catch（Exceptione）{＆#x000D;＆#x000D;}＆#x000D;System.out.println（“main线程”）;＆#x000D;}＆#x000D;publicvoidrun（）{＆#x000D;System.out.println（“自定义线程”）;＆#x000D;}＆#x000D;}A、线程test会休眠3秒钟B、main线程会休眠3秒钟C、main线程和test线程都会休眠3秒钟D、以上说法均不对答案：B41.在Java中，以下不是产生死锁的必要条件的是A、开启了多个线程B、线程间存在多个共享资源C、使用了线程同步D、继承了Thread类答案：D42.Hbase的主要作用是（）A、是一个分布式的、面向列的开源数据库B、是一种编程模型，用于大规模数据集（大于1TB）的并行运算C、是Hadoop集群当中的资源管理系统模块D、将要储存的文件分散在不同的硬盘上，并记录他们的位置答案：A43.使用jar操作运行Hadoop中自带的jar进行单词的统计（）A、cd-jarhadoop/share/hadoop/mapreduce/B、cdhadoop/share/hadoop/mapreduce/C、cdjar/hadoop/share/hadoop/mapreduce/D、cd/hadoop/share/hadoop/mapreduce/答案：B44.在CentoOS中，系统默认的对整个系统拥有完全控制权的用户是：A、rootB、B.guestC、C.administratorD、D.supervisor答案：A45.下列不属于分布式数据库系统的是（）。A、HBaseB、BigTableC、NoSQLD、SQLServer答案：D46.在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是A、Job和JobControl类可以管理非线性作业之间的依赖B、ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成C、使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象D、ChainReducer.addMapper（）方法中，一般对键/值对发送设置成值传递，性能好且安全性高答案：D47.在Linux中，用户可以对vim进行设置，如何对vim文件进行修改？A、vim/etc/vim.initB、vim/etc/sysconfig/vimrcC、vim/etc/profile.d/vimrcD、vim/etc/vimrc答案：D48.安装Hadoop集群时，在哪个文件指定从机是哪些机器？A、datanodeB、slavesC、yarn-site.xmlD、core-site.xml答案：B49.下面与HDFS类似的框架是（）A、NTFSB、FAT32C、GFSD、EXT3答案：C50.下列说法错误的是？A、HadoopMapReduce是MapReduce的开源实现，后者比前者使用门槛低很多B、MapReduce采用非共享式架构，容错性好C、MapReduce主要用于批处理、实时、计算密集型应用D、MapReduce采用“分而治之”策略答案：C51.下列关于BigTable的描述，哪个是错误的A、爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTable里B、BigTable是一个分布式存储系统C、BigTable起初用于解决典型的互联网搜索问题D、网络搜索应用查询建立好的索引，从BigTable得到网页答案：A52.在Java程序中，使用TCP套接字编写服务器端程序的套接字类是A、SocketB、ServerSocketC、DatagramSocketD、DatagramPacket答案：B53.MapReduce的Shuffle过程中哪个操作是最后做的？A、溢写B、合并C、分区D、排序答案：B54.MySQL数据库驱动文件放置于hive哪个目录下（）A、jarB、libC、binD、sbin答案：B55.在Python中，网络框架Flask是（）A、支持快速建站的框架B、企业级开发框架C、高并发处理框架D、以上全都不是答案：A56.YARN哪种调度器采用的是单队列？A、CapacitySchedulerB、FairSchedulerC、FIFOSchedulerD、以上都不是答案：C57.以下哪个技术与大数据无关A、云技术B、B.分布式处理技术C、C.存储技术D、D.物联网技术答案：D58.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是（）A、FSDataInputStream扩展了DataInputStream以支持随机读B、为实现细粒度并行，输入分片（InputSplit）应该越小越好C、一台机器可能被指派从输入文件的任意位置开始处理一个分片D、输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割答案：B59.（）是用来解决海量大数据文件存储问题的，是目前应用最广泛的分布式文件系统。A、HDFSB、HBaseC、HIveD、Kafka答案：A60.结构化的数据，先有________,再有_________.A、数据结构B、结构数据C、内容结构D、结构内容答案：B61.在MapReduce计算架构中，_________组件运行在NameNode节点上，提供集群资源的分配和工作调度管理。A、ClientB、JobTrackerC、TaskTrackerD、Task答案：B62.在Python中，pymysql连接数据库获取数据库连接时，端口号错误的堆栈信息是？A、Unknowndatabase'test'B、Accessdeniedforuser'root'@'localhost'（usingpassword:YES）C、NoneType'objecthasnoattribute'encoding'D、Can'tconnecttoMySQLserveron'localhost'（[WinError10061]答案：D63.在Java中，使用DOM4J解析Xml时，获取一个元素下所有子元素的方法是A、children（）B、list（）C、elements（）D、以上都不是答案：C64.在Java中，关于Xpath描述错误的是A、Xpath即Xml路径语言B、Xpath可以快速定位、获取所需要的节点C、可以使用selectNodes（"表达式"）方法查找相应节点D、在使用Xpath时，不需要导入相应的jar包答案：D65.下列关于HadoopAPI说法错误的是（）A、hadoop的文件API不是通用的，只用于HDFS文件系统B、Configuration类的默认实例化方法是以HDFS系统的资源配置为基础C、FileStatus对象存储文件和目录的元数据D、FSDataInputStream是java.io.DataInputStream的子类答案：A66.在Java中，使用字节流读取文件时，如果已经读到文件末尾会返回A、nullB、0C、-1D、空字符答案：C67.下列选项中，关于HBase特性描述不正确的一项是______。A、高可靠性B、高性能C、面向行D、可伸缩答案：C68.禁用ipv6需要修改的是哪个配置文件（）A、/etc/sysctl.confB、/etc/profileC、~/.bashrcD、/etc/networks答案：A69.关于QJM的写入过程，以下描述正确的是。A、在Hadoop中，NmeNode只会把Editlog写入到本地中。B、写入本地，由配置参数'.dir'控制。C、写入JouralNode，由配置参数'.dir'控制。D、在写Editlog时，会有两个不同的输出流来控制日志的写入过程。答案：D70.下面哪项是Hadoop的作者？A、MartinFowlerB、DougcuttingC、MarkElliotZuckerbergD、KentBeck答案：B71.下列关于MapReduce1.0的描述，错误的是？A、JobTracker“大包大揽”导致任务过重B、不存在单点故障C、容易出现内存溢出（分配资源只考虑MapReduce任务数，不考虑CPU、内存）D、资源划分不合理（强制划分为slot，包括Mapslot和Reduceslot）答案：B72.在Hadoop配置文件中，以下属于core-site.xml文件主要内容的是（）A、用于定义系统级别的参数，如HDFSURL、Hadoop的临时目录等。B、名称节点和数据节点的存放位置、文件副本的个数、文件读取权限等。C、配置ResourceManager，NodeManager的通信端口，web监控端口等。D、包括JobHistoryServer和应用程序参数两部分，如reduce任务的默认个数、任务所能够使用内存的默认上下限等。答案：A73.LSM的读操作和写操作是独立的？A、是。B、否。C、LSM并不区分读和写D、LSM中读写是同一种操作答案：A74.在Python中，下列是Flask的Request对象的form属性的作用的是（）A、记录请求的数据，并转换为字符串B、记录请求中的表单数据C、记录请求中的查询参数D、记录请求中的cookie信息答案：B75.在启动hadoop集群以后，查看jps进程有几个？A、3个B、4个C、5个D、6个答案：D76.HBase依赖（）提供强大的计算能力A、ZookeeperB、ChubbyC、RPCD、MapReduce答案：D77.关于HDFS集群中的DataNode的描述不正确的是？A、DataNode之间都是独立的，相互之间不会有通信B、存储客户端上传的数据的数据块C、响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑D、一个DataNode上存储的所有数据块可以有相同的答案：D78.下列说法错误的是（）A、JobServer是用户作业和JobTracker交互的主要接口B、JobClient为用户提供提交作业功能C、JobClient提供访问子任务报告和日志功能D、JobClient提供获取MapReduce集群状态信息功能答案：A79.下列关于Storm和Hadoop架构组件功能对应关系，哪个是错误的？A、HadoopJob对应StormTopologyB、HadoopTaskTracker对应StormSupervisorC、HadoopJobTracker对应StormSpoutD、HadoopReduce对应StormBolt答案：C80.在Python中，pymysql连接数据库获取数据库连接时，数据库名不正确的堆栈信息是？A、Unknowndatabase'test'B、Accessdeniedforuser'root'@'localhost'（usingpassword:YES）C、NoneType'objecthasnoattribute'encoding'D、Can'tconnecttoMySQLserveron'localhost'（[WinError10061]答案：A81.Hive查询语言和SQL的一个不同之处在于哪一个操作?A、GroupB、JoinC、PartitionD、Union答案：C82.下列有关MapReduce中，说法是正确的是（）。A、它提供了资源管理能力B、它是开源数据仓库系统C、它是Hadoop数据处理层D、它可用于查询和分析存储在Hadoop中的大型数据集答案：C83.数据建模中，__________模型，考虑数据的存储实现方式，包括数据拆分、数据表单位、数据集成。A、概念B、数据C、逻辑D、物理答案：D84.编写MapReduce必须继承（）类A、ConfiguredB、DonfiguredC、AonfiguredD、Writable答案：A85.配置Hadoop时，JAVA_HOME包含在哪一个配置文件中A、hadoop-default.xmlB、hadoop-env.shC、hadoop-site.xmlD、configuration.xs答案：B86.MapReduce处理流程中Reduce如何获取Map端结果（）A、Map端发送B、Reduce端获取C、Map端发送到中间管理节点，Reduce统一获取D、随机发送答案：B87.关于培训的总体目标、定制培训课程和内容和培训形式，以下说法正确的是（）。A、系统使用人员的培训目的是使其可以独立完成大数据平台的日常维护，解决一般问题。B、培训过程中将针对不同的用户和不同的培训内容采用相同的培训方案，以达到最佳的培训效果。C、实践培训主要针对于技术开发人员及系统维护和客户。D、培训形式包括集中培训、现场培训、针对性培训。答案：D88.下列不属于HBase基本元素的一项是________。A、表B、记录C、行键D、单元格答案：B89.哪个模块负责HDFS数据的存储？A、NameNodeB、DataNodeC、ZooKeeperD、JobTracker答案：B90.下面哪个不是Hadoop1.0的组件：A、HDFSB、MapReduceC、YARND、NameNode和DataNode答案：C91.从节点程序__________。A、NameNodeB、DataNodeC、SecondaryNameNodeD、Jobtracker答案：B92.启动ZooKeeper服务的命令是什么？A、zk.shB、zkServer-all.shC、zkServer.shD、zkServer.shstart答案：D93.关于Hive和传统关系数据库的对比分析，下面描述错误的是：A、Hive一般依赖于分布式文件系统HDFS，而传统数据库则依赖于本地文件系统B、传统的关系数据库可以针对多个列构建复杂的索引，Hive不支持索引C、Hive和传统关系数据库都支持分区D、传统关系数据库很难实现横向扩展，Hive具有很好的水平扩展性答案：B94.下面关于Shuffle过程描述正确的是（）A、Job作业必须要实现Combiner过程。B、分组操作发生在溢写过程C、分组的目的是提高Job执行效率。D、压缩目的是提高效率。答案：D95.在Python中Excel解析，读写操作分别需要安装的模块是A、读使用xlwt模块，写使用xlrd模块B、写使用xlwt模块，读使用xlrd模块C、读使用read模块，写使用write模块D、读使用write模块，写使用read模块答案：B96.下列选项中那些是Hadoop2.x版本独有的进程A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode答案：C97.为销售报表展示开发一个MapReduce作业，Mapper输入数据的Key是年份（IntWritable），Value表示商品标识（Text）。下列哪一项决定该Mapper的数据类型?A、JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClassB、HADOOP_MAP_DATATYPES环境变量C、随作业一起提交的mapper-specification.xml文件D、InputFormat格式类答案：D98.下列关于MapReduce的说法，哪个描述是错误的？A、MapReduce具有广泛的应用，比如关系代数运算、分组与聚合运算等B、MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数C、编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据集的计算D、不同的Map任务之间可以进行通信答案：D99.Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是？A、32MB、64MC、256MD、128M答案：D100.在Linux中，更新防火墙规则，使用的命令如下A、firewall-cmd--reloadB、firewall-cmd--get-active-zonesC、firewall-cmd--helpD、firewall-cmd--state答案：A101.在进行Hive组件配置时，JAR包冲突导致异常，出现以下错误信息（）A、FailedtosetsetXIncludeAware（true）forparserB、mkdir:`input’:NosuchfileordirectoryC、E45:‘readonly’optionisset（add!tooverride）D、ERRORtool.ImportTool:ImportedFailed:Character8216isanout-of-rangedelimiter答案：A102.HBase是分布式列式存储系统，记录按什么集中存放A、列B、列族C、行D、不确定答案：B103.显示当前所在目录的命令是（）A、pwdB、lsC、cdD、mkdir答案：A104.在Java中，以下哪个最准确描述synchronized关键字?A、允许两线程并行运行,而且互相通信;B、保证在某时刻只有一个线程可访问方法或对象;C、保证允许两个或更多处理同时开始和结束;D、保证两个或更2同时开始和结束答案：B105.下列哪个程序通常与NameNode在一个节点启动？A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker答案：D106.下列选项中，哪一个命令用于删除文件？A、hadoopfs-rmr/hello.txtB、hadoopfs-rm/hello.txtC、hadoopfs-cat/hello.txtD、hadoopfs-mkdir/hello.txt答案：B107.在Python中，以下xml数据格式正确的是A、＜studentid="no1">＜name>Tom＜/student>＜/name>B、＜student>＜name>Tom＜/name>＜/studentid="no1">C、＜studentid="no1">＜nameid="no1">Tom＜/student>＜/name>D、＜studentid="no1">＜name>Tom＜/name>＜/student>答案：D108.下列哪个属性是hdfs-site.xml中的配置A、fs.defaultFSB、dfs.replicationC、D、yarn.resourcemanager.address答案：B109.关于ZooKeeper的特性说法错误的是？A、能改变ZooKeeper服务器状态的操作称为事务操作B、是版本机制有效避免了数据更新时出现的先后顺序问题C、当节点发生变化时，通过watcher机制，可以让客户端得到通知D、watch能触发多次答案：D110.在MapReduce中，Map数取决于（）的总量A、任务数B、输入数据C、输出数据D、以上都不对答案：B111.大数据技术不包括（）。A、数据计算B、数据存储C、数据冗余D、数据采集答案：C112.在Java中，File类中哪个方法可以判断文件是否存在？A、exists（）B、isFile（）C、isDirectory（）D、isHidden（）答案：A113.hdfs-site.xml中参数和解释不能对应的是（）A、.dir：是本地磁盘目录NN存储的是fsimage文件的地方B、node.handler.coun：t设置更多的NameNode线程，处理从DataNode发出的大量RPC请求C、dfs.datanode.data.dir：设置是本地磁盘目录，HDFS数据应该存储Block的地方D、dfs.replication：设置大型文件系统的HDFS的块大小。答案：D114.下面哪个程序负责HDFS数据存储A、2份B、1份C、3份D、4份答案：C115.二次排序是在什么阶段（）A、分区B、分组C、压缩D、溢写答案：B116.Hadoop2.7.1下，以下哪一项是DataNode的职责？（）A、管理文件系统命名空间B、根据客户端的请求执行读写操作C、存储元数据D、定期对NameNode中的内存元数据进行更新和备份答案：B117.在Java中，实现线程的创建有（）方法A、一种B、两种C、三种D、四种答案：B118.在Python中，Python程序使用自带的哪个模块操作目录A、OS模块B、IO模块C、file模块D、dir模块答案：A119.以下哪个组件可以指定对key进行Reduce分发的策略？A、RecordReaderB、CombinerC、FileInputFormatD、Partitioner答案：D120.现在在hadoop集群当中的配置文件中有这么两个配置，请问假如集群当中有一个节点宕机，主节点namenode需要多长时间才能感知到？＜name>erval＜/name>＜value>3＜/value>＜name>erval＜/name>＜value>2000＜/value>A、26秒B、30秒C、34秒D、20秒答案：C二、多选题1.下列关于Region服务器工作原理的描述，哪些是正确的？A、每个Region服务器都有一个自己的HLog文件B、每次刷写都生成一个新的StoreFile，数量太多，影响查找速度C、合并操作比较耗费资源，只有数量达到一个阈值才启动合并D、Store是Region服务器的核心答案：ABCD2.关于mapreduce能处理的web日志，说法正确的有（）A、Web日志由Web服务器产生，可能是Nginx,Apache,Tomcat等B、从Web日志中，可获取网站每个页面的PV值（PageView，页面访问量）、独立IP数C、计算用户所检索的关键词排行榜、用户停留时间最高的页面等D、构建广告点击模型.、分析用户行为特征等等答案：ABCD3.下列选项中，属于Hive数据模式的是（）。A、表B、分区C、桶D、外部表答案：ABCD4.Spark支持哪三种不同类型的部署方式？A、Standalone（类似于MapReduce1.0，slot为资源分配单位）B、SparkonMesos（和Spark有血缘关系，更好支持Mesos）C、SparkonYARND、SparkonHDFS答案：ABC5.在实际应用中，大数据处理主要包括以下哪三个类型？A、复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间B、基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间C、基于实时数据流的数据处理：通常时间跨度在数十秒到数分钟之间D、基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间答案：ABD6.RPC是分布计算中C/S模型的一个应用实例，对于好hadoop而言，它有以下哪些特点（）【选三项】A、重用性，由于hadoop的特点rpc可以一直使用。B、透明性，远程调用其他机器上的程序，对用户来说就像调用本地的方法一样C、高性能，rpcserver能够处理多个来自client的请求。D、可控性，hadooprpc实现了自定义的rpc框架。答案：BCD7.启动HDFS后，jps能看到哪些守护进程?【选三项】A、DataNodeB、NameNodeC、NodeManagerD、SecondaryNameNode答案：ABD8.Mapreduce程序理解正确（）A、它能处理所有场景的问题B、它能解决大量的统计、join数据C、它不能对所处理数据排序D、适合处理已经落地的日志答案：BD9.在Python中，以下哪些字符串是正确的【选两项】A、‘abc”ab”B、‘abc”ab’C、“abc”ab”D、“abc\”ab”答案：BD10.操作HDFS有哪几种方式？A、JAVAAPIB、B.WebUIC、C.ShellD、D.VNC答案：ABC11.在思维方式方面，大数据完全颠覆了传统的思维方式？A、全样而非抽样B、效率而非精确C、相关而非因果D、演绎推理而非归纳总结答案：ABC解析：填空题（共6题,4.8分）12.大数据的两个核心技术是什么？A、分布式存储B、分布式应用C、分布式处理D、集中式存储答案：AC13.HBase构建二级索引的实现方式有哪些？A、MapReduceB、CoprocessorC、BloomFilterD、Filter答案：AB14.Hadoop大数据有哪两大核心技术？A、分布式存储B、数据采集C、可视化D、分布式处理答案：AD15.以下关于SSH免密码配置的描述正确的选项有哪个？A、SSH专为远程登录会话和其他网络服务提供安全性的协议。B、SSH是SecureShell的缩写，则IETF的网络工作小组制定。C、SSH是建立在应用层和传输导上的安全协议。D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。答案：ABCD16.在Java4中，网络通信的三要素是哪三个【选三项】A、IP地址B、端口号C、协议D、子网掩码答案：ABC17.以下关于文件块的说法正确的是?A、文件的所有Block为了容错都会被冗余复制。B、除了最后一个Block,所有的Block都是同样的大小。C、每个文件的Block大小和复制（Replication）因子都是可配置的。D、HDFS将文件存储成块序列。答案：ABCD18.下面哪个属于不断完善的Hadoop生态系统中的组件？A、PigB、TezC、KafkaD、DN8答案：ABC19.hadoop分布式集群和伪分布式模式有所不同，在集群中各个机器会承担不同角色，在集群中文件的存储主要一下那两个角色（）【选两项】A、NamenodeB、DatanodeC、slaveD、master答案：AB20.Hadoop2.0之前，MapReduce是由（）所组成。A、客户端B、作业管理器C、任务管理器D、任务答案：ABCD21.云计算的服务模式和类型主要包括哪三类？A、软件即服务（SaaS）B、平台即服务（PaaS）C、基础设施即服务（IaaS）D、数据采集即服务（DaaS）答案：ABC22.HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。A、是byte[]数组B、没有固定的结构C、数据的大小是定长的D、有固定的结构答案：AD23.传统大数据质量清洗的特点有（）A、确定性B、强类型性C、协调式的D、非确定性答案：ABC24.下列选项中，哪些属于Hadoop1.0的核心组件的不足之处？A、实时性差（适合批处理，不支持实时交互式）B、资源浪费（Map和Reduce分两阶段执行）C、执行迭代操作效率低D、难以看到程序整体逻辑答案：ABCD25.对mapper基类描述正确的是（）A、setup（）:对MapTask进行一些预处理B、map（）:每次接受一个Key-Value对并对其进行处理，再分发处理C、cleanup（）:对MapTask进行一些处理后的工作D、Mapper基类中一般用最常用的是断言语法答案：ABC26.在Java中，下面属于创建型模式的有【选三项】A、工厂模式B、抽象工厂模式C、单例模式D、代理模式答案：ABC27.数据库事务具有ACID四性，下面哪几项属于四性？A、原子性B、持久性C、间断性D、一致性答案：ABD28.HDFSFederation相对于HDFS1.0的优势主要体现在哪里？A、能够解决单点故障问题B、HDFS集群扩展性C、性能更高效D、良好的隔离性答案：BCD29.下面关于网桥的说法，正确的是（）A、网桥工作在数据链路层，对网络进行分段，并将2个物理网络连接层1个逻辑网络B、B网桥可以通过对不要传递的数据进行过滤，并有效的阻止广播风暴C、C.网桥可以连接数据链路层协议不同的局域网D、D.网桥要处理其收到的数据，增加了传输时延答案：ACD30.Map阶段理解正确的有（）A、一行一行读取文本中内容B、可以进行一行数据的拆分。C、不能进行统计。D、必须要有reduce阶段答案：AB31.在Java中，以下哪些方法是线程类Thread提供的方法【选三项】A、wait（）B、sleep（）C、yield（）D、join（）答案：BCD32.下列说法正确的是：A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上C、Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据D、HiveQL语法与传统的SQL语法很相似答案：BCD33.下列关于SparkStreaming与Storm的描述，哪些是正确的的？A、SparkStreaming无法实现毫秒级的流计算B、Storm可以实现毫秒级响应件C、Storm无法用于实时计算D、SparkStreaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法答案：ABD34.下列理解正确的是（）A、一个block有可能对应一个分片。B、一个分片可能对应二个block。C、一个分片可能对应三个blockD、分片大小不能设置。答案：AB35.（）是大数据运用的基础A、有用的数据B、覆盖率C、隐私问题D、数据统计有效性答案：ABCD36.以下属于Hive的基本数据类型是:A、TINYINTB、FLOATC、STRINGD、BINARY答案：ABCD37.启动HDFS后，jps能看到哪些守护进程？A、DataNodeB、NameNodeC、NodeManagerD、SecondaryNameNode答案：ABD38.在Linux中，CentOS启动界面的启动项有【选两项】A、正常启动B、还原启动C、安全启动D、救援启动答案：AD39.下列关于RDBMS和MapReduce说法正确的是（）。A、二者都支持批处理数据B、RDBMS是非线性扩展的，MapReduce支持线性扩展C、RDBMS支持多次读写，而MapReduce支持一次写、多次读D、二者都可以处理PB级别的数据答案：ABC40.下列理解错误的是（）A、mapreduce程序一定需要mapB、Mapreduce可以不用mapC、Mapreduce一定需要reduceD、Mapreduce程序不需要configuration类答案：BD41.ZooKeeper的节点类型有？A、临时节点B、持久节点C、顺序节点D、监控节点答案：ABC42.HDFS副本技术是分布式计算的重要组成部分，下列关于副本技术描述正确的有（）。A、降低访问效率B、负载均衡C、提高系统可靠性D、避免HDFS发生故障答案：BCD43.Hadoop2.x有哪些核心组件组成。A、HDFＳB、YARNC、MAPREDUCED、Hive答案：ABC44.hadoop创建多级目录（如：/a/b/c）的命令为（）【选两项】A、hadoopfs-mkdir-p/a/b/cB、hadoopfs-mkdir/a/b/cC、hdfsfs-mkdir-p/a/b/cD、hdfsfs-mkdir/a/b/c答案：AC45.在Python中，使用Flask框架模板有哪些好处？（）【选三项】A、视图函数只负责业务逻辑和数据处理B、模板可以获取视图函数的数据结构进行展示C、代码结构清晰，耦合度低D、代码结构清晰，耦合度高答案：ABC46.Cloudera提供哪几种安装CDH的方法？A、ClouderamanagerB、TarballC、YumD、Rpm答案：ABCD47.客户端上传文件的时候哪项是正确的?（）（）A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。答案：BD48.Linux中重启系统的命令有（）【选两项】A、init0B、init1C、shutdown-rnowD、reboot答案：CD49.下列描述错误的是（）A、write（）是把每个对象反序列化到输出流。B、readFields（）是把输入流字节序列化。C、重写hashCode（）、equals（）方法是为咯java对象比较。D、重写compareTo（）是为咯java对象的比较。答案：AB50.以下哪个命令不能将普通用户转换成超级用户：A、superB、B.passwdC、C.tarD、D.su答案：ABC51.HDFS1.0主要存在哪些问题？A、单点故障问题B、不可以水平扩展C、单个名称节点难以提供不同程序之间的隔离性D、系统整体性能受限于单个名称节点的吞吐量答案：ACD52.Spark运行架构具有以下哪些特点？A、每个Application都有自己专属的Executor进程，并且该进程在Application运行期间一直驻留B、Executor进程以多线程的方式运行TaskC、Spark运行过程与资源管理器无关，只要能够获取Executor进程并保持通信即可D、Task采用了数据本地性和推测执行等优化机制答案：ABCD53.以下哪些图表可以用Echarts来进行展示A、折线图B、B.饼状图C、C.雷达图D、D.决策树答案：ABC54.在Python中，以下哪一个选项是不合法的布尔表达式【选两项】A、xinrange（6）B、3=aC、e>5and4==fD、（x-6）=5答案：BD55.网络适配器又称A、NetworkInterfaceCardB、B.NICC、C.iisD、D.net答案：AB56.Storm具有以下哪些特点？A、整合性：Storm可方便地与队列系统和数据库系统进行整合B、简易的API：Storm的API在使用上即简单又方便C、容错性：Storm可自动进行故障节点的重启、任务的重新分配D、可扩展性：Storm的并行特性使其可以运行在分布式集群中答案：ABCD57.下面对Partioner分区描述正确的是（）A、MapReduce框架默认使用HashPartionerB、MapReduce的分区是决定map由哪个Reduce执行。C、Partioner分区没有什么实质意义D、开发者必先实现自己的分区.答案：AB58.HDFS数据块多副本存储具备以下哪些优点？A、加快数据传输速度B、容易检查数据错误C、保证数据可靠性D、适合多平台上运行答案：ABC59.下列关于流处理系统与传统的数据处理系统的描述，正确的有？A、流处理系统处理的是实时的数据，而传统的数据处理系统处理的是预先存储好的静态数据B、用户通过流处理系统获取的是实时结果，而通过传统的数据处理系统，获取的是过去某一时刻的结果C、流处理系统无需用户主动发出查询，实时查询服务可以主动将结果推送给用户D、传统的数据处理系统系统无需用户主动发出查询，批量查询服务可以主动将结果推送给用户答案：ABC60.企业大数据应用中，mapreduce很容易做（）A、数据的统计，即count。B、人工自能分析C、数据对比，即join。D、模拟爆破实验答案：AC61.Impala主要由哪几个部分组成:A、ImpaladB、StateStoreC、CLID、Hive答案：ABC62.HBase的实现包括哪三个主要的功能组件？A、库函数：链接到每个客户端B、一个Master主服务器C、许多个Region服务器D、廉价的计算机集群答案：ABC63.客户端上传文件的时候哪项是正确的？（）A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block，依次上传C、客户端只上传数据到一台DataNode，然后由NameNode负责Block复制工作D、客户端发起文件上传请求，通过RPC与NameNode建立通讯。答案：BD64.HBase官方版本可以安装在什么操作系统上？A、CentOSB、UbuntuC、RedHatD、Windows答案：ABC65.在Python中，python中以下说法正确的是：【选两项】A、如果子类重写了init方法,那么在实例化对象的时候，默认调用子类构造方法B、如果子类重写了init方法,那么在实例化对象的时候，默认调用父类构造方法C、当子类重写init方法，在实例化对象的时候，调用父类的init方法的方式：super（）.__init__（）D、当子类重写init方法，在实例化对象的时候，调用父类的init方法的方式：init__（）答案：AC66.下列关于Hadoop的描述，哪些是错误的？A、只能支持一种编程语言B、具有较差的跨平台特性C、可以部署在廉价的计算机集群中D、曾经被公认为行业大数据标准开源软件答案：AB67.对reducetask理解正确的是（）A、从map端远程读取数据B、Reduce引擎C、对数据排序D、将分组数据传递给用户编写的reduce（）答案：ABCD68.传统数据仓库面临哪些挑战：A、无法满足快速增长的海量数据存储需求B、无法有效处理不同类型的数据C、具有很强的扩展性D、计算和处理能力不足答案：ABD69.HBase的三层结构中，三层指的是哪三层？A、Zookeeper文件B、-ROOT-表C、META.表D、数据类型答案：ABC70.目前，Storm中的StreamGroupings有如下哪几种方式？A、AllGrouping：广播发送，每一个Task都会收到所有的TupleB、GlobalGrouping：全局分组，所有的Tuple都发送到同一个Task中C、FieldsGrouping：按照字段分组，保证相同字段的Tuple分配到同一个Task中D、DirectGrouping：随机分组，随机分发Stream中的Tuple，保证每个Bolt的Task接收Tuple数量大致一致答案：ABC71.以下关于HDFS的设计理念描述正确的有（）。A、支持超大文件存储B、流式数据访问C、简单的一致性模型D、硬件故障的检测答案：ABCD72.关系数据库已经无法满足Web2.0的需求，主要表现在以下几个方面？A、无法满足海量数据的管理需求B、无法满足数据高并发的需求C、无法满足高可扩展性和高可用性的需求D、使用难度高答案：ABC73.HDFS访问方式有哪些A、HDFSshellB、JavaAPIC、RESTAPID、thrift实现的python.PHP等语言访问答案：ABCD74.下面对LSM描述正确的是（）A、顺序存储B、直接写硬盘C、需要将数据Flush到硬盘D、是一种搜索平衡树答案：AC75.下面对HBase的描述哪些是正确的？A、不是开源的B、是面向列的C、是分布式的D、是一种NoSQL数据库答案：BCD76.关于HBase二级索引的描述，哪些是正确的？A、核心是倒排表B、二级索引概念是对应Rowkey这个“一级”索引C、二级索引使用平衡二叉树D、二级索引使用LSM结构答案：AB77.下列说法正确的是（）A、Reducer基类中没有run（）方法。B、Map中的run（）:相当于MapTask的驱动。C、Map中的run（）首先调用setup（）方法进行初始化操作.D、Map中的run（）方法提供了setup（）-->map（）-->cleanup（）的执行模板答案：BCD78.以下哪些选项是Hive支持的数据类型？A、StructB、IntC、MapD、Long答案：ABC79.下面哪个是Hadoop2.0的组件？A、ResourceManagerB、JobTrackerC、TaskTrackerD、NodeManager答案：AD80.下列选项中，属于Hadoop的优势的是（）。A、Hadoop可以运行在一般商业机器构成的大型集群上B、通过增加集群节点，可以线性地扩展性能C、可以处理通用计算平台上出现的硬件失效的情况D、用户可以快速写出高校的并行分布式代码答案：ABCD三、判断题1.在分区内对键值对进行排序，默认按照key-value键值对的key依据字典升序来排序。（）A、正确B、错误答案：A2.Hadoop支持数据的随机写。（）A、正确B、错误答案：B3.Reduce（化简归约）对一些独立元素组成的列表的每一个元素进行指定的操作，可以高度并行。（）A、正确B、错误答案：B4.NodeManager是每个节点上的资源和任务管理器。（）A、正确B、错误答案：A5.删除Hive外部表时，表数据也会删除。（）A、正确B、错误答案：B6.Ganglia不仅可以进行监控，也可以进行告警。A、正确B、错误答案：B7.ClouderaCDH是需要付费使用的。A、正确B、错误答案：B8.NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。A、正确B、错误答案：B9.Slaves由主机的列表组成，每台1行，用于说明数据节点（）A、正确B、错误答案：A10.在Hadoop集群中，NameNode负责管理所有DataNode。（）A、正确B、错误答案：A11.YARN的FIFOScheduler采用的是单队列A、正确B、错误答案：A12.GZIP压缩算法比LZO更快。A、正确B、错误答案：B13.在HadoopHA中,Zookeeper集群为每个NameNode都分配了一个故障恢复控制器,该控制器用于监控NameNode的健康状态。（）A、正确B、错误答案：A14.分区数量是ReduceTask的数量。（）A、正确B、错误答案：A15.GFS分布式文件系统有两个基本组成部分，一个是客户端（Client），一个是服务端（Server）。A、正确B、错误答案：A16.mapreduce自定义数据类型实现对数据序列化方式是write（）（）A、正确B、错误答案：A17.如果一个机架出问题，不会影响数据读写A、正确B、错误答案：A18.Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。A、正确B、错误答案：A19.HDFS的采用了“分而治之”的思想。A、正确B、错误答案：B20.Map映射：对一个列表的元素进行合并。（）A、正确B、错误答案：B21.在Linux的安装过程中不可以进行网络配置。A、正确B、错误答案：B22.HadoopHA是两台NameNode同时执行NameNode角色的工作。（）A、正确B、错误答案：B23.NameNode本地磁盘保存了数据块的位置信息。（）A、正确B、错误答案：B24.Hive相比于关系型数据库，有较低的延迟。（）A、正确B、错误答案：B25.hadoop2.x分块大小默认值为128MB（）A、正确B、错误答案：A26.Masters同样是主机的列表组成，每台一行，用于说明第二Namenode服务器。A、正确B、错误答案：A27.启动YARN的命令是start-yarn.shA、正确B、错误答案：A28.Java序列化机制对Hadoop来说是适合的。A、正确B、错误答案：B29.Zookeeper可以作为文件存储系统，因此可以将大规模数据文件存在该系统中。A、正确B、错误答案：B30.Hive默认不支持动态分区功能，需要手动设置动态分区参数开启功能。A、正确B、错误答案：A31.删除Hive外部表时,表数据也会删除。（）A、正确B、错误答案：B32.Slave节点的磁盘并不是越大越好。A、正确B、错误答案：A33.视图在创建时候，只是保存了一份元数据，当查询视图的时候，才开始执行视图对应的那些子查询。简答题（共23题,18.4分）A、正确B、错误答案：A34.Secondarynamenode就是namenode出现问题时的备用节点A、正确B、错误答案：B35.SecondaryNameNode是NameNode的热备份A、正确B、错误答案：B36.可以在Map任务结束时会对文件进行合并，减少网络的传输量。（）A、正确B、错误答案：A37.Spark是基于缓存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序A、正确B、错误答案：B38.mapreduce自定义数据类型实现对数据反序列化方式是readFields（）（）A、正确B、错误答案：A39.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。（A、正确B、错误答案：B40.put命令和copyToLocal命令可用于上传文件。A、正确B、错误答案：A41.HDFS集群的文件默认存储3份A、正确B、错误答案：A42.BlockSize是不可以修改的。A、正确B、错误答案：B43.SafeMode又称Hadoop安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。A、正确B、错误答案：A44.Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错误）A、正确B、错误答案：B45.FlumeAgent是一个JVM进程，它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。A、正确B、错误答案：A46.hadoop1的主要结构是由HDFS和mapreduce组成的A、正确B、错误答案：A47.Mapreduce的inputsplit就是一个block。（）A、正确B、错误答案：B48.HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上（）A、正确B、错误答案：B49.Zookeeper对节点的Watch监听通知是永久性的。（）A、正确B、错误答案：B50.因为HDFS有多个副本，所以NameNode是不存在单点问题的。A、正确B、错误答案：B51.我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。A、正确B、错误答案：A52.在internet网络中，tcp/ip网络协议只能

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年《hadoop基础练习》核心考点速记速练300题（附答案）

文档简介

温馨提示

最新文档

评论

2025年《hadoop基础练习》核心考点速记速练300题（附答案）

文档简介

温馨提示

最新文档

评论

相关文档