2025年《hadoop基础练习》核心考点速记速练题（附答案）

上传人：1*** IP属地：河北上传时间：2025-12-26 格式：DOCX 页数：117 大小：152.27KB 积分：12 举报 版权申诉

已阅读5页，还剩112页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

《hadoop基础练习》核心考点速记速练题(附答案)1.在启动hadoop集群以后，查看jps进程有几个?参考答案：D2.在进行Hive组件配置时，JAR包冲突导致异常，出现以下错误信息()参考答案：A3.在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是A、Job和JobControl类可以管理非线性作业之间的依赖B、ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成C、使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象D、ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高参考答案：D4.在大数据项目规划阶段中，()阶段确认大数据项目范围和建设目标。A、需求调研B、业务调研C、数据需求D、项目规划参考答案：A5.在Python中Excel解析，读写操作分别需要安装的模块是A、读使用xlwt模块，写使用xlrd模块B、写使用xlwt模块，读使用xlrd模块C、读使用read模块，写使用write模块D、读使用write模块，写使用read模块参考答案：BC、输出数据D、以上都不对17.在Linux中，在使用匿名登录ftp时，用户名为()18.在Linux中，用户可以对vim进行设置，如何对vim文件进20.在Java中，执行以下代码后，说法正确的是 publicclassTestextendsThread{ pub(Stringargs[]){ Testtesttest.start(); try{ test. }catch(Exceptione){�OD;System.out.println(“main线程”); } publicvoidrun(){�OD;System.out.println(“自定义线程”); } }A、线程test会休眠3秒钟B、main线程会休眠3秒钟C、main线程和test线程都会休眠3秒钟B、保证在某时刻只有一个线程可访问方法或对象；C、保证允许两个或更多处理同时开始和结束；D、保证两个或更2同时开始和结束参考答案：B22.在Java中，以下不是产生死锁的必要条件的是A、开启了多个线程B、线程间存在多个共享资源C、使用了线程同步D、继承了Thread类参考答案：D23.在Java中，线程是Java的()机制A、检查B、解释执行C、并行参考答案：D24.在Java中，现有一条XPath匹配规则如下“//productName[contains(text(),’手机’)],对于这条匹配规则的说法正确的是A、可以查找所有内容等于‘手机’的productName标签B、可以查找所有内容以‘手机’开头的productName标签C、可以查找所有内容包含‘手机’的productName标签D、可以查找所有内容以‘手机’结尾的productName标签25.在Java中，为了从文本文件中逐行读取内容，应该使用哪个处理流对象?参考答案：A26.在Java中，使用字节流读取文件时，如果已经读到文件末尾会返回27.在Java中，使用DOM4J解析Xml时，获取一个元素下所有子元素的方法是D、以上都不是28.在Java中，实现线程的创建有()方法C、三种参考答案：B29.在Java中，关于Xpath描述错误的是B、Xpath可以快速定位、获取所需要的节点C、可以使用selectNodes("表达式")方法查找相应节点D、在使用Xpath时，不需要导入相应的jar包参考答案：D30.在Java中，关于Xml的文档结构描述错误的是A、一个基本的Xml文档通常由序言和文档元素两部分组成B、Xml文档中的序言可以包括Xml声明、处理指令和注释C、Xml文档中的元素以树形结构排列D、Xml文档的声明必须要写参考答案：D31.在Java中，File类中哪个方法可以判断文件是否存在?32.在Java的File类的方法中，用于列举某个目录下所有子目录及子文件名的方法是33.在Java程序中，使用TCP套接字编写服务器端程序的套接字类是参考答案：B34.在HDFS中，默认一个块多大?35.在HBase的组件中，哪一个负责日志记录()参考答案：D36.在Hadoop配置文件中，以下属于core-site.xml文件主要内容的是()A、用于定义系统级别的参数，如HDFSURL、Hadoop的临时目录B、名称节点和数据节点的存放位置、文件副本的个数、文件读C、配置ResourceManager,NodeManager的通信端口，web监控D、包括JobHistoryServer和应用程序参数两部分，如reduce任务的默认个数、任务所能够使用内存的默认上下限等。参考答案：A37.在CentoOS中，系统默认的对整个系统拥有完全控制权的用参考答案：A38.以下选项哪个命令可以查看主机信息(A)参考答案：A39.以下哪一项不属于Hadoop可以运行的模式()A、单机(本地)模式B、伪分布式C、互联网模式D、分布式模式参考答案：C40.以下哪个组件可以指定对key进行Reduce分发的策略?参考答案：D41.以下哪个技术与大数据无关C、C.存储技术42.一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block?43.写入数据到HDFS的Sink组件是()。才能感知到?<name>erval</name><value>3</value><name>heartbeatC、34秒参考答案：C45.显示当前所在目录的命令是()参考答案：A46.下面与HDFS类似的框架是()参考答案：C47.下面哪项是Hadoop的作者?参考答案：B参考答案：B49.下面哪个程序负责HDFS数据存储B、1份C、3份D、4份50.下面哪个不是Hadoop1.0的组件：51.下面关于Shuffle过程描述正确的是()A、Job作业必须要实现Combiner过程。B、分组操作发生在溢写过程C、分组的目的是提高Job执行效率。D、压缩目的是提高效率。参考答案：D52.下列有关MapReduce中，说法是正确的是()。A、它提供了资源管理能力B、它是开源数据仓库系统C、它是Hadoop数据处理层D、它可用于查询和分析存储在Hadoop中的大型数据集参考答案：C53.下列选项中那些是Hadoop2.x版本独有的进程参考答案：C54.下列选项中那些是Hadoop2.x版本独有的进程()参考答案：C55.下列选项中，哪一个命令用于删除文件?参考答案：B56.下列选项中，关于HBase特性描述不正确的一项是()。A、高可靠性B、高性能C、面向行D、可伸缩57.下列说法错误的是?A、HadoopMapReduce是MapReduce的开源实现，后者比前者使用门槛低很多B、MapReduce采用非共享式架构，容错性好C、MapReduce主要用于批处理、实时、计算密集型应用D、MapReduce采用“分而治之”策略参考答案：C58.下列说法错误的是()A、JobServer是用户作业和JobTracker交互的主要接口B、JobClient为用户提供提交作业功能C、JobClient提供访问子任务报告和日志功能D、JobClient提供获取MapReduce集群状态信息功能参考答案：A59.下列哪一种命令格式是不正确的()A、get表行健列族B、scan表时间戳起始行健结束行健D、put表行键列族：列值参考答案：B60.下列哪个属性是hdfs-site.xml中的配置参考答案：B61.下列哪个程序通常与NameNode在一个节点启动?参考答案：D62.下列关于数据处理流程，说法有误的是?A、在传统的数据处理流程中，存储的数据是旧的B、在传统的数据处理流程中，需要用户主动发出查询来获取结果C、传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中D、流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务参考答案：D63.下列关于Storm和Hadoop架构组件功能对应关系，哪个是错误的?A、HadoopJob对应StormTopologyB、HadoopTaskTracker对应StormSupervisorD、HadoopReduce对应StormBolt参考答案：C64.下列关于MapReduce的说法，哪个描述是错误的?A、MapReduce具有广泛的应用，比如关系代数运算、分组与聚合运算等B、MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数C、编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据集的计算D、不同的Map任务之间可以进行通信参考答案：D65.下列关于MapReduce1.0的描述，错误的是?A、JobTracker“大包大揽”导致任务过重B、不存在单点故障C、容易出现内存溢出(分配资源只考虑MapReduce任务数，不考虑CPU、内存)D、资源划分不合理(强制划分为slot,包括Mapslot和Reduc参考答案：B66.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是()A、FSDataInputStream扩展了DataInputStream以支持随机读B、为实现细粒度并行，输入分片(InputSplit)应该越小越好C、一台机器可能被指派从输入文件的任意位置开始处理一个分片D、输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割参考答案：B67.下列关于HadoopAPI说法错误的是()A、hadoop的文件API不是通用的，只用于HDFS文件系统B、Configuration类的默认实例化方法是以HDFS系统的资源配置为基础C、FileStatus对象存储文件和目录的元数据参考答案：A68.下列关于BigTable的描述，哪个是错误的A、爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储B、BigTable是一个分布式存储系统C、BigTable起初用于解决典型的互联网搜索问题D、网络搜索应用查询建立好的索引，从BigTable得到网页参考答案：A69.下列不属于分布式数据库系统的是()。参考答案：D70.下列不属于HBase基本元素的一项是()_。B、记录D、单元格71.狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台，不包括下面哪个组件?参考答案：D72.为销售报表展示开发一个MapReduce作业，Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?C、随作业一起提交的mapper-specification.xml文件D、InputFormat格式类参考答案：D73.数据建模中，()模型，考虑数据的存储实现方式，包括数据拆分、数据表单位、数据集成。B、数据参考答案：D74.使用jar操作运行Hadoop中自带的jar进行单词的统计()参考答案：B75.启动ZooKeeper服务的命令是什么?参考答案：D参考答案：B77.哪个模块负责HDFS数据的存储?参考答案：B78.禁用ipv6需要修改的是哪个配置文件()参考答案：A79.结构化的数据，先有()_,再有().A、数据结构B、结构数据C、内容结构D、结构内容参考答案：B80.关于培训的总体目标、定制培训课程和内容和培训形式，以下说法正确的是()。A、系统使用人员的培训目的是使其可以独立完成大数据平台的日常维护，解决一般问题。B、培训过程中将针对不同的用户和不同的培训内容采用相同的培训方案，以达到最佳的培训效果。C、实践培训主要针对于技术开发人员及系统维护和客户。D、培训形式包括集中培训、现场培训、针对性培训。参考答案：D81.关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的()A、配置java环境变量B、配置Hadoop环境变量82.关于ZooKeeper的特性说法错误的是?A、能改变ZooKeeper服务器状态的操作称为事务操作B、是版本机制有效避免了数据更新时出现的先后顺序问题C、当节点发生变化时，通过watcher机制，可以让客户端得到通知D、watch能触发多次83.关于QJM的写入过程，以下描述正确的是。B、写入本地，由配置参数'.dir'控制。C、写入JouralNode,由配置参数'.dir'控制。D、在写Editlog时，会有两个不同的输出流来控制日志的写入参考答案：D84.关于MapReduce的描述错误的是()A、MapReduce框架会先排序map任务的输出B、通常，作业的输入输出都会被存储在文件系统中C、通常计算节点和存储节点是同一节点D、一个Task通常会把输入集切分成若干独立的数据块参考答案：D85.关于Hive和传统关系数据库的对比分析，下面描述错误的A、Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统B、传统的关系数据库可以针对多个列构建复杂的索引，Hive不支持索引C、Hive和传统关系数据库都支持分区D、传统关系数据库很难实现横向扩展，Hive具有很好的水平扩展性参考答案：B86.关于HDFS集群中的DataNode的描述不正确的是?A、DataNode之间都是独立的，相互之间不会有通信B、存储客户端上传的数据的数据块C、响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑D、一个DataNode上存储的所有数据块可以有相同的参考答案：D87.二次排序是在什么阶段()C、压缩D、溢写参考答案：B88.大数据是指不用随机分析法这样的捷径，而采用()的方法A、所有数据B、绝大部分数据C、适量数据参考答案：A89.大数据技术不包括()。A、数据计算B、数据存储C、数据冗余参考答案：C90.从节点程序()。参考答案：B91.测试Sqoop是否能够正常连接MySQL数据库命令是()B、sqooplist-databases--connectio参考答案：D参考答案：A参考答案：B97.SequenceFile用于合并HDFS中的大量小文件，下列关于SequenceFile的描述错误的是()。A、在SequenceFile中，每一对被看作一条RecordB、记录压缩是对每条记录进行压缩C、SequenceFile主要是由一个Header和多个Record组成D、Header中包含存储压缩算法参考答案：A98.NameNode在启动时自动进入安全模式，在安全模式阶段，说法错误的是A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B、根据策略对数据块进行必要的复制或删除C、当数据块最小百分比数满足最小副本数条件时，会自动退出安全模式D、文件系统允许有修改参考答案：D99.MySQL数据库驱动文件放置于hive哪个目录下()参考答案：B100.MapReduce的Shuffle过程中哪个操作是最后做的?A、溢写D、排序参考答案：B101.MapReduce处理流程中Reduce如何获取Map端结果()B、Reduce端获取C、Map端发送到中间管理节点，Reduce统一获取D、随机发送参考答案：B102.LSM的读操作和写操作是独立的?C、LSM并不区分读和写D、LSM中读写是同一种操作参考答案：A103.HMaster的主要作用是()A、用于启动任务管理多个HRegionServerA、拥有复杂结构的字符串106.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M,具有高容错、高可靠性、D、多次写入，多次读写参考答案：C107.HDFS默认的块大小是多少()参考答案：B108.HDFS采用了什么模型?A、分层模型B、主从结构模型C、管道-过滤器模型D、点对点模型参考答案：B109.hdfs-site.xml中参数和解释不能对应的是()A、.dir:是本地磁盘目录NN存储的是fsimB、node.handler.coun:t设置更多的NameNode线程，处理从DataNode发出的大量RPC请求C、dfs.datanode.data.dir:设置是本地磁盘目录，HDFS数据应该存储Block的地方D、dfs.replication:设置大型文件系统的HDFS的块大小。110.HBase依赖()提供强大的计算能力参考答案：D111.HBase是分布式列式存储系统，记录按什么集中存放B、列族C、行D、不确定参考答案：B112.Hbase的主要作用是()A、是一个分布式的、面向列的开源数据库B、是一种编程模型，用于大规模数据集(大于1TB)的并行运算C、是Hadoop集群当中的资源管理系统模块D、将要储存的文件分散在不同的硬盘上，并记录他们的位置参考答案：A113.Hadoop中节点之间的进程通信是通过什么协议来实现的()参考答案：D114.Hadoop完全分布模式配置免密登录是要?A、实现主节点到其他节点免密登录B、实现从节点到主节点的免密登录C、主节点和从节点任意两个节点之间免密登录D、以上都不是参考答案：C115.Hadoop的储存框架叫什么()参考答案：D116.Hadoop2.7.1下，以下哪一项是DaA、管理文件系统命名空间B、根据客户端的请求执行读写操作C、存储元数据D、定期对NameNode中的内存元数据进行更新和备份117.Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?参考答案：DD、增加容错机制参考答案：B119.hadoop()中将海量数据分割于多个节点，由每个节点并行计算，将得到的结果归并到输出。A、应用场景B、分布式计算C、分阶段计算D、高效处理参考答案：B120.()是用来解决海量大数据文件存储问题的，是目前应用最广泛的分布式文件系统。参考答案：A1.在思维方式方面，大数据完全颠覆了传统的思维方式?A、全样而非抽样B、效率而非精确C、相关而非因果D、演绎推理而非归纳总结2.在实际应用中，大数据处理主要包括以下哪三个类型?A、复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间B、基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间C、基于实时数据流的数据处理：通常时间跨度在数十秒到数分钟之间D、基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间3.在Python中，以下哪一个选项是不合法的布尔表达式A、‘abc”ab”C、“abc”ab”5.在Python中，使用Flask框架模板有哪些好处?()B、模板可以获取视图函数的数据结构进行展示C、代码结构清晰，耦合度低D、代码结构清晰，耦合度高调用父类构造方法C、当子类重写init方法，在实例化对象的时候，调用父类的init方法的方式：super().init()D、当子类重写init方法，在实例化对象的时候，调用父类的iB、还原启动C、安全启动D、救援启动8.在Java中，以下哪些方法是线程类Thread提供的方法9.在Java中，下面属于创建型模式的有A、工厂模式B、抽象工厂模式C、单例模式D、代理模式10.在Java4中，网络通信的三要素是哪三个B、端口号D、子网掩码12.以下属于Hive的基本数据类型是：13.以下哪些选项是Hive支持的数据类型?14.以下哪些图表可以用Echarts来进行展示A、折线图B、B.饼状图C、C.雷达图D、D.决策树15.以下哪个命令不能将普通用户转换成超级用户：16.以下关于文件块的说法正确的是?A、文件的所有Block为了容错都会被冗余复制。B、除了最后一个Block,所有的Block都是同样的大小。C、每个文件的Block大小和复制(Replication)因子都是可配置的。D、HDFS将文件存储成块序列。17.以下关于SSH免密码配置的描述正确的选项有哪个?A、SSH专为远程登录会话和其他网络服务提供安全性的协议。B、SSH是SecureShell的缩写，则IETF的网络工作小组制定。C、SSH是建立在应用层和传输导上的安全协议。D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。18.以下关于HDFS的设计理念描述正确的有()。A、支持超大文件存储B、流式数据访问C、简单的一致性模型D、硬件故障的检测19.下面哪个属于不断完善的Hadoop生态系统中的组件?20.下面哪个是Hadoop2.0的组件?21.下面关于网桥的说法，正确的是()A、网桥工作在数据链路层，对网络进行分段，并将2个物理网络连接层1个逻辑网络B、B网桥可以通过对不要传递的数据进行过滤，并有效的阻止广播风暴C、C.网桥可以连接数据链路层协议不同的局域网D、D.网桥要处理其收到的数据，增加了传输时延22.下面对Partioner分区描述正确的是()A、MapReduce框架默认使用HashPartionerB、MapReduce的分区是决定map由哪个Reduce执行。C、Partioner分区没有什么实质意义D、开发者必先实现自己的分区.23.下面对LSM描述正确的是()A、顺序存储C、需要将数据Flush到硬盘D、是一种搜索平衡树24.下面对HBase的描述哪些是正确的?A、不是开源的B、是面向列的C、是分布式的25.下列选项中，属于Hive数据模式的是()。C、桶D、外部表26.下列选项中，属于Hadoop的优势的是()。A、Hadoop可以运行在一般商业机器构成的大型集群上B、通过增加集群节点，可以线性地扩展性能C、可以处理通用计算平台上出现的硬件失效的情况D、用户可以快速写出高校的并行分布式代码27.下列选项中，哪些属于Hadoop1.0的核心组件的不足之处?A、实时性差(适合批处理，不支持实时交互式)B、资源浪费(Map和Reduce分两阶段执行)C、执行迭代操作效率低D、难以看到程序整体逻辑28.下列说法正确的是：A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上C、Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据29.下列说法正确的是()A、Reducer基类中没有run()方法。B、Map中的run():相当于MapTask的驱动。C、Map中的run()首先调用setup()方法进行初始化操作.D、Map中的run()方法提供了setup()-->map()-->cleanup()的执行模板30.下列描述错误的是()A、write()是把每个对象反序列化到输出流。B、readFields()是把输入流字节序列化。C、重写hashCode()、equals()方法是为咯java对象比较。D、重写compareTo()是为咯java对象的比较。31.下列理解正确的是()A、一个block有可能对应一个分片。B、一个分片可能对应二个block。C、一个分片可能对应三个blockD、分片大小不能设置。32.下列理解错误的是()A、mapreduce程序一定需要mapB、Mapreduce可以不用mapC、Mapreduce一定需要reduceD、Mapreduce程序不需要configuration类33.下列关于流处理系统与传统的数据处理系统的描述，正确的有?A、流处理系统处理的是实时的数据，而传统的数据处理系统处理的是预先存储好的静态数据B、用户通过流处理系统获取的是实时结果，而通过传统的数据处理系统，获取的是过去某一时刻的结果C、流处理系统无需用户主动发出查询，实时查询服务可以主动将结果推送给用户D、传统的数据处理系统系统无需用户主动发出查询，批量查询服务可以主动将结果推送给用户34.下列关于SparkStreaming与Storm的描述，哪些是正确的的?A、SparkStreaming无法实现毫秒级的流计算B、Storm可以实现毫秒级响应件C、Storm无法用于实时计算D、SparkStreaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法35.下列关于Region服务器工作原理的描述，哪些是正确的?A、每个Region服务器都有一个自己的HLog文件B、每次刷写都生成一个新的StoreFile,数量太多，影响查找速度C、合并操作比较耗费资源，只有数量达到一个阈值才启动合并D、Store是Region服务器的核心36.下列关于RDBMS和MapReduce说法正确的A、二者都支持批处理数据B、RDBMS是非线性扩展的，MapReduce支持线性扩展C、RDBMS支持多次读写，而MapReduce支持一次写、多次读D、二者都可以处理PB级别的数据37.下列关于Hadoop的描述，哪些是错误的?A、只能支持一种编程语言B、具有较差的跨平台特性C、可以部署在廉价的计算机集群中D、曾经被公认为行业大数据标准开源软件38.网络适配器又称39.数据库事务具有ACID四性，下面哪几项属于四性?A、原子性B、持久性41.企业大数据应用中，mapreduce很容易做()A、数据的统计，即count。B、人工自能分析C、数据对比，即join。D、模拟爆破实验42.目前，Storm中的StreamGroupings有如下哪几种方式?A、AllGrouping:广播发送，每一个Task都会收到所有的TupleB、GlobalGrouping:全局分组，所有的Tuple都发送到同一个C、FieldsGrouping:按照字段分组，保证相同字段的Tuple分配到同一个Task中D、DirectGrouping:随机分组，随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致43.客户端上传文件的时候哪项是正确的?()A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求，通过RPC与NameNode建立通讯。44.客户端上传文件的时候哪项是正确的?()()A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求，通过RPC与NameNode建立通讯。45.关于mapreduce能处理的web日志，说法正确的有()A、Web日志由Web服务器产生，可能是Nginx,Apache,Tomca面访问量)、独立IP数C、计算用户所检索的关键词排行榜、用户停留时间最高的页面等D、构建广告点击模型.、分析用户行为特征等等46.关于HBase二级索引的描述，哪些是正确的?A、核心是倒排表B、二级索引概念是对应Rowkey这个“一级”索引C、二级索引使用平衡二叉树D、二级索引使用LSM结构47.关系数据库已经无法满足Web2.0的需求，主要表现在以下几个方面?A、无法满足海量数据的管理需求B、无法满足数据高并发的需求C、无法满足高可扩展性和高可用性的需求D、使用难度高48.对reducetask理解正确的是()A、从map端远程读取数据C、对数据排序D、将分组数据传递给用户编写的reduce()49.对mapper基类描述正确的是()A、setup():对MapTask进行一些预处理B、map():每次接受一个Key-Value对并对其进行处理，再分C、cleanup():对MapTask进行一些处理后的工作D、Mapper基类中一般用最常用的是断言语法50.大数据的两个核心技术是什么?A、分布式存储B、分布式应用C、分布式处理D、集中式存储51.传统数据仓库面临哪些挑战：A、无法满足快速增长的海量数据存储需求B、无法有效处理不同类型的数据C、具有很强的扩展性D、计算和处理能力不足52.传统大数据质量清洗的特点有()A、确定性B、强类型性C、协调式的53.操作HDFS有哪几种方式?参考答案：ABC54.ZooKeeper的节点类型有?A、临时节点B、持久节点C、顺序节点D、监控节点55.Storm具有以下哪些特点?A、整合性：Storm可方便地与队列系统和数据库系统进行整合B、简易的API:Storm的API在使用上即简单又方便C、容错性：Storm可自动进行故障节点的重启、任务的重新分配D、可扩展性：Storm的并行特性使其可以运行在分布式集群中56.Spark支持哪三种不同类型的部署方式?A、Standalone(类似于MapReduce1.0,slot为资源分配单位)B、SparkonMesos(和Spark有血缘关系，更好支持Mesos)57.Spark运行架构具有以下哪些特点?A、每个Application都有自己专属的Executor进程，并且该进程在Application运行期间一直驻留B、Executor进程以多线程的方式运行TaskC、Spark运行过程与资源管理器无关，只要能够获取Executor进程并保持通信即可D、Task采用了数据本地性和推测执行等优化机制58.RPC是分布计算中C/S模型的一个应用实例，对于好hadoop而言，它有以下哪些特点()A、重用性，由于hadoop的特点rpc可以一直使用。B、透明性，远程调用其他机器上的程序，对用户来说就像调用本地的方法一样C、高性能，rpcserver能够处理多个来自client的请求。D、可控性，hadooprpc实现了自定义的rpc框架。59.Map阶段理解正确的有()A、一行一行读取文本中内容B、可以进行一行数据的拆分。C、不能进行统计。D、必须要有reduce阶段60.Mapreduce程序理解正确()A、它能处理所有场景的问题B、它能解决大量的统计、join数据C、它不能对所处理数据排序D、适合处理已经落地的日志61.Linux中重启系统的命令有()62.Impala主要由哪几个部分组成：63.HFile数据格式中的KeyValue数据格式，下列选项描述正确的是()。B、没有固定的结构C、数据的大小是定长的D、有固定的结构64.HDFS数据块多副本存储具备以下哪些优点?A、加快数据传输速度B、容易检查数据错误C、保证数据可靠性D、适合多平台上运行65.HDFS副本技术是分布式计算的重要组成部分，下列关于副本技术描述正确的有()。A、降低访问效率B、负载均衡C、提高系统可靠性D、避免HDFS发生故障66.HDFS访问方式有哪些D、thrift实现的python.PHP等语言访问67.HDFSFederation相对于HDFS1.0的优势主要体现在哪里?A、能够解决单点故障问题C、性能更高效D、良好的隔离性68.HDFS1.0主要存在哪些问题?A、单点故障问题B、不可以水平扩展C、单个名称节点难以提供不同程序之间的隔离性D、系统整体性能受限于单个名称节点的吞吐量69.HBase官方版本可以安装在什么操作系统上?70.HBase构建二级索引的实现方式有哪些?71.HBase的实现包括哪三个主要的功能组件?A、库函数：链接到每个客户端C、许多个Region服务器D、廉价的计算机集群72.HBase的三层结构中，三层指的是哪三层?A、Zookeeper文件D、数据类型73.hadoop分布式集群和伪分布式模式有所不同，在集群中各个机器会承担不同角色，在集群中文件的存储主要一下那两个角色C、可视化75.hadoop创建多级目录(如：/a/b/c)的命令为()77.Hadoop2.0之前，MapReduce是由()所组成。A、客户端B、作业管理器C、任务管理器78.Cloudera提供哪几种安装CDH的方法?79.()是大数据运用的基础A、有用的数据B、覆盖率C、隐私问题D、数据统计有效性判断题1.在整个数据传输的过程中，Flume将流动的数据封装到一个event(事件)中，它是Flume内部数据传输的基本单元。A、正确B、错误参考答案：A2.在分区内对键值对进行排序，默认按照key-value键值对的key依据字典升序来排序。3.在大数据框架中，批处理系统一般不适用于对延时要示较高的场景5.在UNIX用例下，Hadoop还拥有“conf”目录B、错误参考答案：A6.在Linux的安装过程中不可以进行网络配置。A、正确参考答案：B7.在internet网络中，tcp/ip网络协议只能提供面向无连接服务参考答案：B8.在Hadoop集群中，NameNode负责管理所有DataNode。A、正确参考答案：A个故障恢复控制器，该控制器用于监控NameNode的健康状态。参考答案：A10.在/etc/hosts文件映射ip和主机名称A、正确参考答案：A11.因为HDFS有多个副本，所以NameNode是不存在单点问题的。参考答案：B参考答案：B13.序列化是指将字节流转化为结构化对象的过程。参考答案：B14.我国的大数据产业政策一直在有序推进，工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。B、错误参考答案：A15.数据的完整性包括数据传输的完整性和数据存储的完整性。参考答案：A16.视图在创建时候，只是保存了一份元数据，当查询视图的时候，才开始执行视图对应的那些子查询。简答题(共23题，18.参考答案：A17.删除Hive外部表时，表数据也会删除。参考答案：B18.如果一个机架出问题，不会影响数据读写A、正确参考答案：A群继续工作。参考答案：B20.启动YARN的命令是start-yarn.sh参考答案：A21.启动Hadoop集群服务之前需要格式化文件系统。参考答案：B22.配置Hadoop集群只需要修改core-site.xml配置文件就可以参考答案：B23.命令hadoopfs-safemodeget-查看安全模式状态参考答案：A和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。B、错误参考答案：A25.可以在Map任务结束时会对文件进行合并，减少网络的传输参考答案：A26.分区数量是ReduceTask的数量。B、错误参考答案：A27.分布式文件系统提供了数据的物理存储结构。B、错误参考答案：A28.Zookeeper可以作为文件存储系统，因此可以将大规模数据文件存在该系统中。B、错误参考答案：B29.Zookeeper对节点的Watch监听通知是永久性的。B、错误参考答案：B30.YARN的FIFOScheduler采用的是单队列B、错误参考答案：A31.WebMagic的核心组件为PageProcessor与PipelineB、错误32.text命令可查看压缩文件内容。参考答案：A33.tasktracker的端口号是60参考答案：A34.Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。参考答案：A35.Spark是基于缓存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序参考答案：B36.Slave节点的磁盘并不是越大越好。参考答案：A37.Slaves由主机的列表组成，每台1行，用于说明数据节点B、错误参考答案：A38.SecondaryNameNode应与NameNode部署到一个节点B、错误参考答案：B39.SecondaryNameNode是NameNode的热备份B、错误参考答案：B40.Secondarynamenode就是namenode出现问题时的备用节点B、错误参考答案：B41.SafeMode又称Hadoop安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。B、错误参考答案：A42.Reduce阶段分组后的数据可表示为key-{value_list},即一个键和若干个值的组合。A、正确43.Reduce(化简归约)对一些独立元素组成的列表的每一个元素进行指定的操作，可以高度并行。B、错误参考答案：B44.put命令和copyToLocal命令可用于上传文件。B、错误参考答案：A45.NodeManager是每个节点上的资源和任务管理器。参考答案：A46.NameNode是HDFS系统中的管理局节点，它管理文件系统的命名空间，记录每个文件数据块在DataNode上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。47.NameNode负责管理metadata,client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。A、正确48.NameNode本地磁盘保存了数据块的位置信息。B、错误参考答案：B49.Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。B、错误参考答案：B50.Masters同样是主机的列表组成，每台一行，用于说明第二Namenode服务器。A、正确B、错误51.Map映射：对一个列表的元素进行合并。B、错误参考答案：B52.mapreduce自定义数据类型实现对数据序列化方式是writeB、错误53.mapreduce自定义数据类型实现对数据反序列化方式是readB、错误参考答案：A54.mapreduce自定义数据类型，需要在实现WritableComparab参考

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年《hadoop基础练习》核心考点速记速练题（附答案）

文档简介

温馨提示

最新文档

评论

2025年《hadoop基础练习》核心考点速记速练题（附答案）

文档简介

温馨提示

最新文档

评论

相关文档