《大数据计算原理与技术》课程考试复习题库（附答案）

上传人：服*** IP属地：四川上传时间：2025-12-07 格式：DOC 页数：87 大小：315.05KB 积分：9.6 举报 版权申诉

已阅读5页，还剩82页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

《大数据计算原理与技术》课程考试复习题库（附答案）单选题1.针对每行数据内容为”TimestUrl”的数据文件,在用JobConf对象conf设置conf.setInputFormat（WhichInputFormat.class）来读取这个文件时,WhichInputFormat应该为以下的A、TextInputFormatB、KeyValueTextInputFormatC、SequenceFileInputFormatD、NLineInputFormat参考答案：B2.在配置Linux网络参数时,固定IP地址是将路由协议配置为A、staticB、dynamicC、dhcpD、variable参考答案：A3.在高阶数据处理中,往往无法把整个流程写在单个MapReduce作业中,下列关于链接MapReduce作业的说法,不正确的是A、Job和JobControl类可以管理非线性作业之间的依赖B、ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成C、使用ChainReducer时,每个mapper和reducer对象都有一个本地JobConf对象D、ChainReducer.addMapper（）方法中,一般对键/值对发送设置成值传递,性能好且安全性高参考答案：D4.在安装Hadoop集群时,jdk是配置在下面哪个文件中A、mapred-site.xmlB、yarn-site.xmlC、hadoop-env.shD、hdfs-site.xml参考答案：C5.在NameNode高可用（HA）中,当活动节点失效时,哪个节点将成为活动节点A、SecondaryNameNodeB、ackupnodeC、StandbynodeD、Checkpointnode参考答案：C6.在MapReduce中,下面哪个数据流的顺序是正确的a.InputFormatb.Mapperc.Combinerd.Reducere.Partitionerf.OutputFormatg.GroupingA、ebcgdfB、abecgdfC、aebcgcfD、abcdegf参考答案：B7.在Linux系统中,用于关闭防火墙开机自启动的指令是A、chkconfigiptablesoffB、serviceiptablesstopC、stop-all.shD、stop-dfs.sh参考答案：A8.在Hadoop中每个应用程序被表示成一个作业,将作业的名称设置为zhangyu,用JAVA代码编写,以下正确的是A、Job.SetJarName（‘zhangyu’）;B、Job.SetMapName（‘zhangyu’）;C、Job.SetJobName（‘zhangyu’）;D、Job.SetInputName（‘zhangyu’）;参考答案：C9.在Hadoop中负责运算的组件是A、HDFSB、YARNC、MapReduceD、以上均是参考答案：C10.在Hadoop的解压目录下,通过执行哪一项指令可以查看Hadoop的目录结构A、jpsB、llC、tarD、find参考答案：B11.在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令A、rebootB、hostnameC、pwdD、tail参考答案：B12.有关MapReduce的输入输出,说法错误的是A、链接多个MapReduce作业时,序列文件是首选格式B、FileInputFormat中实现的getSplits（）可以把输入数据划分为分片,分片数目和大小任意定义C、想完全禁止输出,可以使用NullOutputFormatD、每个reduce需将它的输出写入自己的文件中,输出无需分片参考答案：B13.以下选项中,哪种类型间的转换是不被Hive查询语言所支持的A、Double—NumberB、igInt—DoubleC、Int—BigIntD、String—Double参考答案：A14.以下四个Hadoop预定义的Mapper实现类的描述错误的是A、IdentityMapper<K,V>实现Mapper<K,V,K,V>,将输入直接映射到输出B、InverseMapper<K,V>实现Mapper<K,V,K,V>,反转键/值对C、RegexMapper<K>实现Mapper<K,Text,Text,LongWritable>,为每个常规表达式的匹配项生成一个（match,1）对D、TokenCountMapper<K>实现Mapper<K,Text,Text,LongWritable>,当输入的值为分词时,生成（taken,1）对参考答案：B15.以下哪个组件负责HDFS元数据的存储和管理A、ClientB、NamenodeC、DatanodeD、Secondarynamenode参考答案：B16.以下哪个不属于大数据主要解决的问题A、海量数据存储B、日常业务数据处理C、海量数据计算D、通过数据分析以提供决策支持参考答案：B17.以下哪个不是HDFS的守护进程A、SecondaryNameNodeB、NameNodeC、MrappMaster/YarnChildD、ataNode参考答案：C18.以下关于NameNode说法正确的是A、NameNode既可以存储具体的文件数据,也可以存储元数据B、可以使用NameNode高可用机制来横向扩展其内存空间C、NameNode存储大文件和小文件的元数据所占的空间是不一样的D、对于单节点集群来讲,NameNode一旦挂掉,整个HDFS集群将不能工作参考答案：D19.以下关于HDFS描述错误是A、HDFS在存储大文件时会将文件进行切分B、HDFS可以通过副本机制来解决数据丢失问题C、HDFS也适合存储小文件D、HDFS在单节点模式下,NameNode一旦宕机,则整个HDFS将不能工作参考答案：C20.以下关于HDFS读写操作描述错误的是A、HDFS在读取数据时不需要NameNode参与B、HDFS只支持追加写入,不支持对文件内容的随机修改C、HDFS执行具体的写操作时,需要Client和DataNode之间进行数据传输D、HDFS在读取数据时,一个文件的多个BLOCK可以并行读取参考答案：A21.以下关于Hadoop框架说法错误的是A、Hadoop包含HDFS、MapReduce、Yarn三大核心组件B、Hadoop的版本分为开源社区版和商业版C、Hadoop的运行必须依赖JDKD、Hadoop的核心配置文件所在目录是在$HADOOOP_HOME/conf目录参考答案：D22.一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个BlockA、3B、2C、4D、1参考答案：B23.下面与HDFS类似的框架是A、NTFSB、FAT32C、GFSD、EXT3参考答案：C24.下面哪个是Hadoop组件A、yarnB、hdfsC、mapreduceD、以上都是参考答案：D25.下面哪个是Hadoop配置文件A、core-site.xmlB、hdfs-site.xmlC、yarn-site.xmlD、以上均是参考答案：D26.下面哪个配置是在mapred-site.xml中配置的A、block块的副本数B、Java环境变量C、存储hdfs文件的目录名D、运行MapReduce作业的主机和端口参考答案：D27.下面哪个目录保存了Hadoop集群的命令（比如启动Hadoop）A、binB、sbinC、etcD、share参考答案：B28.下面哪个程序负责HDFS数据存储。A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode参考答案：C29.下面哪个不是Hadoop进程A、NameNodeB、HMasterC、DataNodeD、NodeManager参考答案：B30.下面陈述的内容哪些是NameNode节点的功能A、负责数据的计算B、调度客户端对文件的访问C、存储真实数据D、以上均正确参考答案：B31.下列语句中,描述错误的是A、可以通过CLI方式、JavaAPI方式调用Sqoop。B、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。C、Sqoop是独立的数据迁移工具,可以在任何系统上执行。D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhos或。参考答案：C32.下列语句描述错误的是（）A、可以通过CLI方式、JavaAPI方式调用SqoopB、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。C、Sqoop是独立的数据迁移工具,可以在任何系统上执行。D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhost或。参考答案：C33.下列选项中哪一门技术属于大数据平台A、TomcatB、HadoopC、ASP.NETD、Apache参考答案：B34.下列选项中,最早提出“大数据”这一概念的是A、贝恩B、麦肯锡C、吉拉德D、杰弗逊参考答案：B35.下列选项中,主要用于决定整个MapReduce程序性能高低的阶段是A、MapTaskB、ReduceTaskC、分片、格式化数据源D、Shuffle参考答案：D36.下列选项中,用于删除HDFS上文件夹的方法是A、delete（）B、rename（）C、mkdirs（）D、copyToLocalFile（）参考答案：A37.下列选项中,用于存放部署Hadoop集群服务器的是A、namenodeB、datanodeC、rackD、metadata参考答案：C38.下列选项中,若是哪个节点关闭了,就无法访问Hadoop集群A、namenodeB、datanodeC、secondarynamenodeD、yarn参考答案：A39.下列选项中,哪一项是研究大数据最重要的意义A、分析B、统计C、测试D、预测参考答案：D40.下列选项中,哪一项是可以进行重启引导系统A、OKB、CancelC、RebootD、Apply参考答案：C41.下列选项中,哪一个可以对hadoop集群进行格式化A、hadoopnamenode-formatB、hadoopnamenode-lsC、hdfsdatanode-lsD、hdfsdatanode-format参考答案：A42.下列选项中,哪项不是Hive系统架构的组成部分A、用户接口B、跨语言服务C、HDFSD、底层驱动引擎参考答案：C43.下列选项中,关于SSH服务说法正确的是A、SSH服务是一种传输协议B、SSH服务是一种通信协议C、SSH服务是一种数据包协议D、SSH服务是一种网络安全协议参考答案：D44.下列选项中,关于HDFS说法错误的是A、HDFS是Hadoop的核心之一B、HDFS源于Google的GFS论文C、HDFS用于存储海量大数据D、HDFS是用于计算海量大数据参考答案：D45.下列选项中,关于HDFS的架构说法正确的是A、HDFS采用的是主备架构B、HDFS采用的是主从架构C、HDFS采用的是从备架构D、以上说法均错误参考答案：B46.下列选项中,存放Hadoop配置文件的目录是A、includeB、inC、libexecD、etc参考答案：D47.下列选项中,Hadoop2.x版本独有的进程是A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode参考答案：C48.下列说法中,关于客户端从HDFS中读取数据的说法错误的是A、客户端会选取排序靠前的DataNode来依次读取Block块B、客户端会把最终读取出来所有的Block块合并成一个完整的最终文件C、客户端会选取排序靠后的DataNode来依读取Block块D、如果客户端本身就是DataNode,那么将从本地直接获取数据参考答案：C49.下列说法不正确的是?A、数据源是数据仓库的基础,通常包含企业的各种内部信息和外部信息B、数据存储及管理是整个数据仓库的核心。C、OLAP服务器对需要分析的数据按照多维数据模型进行重组、分析,发现数据规律和趋势。D、前端工具主要功能是将数据可视化展示在前端页面中参考答案：D50.下列哪些操作可以设置一个监听器Watcher（）A、getDataB、getChildrenC、existsD、setData参考答案：D51.下列哪项通常是集群的最主要瓶颈A、CPUB、网络C、磁盘IOD、内存参考答案：C52.下列哪项通常是集群的最主要的性能瓶颈A、CPUB、网络C、磁盘D、内存参考答案：C53.下列哪个属性是mapred-site.xml中的配置?A、dfs.replicationB、fs.fsdefaultFSC、D、yarn.resourcemanager.address参考答案：C54.下列哪个程序通常与NameNode在同一个节点启动A、TaskTrackerB、DataNodeC、SecondaryNameNodeD、ResourceManager参考答案：D55.下列哪个shell命令可以用于HDFS系统之间文件的移动A、hadoopfsmvB、hadoopfs-mvC、hadoopfs-cutD、hadoopfs-move参考答案：B56.下列哪个shell命令可以用于HDFS系统之间文件的复制A、hadoopfscpB、hadoopfs-copyC、hadoopfs-copyFileD、hdfsfs-cp参考答案：C57.下列描述中不符合Map/Reduce的是A、Map结束后,Partitioner会将相同Key分到同一个组交给Reduce进程B、Map/Reduce是函数式的设计思想C、Map是将数据映射成Key/Value再交给ReduceD、Reduce先运行,然后运行Map参考答案：D58.下列描述说法错误的是?A、SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。B、Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。C、VMwareWorkstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系统。D、SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。参考答案：D59.下列关于HDFS的描述正确的是?A、NameNode磁盘元数据不保存Block的位置信息B、DataNode通过长连接与NameNode保持通信C、HDFS集群支持数据的随机读写D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作参考答案：A60.下列关于HadoopAPI的说法错误的是A、Hadoop的文件API不是通用的,只用于HDFS文件系统B、Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的C、FileStatus对象存储文件和目录的元数据D、FSDataInputStream是java.io.DataInputStream的子类参考答案：A61.下列不是FileSystem的常见方法的是A、getDefaultPort（）B、getScheme（）C、getStatus（）D、Path（）参考答案：D62.使用下面哪个命令可以将HDFS目录中的文件下载到本地A、hadoopfs-putB、hadoopfs-catC、hadoopfs-getD、hadoopfs-rm参考答案：C63.生成秘钥的命令是A、ssh-keygenB、ssh-addC、ssh-copy-idD、ssh参考答案：A64.如果想要修改集群的备份数量,可以修改下面哪个配置文件?A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、hadoop-env.sh参考答案：C65.配置机架感知的下面哪项正确A、MapReduce会根据机架获取离自己比较近的网络数据B、写入数据的时候会写到不同机架的DataNodeC、都正确D、如果一个机架出问题,不会影响数据读写参考答案：C66.目前,Hadoop的最高版本是哪个A、Hadoop3.xB、Hadoop2.xC、Hadoop1.xD、Hadoop4.x参考答案：A67.每个Map任务都有一个内存缓冲区,默认大小是A、128MB、64MC、100MD、32M参考答案：C68.关于大数据的主要特征理解和描述错误的是A、来源多,格式多B、增长速度快,处理速度快C、存储量大计算量大D、数据价值密度很高参考答案：D69.关于大数据的价值密度描述正确的是以下哪个?A、大数据由于其数据量大,所以其价值密度低。B、大数据由于其数据量大,所以其价值也大。C、大数据的价值密度是指其数据类型多且复杂。D、大数据由于其数据量大,所以其价值密度高参考答案：A70.关于SecondaryNameNode下面哪项是正确的A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点参考答案：C71.关于SecondaryNameNode哪项是正确?A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点参考答案：C72.关于MapReduce的描述错的是A、MapReduce默认只能按照Key进行排序B、MapReduce在运行时可以没有CombinerC、MapReduce在指定多分区之后一般需要指定Reduce个数D、MapReduce中自定义的JavaBean可以不用序列化参考答案：D73.关于HDFS写数据流程,下面说法错误的是A、写数据首先需要找NN确定写的位置B、如果pipeline一个节点写失败则重新申请DN节点再写C、写数据是以packet为大小进行的,默认64KD、pipeline反方向会进行数据的ack检验参考答案：B74.关于HDFS的文件写入,正确的是A、支持多用户对同一文件的写操作B、用户可以在文件任意位置进行修改C、默认将文件块复制成三份存放D、复制的文件块默认都存在同一机架上参考答案：C75.关于Haoop体系架构说法不正确的是?A、NameNode管理文件系统的命名空间B、HDFS集群有两类节点以管理者和工作者模式运行C、HDFS上的文件也被分为块大小的多个块文件作为独立的存储单元D、NameNode永久保存记录着每个文件中各个块所在的数据节点和位置信息参考答案：D76.关于Hadoop单机模式和伪分布式模式的说法,正确的是A、两者都起守护进程,且守护进程运行在一台机器上B、单机模式不使用HDFS,但加载守护进程C、两者都不与守护进程交互,避免复杂性D、后者比前者增加了HDFS输入输出以及可检查内存使用情况参考答案：D77.关于Hadoop单击模式和伪分布模式的说法正确的是?A、后者比前者增加的HDFS的输入输出以及可检查内存的使用情况B、两者都不与守护进程交互,避免复杂性C、单机模式不使用HDFS,但加载守护进程D、两者都启动守护进程,且守护进程运行在一台机器上参考答案：A78.关于HadoopFileSystem的说法不正确的是A、FileSystem中有很多方法,跟File中的方法一致,如exists,delete,mkdir,create等等一些常用的文件操作方法B、FileStatus中有一系列的方法,可以得到文件的信息。如:getLen（）得到文件的长度,以字节的形式C、globStatus（）方法返回于其路径匹配的所有文件的FileStatus队形数据,并按路径排序。D、FileStatus对象存储文件和目录的元数据参考答案：A79.关于checkpoint,说法正确的是A、checkpoint可通过元数据文件的大小进行控制B、secondarynamenode会将合并好的元数据移动到namenodeC、SecondaryNameNode会将edits文件和fsimage复制到本地（HTTPGET方式）D、合并元数据需要大量的磁盘进行文件的合并操作参考答案：C80.关系型数据库与HDFS之间相互数据迁移的工具是A、distcpB、fsckC、fastcopyD、sqoop参考答案：D81.端口50070默认是Hadoop哪个服务的端口?A、NameNodeB、DataNodeC、SecondaryNameNodeD、Yarn参考答案：A82.大数据至少为以下哪种存储量级?A、EBB、PBC、TBD、ZB参考答案：B83.把本地文件放到集群里,可以使用下面哪个hadoopshell的命令A、hadoopfs-putB、hadoopfs–push/C、hadoopfs–put/D、hadoop-push/参考答案：C84.按粒度大小的顺序,Hive数据被分为:数据库、数据表、（）、桶。A、元祖B、栏C、分区D、行参考答案：C85.安装Hadoop时,发现50070对应的页面无法打开,可以通过下面哪个命令查看某个端口（TCP或UDP）是否在监听A、psB、netstatC、pingD、ifconfig参考答案：B86.安装Hadoop集群时,是在哪个文件指定哪些机器作为集群的从机?A、datanodeB、slavesC、yarn-site.xmlD、core-site.xml参考答案：B87.Ubuntu下,采用用户user1安装hadoop伪分布式时,解压hadoop安装包采用下面命令A、chownuser1:user1hadoop-2.7.5B、chown-Ruser1:user1hadoop-2.7.5C、hmod-R777hadoop-2.7.5D、sudochown-Ruser1:user1hadoop-2.7.5参考答案：D88.SecondaryNamenode的作用是A、监控NamenodeB、管理DatanodeC、合并fsimage和editlogsD、支持NamenodeHA参考答案：C89.Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B、根据策略对数据块进行必要的复制或删除C、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式D、文件系统允许有修改参考答案：D90.MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是A、实现Writable接口的类是值B、实现WritableComparable<T>接口的类可以是值或键C、Hadoop的基本类型Text并不实现WritableComparable<T>接口D、键和值的数据类型可以超出Hadoop自身支持的基本类型参考答案：C91.MapReduce的Shuffle过程以下中哪个操作是最后做的?A、排序B、合并C、分区D、溢写参考答案：B92.MapReduce处理数据的工作流程大致分为（）步A、2B、3C、4D、5参考答案：D93.map（）函数接收的数据格式是A、字符串B、整型C、LongD、键值对参考答案：D94.HDfS中的block默认保存几份A、3B、2C、1D、不确定参考答案：A95.HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括A、利用SequenceFile、MapFile、Har等方式归档小文件B、多Master设计C、Block大小适当调小D、调大namenode内存或将文件系统元数据存到硬盘里参考答案：D96.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是A、一次写入,少次读B、多次写入,少次读C、多次写入,多次读D、一次写入,多次读参考答案：D97.HDFS默认的当前工作目录是/user/$USER,的值需要在哪个配置文件内说明A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、以上均不是参考答案：B98.HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是A、一次写入,少次读取B、多次写入,少次读取C、一次写入,多次读取D、多次写入,多次读取参考答案：C99.HDFS的NameNode负责管理文件系统的命名空间,将所有的文件和文件夹的元数据保存在一个文件系统树中,这些信息也会在硬盘上保存成以下文件A、日志B、命名空间镜像C、两者都是D、都不是参考答案：C100.Hadoop作者A、MartinFowlerB、KentBeckC、DougcuttingD、JamesGosling参考答案：C101.Hadoop完全分布模式配置免密登录是要A、实现主节点到其他节点免密登录B、实现从节点到主节点的免密登录C、主节点和从节点任意两个节点之间免密登录D、以上都不是参考答案：C102.Hadoop起始于以下哪个阶段A、2004年,Nutch的开发者开发了NDFSB、2004年,Google发表了关于MapReduce的论文C、2003年,Google发布了GFS论文D、2002年,Apach项目的Nutch参考答案：D103.Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括A、conf-site.xmlB、mapred-site.xmlC、ore-site.xmlD、hdfs-site.xml参考答案：A104.Hadoopfs中的-get和-put命令操作对象是A、文件B、目录C、两者都是D、都不是参考答案：C105.hadoop2.x采用什么技术构建源代码A、ntB、ivyC、mavenD、makefile参考答案：C106.Hadoop2.x版本中的数据块大小默认是多少?A、64MB、128MC、256MD、512M参考答案：B107.hadoop2.X版本默认BlockSize的大小是A、32MB、64MC、128MD、256M参考答案：C108.Hadoop2.0集群服务启动进程中,下列选项不包含的是A、NameNodeB、JobTrackerC、DataNodeD、ResourceManager参考答案：B109.hadoop1.X版本默认BlockSize的大小是A、32MB、64MC、128MD、256M参考答案：B110.Hadoop1.0中,Hadoop内核的主要组成是A、HDFS和MapReduceB、HDFS和YarnC、YarnD、MapReduce和Yarn参考答案：A111.DougCutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A、HadoopB、NutchC、LuceneD、Solr参考答案：D112.Client在HDFS上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块A、ClientB、NamenodeC、DatanodeD、Secondarynamenode参考答案：A113.Client端上传文件的时候下列哪项正确?A、数据经过NameNode传递给DataNodeB、Client端将文件切分为Block,依次上传C、lient只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、以上都不正确参考答案：B多选题1.以下哪些说法是错误的A、Zookeeper集群一般用来实现大数据存储B、HDFS集群在第一次启动之前必须对NameNode格式化C、MapReduce中map任务的个数一定是由文件的block数来决定D、MapReduce的Shuffle阶段组件的顺序是:Partitioner、Sort、Combiner、Grouping参考答案：AC2.以下哪些工具属于Hadoop生态系统的开源工具A、HiveB、HBaseC、ZookerperD、Mysql参考答案：ABC3.以下哪个不是HDFS的组件A、NameNodeB、ResouceMangerC、NodeManagerD、SecondaryNameNode参考答案：BC4.以下关于序列化Writable的说法正确的是?A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。参考答案：ABCD5.以下关于文件块的说法正确的是?A、文件的所有Block为了容错都会被冗余复制。B、除了最后一个Block,所有的Block都是同样的大小。C、每个文件的Block大小和复制（Replication）因子都是可配置的。D、HDFS将文件存储成块序列。参考答案：ABCD6.以下关于大数据特点的描述中,不正确的是（）。A、巨大的数据量B、多结构化数据C、增长速度快D、价值密度高参考答案：ABC7.以下关于SSH免密码配置的描述正确的选项有哪个?A、SSH专为远程登录会话和其他网络服务提供安全性的协议。B、SSH是SecureShell的缩写,则IETF的网络工作小组制定。C、SSH是建立在应用层和传输导上的安全协议。D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。参考答案：ABCD8.以下关于HDFS体系结构的描述正确的有哪几项?A、以下关于HDFS体系结构的描述正确的有哪几项?B、DataNode作为从结点,用来管理存储的数据。C、HDFS采用主从结构模型。D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。参考答案：ABCD9.下面说法选项错误的是A、在一个Agent中,同一个source可以有多个channelB、在一个Agent中,同一个sink可以有多个channelC、在一个Agent中,同一个source只能多1个channelD、在一个Agent中,同一个sink只能有1个channel参考答案：AD10.下面哪个组件可以在Hadoop集群中代替MR做一些计算?A、SparkB、SqoopC、HiveD、Avro参考答案：AC11.下列有关Hadoop的说法正确的是（）。A、Hadoop最早起源于NutchB、Hadoop中HDFS的理念来源于谷歌发表的分布式文件系统（GFS）的论文C、Hadoop中MapReduce的思想来源于谷歌分布式计算框架MapReduce的论文D、Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的软件框架参考答案：ABCD12.下列选项中,在Reducer类的run（）方法中定义的三个方法有A、setup（）B、reduce（）C、leanup（）D、map（）参考答案：ABC13.下列选项中,说法错误的是A、在一个Agent中,同一个source可以有多个channelB、在一个Agent中,同一个sink可以有多个channelC、在一个Agent中,同一个source只能多1个channelD、在一个Agent中,同一个sink只能有1个channel参考答案：AD14.下列选项中,属于Google提出的处理大数据的技术手段有A、MapReduceB、MySQLC、BigTableD、GFS参考答案：ACD15.下列选项中,关于数据块说法正确的是A、磁盘进行数据读/写的最大单位B、磁盘进行数据读/写的最小单位C、数据块是抽象的块D、ataNode是按block对数据进行存储。参考答案：BCD16.下列选项中,关于Metadata元数据说法正确的是A、元数据维护HDFS文件系统中文件和目录的信息B、元数据记录与文件内容存储相关的信息C、元数据用来记录HDFS中所有DataNode的信息D、元数据用于维护文件系统名称并管理客户端对文件的访问参考答案：ABC17.下列选项中,关于Hadoop集群说法正确的是A、Hadoop集群包含Worker节点B、Hadoop集群包含Master节点C、Hadoop集群包含Slave节点D、Hadoop集群包含HMaster节点参考答案：BC18.下列说法中,关于使用JavaAPI操作HDFS说法正确的是A、需要引入hadoop-common依赖B、需要引入hadoop-hdfs依赖C、需要引入hadoop-client依赖D、以上说法均错误参考答案：ABC19.下列说法中,关于配置参数说法错误的是A、1.sources.r1.channels=c1B、a1.sinks.k1.channel=c1C、a1.source.r1.channels=c1D、a1.sinks.k1.channels=c1参考答案：CD20.下列说法中,关于zoo.cfg配置文件中的参数server.1=hadoop01:2888:3888说法正确的是A、1表示服务器的编号B、hadoop01表示这个服务器的IP地址C、2888表示表示Zookeeper服务器之间的通信心跳号D、3888表示Leader选举的端口号参考答案：AB21.下列说法中,关于MapReduce性能调优说法正确的是A、在数据输入阶段,采用CombineTextInputFormat来作为输入,可以解决输入端大量的小文件场景B、在Map阶段,减少溢写次数,可以减少磁盘IOC、在Map阶段,减少合并次数,可以缩短MapReduce处理的时间D、在Shuffle阶段,尽量给Shuffle提供更多的内存空间,以防止出现内存溢出现象参考答案：ABCD22.下列说法中,关于InputFormat接口定义的getSplits（）方法说法正确的是A、用来从分片中读取数据B、负责创建RecordReader对象C、实现了逻辑切片机制D、getSplits（）方法的切片大小splitSize是由minSize、maxSize和blockSize的值确定的参考答案：CD23.配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?A、hadoop-env.shB、profileC、ore-site.xmlD、ifcfg-eth0参考答案：AC24.客户端上传文件的时候哪项是正确的?A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。参考答案：BD25.关于数据副本的存放策略正确的有些?A、第三个副本:与第一个副本相同机架的其他节点上;B、更多副本:随机节点。C、第一个副本,放置在上传文件的数据节点;D、第二个副本,放置在与第一个副本不同的机架的节点上;参考答案：ABCD26.大数据中常见的类型有哪些?A、视频B、图片C、音频D、日志参考答案：ABCD27.大数据技术方案为了简化并行分布式计算,采用（）软件模块进行处理A、JavaB、MapC、SQLD、Reduce参考答案：BD28.大数据关键技术包括哪些?A、大数据存储B、大数据预处理C、大数据采集D、大数据分析挖掘参考答案：ABCD29.大数据的计算模式主要有哪些?A、图计算模式B、流计算模式C、查询分析计算模式D、批处理计算模式参考答案：ABC30.大数据采集中面临的主要问题有以下哪些?A、如何避免重复数据B、数据源多种多样,数据量大、变化快C、如何保证数据的质量D、如何保证数据采集的可靠性参考答案：ABCD31.常用的HDFSAPI有哪些?A、rename（）B、copyFromLocalFile（）C、mkdirs（）D、elete（）参考答案：ABCD32.VMware提供了哪几种工作模式?A、host-only仅主机模式B、NAT模式C、自定义除以上3种其他模式D、桥接（bridged）模式参考答案：ABD33.MapRecue的优点有哪些?A、可扩展性强计算机性能高B、容错性强C、开发简单D、计算机性能高参考答案：BC34.Hive数据表插入数据时,insert（）table……,括号中可使哪些关键字?A、intoB、appendC、overwriteD、add参考答案：AC35.HDFS中常用命令有下面哪些?A、hadoopfs–rmB、hadoopfs–lsC、hadoopfs–putD、hadoopfs–mv参考答案：ABCD36.Hadoop提供的自定义配置时编辑的配置文件中,包含A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn-site.xml参考答案：ABCD37.Hadoop生态系统的优势包含A、高扩展B、低成本C、开源工具成熟D、型关系数据库系统参考答案：ABC38.Hadoop集群具有以下哪个优点?A、高容错性B、高成本性C、高可靠性D、高扩展性参考答案：ACD39.Hadoop核心组成部份包含A、HDFS存储系统B、Hive数据仓库C、MapReduce运算框架D、HBase分布式数据库参考答案：AC40.Hadoop的三种安装模式包括以下哪种?A、两分布式模式B、完全分布式模式C、伪分布模式D、单机模式参考答案：BCD41.HadoopMapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这5个编程组件中A、Partitioner和CombinerB、Split和SortC、InputFormat和OutputFormatD、Mapper和Reducer参考答案：AB判断题1.执行“vi/etc/sysconfig/network”命令,可以配置主机名。A、正确B、错误参考答案：A2.执行“start-all.sh”指令,可以一键启动整个Hadoop集群的服务A、正确B、错误参考答案：A3.在整个数据传输的过程中,Flume将流动的数据封装到一个event（事件）中,它是Flume内部数据传输的基本单元。A、正确B、错误参考答案：A4.在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。A、正确B、错误参考答案：A5.在采集数据的过程中,通过在滚动完文件的名称后添加一个标识的策略,不能避免因日志文件过大而导致上传效率低的问题。A、正确B、错误参考答案：B6.在安装配置windows平台hadoop,配置后直接运行是没有问题的A、正确B、错误参考答案：B7.在安装部署Hadoop集群之前,不需要提前安装并配置好JDK。A、正确B、错误参考答案：B8.在Windows平台开发HDFS项目时,若不设置Hadoop开发环境,也是没问题的A、正确B、错误参考答案：B9.在MapReduce程序中,只有Map阶段涉及到Shuffle机制。A、正确B、错误参考答案：B10.在Linux中,mkdir命令主要用于在指定路径下创建子目录。A、正确B、错误参考答案：A11.在HDFS中,namenode用于决定数据存储到哪一个datanode节点上。A、正确B、错误参考答案：A12.在Hadoop2.x版本下,Block数据块的默认大小是64MA、正确B、错误参考答案：B13.在/etc/hosts文件映射ip和主机名称A、正确B、错误参考答案：A14.再创建外部表的同时要加载数据文件,数据文件会移动到数据仓库指定的目录下。A、正确B、错误参考答案：B15.由于Zookeeper集群的运行不需要Java环境支持,所以不需要提前安装JDK。A、正确B、错误参考答案：B16.由于Hive系统架构中由跨语言服务ThriftServe组成,它能够让不同的编程语言调用Hive的接口。A、正确B、错误参考答案：A17.由于Hadoop是使用Java语言编写的,因此可以使用JavaAPI操作Hadoop文件系统。A、正确B、错误参考答案：A18.由于Combiner组件不允许改变业务逻辑,所以无论调用多少次Combiner,Reduce的输出结果都是一样的。A、正确B、错误参考答案：A19.因为HDFS有多个副本,所以NameNode是不存在单点问题的A、正确B、错误参考答案：B20.雪花模型需要关联多层维度表,这与结构简单的星型模型相比性能较低,所以通常不使用。A、正确B、错误参考答案：A21.修改~/.bashrc文件保存后,修改的内容能立即生效A、正确B、错误参考答案：B22.写入数据的时候会写到不同机架的DataNode中A、正确B、错误参考答案：A23.伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同A、正确B、错误参考答案：B24.伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。A、正确B、错误参考答案：A25.通过使用虚拟机软件（如VMwareWorkstation）,可以在同一台电脑上构建多个Linux虚拟机环境A、正确B、错误参考答案：A26.通过扩容的方式,解决不了传统文件系统遇到存储瓶颈的问题。A、正确B、错误参考答案：B27.数据仓库可以作为实时查询系统的数据库使用,为决策分析提供数据。A、正确B、错误参考答案：B28.使用内嵌的Derby数据库存储元数据,这种方式是Hive的默认安装方式,配置简单,但是一次只能连接一个客户端,适合用来测试,不适合生产环境A、正确B、错误参考答案：A29.使用–create-hive-table指令导入数据时,Hive数据仓库中必须存在指定表。A、正确B、错误参考答案：B30.设置免密登录需要先用ssh-keygen生成一对密钥A、正确B、错误参考答案：A31.设计Flume采集系统架构时,Sink组件数据可以流向一个新的Agent的Source组件。A、正确B、错误参考答案：A32.如果一个机架出问题,Hadoop集群服务不会影响数据读写功能A、正确B、错误参考答案：A33.如果没有指定“–num-mappers1”（或-m1,即map任务个数为1）,那么在指令中必须还要添加“–split-by”参数A、正确B、错误参考答案：A34.如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。A、正确B、错误参考答案：B35.启动Zookeeper服务的命令是“zkServer.shstart”A、正确B、错误参考答案：A36.启动Hadoop所有进程的命令是start-all.shA、正确B、错误参考答案：A37.启动Hadoop集群时,可能出现NodeManager进程无法启动或者启动后自动关闭情况,这是由于系统内存和资源分配不足导致的A、正确B、错误参考答案：A38.启动Hadoop集群服务之前需要格式化文件系统。A、正确B、错误参考答案：A39.启动Hadoop集群,只能有一种方式启动,即单节点逐个启动A、正确B、错误参考答案：B40.配置Hadoop集群只需要修改core-site.xml配置文件就可以。A、正确B、错误参考答案：B41.命名服务是分布式系统中比较常见的一类场景,发布者将需要全局统一管理的数据发布到Zookeeper节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。A、正确B、错误参考答案：B42.每次启动Hadoop都要格式化文件系统A、正确B、错误参考答案：B43.临时节点允许拥有子节点。A、正确B、错误参考答案：B44.链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个A、正确B、错误参考答案：A45.客户端上传文件的时候会先将文件切分为多个Block,依次上传。A、正确B、错误参考答案：A46.简述ZooKeeper的功能及其在Hadoop高可用中起到的作用。A、正确B、错误参考答案：A47.关于hdfs元数据,Edits编辑日志中记录了文件系统的所有操作A、正确B、错误参考答案：B48.关于hadoopha说法,每一个集群只有一个活跃的NNA、正确B、错误参考答案：A49.分区表时Hive数据模型的最小单元,在Hive存储上的体现就是在表的主目录下的一个子文件夹。A、正确B、错误参考答案：B50.非全新集群选举时是优中选优,保证Leader是Zookeeper集群中数据最完整、最可靠的一台服务器。A、正确B、错误参考答案：A51.对于MapReduce任务来说,一定需要Reduce过程。A、正确B、错误参考答案：B52.当我们完成Hadoop集群的安装和配置后,就可以直接启动集群。A、正确B、错误参考答案：B53.当我们配置好虚拟机的主机名和IP映射,就可以正常使用虚拟机。A、正确B、错误参考答案：B54.带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。A、正确B、错误参考答案：A55.大数据在医疗行业中可以有效控制疾病的发生。A、正确B、错误参考答案：B56.大数据提供的是一些描述性的信息,而创新还是需要人类自己实现。A、正确B、错误参考答案：A57.创建项目时,创建者将自动在项目上给予admin状态。允许创建者查看,上传,更改作业,运行流程,删除并向项目添加用户权限。A、正确B、错误参考答案：A58.创建外部表的同时要加载数据文件,数据文件会移动到数据仓库指定的目录下。A、正确B、错误参考答案：B59.查看Linuxip的命令是ifconfigA、正确B、错误参考答案：A60.采集方案中的sources、channels、sinks是在具体编写时根据业务需求进行配置的,可以随意设置。A、正确B、错误参考答案：B61.安装Hadoop时,配置项”dfs.replication”是配置在文件core-site.xmlA、正确B、错误参考答案：B62.Zookeeper提供的getChildren（）方法可以用于获取指定节点下的所有子节点列表。A、正确B、错误参考答案：A63.Zookeeper数据模型中的每个Znode都是由三部分组成,分别是stat、data和children。A、正确B、错误参考答案：A64.Zookeeper的选举机制,实际上是采用算法FastLeaderElection,投票数大于半数则胜出的机制。A、正确B、错误参考答案：A65.target-dir参数是指定HDFS目标目录地址,因此需要提前创建目标文件。A、正确B、错误参考答案：B66.TaildirSource用于观察指定的文件,可以实时监测到添加到每个文件的新行,如果文件正在写入新行,则此采集器将重试采集它们以等待写入完成。A、正确B、错误参考答案：A67.SpoolingDirectorySource对指定磁盘上的文件目录进行监控并提取数据,但是不能查看新增文件数据A、正确B、错误参考答案：B68.sortby关键字的作用是保证全局有序A、正确B、错误参考答案：A69.Slave节点要存储数据,所以它的磁盘越大越好。A、正确B、错误参考答案：B70.SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。A、正确B、错误参考答案：A71.SecondaryNameNode应与NameNode部署到一个节点A、正确B、错误参考答案：B72.SecondaryNameNode是NameNode的热备份A、正确B、错误参考答案：B73.SecondaryNameNode是NameNode的备份,可以有效解决Hadoop集群单点故障问题。A、正确B、错误参考答案：B74.SecondaryNameNode可以有效缩短Hadoop集群的启动时间。A、正确B、错误参考答案：A75.Secondarynamenode就是namenode出现问题时的备用节点A、正确B、错误参考答案：B76.rop内部表时,会删除hdfs上的文件夹和元数据。A、正确B、错误参考答案：A77.ResourceManager负责监控ApplicationMaster,并在ApplicationMaster运行失败的时候重启它,因此ResouceManager负责ApplicationMaster内部任务的容错A、正确B、错误参考答案：B78.ReduceTask作为MapReduce工作流程的后半部分,主要经历了Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。A、正确B、错误参考答案：A79.reduce（）函数会将map（）函数输出的键值对作为输入,把相同key值的value进行汇总,输出新的键值对A、正确B、错误参考答案：A80.processor.backoff属性默认值为true,表示sink处理器会将失败的sink列入黑名单。A、正确B、错误参考答案：B81.NodeManager是每个节点上的资源和任务管理器。A、正确B、错误参考答案：A82.NameNode负责管理元数据信息metadata,client端每次读写请求,它都会从磁盘中读取或会写入metadata信息并反馈给client端A、正确B、错误参考答案：B83.NameNode负责管理元数据,客户端每次读写请求时,都会从磁盘中读取或写入元数据信息并反馈给客户端。A、正确B、错误参考答案：A84.NameNode的WebUI端口是50030,它通过jetty启动的Web服务A、正确B、错误参考答案：B85.NameNode本地磁盘保存了数据块的位置信息。A、正确B、错误参考答案：B86.NameNode本地磁盘保存了Block的位置信息A、正确B、错误参考答案：B87.NameNode本地磁盘保存了Block的位置信息。A、正确B、错误参考答案：A88.Map阶段处理数据时,是按照Key的哈希值与ReduceTask数量取模进行分区的规则。A、正确B、错误参考答案：A89.MapTask作为MapReduce工作流程的前半部分,它主要经历Read阶段、Map阶段、Collect阶段、Spill阶段和Shuffle阶段。A、正确B、错误参考答案：B90.MapReduce适于PB级别以上的海量数据在线处理A、正确B、错误参考答案：B91.MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台对A、正确B、错误参考答案：A92.MapReduce任务会根据机架获取离自己比较近的网络数据。A、正确B、错误参考答案：A93.MapReduce计算过程中,相同的key默认会被发送到同一个reducetask处理A、正确B、错误参考答案：A94.MapReduce的数据流模型可能只有Map过程,由Map产生的数据直接被写入HDFS中。A、正确B、错误参考答案：A95.MapReduce的inputsplit一定是一个blockA、正确B、错误参考答案：B96.MapReduce编程模型借鉴了面向过程的编程语言的设计思想。A、正确B、错误参考答案：B97.MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。A、正确B、错误参考答案：A98.LoggerSink通常用于调试,LoggerSink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。A、正确B、错误参考答案：A99.Hive使用MySQL作为存储元数据的数据库时,在安装时需要将MySQL连接驱动Jar包拷贝到lib目录中。A、正确B、错误参考答案：A100.Hive使用length（）函数可以求出输出的数量。A、正确B、错误参考答案：B101.Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。A、正确B、错误参考答案：A102.Hive分区字段不能与已存在字段重复,且分区字段是一个虚拟的字段,它不存放任何数据,该数据来源于装载分区表时所指定的数据文。A、正确B、错误参考答案：A103.Hive的复杂数据类型中,Map是有序键值对类型,Key值必须为原始类型,Value可以为任意类型。A、正确B、错误参考答案：B104.Hive的String类型相当于MySQL数据库的varchar类型,该类型是一个可变长度的字符串,理论上可以存储2GB的字符数。A、正确B、错误参考答案：A105.HDFS中提供SecondaryNameNode节点,是为了取代掉NameNode节点。A、正确B、错误参考答案：B106.HDFS适用于低延迟数据访问的场景,例如毫秒级实时查询。A、正确B、错误参考答案：B107.HDFS上传时,数据会经过NameNode然后再传递给DataNode。A、正确B、错误参考答案：B108.HDFS目前不支持并发多用户的写操作,写操作只能在文件末尾追加数据。A、正确B、错误参考答案：A109.HDFS既适合超大数据集存储,也适合小数据集的存储。A、正确B、错误参考答案：B110.HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上A、正确B、错误参考答案：B111.HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。A、正确B、错误参考答案：B112.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。A、正确B、错误参考答案：B113.Hadoop支持数据的随机读写A、正确B、错误参考答案：B114.Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放一份。A、正确B、错误参考答案：B115.Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。A、正确B、错误参考答案：A116.Hadoop是一个能够对大量数据进行分布式处理的软件框架,能够处理PB级数据A、正确B、错误参考答案：A117.Hadoop是Java语言开发的,因此在搭建Hadoop集群时,需要为集群安装JDK环境变量。A、正确B、错误参考答案：A118.Hadoop是IBM公司开发的一款商用大数据软件A、正确B、错误参考答案：B119.Hadoop是Apache顶级的开源项目A、正确B、错误参考答案：A120.Hadoop实现了一个分布式文件系统,简称HDFS。A、正确B、错误参考答案：A121.Hadoop集群执行完MapReduce程序后,会输出_SUCCESS和part-r-00000结果文件。A、正确B、错误参考答案：A122.Hadoop的框架最核心的设计就是:HDFS和MapReduceA、正确B、错误参考答案：A123.Hadoop的开源社区版比较著名的是Cloudera公司的CDH版本。A、正确B、错误参考答案：B124.Hadoop存在多个副本,且默认备份数量是3。A、正确B、错误参考答案：A125.HadoopHA是两台NameNode同时执行NameNode角色的工作。A、正确B、错误参考答案：B126.HadoopHA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。A、正确B、错误参考答案：A127.HadoopHA集群中,存在SecondaryNameNode进程,协调NameNode并保持同步状态。A、正确B、错误参考答案：B128.hadoopdfsadmin–report命令用于检测HDFS损坏块。A、正确B、错误参考答案：B129.Hadoop1.x版本中,可以搭建高可用集群,解决单点故障问题。A、正确B、错误参考答案：B130.Flume将流动的数据封装到一个event（事件）中,它是Flume内部数据传输的基本单元。A、正确B、错误参考答案：A131.Flume负载均衡接收器处理器能够在多个Sink上进行均衡流量的功能。A、正确B、错误参考答案：A132.Flume采集方案的名称、位置、以及sources、channels、sinks参数配置信息可以随定义。A、正确B、错误参考答案：B133.Flume采集方案的名称、位置、以及sources、channels、sinks参数配置信息可以任意定义A、正确B、错误参考答案：A134.Flume-og与Flume-ng两个版本基本相同,开发者可以使用任意一款工具。A、正确B、错误参考答案：B135.FlumeAgent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。A、正确B、错误参考答案：A136.DataNode在客户端或者NameNode的调度下,存储并检索数据块,对数据块进行创建、删除等操作。A、正确B、错误参考答案：A137.DataNode是HDFS集群的主节点,NameNode是HDFS集群的从节点。A、正确B、错误参考答案：B138.datanode负责存储数据A、正确B、错误参考答案：A139.Combiner组件可以让Map对Key进行分区,从而可以根据不同的key分发到不同的Reduce中去处理。A、正确B、错误参考答案：A140.ClouderaCDH是需要付费使用的A、正确B、错误参考答案：B141.Channel组件对采集到的数据进行缓存,可以存放在Memory或File中。A、正确B、错误参考答案：A142.–append参数是将数据追加到HDFS上一个已存在的数据集上A、正确B、错误参考答案：A143.“–where“city=‘sec-bad’””指令表示筛选出MySQL数据库表字段为city=sec-bad的数据。A、正确B、错误参考答案：A144.“–target-dir”参数是指定HDFS目标目录地址,因此需要提前创建目标文件。A、正确B、错误参考答案：B145.“–query”参数后的查询语句中,如果已经使用了WHERE关键字,那么在连接CONDITIONS占位符前必须使用AND关键字;否则,就必须使用WHERE关键字连接。A、正确B、错误参考答案：A填空题1.在Zookeeper的选举机制中,服务器的编号越大,则在FastLeaderElection算法中的（）越大。答：权重;2.在NameNode内部是以元数据的形式,维护着两个文件,分别是FsImage镜像文件和（）文件答：EditLog日志;3.在MapTask的Split阶段,将数据写入本地磁盘前,要对数据进行一次（）,并在必要时对数据进行合并、压缩等操作。答：排序;4.在HDFS中,通过执行（）命令查看HDFS根目录下的所有文件及文件夹。答：hadoopfs-ls;5.在HDFS写数据的流程中,数据是以（）的形式进行发送。答：数据包;6.由于NameNode宕机,导致无法对外提供服务,可通过搭建（）来解决。答：HDFSHA;7.由于HDFS存储数据量过大,导致NameNode内存不足,可以通过搭建（）来解决。答：联邦;8.要想使用Flume系统,需要在当前操作系统中安装（）环境变量答：JDK;9.数据仓库是面向（）、（）、（）和时变的数据集合,用于支持管理决策。答：主题的;集成的;非易失的;10.客户端从HDFS中查找数据,即为（）数据;Client从HDFS中存储数据,即为Write（写）数据答：Read（读）;11.解压Flume后,需要在（）配置文件中添加JDK环境变量参数。答：flume-env.sh;12.脚本一键启动Hadoop集群服务命令是（）答：start-all.sh;13.加载环境变量配置文件需要使用（）命令答：source/etc/profile;14.关于hdfs元数据,（）维护整个文件系统元数据答：NameNode;15.当Map任务写入内存缓存区的数据到达阀值（）时,会启动一个线程将内存中的溢出数据写入磁盘答：80M;16.单独启动ResourceManager节点的命令是（）答：yarn-daemon.shstartresouremanager;17.单独启动NodeManager节点的命令是（）答：yarn-daemon.shstartnodemanager;18.单独启动NameNode节点的命令是（）答：hadoop-daemon.shstartNameNode;19.单独启动DateNode节点的命令是（）答：hadoop-daemon.shstartDateNode;20.大数据的分为（）、非结构话数据和（）答：结构化数据|半结构化数据;21.大数据的5V特征包括（）、（）、（）、（）、（）答：大量|高速性|多样性|价值|真实性;22.从数据库导入HDFS时,指定以制表符作为字段分隔符参数是（）。答：--fields-terminated-by'\t';23.Znode有两种节点,分别是（）、（）。答：永久节点;临时节点;24.ResourceManager内部包含了两个组件,分别是调度器和（）答：应用程序管理器;25.Partitioner组件目的是（）（）。答：将key均匀分布在ReduceTask上;26.NameNode与DataNode通过（）机制互相通信。答：心跳监测;27.NameNode以元数据形式维护着（）、（）_文件。答：fsimage;EditLog;28.NameNode和DataNode通过（）,可以检测DataNode是否工作。答：心跳检测机制;29.MapReduce核心思想是（）答：分而治之;30.Hive默认元数据存储在（）数据库中。答：Derby;31.HDFS在hadoop2默认BlockSize是（）答：128M;32.Hadoop集群中的节点（）负责HDFS的数据存储。答：DataNode;33.Hadoop集群中的（）程序通常与NameNode在一个节点启动。答：Jobtracker;34.Hadoop集群搭建中常用的4个配置文件有（）、（）、（）和（）。答：hadoop-env.sh|core-site,xml|mapred-site,.xml|yarn-site.xml;35.Hadoop集群部署方式分别是（）、（）和（）答：独立模式;伪分布式模式;完全分布式模式;36.Hadoop的运行模式有（）、（）和（）。答：独

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据计算原理与技术》课程考试复习题库（附答案）

文档简介

温馨提示

最新文档

评论

《大数据计算原理与技术》课程考试复习题库（附答案）

文档简介

温馨提示

最新文档

评论

相关文档