1+x大数据习题库_第1页
1+x大数据习题库_第2页
1+x大数据习题库_第3页
1+x大数据习题库_第4页
1+x大数据习题库_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1+x大数据习题库一、单选题(共20题,每题1分,共20分)1.以前在传统数据库与Hadoop之间,数据传输没有专门的工具,两者数据的互导是比较困难的,_____的出现解决了这个问题?()A、HiveB、FlumeC、SqoopD、Zookeeper正确答案:C答案解析:Sqoop是一款专门用于在传统数据库与Hadoop之间进行数据传输的工具,它可以方便地实现两者之间的数据互导,解决了以前数据传输困难的问题。而Hive主要用于数据仓库和数据分析;Flume主要用于日志收集等;Zookeeper主要用于分布式协调服务,均不能解决传统数据库与Hadoop之间数据互导困难的问题。2.采用多副本冗余存储的优势不包含(.A、节约存储空间B、容易检查数据错误C、保证数据可靠性D、加快数据传输速度正确答案:A3.MySQL数据库驱动文件放置于hive哪个目录下()A、jarB、libC、binD、sbin正确答案:B答案解析:在Hive中,MySQL数据库驱动文件通常放置在lib目录下。lib目录用于存放各种依赖的库文件,包括数据库驱动等,以便Hive在运行时能够正确连接到MySQL数据库进行相关操作。4.HMaster的主要作用是()A、用于启动任务管理多个HRegionServerB、负责响应用户I/O请求,向HDFS文件系统读写数据C、负责协调集群中的分布式组件D、最终保存HBase数据行的文件正确答案:A5.在项目实施人员中,适时与客户沟通,确立项目目标,建立组织机构,编制计划,负责项目全面管理的角色是()。A、实施工程师B、产品经理C、财务人员D、项目经理正确答案:D答案解析:项目经理是在项目实施中负责与客户沟通确立项目目标、建立组织机构、编制计划以及全面管理项目等工作的角色。实施工程师主要负责具体的技术实施工作;产品经理侧重于产品相关的规划等;财务人员主要负责财务相关事务,均不符合题意。6.Zookeeper生产环境一般采用多少台机器组成集群?(D)A、1B、3C、5D、奇数台(且大于1)E、偶数台(且大于1)正确答案:D答案解析:Zookeeper集群通常需要奇数台机器组成,这样可以保证在半数以上机器正常工作时集群仍能正常运行,并且一般要求大于1台机器组成集群,所以是大于奇数台(且大于1)。7.Centos中修改文件或目录的访问权限命令A、chownB、passwdC、chmodD、clear正确答案:C8.Hadoop类库中最终面向用户提供的接口类是_____。该类是个抽象类,只能通过类的get方法得到具体类?()A、Configuration类B、FileSystem类C、Path类D、URI类正确答案:B答案解析:FileSystem类是Hadoop类库中最终面向用户提供的接口类,它是个抽象类,通过FileSystem.get方法可以得到具体类,用于与文件系统进行交互等操作。Configuration类主要用于配置相关;Path类表示文件路径;URI类表示统一资源标识符,均不符合题意。9.在hadoop配置中yarn-site.xml作用是()A、用于定义系统级别的参数B、用于名称节点和数据节点的存放位置C、用于配置JobHistoryServer和应用程序参数D、配置ResourceManager,NodeManager的通信端口正确答案:D答案解析:在hadoop配置中,yarn-site.xml主要用于配置ResourceManager,NodeManager的通信端口等相关参数,以定义YARN集群的相关属性,实现各个组件之间的通信和协作。A选项说的是core-site.xml的作用;B选项说的是hdfs-site.xml的作用;C选项说的是mapred-site.xml的作用。10.关于HDFS的文件写入,正确的是()A、支持多用户对同一文件的写操作B、用户可以在文件任意位置进行修改C、默认将文件块复制成三份存放D、复制的文件块默认都存在同一机架上正确答案:C答案解析:HDFS默认将文件块复制成三份存放,以提高数据的可靠性和容错性。HDFS不支持多用户对同一文件同时进行写操作;用户不能在文件任意位置进行修改,因为HDFS是一次写入、多次读取的文件系统;复制的文件块默认存放在不同机架上,这样可以进一步提高数据的可靠性。11.下列命令中(在zookeeper安装文件夹的bin目录下执行),哪项是停止ZooKeeper的正确命令()A、start-all.shB、start-stop.shC、zkServer.shstopD、zkServer.shstart正确答案:C答案解析:停止ZooKeeper需要在其安装文件夹的bin目录下执行zkServer.shstop命令。选项A的start-all.sh是启动所有相关服务的命令;选项B的start-stop.sh不是ZooKeeper的标准操作命令;选项D的zkServer.shstart是启动ZooKeeper的命令。12.在HBase的组件中,哪一个负责日志记录()A、HRegionB、HFileC、MemStoreD、WAL正确答案:D答案解析:WAL(Write-AheadLog)即预写式日志,是HBase中负责日志记录的组件。当有数据写入HBase时,首先会写入到WAL中,以确保数据的持久性和恢复能力。只有在WAL成功写入后,数据才会被写入到MemStore中,最终刷写到HFile中。HRegion是分布式存储的基本单元;HFile是HBase数据存储的文件格式;MemStore是内存中的存储结构,用于暂存数据。13.在本次项目实施中,需求调研前的准备不包括()。A、充分了解客户的要求,客户的业务,客户的关注重点。B、接到调研任务,将计划写好,立即就开始和用户沟通。C、编制确定客户需求调研计划和调研提纲。D、和客户负责人沟通,确定客户需求小组成员。正确答案:B答案解析:需求调研前应充分了解客户要求、业务及关注重点,编制调研计划和提纲,与客户负责人沟通确定需求小组成员等,而不是接到任务立即就开始和用户沟通,所以不包括B选项。14.与Hadoop1.x相比,Hadoop2.x采用全新的架构,最明显的变化就是增加了哪个组件?()A、MapReduceB、PigC、HBaseD、Yarn正确答案:D答案解析:Yarn是Hadoop2.x新增的组件,它负责资源管理和作业调度,实现了计算资源和存储资源的分离,使得Hadoop可以支持多种计算框架,如MapReduce、Spark等,大大提高了资源利用率和集群的可扩展性。而MapReduce、Pig、HBase在Hadoop1.x中就已经存在。15.下列哪项通常是集群的最主要的性能瓶颈A、CPUB、网络C、磁盘D、内存正确答案:C答案解析:在集群环境中,磁盘I/O往往是最主要的性能瓶颈。因为集群中多个节点可能会频繁地访问共享存储设备,读写数据,磁盘的读写速度相对较慢,容易成为整个系统性能的制约因素。而CPU、网络、内存等虽然也可能有影响,但通常不是集群最主要的性能瓶颈所在。16.Hadoop作者A、MartinFowlerB、KentBeckC、Dougcutting正确答案:C答案解析:Hadoop的作者是DougCutting。MartinFowler是知名的软件工程师、作家,在软件开发方法学等领域有重要贡献;KentBeck是极限编程(XP)的创始人之一。而DougCutting创造了Hadoop这一分布式计算框架。17.向HDFS上传文件,正确的shell命令是?()A、hdfsdfs-getB、hdfsdfs-putC、hdfsdfs-appendToFileD、hdfsdfs-copyToLocal正确答案:B答案解析:在HDFS中,向HDFS上传文件使用的命令是hdfsdfs-put。-get是从HDFS下载文件;-appendToFile是追加文件到HDFS已有文件末尾;-copyToLocal是从HDFS复制文件到本地。18.启动Hadoop和HBase之后,执行jps命令,已经看到有HMaster的进程,但是进入到监控界面查看,没有节点信息:最有可能原因()A、HADOOP服务未启动B、HBase服务未启动C、HBase处于安全模式D、HBase服务未安装正确答案:C答案解析:当HBase处于安全模式时,会限制一些操作,可能导致节点信息无法正常显示在监控界面。虽然看到有HMaster进程说明HBase服务已启动,但安全模式会影响部分功能的正常呈现。A选项HADOOP服务未启动与看到HMaster进程矛盾;B选项HBase服务未启动也与看到HMaster进程不符;D选项HBase服务未安装则不会出现有HMaster进程的情况。19.以下()文件中主要用来配置ResourceManager,NodeManager的通信端口,web监控端口等。A、core-site.xmlB、mapred-site.xmlC、hdfs-site.xmlD、yarn-site.xml正确答案:D答案解析:在YARN的配置中,yarn-site.xml主要用于配置ResourceManager,NodeManager的通信端口,web监控端口等相关参数。core-site.xml主要用于配置Hadoop的一些通用属性,如文件系统的默认配置等;mapred-site.xml主要用于配置MapReduce相关的参数;hdfs-site.xml主要用于配置HDFS的相关参数,如数据块大小、副本数量等。20.大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的()A、新一代技术平台B、新一代信息技术和服务业态C、新一代服务业态D、新一代信息技术正确答案:B答案解析:大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。它不仅仅是新一代信息技术,还形成了相应的服务业态,A选项不准确,C选项不全面,D选项没有体现出服务业态这一关键内容,所以选B。二、多选题(共20题,每题1分,共20分)1.配置机架感知的下面哪项正确A、写入数据的时候会写到不同机架的DataNode中B、如果一个机架出问题,不会影响数据读写C、MapReduce会根据机架获取离自己比较近的网络数据正确答案:ABC2.HDFS保障可靠性的措施()A、数据冗余机制B、数据节点心跳包C、数据节点块报告D、数据完整性检测正确答案:ABD3.大数据运维中的日志分类为()A、错误日志:由各种错误信息组成的日志信息B、内核及系统日志:由系统服务syslog统一进行管理,日志格式基本相似。C、用户日志:记录系统用户登录及退出系统的相关信息。D、程序日志:由各种应用程序抽立管理的日志文件,记录格式不统一正确答案:BCD4.Hive有哪些方式保存元数据()A、remoteusermodeB、multiusermodeC、telnetusermodeD、singleusermode正确答案:ABD答案解析:1.**Metastore模式介绍**:-**单用户模式(Singleusermode)**:-这是一种保存元数据的方式。在单用户模式下,同一时间只有一个用户可以访问元数据,适用于开发和测试场景,此时可以方便地对元数据进行各种操作,如创建表、修改表结构等。-**多用户模式(Multiusermode)**:-支持多个用户同时访问元数据,能满足企业级多用户并发操作元数据的需求,比如不同的数据分析团队成员可以同时对元数据进行查询、修改等操作。-**远程用户模式(Remoteusermode)**:-允许远程用户访问元数据,通过网络等方式,使得不同地点的用户都能使用Hive的元数据服务,方便分布式团队协作处理数据相关任务。-**telnetusermode**:-Telnet是一种网络协议,主要用于远程登录。但它并不是Hive保存元数据的一种特定模式,Hive保存元数据与Telnet本身没有直接关联,所以它不属于保存元数据的方式。综上所述,ABC选项是Hive保存元数据的方式,D选项不是。5.下面描述正确的是()A、HDFS将数量众多的廉价机器使得硬件错误成为常态B、HDFS支持多种软硬件平台中的可移植性C、HDFS上的一个文件大小是G或T数量级的,支持的文件数量达到千万数量级D、HDFS上的文件可以任意修改正确答案:ABC答案解析:选项A,HDFS确实是构建在大量廉价机器之上,硬件错误较为常见;选项B,HDFS具有良好的可移植性,支持多种软硬件平台;选项C,HDFS适合存储大文件,一个文件大小通常是GB或TB数量级,且支持的文件数量能达到千万数量级;选项D错误,HDFS上的文件一般是一次写入,多次读取,不支持任意修改。6.Linux的特点是以下()方面A、开放源代码的程序软件,可自由修改。B、与Unix系统不兼容,具备几乎所有Unix的优秀特性。C、可自由传播,免费使用,无任何商业化版权制约。D、适合Intel等x86CPU系列架构的计算机。正确答案:ACD答案解析:Linux是开放源代码的程序软件,可自由修改,A正确;Linux与Unix系统兼容,具备几乎所有Unix的优秀特性,B错误;Linux可自由传播,免费使用,无任何商业化版权制约,C正确;Linux适合Intel等x86CPU系列架构的计算机,D正确。7.YARN服务组件包括()A、NameManagerB、ApplicationMasterC、ContainerD、ResourceManager正确答案:BCD答案解析:NameManager是HDFS的组件,不是YARN的服务组件。ApplicationMaster负责与ResourceManager协商资源,并管理单个应用程序的执行。Container是YARN中的资源抽象,封装了CPU、内存等资源。ResourceManager是YARN的资源管理器,负责管理集群中的资源分配。8.大数据业务处理系统包含()A、数据应用层B、数据处理层C、数据源层D、数据访问层正确答案:ABCD答案解析:大数据业务处理系统通常包含数据源层,用于获取原始数据;数据处理层,对数据进行清洗、转换、分析等处理;数据应用层,将处理后的数据应用于各种业务场景;数据访问层,提供对数据的访问接口,以便其他系统或用户能够获取数据。这四个层次共同构成了大数据业务处理系统,协同工作以实现数据的有效管理和利用。9.Hadoop集群验证步骤包括()A、初始化集群,使用Hadoop命令启动集群。B、使用Hadoop命令,创建HDFS文件夹。C、使用HDFS命令查看文件系统“/”路径下是否存在文件。D、用Hadoop自带的WordCount程序去测试MapReduce正确答案:ABCD答案解析:-选项A:初始化集群并使用Hadoop命令启动集群是验证集群是否正常运行的基础步骤。-选项B:创建HDFS文件夹可以检验HDFS文件系统的创建功能是否正常。-选项C:查看文件系统“/”路径下是否存在文件,能了解HDFS文件系统的基本情况以及文件操作是否正确。-选项D:用Hadoop自带的WordCount程序测试MapReduce可以验证集群的计算能力和MapReduce框架是否正常工作。10.以下选项中哪些是常用的ss命令()A、scpB、sftpC、ssh-copy-idD、ifconfig正确答案:ABC答案解析:scp是用于在不同主机之间复制文件的命令;sftp是安全的文件传输协议,用于进行文件传输;ssh-copy-id用于将本地的公钥复制到远程主机,方便通过ssh进行无密码登录。这三个命令都是在Linux或类Unix系统中常用的与远程操作和文件传输相关的ss命令。而ifconfig是用于查看和配置网络接口信息的命令,不属于这里所说的常用的ss命令范畴。11.Hadoop平台的主要配置文件是()A、slaves.xmlB、hdfs-site.xmlC、mapred-site.xmlD、core-site.xml正确答案:BCD12.ZooKeeper的节点类型有?()A、临时节点B、持久节点C、顺序节点D、监控节点正确答案:ABC答案解析:ZooKeeper的节点类型主要有临时节点、持久节点、顺序节点。临时节点在创建节点的客户端与ZooKeeper断开连接后会被自动删除;持久节点会一直存在,直到被主动删除;顺序节点会在节点名称后自动追加一个单调递增的序号。而监控节点并不是ZooKeeper的节点类型。13.下列关于HDFS对文件分块存储的作用描述正确的是()A、有利于负载均衡B、便于并行处理C、最小化寻址开销D、支持大规模文件存储正确答案:ABCD答案解析:1.**有利于负载均衡**:将大文件分成多个块存储在不同的DataNode上,避免单个节点负载过高,实现了负载均衡。2.**便于并行处理**:多个块可以并行地进行读写操作,提高了数据处理的效率。3.**最小化寻址开销**:因为数据分散存储,寻址时只需要找到包含目标块的DataNode,而不是整个大文件的位置,减少了寻址范围,最小化了寻址开销。4.**支持大规模文件存储**:通过分块,HDFS能够高效地存储和管理非常大的文件,理论上可以支持极大规模的文件存储。14.Flume将采集到的数据输出到()A、HDFSB、HbaseC、HiveD、Kafka正确答案:ABCD15.以下是HTools工具特点()A、友善的向导式操作流程B、无需安装HTools客户端C、支持系统配置文件的推送和同步D、支持同时管理多个Hadoop集群和节点正确答案:ABD16.启动HDFS后,jps能看到哪些守护进程?()A、DataNodeB、NameNodeC、NodeManagerD、SecondaryNameNode正确答案:ABD答案解析:启

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论