1+x大数据模考试题(含答案解析)_第1页
1+x大数据模考试题(含答案解析)_第2页
1+x大数据模考试题(含答案解析)_第3页
1+x大数据模考试题(含答案解析)_第4页
1+x大数据模考试题(含答案解析)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1+x大数据模考试题(含答案解析)一、单选题(共30题,每题1分,共30分)1.列出mysql数据库中的所有数据库sqoop命令是?A、sqooplist-databases–connectB、sqooplist-tables–connectC、sqoopcreate-hive-table–connectD、sqoopimport–connect正确答案:A答案解析:选项A中`sqooplist-databases–connect`命令用于列出MySQL数据库中的所有数据库。选项B的`sqooplist-tables–connect`是列出数据库中的表;选项C的`sqoopcreate-hive-table–connect`主要用于创建Hive表;选项D的`sqoopimport–connect`用于将数据从数据库导入到Hadoop等,均不符合列出所有数据库的要求。2.关于SecondaryNameNode哪项是正确的?A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点正确答案:C答案解析:SecondaryNameNode的主要作用是辅助NameNode合并编辑日志,当编辑日志达到一定大小时,SecondaryNameNode会将其与命名空间镜像合并,这样可以减少NameNode启动时需要加载的编辑日志数量,从而缩短NameNode的启动时间。它不是NameNode的热备,对内存有一定要求,并且通常不建议与NameNode部署在同一个节点。3.下列命令中(在zookeeper安装文件夹的bin目录下执行),哪项是停止ZooKeeper的正确命令()A、start-all.shB、start-stop.shC、zkServer.shstopD、zkServer.shstart正确答案:C答案解析:停止ZooKeeper需要在其安装文件夹的bin目录下执行zkServer.shstop命令。选项A的start-all.sh是启动所有相关服务的命令;选项B的start-stop.sh不是ZooKeeper的标准操作命令;选项D的zkServer.shstart是启动ZooKeeper的命令。4.大数据分析平台的实施流程顺序是()。A与甲方确定总体计划B组建项目团队C部署环境准备D应用集成及数据集成E系统安装和调试A、BACEDB、CABEDC、ADCBED、DABCE正确答案:A答案解析:大数据分析平台实施流程首先要与甲方确定总体计划,明确项目的整体目标、范围、时间节点等重要内容,所以A排在首位;接着组建项目团队,由专业人员负责后续工作,即B;之后进行部署环境准备,搭建好运行平台,也就是C;再进行系统安装和调试,确保系统正常运行,即E;最后进行应用集成及数据集成,将平台与其他应用和数据进行整合,所以顺序是BACED,答案选A。5.下列哪些不是HBase的特点()A、高可靠性B、高性能C、面向列D、紧密性正确答案:D答案解析:HBase具有高可靠性、高性能、面向列等特点。紧密性并不是HBase的典型特点,它强调的是数据存储的紧密程度,而HBase主要特点不包括紧密性。6.采用多副本冗余存储的优势不包含(.A、容易检查数据错误B、保证数据可靠性C、加快数据传输速度D、节约存储空间正确答案:D7.将数据从关系型数据库中导出到HDFS上,应当使用命令_____?()A、importB、exportC、listD、以上都不对正确答案:A8.关于Sqoop数据的导入导出描述不正确的是?A、实现从MySQL到Hive的导入导出B、实现从MySQL到Oracle的导入导出C、实现从HDFS到Oracle的导入导出D、实现从HDFS到MySQL的导入导出正确答案:B答案解析:Sqoop主要用于在关系型数据库(如MySQL等)和Hadoop生态系统(如HDFS、Hive等)之间进行数据的导入导出。它支持从MySQL到Hive、从HDFS到Oracle、从HDFS到MySQL等多种常见场景。但是不支持从MySQL到Oracle的直接导入导出,因为MySQL和Oracle是不同类型的关系型数据库,Sqoop本身并没有直接提供这种跨不同数据库系统之间的直接导入导出功能。9.以下对数据节点理解错误的是(.A、数据节点的数据保存在磁盘中B、数据节点用来存储具体的文件内容C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作D、数据节点通常只有一个正确答案:D答案解析:数据节点通常有多个,而不是只有一个。数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作,用来存储具体的文件内容,且数据保存在磁盘中。10.对Sqoop描述不正确的是?()A、Sqoop的底层实现是MapReduceB、Sqoop主要采集关系型数据库中数据,常用于离线计算批量处理C、Sqoop只支持从关系型数据库导入到HDFS,不支持从HDFS导入到关系型数据库。D、Sqoop脚本最终会变成提交到YARN上的一个个map任务正确答案:C答案解析:Sqoop不仅支持从关系型数据库导入到HDFS,也支持从HDFS导入到关系型数据库。它的底层实现是MapReduce,主要用于采集关系型数据库中数据,常用于离线计算批量处理,其脚本最终会变成提交到YARN上的一个个map任务。所以选项C描述不正确。11.下列描述中,哪项不属于Sqoop的缺点()A、无法控制任务的并发度B、格式紧耦合C、安全机制不够完善D、connector必须符合JDBC模型正确答案:A答案解析:Sqoop的缺点包括格式紧耦合、安全机制不够完善、connector必须符合JDBC模型等。而Sqoop可以通过设置参数等方式控制任务的并发度,所以无法控制任务的并发度不属于其缺点。12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。A、一次写入,少次读B、多次写入,少次读C、多次写入,多次读D、一次写入,多次读正确答案:D答案解析:HDFS的设计理念是一次写入,多次读取。它适用于那些数据一旦写入就很少修改,而需要频繁读取的场景,比如数据分析、日志处理等。一次写入可以保证数据的完整性和一致性,多次读取则满足了对数据的大量访问需求。13.关于SecondaryNameNode的描述,哪项是正确的?()A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点正确答案:C答案解析:SecondaryNameNode的主要作用是帮助NameNode合并编辑日志。NameNode在运行过程中,编辑日志会不断增长,当编辑日志过大时会影响NameNode的启动时间。SecondaryNameNode会周期性地从NameNode获取编辑日志和镜像文件,进行合并,生成新的镜像文件,然后将其传回给NameNode,从而减少NameNode启动时需要加载的编辑日志量,减少启动时间。它不是NameNode的热备,对内存是有一定要求的,并且通常不应该与NameNode部署到一个节点。14.MapReduce编程模型,键值对<key,value>的key必须实现哪个接口?()A、WritableComparableB、ComparableC、WritableD、LongWritable正确答案:A答案解析:MapReduce编程模型中,键值对<key,value>的key必须实现WritableComparable接口。该接口继承了Writable接口用于序列化和反序列化,同时继承了Comparable接口用于排序。这样可以保证在MapReduce过程中,键能够进行序列化、反序列化以及比较操作,从而实现数据的正确分组和排序等功能。15.Hadoop安装在一台计算机上,需修改相应的配置文件,用一台计算机模拟多台主机的集群是()模式。A、全分布模式B、伪分布模式C、单机模式D、全分布HA模式正确答案:B答案解析:伪分布模式是指在一台物理机器上模拟出一个多节点的Hadoop集群环境,通过修改相应的配置文件来实现,所以符合题目描述。全分布模式需要多台真实的物理主机;单机模式就是在单台机器上运行Hadoop,没有模拟多台主机的概念;全分布HA模式强调高可用性,且也是基于多台真实主机的。16.下面关于分布式文件系统HDFS的描述正确的是:()A、分布式文件系统HDFS是谷歌分布式文件系统GFS(GoogleFileSystem)的一种开源实现B、分布式文件系统HDFS比较适合存储大量零碎的小文件C、分布式文件系统HDFS是GoogleBigtable的一种开源实现D、分布式文件系统HDFS是一种关系型数据库正确答案:A答案解析:HDFS是谷歌分布式文件系统GFS的开源实现。B选项,HDFS不适合存储大量零碎小文件,更适合存储大文件。C选项,HDFS不是GoogleBigtable的开源实现。D选项,HDFS是分布式文件系统,不是关系型数据库。17.日志消息的级别中那个是不会影响系统但值得注意()A、ALEKKTB、CRITC、NOTICED、DEBUG正确答案:C答案解析:NOTICE级别表示不会影响系统但值得注意的信息。ALEKKT并不是标准的日志级别。CRIT级别表示严重的错误,会影响系统正常运行。DEBUG级别主要用于开发调试,通常包含大量详细信息,也不只是“值得注意”这么简单。18.下列哪些不是ZooKeeper的特点()A、顺序一致性B、原子性C、多样系统映像D、可靠性正确答案:C答案解析:ZooKeeper的特点包括顺序一致性、原子性、可靠性等。顺序一致性是指客户端的更新请求按发送顺序得到应用;原子性是指更新操作要么成功要么失败,不会存在部分成功的情况;可靠性是指ZooKeeper保证服务的可用性和数据的完整性。而多样系统映像并不是ZooKeeper的特点。19.下面哪个程序负责HDFS数据存储?()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNodeE、tasktracker正确答案:C答案解析:NameNode负责管理文件系统的命名空间,维护文件系统树以及文件树中所有文件和目录的元数据;JobTracker负责作业调度;Datanode负责数据的存储,它按照NameNode的要求存储数据块;secondaryNameNode主要辅助NameNode,定期合并命名空间镜像和编辑日志;tasktracker是MapReduce中负责执行任务的节点。所以负责HDFS数据存储的是Datanode。20.在Centos7系统中,查看和修改IP信息需要用到()文件A、/etc/sysconfig/network/ifcfg-ens0B、/etc/sysconfig/network-script/ifcfg-ens0C、/etc/sysconfig/ifcfg-ens0D、/etc/resolv.conf正确答案:B答案解析:在Centos7系统中,网络配置文件存放在`/etc/sysconfig/network-scripts/`目录下,具体的网卡配置文件命名格式为`ifcfg-网卡名`,例如常见的`ifcfg-ens0`,所以查看和修改IP信息需要用到`/etc/sysconfig/network-script/ifcfg-ens0`这个文件。选项A的路径错误;选项C缺少`network-script`目录;选项D的`/etc/resolv.conf`是DNS配置文件,不是用于查看和修改IP信息的。21.关于ZooKeeper的特性说法错误的是?()A、能改变ZooKeeper服务器状态的操作称为事务操作B、是版本机制有效避免了数据更新时出现的先后顺序问题C、当节点发生变化时,通过watcher机制,可以让客户端得到通知D、watch能触发多次正确答案:D答案解析:ZooKeeper的watch只能触发一次,当数据发生变化时,相应的watcher会被触发,执行一次之后该watcher就会失效。A选项,能改变ZooKeeper服务器状态的操作称为事务操作,比如创建节点、更新节点数据、删除节点等,该选项正确。B选项,ZooKeeper通过版本机制(如节点数据版本、子节点版本等)有效避免了数据更新时出现的先后顺序问题,该选项正确。C选项,当节点发生变化时,通过watcher机制,可以让客户端得到通知,该选项正确。22.ResourceManager对web服务提供地址,用户可通过ip地址:()在浏览器中查看集群各类信息A、8088B、8033C、8080D、8032正确答案:A答案解析:ResourceManager对Web服务提供的地址是8088,用户可通过该地址在浏览器中查看集群各类信息。8033一般用于其他相关服务;8080常用于Web应用程序等其他场景;8032也不是ResourceManager对应的查看集群信息的地址。23.在hadoop配置中yarn-site.xml作用是()A、用于定义系统级别的参数B、用于名称节点和数据节点的存放位置C、用于配置JobHistoryServer和应用程序参数D、配置ResourceManager,NodeManager的通信端口正确答案:D答案解析:在hadoop配置中,yarn-site.xml主要用于配置ResourceManager,NodeManager的通信端口等相关参数,以定义YARN集群的相关属性,实现各个组件之间的通信和协作。A选项说的是core-site.xml的作用;B选项说的是hdfs-site.xml的作用;C选项说的是mapred-site.xml的作用。24.Centos中修改文件或目录的访问权限命令A、chownB、passwdC、chmodD、clear正确答案:C25.下列选项哪个不是ZooKeeper的应用场景?()A、Master选举B、分布式锁C、分布式协调/通知D、存储非关系型数据正确答案:D答案解析:ZooKeeper主要用于分布式系统中的Master选举、分布式锁、分布式协调/通知等场景。它是一个分布式协调服务,并非专门用于存储非关系型数据。存储非关系型数据通常使用专门的非关系型数据库,如MongoDB、Redis等。26.数据节点(DataNode)负责存储数据,一个数据块会在多个DataNode中进行冗余备份,那么HDFS默认存储几份?()A、1B、2C、3D、5正确答案:C答案解析:HDFS默认存储3份数据块,以确保数据的可靠性和容错性。这样即使有两个DataNode出现故障,数据仍然可用。27.在hadoop配置中core-site.xml的配置是()参数。A、集群全局参数B、HDFS参数C、Mapreduce参数D、集群资源管理系统参数正确答案:A答案解析:core-site.xml用于配置Hadoop集群的全局参数,如Hadoop运行时的临时目录、默认文件系统等。它不是专门针对HDFS、MapReduce或集群资源管理系统的特定参数配置文件。28.HDFS默认BlockSize的大小是()。A、32MBB、64MBC、128MBD、256M正确答案:C29.Sqoop的底层实现是_____?()A、HDFSB、MapReduceC、HBaseD、Hadoop正确答案:B答案解析:Sqoop的底层实现是基于MapReduce。它利用MapReduce来实现数据的抽取、转换和加载等操作。通过MapReduce的并行处理能力,Sqoop能够高效地处理大规模数据的迁移任务,将关系型数据库中的数据导入到Hadoop生态系统中,或者从Hadoop生态系统中导出数据到关系型数据库。30.tar命令用于对文件进行打包压缩或解压,-t参数含义()A、创建压缩文件B、解开压缩文件C、查看压缩包内有哪些文件D、向压缩归档末尾追加文件正确答案:C答案解析:-t参数用于查看压缩包内有哪些文件。选项A创建压缩文件一般使用-c参数;选项B解开压缩文件使用-x参数;选项D向压缩归档末尾追加文件使用-r参数。二、多选题(共20题,每题1分,共20分)1.Linux的特点是以下()方面A、开放源代码的程序软件,可自由修改。B、与Unix系统不兼容,具备几乎所有Unix的优秀特性。C、可自由传播,免费使用,无任何商业化版权制约。D、适合Intel等x86CPU系列架构的计算机。正确答案:ACD答案解析:Linux是开放源代码的程序软件,可自由修改,A正确;Linux与Unix系统兼容,具备几乎所有Unix的优秀特性,B错误;Linux可自由传播,免费使用,无任何商业化版权制约,C正确;Linux适合Intel等x86CPU系列架构的计算机,D正确。2.以下选项中哪些是常用的ss命令()A、scpB、sftpC、ssh-copy-idD、ifconfig正确答案:ABC答案解析:scp是用于在不同主机之间复制文件的命令;sftp是安全的文件传输协议,用于进行文件传输;ssh-copy-id用于将本地的公钥复制到远程主机,方便通过ssh进行无密码登录。这三个命令都是在Linux或类Unix系统中常用的与远程操作和文件传输相关的ss命令。而ifconfig是用于查看和配置网络接口信息的命令,不属于这里所说的常用的ss命令范畴。3.验证SSH无密码登录需要()步骤A、修改Master节点authorized_keys文件B、修改Slave节点authorized_keys文件C、验证Master到每个Slave节点无密码登录D、验证两个Slave节点到Master节点无密码登录正确答案:ABCD答案解析:首先需要修改Master节点的authorized_keys文件,将Slave节点的公钥添加进去,这是实现Master到Slave无密码登录的基础,所以A步骤是必要的;同理,修改Slave节点的authorized_keys文件,添加Master节点公钥,实现Slave到Master的无密码登录,B步骤也不可或缺;然后要验证Master到每个Slave节点能够无密码登录,C步骤是对配置效果在这一方向的验证;同时也需要验证两个Slave节点到Master节点无密码登录,D步骤是对配置效果在另一方向的验证。只有完成这四个步骤,才能全面验证SSH无密码登录。4.HDFS保障可靠性的措施()A、数据冗余机制B、数据节点心跳包C、数据节点块报告D、数据完整性检测正确答案:ABD5.MapReduce是Hadoop中集群数据处理的核心,分为()A、分为映射,映射为Map阶段B、分为减速,减速为Reduce阶段C、分为映射,映射为Reduce阶段D、分为减速,减速为Map阶段正确答案:AB答案解析:MapReduce分为Map(映射)阶段和Reduce(规约)阶段。在Map阶段,主要是将输入数据进行分割并进行初步处理;在Reduce阶段,对Map阶段输出的数据进行汇总和进一步处理,以得到最终的结果。6.下列属于hadoop的发行版本的是()A、ApacheB、ClouderaC、RedhatD、Centos正确答案:ABC7.主流虚拟化软件包括()A、VMware系列虚拟化软件B、KVM二次开发虚拟化软件C、微软Hyper-V虚拟化软件D、Ctrix虚拟化软件正确答案:ABCD答案解析:VMware系列虚拟化软件是常见的主流虚拟化软件之一。KVM是基于Linux内核的虚拟化技术,经过二次开发后广泛应用,是主流的一种。微软Hyper-V是微软推出的服务器虚拟化产品,在WindowsServer环境中被广泛使用,属于主流虚拟化软件。Ctrix也是在虚拟化领域有重要地位的软件。所以主流虚拟化软件包括这几个选项。8.ZooKeeper的节点类型有?()A、临时节点B、持久节点C、顺序节点D、监控节点正确答案:ABC答案解析:ZooKeeper的节点类型主要有临时节点、持久节点、顺序节点。临时节点在创建节点的客户端与ZooKeeper断开连接后会被自动删除;持久节点会一直存在,直到被主动删除;顺序节点会在节点名称后自动追加一个单调递增的序号。而监控节点并不是ZooKeeper的节点类型。9.Hadoop优点是以下()种。A、高可靠性B、高效率C、扩容能力强D、成本低正确答案:ABCD答案解析:扩容能力强:Hadoop可以方便地通过增加节点来扩展存储和计算能力,适应不断增长的数据量和计算需求。成本低:它可以利用廉价的硬件构建分布式集群,降低了大规模数据处理的硬件成本。高效率:能够并行处理大规模数据,大大提高数据处理的速度和效率。高可靠性:采用分布式存储和计算,数据在多个节点上备份,即使部分节点出现故障也不影响整体运行,具有很高的可靠性。10.大数据运维中的日志分类为()A、用户日志:记录系统用户登录及退出系统的相关信息。B、内核及系统日志:由系统服务syslog统一进行管理,日志格式基本相似。C、错误日志:由各种错误信息组成的日志信息D、程序日志:由各种应用程序抽立管理的日志文件,记录格式不统一正确答案:ABD11.下面描述正确的是()A、HDFS将数量众多的廉价机器使得硬件错误成为常态B、HDFS支持多种软硬件平台中的可移植性C、HDFS上的一个文件大小是G或T数量级的,支持的文件数量达到千万数量级D、HDFS上的文件可以任意修改正确答案:ABC答案解析:选项A,HDFS确实是构建在大量廉价机器之上,硬件错误较为常见;选项B,HDFS具有良好的可移植性,支持多种软硬件平台;选项C,HDFS适合存储大文件,一个文件大小通常是GB或TB数量级,且支持的文件数量能达到千万数量级;选项D错误,HDFS上的文件一般是一次写入,多次读取,不支持任意修改。12.下面哪些是大数据的基本特征?()A、数据体量大B、数据类型多C、处理速度快D、价值密度低正确答案:ABCD答案解析:大数据的基本特征包括数据体量大(Volume)、数据类型多(Variety)、处理速度快(Velocity)、价值密度低(Value),即所谓的4V特征。13.Hadoop核心主要由()部分组成A、HDFSB、DFSC、MapReduceD、RDD正确答案:AC答案解析:Hadoop核心主要由HDFS(分布式文件系统)和MapReduce(分布式计算框架)组成。DFS表述不准确;RDD是Spark中的概念,不是Hadoop核心组成部分。14.下列选项哪些是ZooKeeper的应用场景?()A、Master选举B、分布式锁C、心跳检测D、数据发布与订阅正确答案:ABCD答案解析:ZooKeeper的应用场景非常广泛,具体如下:1.Master选举:ZooKeeper可以用于选举出一个Master节点,负责协调分布式系统中的各个节点。通过在ZooKeeper中创建一个临时节点,各个节点尝试创建该节点,只有一个节点能够成功创建,这个节点即为Master节点。2.分布式锁:ZooKeeper可以实现分布式锁,通过在ZooKeeper中创建一个节点,各个节点尝试获取该节点的锁,只有获取到锁的节点才能进行后续的操作。3.数据发布与订阅:ZooKeeper可以用于数据发布与订阅,通过在ZooKeeper中创建一个节点,发布者将数据写入该节点,订阅者可以通过监听该节点的变化来获取最新的数据。4.心跳检测:ZooKeeper可以用于心跳检测,通过在ZooKeeper中创建一个临时节点,各个节点定期更新该节点的状态,其他节点可以通过监听该节点的变化来判断该节点是否存活。15.启动YARN后,jps能看到哪些守护进程?()A、DataNodeB、NodeManagerC、ResourceManagerD、NameNode正确答案:BC答案解析:启动YARN后,通过jps命令能看到的守护进程有ResourceManager和NodeManager。DataNode和NameNode是HDFS的守护进程,与YARN无关。所以答案是BC。16.以下选项中哪些是SSH涉及到的两个验证方式()A、主机验证B、用户身份验证C、文件系统验证D、操作系统验证正确答案:AB答案解析:SSH涉及到主机验证和用户身份验证这两个验证方式。主机验证主要用于确认连接的服务器是否是预期的服务器,用户身份验证则是验证登录用户的身份是否合法。文件系统验证和操作系统验证并非SSH直接涉及的验证方式。17.HDFS只设置一个名称节点带来的局限性包括()A、隔离问题B、命名空间的限制C、性能的瓶颈D、集群的可用性正确答案:ABCD答案解析:1.**隔离问题**:名称节点负责管理元数据,所有客户端对文件系统的操作请求都要经过它。如果名称节点出现故障,整个集群将无法正常工作,这就导致了隔离问题。例如,在大规模集群中,单个名称节点可能成为性能瓶颈和单点故障源,影响整个集群的可用性和可扩展性。2.**命名空间的限制**:名称节点将整个文件系统的命名空间存储在内存中,随着文件数量和目录结构的不断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论