(新版)《hadoop基础练习》考试(重点)题库(附答案)_第1页
(新版)《hadoop基础练习》考试(重点)题库(附答案)_第2页
(新版)《hadoop基础练习》考试(重点)题库(附答案)_第3页
(新版)《hadoop基础练习》考试(重点)题库(附答案)_第4页
(新版)《hadoop基础练习》考试(重点)题库(附答案)_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(新版)《hadoop基础练习》考试(重点)题库(附答案)单选题1.Hadoop安装在一台计算机上,需修改相应的配置文件,用一台计算机模拟多台主机的集群是()模式。A、全分布模式B、伪分布模式C、单机模式D、全分布HA模式参考答案:B2.HBase的Region组成中,必须要有以下哪一项。A、StoreFileB、HFileC、MetaStoreD、MemStore参考答案:D3.HBase架构的四大组件中,()HBase集群的主控服务器。A、ZookeeperB、MasterC、RegionServerD、Client参考答案:B4.HBase架构的四大组件中,()包含访问HBase的接口。A、ZookeeperB、MasterC、RegionServerD、Client参考答案:D5.HBase来源于哪一项?A、TheGoogleFileSystemB、MapReduceC、BigTableD、Chubby参考答案:C6.HBase是分布式列式存储系统,记录按什么集中存放A、列B、列族C、行D、不确定参考答案:B7.HBase虚拟分布式模式需要()个节点?A、1B、2C、3D、最少3个参考答案:A8.HBase与下列哪个选项属于同一种类型的数据库()A、MongoDBB、MariaDBC、MySQLD、Oracle参考答案:A9.HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是A、一次写入,少次读写B、多次写入,少次读写C、一次写入,多次读写D、多次写入,多次读写参考答案:C10.HDFS默认备份数量?()A、0B、1C、2D、3参考答案:D11.HDFS默认备份数量是多少?()A、0B、1C、2D、3参考答案:D12.HDFS默认的当前工作目录是/user/$USER,的值需要在哪个配置文件内说明A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、以上均不是参考答案:B13.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?A、一次写入,少次读B、多次写入,少次读C、多次写入,多次读D、一次写入,多次读参考答案:D14.HDFS退出安全模式使用的命令是?A、hadoopdfsadmin-saftmodewaitB、hadoopdfsadmin-saftmodeleaveC、hadoopdfsadmin-saftmodeenterD、以上都不正确参考答案:B15.Hive查询语言和SQL的一个不同之处在于()操作A、GroupbyB、JoinC、PartitionD、Union参考答案:C16.MapReduce基本数据类型不包括()A、BooleanWritableB、ByteWritableC、CharWritableD、IntWritable参考答案:C17.MapReduce框架提供了一种序列化机制,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是?A、实现Writable接口的类是值B、实现WritableComparable<T>接口的类可以是值或键C、键和值的数据类型可以超出Hadoop自身支持的基本类型D、Hadoop的基本类型Text并不实现WritableComparable<T>接口参考答案:D18.OSI网络模型有几层结构?A、六层B、七层C、八层D、九层参考答案:B19.shuffle环形内存缓冲区达到()溢写A、60MB、70MC、80MD、90M参考答案:C20.Shufile阶段中哪一步是可选的?()A、排序B、分区C、分组D、规约参考答案:D21.yarn-site.xml中参数和解释不能对应的是()A、yarn.nodemanager.resource.memory-mb:定义在节点管理器总的可用资源,以提供给运行容器B、yarn.nodemanager.local-dirs:多条存储路径可以提高磁盘的读写速度C、Yarn.nodemanager.remote-app-log-dir-suffix:汇聚日志的地方,目录路径,HDFS系统D、yarn.nodemanager.aux-services:需要设置的MapReduce的应用程序服务参考答案:C22.YARN的调度器不包括以下哪种?A、FIFOSchedulerB、FairSchedulerC、CapacitySchedulerD、StackScheduler参考答案:D23.大数据存储是指用存储器,以()的形式,存储采集到数据的过程。A、数据库/数据仓库B、集群C、文件系统D、信息系统参考答案:A24.大数据的4V特征是指?A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)参考答案:A25.大数据的分布式计算使用下面哪项技术?()A、HDFSB、MapReduceC、NutchD、Hive参考答案:B26.大数据平台Hadoop的组件中,提供分布式协作服务的组件是()A、HBaseB、ZooKeeperC、SqoopD、Hive参考答案:B27.当讨论hdfs通信的时候,通信发生在以下服务之间,下列说法正确的是。A、Client-NameNode之间,其中NameNode是客户端B、Client-DataNode之间,其中DataNode是客户端C、DataNode-NameNode之间,其中NameNode是服务端D、DataNode-DataNode之间,其中DataNode都是客户端参考答案:C28.分片默认()MA、127B、128C、129D、130参考答案:B29.关闭集群的顺序为(B)。①stop-dfs.sh、②stop-yarn.sh、③mr-jobhistory-daemon.shstophistoryserverA、①②③B、②①③C、③②①D、①③②参考答案:B30.关于Flume的三大组件以下说法正确的是()。A、channel可以和任意数量的source和sink链接。B、channel只能链接单一的source和sink。C、sink在三大组件之间起着桥梁的作用。D、sink从channel消费数据并将其传递给目标地,目标地只能是hdfs。参考答案:A31.关于HDFS的文件写入,正确的是()。A、支持多用户对同一文件的写操作B、用户可以在文件任意位置进行修改C、默认将文件块复制成三份存放D、复制的文件块默认都存在同一机架上参考答案:C32.关于mapreduce框架中一个作业的reduce任务的数目,下列说法正确的是()A、由自定义的Partitioner来确定B、是分块的总数目一半C、可以由用户来自定义,通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D、由MapReduce随机确定其数目参考答案:C33.关于SecondaryNameNode哪项是正确的?A、它对目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间B、它是NameNode的热备C、它对内存没有要求D、SecondaryNameNode应与NameNode部署到一个节点参考答案:A34.关于ZooKeeper临时节点的说法正确的是?A、创建临时节点的命令为:create-s/tmpmyvalueB、一旦会话结束,临时节点将被自动删除C、临时节点不能手动删除D、临时节点允许有子节点参考答案:B35.克隆虚拟机之后需要修改()文件。①/etc/udev/rules.d/70-persistent-net.rules、②/ete/sysconfig/network-scriptd/ifcf-eth0、③/etc/sysconfig/networkA、①②B、①②③C、②③D、①③参考答案:B36.默认端口50070的作用是()。A、查看HDFS监控B、查看YARN监控C、查看日志监控D、不确定参考答案:A37.目前,Hadoop的最高版本是哪个?A、Hadoop3.xB、Hadoop2.xC、Hadoop4.xD、Hadoop1.x参考答案:A38.哪个目录存放用户密码信息:A、/bootB、B./etcC、C./varD、D./dev参考答案:B39.启动ZooKeeper服务的命令是什么?A、zk.shB、zkServer-all.shC、zkServer.shD、zkServer.shstart参考答案:D40.如没有配置hadoop.tmp.dir参数,此时系统默认的临时目录为()A、/tmp/hadoop-hadoopB、/usr/hadoop-hadoopC、/usr/local/hadoop-hadoopD、/usr/local/src/hadoop-hadoop参考答案:A41.数据清洗的方法不包括A、缺失值处理B、B.噪声数据清除C、C.一致性检查D、D.重复数据记录处理参考答案:D42.调用Zookeeper对象创建的节点,不包括()。A、持久节点B、临时节点C、持久顺序节点D、DataNode节点参考答案:D43.为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?A、JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClassB、HADOOP_MAP_DATATYPES环境变量C、随作业一起提交的mapper-specification.xml文件D、InputFormat格式类参考答案:D44.下列关于Hadoop和Spark说法错误的是()。A、二者都支持流式计算B、二者都支持批量计算C、二者都支持机器学习D、二者都支持SQL语句查询参考答案:A45.下列关于HDFS的描述正确的是?A、DataNode通过长连接与NameNode保持通信B、NameNode磁盘元数据不保存Block的位置信息C、HDFS集群支持数据的随机读写D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作参考答案:B46.下列关于zookeeper描述正确的是:A、无论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是一致的B、从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中C、在一个5个节点组成的Zookeeper集群中,如果同时有3台机器宕机,服务不受影响D、如果客户端连接到Zookeeper集群中的那台机器突然宕机,客户端会自动切换连接到集群其他机器参考答案:A47.下列关于使用MapReduce编程模型实现SQL中的join操作错误的是?A、ReduceJoin可以实现内链接,也能实现各种外连接B、ReduceJoin的join操作是在MapReduce程序中的reducer阶段完成的C、MapJoin不会产生数据倾斜D、MapJoin也适合各种join场景,也能实现内连接和各种外链接参考答案:D48.下列描述中,哪项不属于Sqoop的缺点()A、无法控制任务的并发度B、格式紧耦合C、安全机制不够完善D、connector必须符合JDBC模型参考答案:A49.下列哪项通常是集群的最主要瓶颈A、磁盘B、CPUC、网络D、内存参考答案:A50.下列哪些不是ZooKeeper的特点()A、顺序一致性B、原子性C、多样系统映像D、可靠性参考答案:C51.下列哪一种命令格式是不正确的()A、get表行健列族B、scan表时间戳起始行健结束行健C、alter表列族D、put表行键列族:列值参考答案:B52.下列数据换算正确的一项为()。A、1YB=1024EBB、1TB=1024MBC、1PB==1024EBD、1024ZB=1EB参考答案:B53.下列选项中,哪一个不属于Zookeeper应用?()A、数据发布和订阅B、负载均衡C、配置管理D、数据仓库参考答案:D54.下列选项中,哪一个命令不可以用于查看文件内容?A、hadoopB、hadoopC、hadoopD、hadoop参考答案:A55.下列选项中,哪一个命令用于删除文件?A、hadoopB、hadoopC、hadoopD、hadoop参考答案:B56.下列选项中不是大数据计算体系的基本层次的一项为()。A、数据应用系统B、数据开发系统C、数据处理系统D、数据存储系统参考答案:B57.下列选项中那些是Hadoop2.x版本独有的进程()A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode参考答案:C58.下面对Shuffle过程Combiner描述正确的是()A、是将环形缓冲区中相同的key的value合并。B、默认情况下MapTask阶段的环形缓冲区就设置有Combiner可执行。C、是在执行溢写之前就执行Combiner操作D、Combiner的作用反而降低效率参考答案:A59.下面关于Hive的描述错误的是:A、Hive是一个构建在Hadoop之上的数据仓库工具B、Hive是由Facebook公司开发的C、Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据D、Hive定义了简单的类似SQL的查询语言--HiveQL,它与大部分SQL语法无法兼容参考答案:D60.下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是A、一个Map函数就是对一部分原始数据进行指定的操作。B、一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。C、Map与Map之间不是相互独立的。D、Reducee与Reduce之间不是相互独立的。参考答案:A61.下面就Zookeeper的配置文件zoo.cfg的一部分,tickTime=2000initLimit=10syncLimit=5,请问initLimit表示的含义是?A、Leader-Follower初始通信时限B、Leader-Follower同步通信时限C、Client-Server通信心跳时间D、Client-Server初始通信时限参考答案:A62.下面哪个不属于YARN的架构的组成部分?A、JobTrackerB、ResourceManagerC、NodeManagerD、ApplicationMaster参考答案:A63.下面哪个选项中的Daemon总是运行在同一台主机上?A、NameNode&JobTrackerB、SecondaryNameNode&JobTrackerC、NameNode&SecondaryNameNodeD、DataNode&TaskTracker参考答案:D64.下面哪一个不是数据集成组件?A、ApacheB、FlumeC、SqoopD、Hbase参考答案:D65.下面有关NameNode安全模式(safemode)说法错误的是()A、namespace处于安全模式时只能被读取B、NameNode启动时自动进入安全模式C、调用setSafeMode()函数能够打开或关闭安全模式D、安全模式下不能够复制或删除文件中的数据块参考答案:B66.写入数据到HDFS的Sink组件是()。A、HiveSinkB、HBaseSinkC、HDFSSinkD、HadoopSink参考答案:C67.一个MapReduce程序中的MapTask的个数由()决定的。A、输入的总文件数B、客户端程序设置的mapTask的个数C、FileInputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量D、输入的总文件大小/数据块大小参考答案:C68.以下对定时调度器描述正确的是()A、定时调度器负责向应用程序分配资源,它负责监控和应用程序的状态跟踪,并且不能够保证重启由于应用程序本身或硬件出错而执行失败的应用程序B、定时调度器负责向应用程序分配资源,它负责监控和应用程序的状态跟踪,并且能够保证重启由于应用程序本身或硬件出错而执行失败的应用程序C、定时调度器负责向应用程序分配资源,它不负责监控和应用程序的状态跟踪,并且不能够保证重启由于应用程序本身或硬件出错而执行失败的应用程序D、定时调度器负责向应用程序分配资源,它不负责监控和应用程序的状态跟踪,并且能够保证重启由于应用程序本身或硬件出错而执行失败的应用程序参考答案:C69.以下关于QJM原理的描述正确的是。A、节点一般是由偶数个构成。B、JouralNode不对外提供rpc接口。C、每个JouralNode对外有一个简易的rpc接口。D、当写Editlog时,NameNode会向指定节点写文件。参考答案:C70.以下哪一项不属于Hadoop可以运行的模式()A、单机(本地)模式B、伪分布式C、互联网模式D、分布式模式参考答案:C71.以下情况除哪项发生时balancer便会自动退出()A、集群平衡或者没有数据块可以移动B、在连续三次迭代中没有块移动C、与namenode传输时发生异常D、另一个balancer在运行参考答案:A72.以下选项哪个命令可以生成公钥()A、ssh-keygenB、ifupteam0C、nmclidevD、nmcliconsh参考答案:A73.以下选项哪个是YARN中动态创建的资源容器()A、ResourceManagerB、NodeManagerC、ApplicationMasterD、Container参考答案:D74.云计算平台层(PaaS)指的是什么?A、操作系统和围绕特定应用的必需的服务B、将基础设施(计算资源和存储)作为服务出租C、从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型D、提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务参考答案:A75.在Hadoop配置文件中,以下属于core-site.xml文件主要内容的是()A、用于定义系统级别的参数,如HDFSURL、Hadoop的临时目录等。B、名称节点和数据节点的存放位置、文件副本的个数、文件读取权限等。C、配置ResourceManager,NodeManager的通信端口,web监控端口等。D、包括JobHistoryServer和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用内存的默认上下限等。参考答案:A76.在Hadoop项目结构中,MapReduce指的是什么?A、分布式并行编程模型B、流计算框架C、Hadoop上的工作流管理系统D、提供分布式协调一致性服务参考答案:A77.在HBase的组件中,哪一个负责日志记录()A、HRegionB、HFileC、MemStoreD、WAL参考答案:D78.在Java网络编程中,下列包含IP地址的类的对象是A、AppletB、DatagramSocketC、InetAddressD、ServerSocket参考答案:C79.在Java中,File类提供的方法中,哪个方法可以获取一个目录下所有子文件对象A、list()B、getChildren()C、getFiles()D、listFiles()参考答案:D80.在Java中,非静态同步方法的锁对象是A、不确定B、thisC、所属类的类类型D、Object对象参考答案:B81.在Java中,获取主机名可以使用下面哪个方法A、getHostName()B、getLocalHost()C、getByName()D、getHostAddress()参考答案:A82.在Java中,下面不是单例模式要点的是A、单例类只能一个人使用。B、单例类必须自行创建唯一的实例。C、单例类的构造方法可以是public的。D、单例模式会阻止其他对象实例化其自己的单例对象的副本。参考答案:D83.在Java中,下面的哪一个关键字通常用来对对象的加锁,从而使得对对象的访问是排他的A、PrivateB、transientC、synchronizedD、static参考答案:C84.在Java中,下面关于线程优先级的说法中,正确的是A、线程的优先级是不能改变的B、优先级高的线程只是在执行时优先的概率比较大,不是一定的C、优先级越高的线程运行速度比优先级低的执行更快,占用资源更少D、优先级高的线程一定是优先执行的参考答案:B85.在Java中,线程通过()方法可以休眠一段时间,然后恢复运行。A、runB、setProrityC、yieldD、sleep参考答案:D86.在Java中,一个Java程序运行后,在系统中这个程序便可以作为一个A、线程B、进程C、进程或线程D、不可预知参考答案:B87.在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A、notify()B、resume()C、run()D、以上都不是,时间到了会自动继续执行参考答案:D88.在Java中,阅读下列文件定入的Java代码,共有()处错误
importjava.io.*;
publicclassTestIO{
publicstaticvoidmain(String[]args){
Stringstr="文件写入练习";
FileWriterfw=null;//1
try{
fw=newFileWriter("c:\mytext.txt");//2
fw.writerToEnd(str);//3
}catch(IOExceptionex){
ex.printStackTrace();
}
}
}A、0B、1C、2D、3参考答案:C89.在Job类中对输出键值对格式进行设置时,如果Mapper的输出格式与Reducer的输出格式一样,那么可以省略下列()设置。A、job.setOutputKeyClass()与job.setOutputValueClass()B、job.setMapOutputKeyClass()与job.setMapOutputValueClass()C、job.setReduceOutputKeyClass()与job.setReduceOutputValueClass()D、以上都不能省略参考答案:B90.在Linux下安装NTP服务的命令是()。A、yuminstallntpB、yumremoventpC、yumupdatentpD、yumlist参考答案:A91.在Linux中,”./”在Linux系统中是什么意思?A、在当前目录中找B、在环境变量中找C、在PATH中找D、没有任何意义参考答案:A92.在Linux中,usermod命令无法实现的操作是()A、账户重命名B、删除指定的账户和对应的主目录C、锁定和解锁用户账户D、对用户密码进行锁定或解锁参考答案:B93.在Linux中,查看被挂起的进程使用的命令是A、fgB、jobsC、bgD、renice参考答案:B94.在Linux中,查看已启动的服务列表的命令是A、systemctllist-unit-files|grepenabledB、systemctlis-enabledfirewalldC、systemctldisablefirewalldD、systemctlenablefirewalld参考答案:A95.在Linux中,将文字内容打印到屏幕,使用下面那个命令A、echoB、catC、fileD、find参考答案:A96.在Linux中,列出所有分区信息的命令是()A、fdisk-bB、fdisk-sC、fdisk-lD、fdisk-v参考答案:C97.在Linux中,添加新用户账号的命令是()A、useraddB、usernewC、adduserD、newuser参考答案:A98.在Linux中,文件测试运算符用于检测Linux文件的各种属性,以下那个是检测文件是否是普通文件A、[-bfile]B、[-ffile]C、[-cfile]D、[-dfile]参考答案:B99.在Linux中,以下代码哪个可以获取arr={1,2,3,4}数组的长度:A、arr_length=^(#arr[*])$B、arr_length=${#arr[*]}C、arr_length=(#arr[*])D、arr_length=arr.length参考答案:B100.在Mapper类的setup函数里,下列()方式可以用来获取参数值。A、Context.get("argName")B、Configuration.get("argName")C、context.getConfiguration.getInt("argName")D、context.getConfiguration.get("argName")参考答案:D101.在MapReduce程序中,Reducer类中包括的函数有()。A、startup、reduce、endB、setup、reduce、cleanupC、start、run、reduce、endD、startup、run、end参考答案:B102.在Python中,classabc:def__init__(self,age):self.age=agedef__add__(self,obj):returnself.age+obj.agea1=abc(18)a2=abc(20)print(a1+a2)阅读代码,选择执行结果:A、38B、1820C、2018D、没有结果参考答案:A103.在Python中,Flask内部自带的WSGI服务器的默认端口是?()A、80B、21C、8000D、5000参考答案:D104.在Python中,OS模块返回指定目录下的所有文件和目录名的函数是A、os.remove()B、os.listdir()C、os.path.isfile()D、os.getcwd()参考答案:B105.在Python中,Python程序使用自带的哪个模块操作目录A、OS模块B、IO模块C、file模块D、dir模块参考答案:A106.在Python中,关于execute()说法正确的是A、只能用来执行删、改语句B、不能用来一次插入多条记录C、可以用来执行插入语句D、只能用来执行增、改语句参考答案:C107.在Python中,看代码,说结果:classSinger:name=""area=""def__init__(self,name,area):=nameself.area=areasinger1=Singer("陈奕迅","香港")print("歌手:%s\t地区:%s"%(,singer1.area))singer2=Singer("张杰","中国")print("歌手:%s\t地区:%s"%(,singer2.area))A、不能运行B、歌手:陈奕迅地区:香港歌手:张杰地区:中国C、歌手:张杰地区:中国歌手:陈奕迅地区:香港D、歌手:陈奕迅地区:香港歌手:张杰地区:中国参考答案:D108.在Python中,面向对象中的特殊成员以及应用场景描述不正确的是:A、__hash__:判断hash值是否相等的时候依赖__hash__方法B、set的去重机制其实就是根据__hash__和__eq__方法实现的C、__str__:和str()print()%s都是息息相关的,返回值一定是字符串类型D、__str__:和str()print()%s都是息息相关的,返回值不一定是字符串类型参考答案:D109.在Python中,下列表达式的值为True的是A、5+4<=2B、2<5||3>2C、2!=2D、3==2参考答案:B110.在Python中,下列不属于Flask的Request对象的常用属性的是()A、formB、argsC、cookiesD、infos参考答案:D111.在Python中,一个事务是一个不可分割的工作单位,事务中包括的诸操作要么都做,要么都不做说的是事务的哪个特性?A、持久性B、隔离性C、一致性D、原子性参考答案:D112.在ZooKeeper中有三种角色,下列选项中不属于ZooKeeper中的角色()A、ObserverB、LeaderC、ObeyerD、Follower参考答案:C113.在安装配置好Hadoop集群后,查看Namenode节点的端口是以下哪个()A、50030B、50070C、60010D、60030参考答案:B114.在驱动类中,()设置输入数据的格式。A、使用方法setOutputFormatB、使用方法setOutputKeyValueC、使用方法setInputFormatD、使用方法setJarByClass参考答案:C115.在确认客户需求,进行确认需求调研的时候,以下说法正确的是()。A、.按计划有步骤的确定客户需求调研。B、先了解细节需求,再了解宏观需求C、将客户的想法记录下来,就能解决客户的实际问题D、确定客户需求调研的过程中,不可避免的会出现客户提出一些现有条件下根本无法实现或者即使实现也非常困难的要求,我们要无条件去满足客户的需求。参考答案:A116.在执行MapReduce过程中用哪个方法提交作业()A、Job.addCacheFile()B、Job.waitForCompletion()C、Job.setMapperClass()D、Job.setJarByClass()参考答案:B117.针对每行数据内容为”TimestampUrl”的数据文件,在用JobConf对象conf设置conf.setInputFormat(WhichInputFormat.class)来读取这个文件时,WhichInputFormat应该为以下的()A、TextInputFormatB、KeyValueTextInputFormatC、SequenceFileInputFormatD、NLineInputFormat参考答案:B118.主节点程序()。A、NameNodeB、DataNodeC、SecondaryNameNodeD、Jobtracker参考答案:A多选题1.()是大数据运用的基础A、有用的数据B、覆盖率C、隐私问题D、数据统计有效性参考答案:ABCD2.Cloudera提供哪几种安装CDH的方法?A、ClouderamanagerB、TarballC、YumD、Rpm参考答案:ABCD3.Cloudera提供哪几种安装CDH的方法A、ClouderaB、TarC、YumD、Rpm参考答案:ABCD4.GFS中主服务器节点存储的元数据包含这些信息()A、文件副本的位置信息B、命名空间C、Chunk与文件名的映射D、Chunk副本的位置信息参考答案:BCD5.Hadoop集群的整体性能主要受到什么因素影响?A、CPU性能B、内存C、网络D、存储容量参考答案:ABCD6.HBase构建二级索引的实现方式有哪些?A、MapReduceB、CoprocessorC、BloomFilterD、Filter参考答案:AB7.HBase官方版本可以安装在什么操作系统上?A、CentOSB、UbuntuC、RedHatD、Windows参考答案:ABC8.HDFS的命名空间包含什么?A、磁盘B、文件C、块D、目录参考答案:BCD9.HDFS副本技术是分布式计算的重要组成部分,下列关于副本技术描述正确的有()。A、降低访问效率B、负载均衡C、提高系统可靠性D、避免HDFS发生故障参考答案:BCD10.HDFS架构是由哪些组件组成?A、NameNodeB、DataNodeC、ClientD、SecondaryNode参考答案:ABCD11.HDFS文件访问方式有哪些A、HDFSshellB、JavaAPIC、RESTAPID、thrift实现的Python、PHP等语言访问参考答案:AB12.HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?A、命名空间的限制B、性能的瓶颈C、隔离问题D、集群的可用性参考答案:ABCD13.HDNF的作用是负责对数据的分布式储存,其内部对象包括()A、ClientB、NameNodeC、DataBasesD、SecondaryNameNode参考答案:ABD14.Linux系统的优势有()A、多用户多任务,使用者与群组的规划B、稳定、高效和安全C、实时操作系统D、高游戏支持度参考答案:AB15.Linux中重启系统的命令有()A、init0B、init1C、shutdown-rnowD、reboot参考答案:CD16.MapReduce的作业主要包括什么?A、从磁盘或从网络读取数据,即IO密集工作B、计算数据,即CPU密集工作C、针对不同的工作节点选择合适硬件类型D、负责协调集群中的数据存储参考答案:AB17.MapReduce集群中的节点硬件有那些?A、光驱B、主机C、磁盘D、内存参考答案:BCD18.Rowkey设计的原则,下列哪些选项的描述是正确的?A、尽量保证越短越好B、可以使用汉字C、可以使用字符串D、本身是无序的参考答案:ABC19.RPC是分布计算中C/S模型的一个应用实例,对于好hadoop而言,它有以下哪些特点()A、重用性,由于hadoop的特点rpc可以一直使用。B、透明性,远程调用其他机器上的程序,对用户来说就像调用本地的方法一样C、高性能,rpcserver能够处理多个来自client的请求。D、可控性,hadooprpc实现了自定义的rpc框架。参考答案:BCD20.Scala具有以下哪几个主要特点?A、Scala的优势是提供了REPL(Read-Eval-PrintLoop,交互式解释器),提高程序开发效率B、Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中C、Scala具备强大的并发性,支持函数式编程D、Scala可以更好地支持分布式系统参考答案:ABCD21.SecondaryNameNode的唤醒(wakeup)是根据控制检查点的参数来决定的。控制检查点参数有两个,分别是()和()。A、fs.checkpoint.periodB、fs.checkpoint.dirC、fs.checkpoint.sizeD、fsimage参考答案:AC22.YARN的调度算法包括以下哪些选项?()A、FIFOSchedulerB、FairSchedulerC、CapacitySchedulerD、StackScheduler参考答案:ABC23.YARN服务组件包括哪些?A、NameManagerB、ApplicationMasteC、ContainerD、ResourceManager参考答案:BCD24.常用的HDFSAPI有哪些?A、rename()B、copyFromLocalFile()C、mkdirs()D、delete()参考答案:ABCD25.传统关系型数据库是指对应于一个关系模型的所有关系的集合。下列关于传统关系型数据库的特点描述正确的是()。A、容易理解B、使用方便C、易于维护D、支持SQL参考答案:ABCD26.大数据的两个核心技术是什么?A、分布式存储B、分布式应用C、分布式处理D、集中式存储参考答案:AC27.大数据关键技术包括哪些?A、大数据预处理B、大数据存储C、大数据采集D、大数据分析挖掘参考答案:ABCD28.当采用MapReduce作为Hive的执行引擎时,下面描述正确的是:A、当用户向Hive输入一段命令或查询(即HiveQL语句)时,Hive需要与Hadoop交互工作来完成该操作B、命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行C、执行器通常的任务是启动一个或多个MapReduce任务,有时也不需要启动MapReduce任务D、执行器通常的任务一定会包含Map和Reduce操作参考答案:ABC29.当处理CAP的问题时,可以有哪几个明显的选择?A、CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P)B、CP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A)C、AP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C)D、CAP:也就是同时兼顾可用性(A)、分区容忍性(P)和一致性(C),当时系统性能会下降很多参考答案:ABC30.对mapper基类描述正确的是()A、setup():对MapTask进行一些预处理B、map():每次接受一个Key-Value对并对其进行处理,再分发处理C、cleanup():对MapTask进行一些处理后的工作D、Mapper基类中一般用最常用的是断言语法参考答案:ABC31.对reducer基类描述正确的是()A、获取map()方法输出的中间结果B、将中间结果中的Value按照Key划分组(group),而group按照Key排序,形成了<key,(collectionofvalues)>的结构,此时Key是唯一的。C、处理group中的所有Value,相同Key的Value组合。最终Key对应的Value唯一,<key,value>序对形成。D、Reduce不能对数据进行合并处理参考答案:ABC32.对Rowkey设计原则,描述正确的是()A、尽量保证越短越好B、可以使用汉字C、可以使用字符串D、本身是无序的参考答案:ABC33.对于一个流计算系统来说,它应达到以下哪些需求?A、高性能:处理大数据的基本要求,如每秒处理几十万条数据B、实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别C、分布式:支持大数据的基本架构,必须能够平滑扩展D、可靠性:能可靠地处理流数据参考答案:ABCD34.关系数据库已经无法满足Web2.0的需求,主要表现在以下几个方面?A、无法满足海量数据的管理需求B、无法满足数据高并发的需求C、无法满足高可扩展性和高可用性的需求D、使用难度高参考答案:ABC35.关于Hive与传统关系数据库的对比分析,下面描述正确的是:A、在数据存储方面,Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统B、在索引方面,传统的关系数据库可以针对多个列构建复杂的索引,大幅度提升数据查询性能,而Hive不像传统的关系型数据库那样有键的概念,它只能提供有限的索引功能C、在分区方面,传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性、可管理性,以及提高数据库效率;Hive不支持分区功能D、在执行引擎方面,传统的关系数据库依赖自身的执行引擎,而Hive则依赖于MapReduce、Tez和Spark等执行引擎参考答案:ABD36.关于mapreduce自定义数据类型正确的是()A、write()方法实现反序列化B、readFields()方法实现序列化C、write()序列化属性顺序和readFields()方法反序列化属性顺序必须一致。D、可以自定义toString()方法参考答案:CD37.客户端上传文件的时候哪项是正确的?()()A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。参考答案:BD38.客户端上传文件的时候哪项是正确的?()A、数据经过NameNode传递给DataNodeB、客户端端将文件切分为多个Block,依次上传C、客户端只上传数据到一台DataNode,然后由NameNode负责Block复制工作D、客户端发起文件上传请求,通过RPC与NameNode建立通讯。参考答案:BD39.配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?()()A、hadoop-env.shB、profileC、core-site.xmlD、ifcfg-eth0参考答案:AC40.输入egrep-c'(vmx|svm)'/proc/cpuinfo,以下哪些返回值表示支持kvm虚拟化A、0B、B.1C、C.8D、D.16参考答案:BCD41.数据化最早的根基是什么()A、计量B、数字化C、记录D、阿拉伯数字参考答案:AC42.文件系统是提供解决“如何在磁盘上组织文件”的一系列方法和数据结构。传统的分布式文件系统在使用的过程中有哪些弊端?A、单机负载极高B、数据不安全C、文件整理困难D、存储能力受限参考答案:ABC43.下列对应解释正确的有()A、ByteWritable:单字节数值B、FloatWritable:浮点数C、DoubleWritable:双字节数值D、IntWritable:整型数参考答案:ABCD44.下列关于MapReduce的体系结构的描述,说法正确的有?A、用户编写的MapReduce程序通过Client提交到JobTracker端B、JobTracker负责资源监控和作业调度C、TaskTracker监控所有TaskTracker与Job的健康状况D、TaskTracker使用“slot”等量划分本节点上的资源量(CPU、内存等)参考答案:ABD45.下列关于RawComparatorClass描述正确的有()A、Hadoop为序列化提供了优化,类型的比较对M/R而言至关重要,Key和Key的比较也是在排序阶段完成的,hadoop提供了原生的比较器接口RawComparator<T>用于序列化字节间的比较。B、允许其实现直接比较数据流中的记录,无需反序列化为对象,RawComparator是一个原生的优化接口类,它只是简单的提供了用于数据流中简单的数据对比方法,从而提供优化。C、该类仅有一个衍生类所实现D、类似于一个注册表,里面记录了所有Comparator类的集合,Comparators成员用一张Hash表记录Key=Class,value=WritableComprator的注册信息。参考答案:ABD46.下列关于SparkStreaming与Storm的描述,哪些是正确的的?A、SparkStreaming无法实现毫秒级的流计算B、Storm可以实现毫秒级响应件C、Storm无法用于实时计算D、SparkStreaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法参考答案:ABD47.下列关于Storm框架,描述正确的有?A、worker:每个worker进程都属于一个特定的TopologyB、executor:executor是产生于worker进程内部的线程C、task:实际的数据处理由task完成D、在Topology的生命周期中,每个组件的task数目是不会发生变化的,而executor的数目却不一定参考答案:ABCD48.下列关于批量计算和实时计算的说法,正确的有?A、批量计算:充裕时间处理静态数据,如HadoopB、静态数据不适合采用批量计算,因为它不适合用传统的关系模型建模C、流数据必须采用实时计算D、流数据的响应时间一般为秒级,甚至需要毫秒级参考答案:ACD49.下列关于数据模型的描述,哪些是正确的?A、HBase采用表来组织数据,表由行和列组成,列划分为若干个列族B、每个HBase表都由若干行组成,每个行由行键(rowkey)来标识C、列族里的数据通过列限定符(或列)来定位D、每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引参考答案:ABCD50.下列哪些是可以用在hdfs上的指令A、catB、-getC、-rmD、-put参考答案:BCD51.下列哪一项不属于Hadoop的特性?A、较低可扩展性B、只支持java语言C、成本低D、运行在Linux平台上参考答案:AB52.下列选项哪些是ZooKeeper的应用场景?A、Master选举B、分布式锁C、数据发布与订阅D、心跳检测NameNode参考答案:ABCD53.下列选项中,哪些命令可以用于查看文件内容?()A、hadoopfs-ls/hello.txtB、hadoopfs-text/hello.txtC、hadoopfs-cat/hello.txtD、hadoopfs-tail/hello.txt参考答案:BCD54.下列选项中,属于Hive数据模式的是()。A、表B、分区C、桶D、外部表参考答案:ABCD55.下面对Combiner描述正确的是()A、Combiner的作用提高程序执行效率B、Combiner的作用减少对本地磁盘的访问次数。C、Combiner过程设置则执行,否则不执行D、以上都不正确参考答案:ABC56.下面对HBase的描述哪些是正确的?A、不是开源的B、是面向列的C、是分布式的D、是一种NoSQL数据库参考答案:BCD57.下面哪些概念是Hbase框架中使用的()A、HDFSB、GridFSC、ZookeeperD、EXT3参考答案:AC58.下面说法选项错误的是()A、在一个Agent中,同一个source可以有多个channelB、在一个Agent中,同一个sink可以有多个channelC、在一个Agent中,同一个source只能多1个channelD、在一个Agent中,同一个sink只能有1个channel参考答案:AD59.信息科技为大数据时代提供哪些技术支撑?A、存储设备容量不断增加B、网络带宽不断增加C、CPU处理能力大幅提升D、数据量不断增大参考答案:ABC60.以下关于MapReduce缺点描述错误的有()。A、不适合实时计算B、不适合流式计算C、不易于编程D、容错性较差参考答案:CD61.以下关于序列化Writable的说法正确的是?A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。参考答案:ABCD62.以下哪个命令不能将普通用户转换成超级用户:A、superB、B.passwdC、C.tarD、D.su参考答案:ABC63.以下说法不正确的是()A、因为HDFS有多个副本,所以NameNode是不存在单点问题的。B、Slave节点要存储数据,所以它的磁盘越大越好。C、BlockSize是可以修改的。D、如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。参考答案:ABD64.以下选项中属于数据的作用是()A、沟通B、验证假设C、建立信心D、欣赏参考答案:ABC65.与HadoopMapReduce计算框架相比,Spark所采用的Executor具有哪些优点?A、利用多线程来执行具体的任务,减少任务的启动开销B、Executor中有一个BlockManager存储模块,有效减少IO开销C、提供了一种高度受限的共享内存模型D、不同场景之间输入输出数据能做到无缝共享参考答案:AB66.云计算的服务模式和类型主要包括哪三类?A、软件即服务(SaaS)B、平台即服务(PaaS)C、基础设施即服务(IaaS)D、数据采集即服务(DaaS)参考答案:ABC67.云计算关键技术包括什么?A、分布式存储B、虚拟化C、分布式计算D、多租户参考答案:ABCD68.在Java中,下列说法中正确的有A、线程就是程序B、线程是一个程序的单个执行流C、线程是指一个程序的多个执行流D、线程用于实现并发参考答案:BCD69.在Java中,下面哪些选项属于线程生命周期中的状态A、阻塞B、运行C、冰冻D、新建参考答案:ABD70.在Java中,下面属于创建型模式的有A、工厂模式B、抽象工厂模式C、单例模式D、代理模式参考答案:ABC71.在Linux中,SSH登录提供的两种认证方式A、用户名认证B、授权认证C、密码认证D、密钥认证参考答案:CD72.在Python中,pymysql连接数据库进行封装的好处是?A、减少代码量B、提高可维护性C、可以减少代码错误D、安全参考答案:ABD73.在Python中,Python网络框架可以省去开发者处理网络应用底层的()A、协议B、线程C、逻辑D、进程参考答案:ABD74.在Python中,python中关于导入模块或模块中的函数以下说法正确的是:A、使用”import模块名”方式导入模块。B、使用”from模块名import函数名1”方式导入模块中的函数。C、使用“import模块名函数名1”方式导入模块或模块中的函数。D、使用”import函数名”方式导入函数。参考答案:AB75.在Python中,关于break语句的说法中,以下选项中正确的是A、break作为中断处理语句,只能在while和for循环结构中。B、通常和条件语句一起执行。C、当满足一定条件时,使程序立即退出当前语句结构,转而执行该语句结构之后的语句D、当满足一定条件时,终止本次循环,跳转至下一次循环。参考答案:ABC76.在Python中,使用Flask搭建Web项目的方式有哪些?()A、创建PurePython项目B、创建mvc项目C、创建Flask项目D、创建API项目参考答案:AC77.在Python中,下列哪些运算符为成员运算符A、isB、isnotC、inD、notin参考答案:CD78.在Python中,下列属于python算术运算符的是A、**B、++C、//D、--参考答案:AC79.在vi编辑器里,以下哪些是保存退出编辑的命令A、:wqB、B.:xC、C.:wD、D.:qw参考答案:AB80.在实际应用中,大数据处理主要包括以下哪三个类型?A、复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间B、基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间C、基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间D、基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间参考答案:ABD判断题1.1988年通信领域的美国学者MonikaR.Henziger将流数据定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。A、正确B、错误参考答案:B2.Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作A、正确B、错误参考答案:A3.ClouderaCDH是需要付费使用的。A、正确B、错误参考答案:B4.ClouderaCDH是需要免费使用的。A、正确B、错误参考答案:A5.ClouderaEnterpris是需要付费使用的。A、正确B、错误参考答案:A6.combiner合并过程的作用是减少对本地磁盘的访问次数。A、正确B、错误参考答案:A7.datanode负责存储数据A、正确B、错误参考答案:A8.DataNode是文件存储的基本单元,它将Block存储在本地文件系统中。A、正确B、错误参考答案:A9.Elasticsearch是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。A、正确B、错误参考答案:A10.FlumeAgent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。A、正确B、错误参考答案:A11.Ganglia不仅可以进行监控,也可以进行告警。A、正确B、错误参考答案:A12.Ganglia不仅可以进行监控,也可以进行告警。A、正确B、错误参考答案:B13.Hadoop2.0,FIFOScheduler是YARN中默认的资源调度器A、正确B、错误参考答案:B14.hadoopdfsadmin-report命令用于检测HDFS损坏块A、正确B、错误参考答案:B15.Hadoop存在多个副本,且默认备份数量是3。A、正确B、错误参考答案:A16.Hadoop的框架最核心的设计就是:HDFS和MapReduce。A、正确B、错误参考答案:A17.hadoop的主要核心是由两部分组成,HDFS和mapreduce,首先HDFS的原理就是分布式的文件存储系统,将一个大的文件,分割成多个小的文件,进行存储在多台服务器上。A、正确B、错误参考答案:A18.Hadoop默认调度器策略为FIFO,并支持多个Pool提交Job。A、正确B、错误参考答案:B19.Hadoop实现了一个分布式文件系统,简称HDFSA、正确B、错误参考答案:A20.Hadoop是Java开发的,所以MapReduce只支持Java语言编写。A、正确B、错误参考答案:B21.Hadoop支持数据的随机读写A、正确B、错误参考答案:B22.HDFS的采用了“分而治之”的思想。A、正确B、错误参考答案:B23.HDFS的设计初衷就是为将来的海量数据的分布式计算做铺垫的,所以HDFS是一次写入,多次读出的场景A、正确B、错误参考答案:A24.HDFS集群的文件默认存储3份A、正确B、错误参考答案:A25.HDFS既适合超大数据集存储,也适合小数据集的存储。A、正确B、错误参考答案:B26.HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。A、正确B、错误参考答案:A27.HDFS文件系统上的数据是不可以进行更改的。A、正确B、错误参考答案:A28.HDFS一个高度容错性的系统,适合部署在廉价的机器上。A、正确B、错误参考答案:A29.Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。A、正确B、错误参考答案:A30.Hive是一款独立的数据仓库工具,因此在启动前无需启动任何服务。A、正确B、错误参考答案:B31.Hive相比于关系型数据库,有较低的延迟。A、正确B、错误参考答案:B32.hive最终都会转化为mapreduce的job来运行A、正确B、错误参考答案:A33.job.setReducerClass(TxtReducer.class);功能是设置Reduce类A、正确B、错误参考答案:B34.JobTracker是HDFS重要角色。A、正确B、错误参考答案:B35.Jobtracker通常与NameNode在一个节点启动。A、正确B、错误参考答案:A36.Kafka适用于实时性要求不高的场景。A、正确B、错误参考答案:B37.Mapreduce的原理就是使用JobTracker和TaskTracker来进行作业的执行。Map就是将任务展开,reduce是汇总处理后的结果。A、正确B、错误参考答案:A38.mapreduce自定义数据类型实现对数据反序列化方式是readFieldsA、正确B、错误参考答案:A39.mapreduce自定义数据类型要在实现是WritableA、正确B、错误参考答案:B40.Map任务和Reduce任务都具有数据本地化的特性。A、正确B、错误参考答案:B41.Maste

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论