大数据基础-题库带答案_第1页
大数据基础-题库带答案_第2页
大数据基础-题库带答案_第3页
大数据基础-题库带答案_第4页
大数据基础-题库带答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据基础-题库带答案1、通过互联网,查找和了解大数据的产生过程。答案:2、通过互联网,查找和了解大数据的应用场景(领域)。答案:3、通过互联网,查找和了解大数据研究的意义。答案:4、通过互联网查找hadoop集群的组成,根据上课的讲解绘制Hadoop生态系统的思维导图或者关系图,并简要说明Hadoop生态系统中每一部分的功能。答案:5、什么是虚拟机,它的作用是什么?答案:6、简述启动和关闭Hadoop集群的方法。答案:7、简述HDFS中NameNode和DataNode的作用。答案:8、下面哪个命令可以用于创建HDFS目录/hdfstest/testA、hdfsdfs-mkdir/hdfstest/testB、hdfsdfs-get/hdfstest/testC、hdfsdfs-cat/hdfstest/testD、hdfsdfs-rmdir/hdfstest/test答案:A9、下列哪个命令可以下载HDFS文件/hdfstest/test.txtA、hdfsdfs-put/hdfstest/test.txtB、hdfsdfs-get

/hdfstest/test.txtC、hdfsdfs-download/hdfstest/test.txtD、hdfsdfs-move/hdfstest/test.txt答案:B10、删除HDFS上的文件使用的命令是hadoopfs-delete文件名答案:错误11、复制HDFS上的文件可以使用命令hdfsdfs-cp答案:正确12、在HDFS上查看文件内容使用命令hdfsdfs-cat答案:正确13、简述配置windows下Hadoop环境的基本步骤。答案:14、MapReduce是Hadoop最核心的组件之一。答案:正确15、MapReduce是一种分布式计算模型。答案:正确16、MapReduce应用程序一定要用Java来编写。答案:错误17、MapReduce是一种编程模型,用于处理大规模数据集的并行运算。答案:正确18、MapReduce执行计算任务的时候,没个任务的执行过程都被划分为()阶段A、MapB、ReduceC、ResultD、KeyValue答案:AB19、MapReduce的工作过程包括()A、分片、格式化数据源B、执行MapTaskC、执行Shuffle过程D、执行ReduceTaskE、写入文件答案:ABCDE20、查看当前节点的ZooKeeper角色的命令是()A、zkServer.shstatusB、zkServer.shstartC、zkServer.shstopD、zkServer.shformat答案:A21、ZooKeeper默认的两种角色是()A、LeaderB、FollowerC、ObserverD、Master答案:AB22、无论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是一致的。答案:正确23、Znode有两种节点,分别是永久节点和临时节点。答案:正确24、Zookeeper引入Watch机制实现分布式的通知功能。答案:正确25、Zookeeper的JavaAPI操作中,setData方法用于更新数据。答案:正确26、Zookeeper的JavaAPI操作中,getData方法可以查询数据。答案:正确27、Zookeeper的Shell操作中使用delete命令删除节点时,要删除的节点存在子节点的话也可以删除该节点。答案:错误28、Zookeeper的Shell操作中,删除节点的方法是用rm命令。答案:错误29、在Zookeeper的Shell操作中,查看节点可以用lspath[watch]或getpath[watch]

或ls2path[watch]方法。答案:正确30、在Zookeeper的Shell操作中,rmrpath命令可以递归删除节点。答案:正确31、Hive是建立在Hadoop文件系统上的一个数据仓库。答案:正确32、Hive系统架构的组成主要包括()A、用户接口B、跨语言服务C、底层驱动引擎D、元数据存储系统答案:ABCD33、Hive中所有的数据都存储在()中。A、HBaseB、MysqlC、YarnD、HDFS答案:D34、Hive的安装模式有()A、内嵌模式B、本地模式C、远程模式D、网格模式答案:ABC35、Hive是一个独立的数据仓库工具,因此在启动前无需启动任何服务。答案:错误36、Hive和Mysql都有String数据类型。答案:错误

解析:Hive有String数据类型,Mysql没有。37、Hive支持Map键值对的复杂数据类型。答案:正确38、Hive中显示数据库用的命令是showdatabases;答案:正确39、Hive中切换数据库用的命令是USE+数据库名。答案:正确40、Hive中的桶为表提供了额外的结构,Hive在处理某些查询时利用这个结构,能够有效地提高查询效率。答案:正确41、在Flume系统种,在一个Agent中,同一个source可以有多个channel。答案:正确42、在Flume系统中,在一个Agent中,同一个sink可以有多个channel。答案:错误43、在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。答案:正确44、Flume的核心是把数据从数据源通过Source收集过来,再将收集的数据通过Channel汇集到指定的Sink。答案:正确45、Flume的负载均衡接收器处理器支持使用轮询、随机机制进行流量分配。答案:正确46、FlumeAgent是一个JVM进程,它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。答案:正确47、一、目前有一个集群,集群中有三台计算机,分别是hadoop01、hadoop02、hadoop03,都已经装好了Linux操作系统,三台计算机需要完成以下,请按照以下步骤完成操作(操作步骤写出命令,并截图;不具备环境的同学简述操作步骤):1.SSH远程登录功能配置(1)安装并开启SSH服务

(2)创建CRT工具连接三台服务器,这里也可以使用其他的连接工具,如xshell,基本原理都一样

2.三台机器免密登录(1)三台机器执行以下命令,生成公钥与私钥

(2)拷贝公钥到同一台主机(这里都拷贝到hadoop01)

(3)复制第一台机器的认证到其他机器

3.安装JDK上传jdk到/export/software路径下去,并解压(1)安装lrzsz

(2)上传jdk

(3)解压并重命名

4.配置JDK环境变量

5.JDK环境验证

6.解压安装Hadoop上传hadoop-2.7.4.tar.gz包到/export/software目录下,并解压

7.配置Hadoop系统环境变量

8.Hadoop环境验证

答案:48、二、请完成以下HDFSShell的相关操作,写出操作命令。1.查看hdfs命令:

2.查看相应命令的使用方法:

3.创建文件夹:

4.查看hdfs文件(夹)列表:

5.上传文件到hdfs:

6.查看文件内容

7.下载hdfs上的文件:

8.删除hdfs上的文件:

9.复制hdfs上的文件:

10.剪切hdfs上的文件:

11.显示目录中所有文件的大小

12.创建一个0字节的空文件

答案:49、三、请在Hadoop集群中完成以下Zookeep的操作,写出相应的命令:1.显示所有操作命令2.查看当前Zookeeper中所包含的内容3.查看当前节点数据4.创建节点创建序列化永久节点创建临时节点创建永久节点5.获取节点6.修改节点7.监听节点8.删除节点

普通删除的命令

递归删除的命令

答案:50、当前大数据技术的基础是由()首先提出的。A、微软B、百度C、谷歌D、阿里巴巴答案:C51、大数据的起源是()A、金融B、电信C、互联网D、公共管理答案:C52、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。A、数据管理人员B、数据分析员C、研究科学家D、软件开发工程师答案:C53、()反映数据的精细化程度,越细化的数据,价值越高。A、规模B、活性C、关联度D、颗粒度答案:D54、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案:B55、下列关于大数据的说法中,错误的是()。A、大数据具有体量大、结构单一、时效性强的特征B、处理大数据需采用新型计算架构和智能算法等新技术C、大数据的应用注重相关分析而不是因果分析D、大数据的应用注重因果分析而不是相关分析E、大数据的目的在于发现新的知识与洞察并进行科学决策答案:AD56、大数据的价值体现在()A、大数据给思维方式带来了冲击B、大数据为政策制定提供科学论据C、大数据助力智慧城市提升公共服务水平D、大数据实现了精准营销E、大数据的发力点在于预测答案:ABCDE57、当前大数据技术的基础包括()A、分布式文件系统B、分布式并行计算C、关系型数据库D、分布式数据库答案:ABD58、Hadoop是Java开发的,所以MapReduce只支持Java语言编写。答案:错误

解析:hadoop是用R语言开发的,MapReduce是一个框架,可以理解是一种思想,可以使用其他语言开发。59、Hadoop支持数据的随机读写。答案:错误

解析:lucene是支持随机读写的,而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写,来解决Hadoop不能处理的问题。HBase自底层设计开始即聚焦于各种可伸缩性问题:表可以很“高”,有数十亿个数据行;也可以很“宽”,有数百万个列;水平分区并在上千个普通商用机节点上自动复制。表的模式是物理存储的直接反映,使系统有可能提高高效的数据结构的序列化、存储和检索。60、配置JDK环境变量时,需要对下列哪个文件进行修改()A、hadoop-env.shB、core-site.xmlC、hdfs-site.xmlD、profile答案:D61、下面选项中哪一项可以单独启动namenode进程命令()A、hadoop-daemon.shstartnamenodeB、hadoop-daemon.shnamenodestartC、start

namenode

hadoop-daemon.shD、starthadoop-daemon.sh

namenode答案:A62、以下对Hadoop主要配置文件描述正确的是()A、core-site.xml:Hadoop核心全局配置文件,可在其他配置文件中引用该文件。B、hdfs-site.xml:HDFS配置文件,继承core-site.xml配置文件。C、mapred-site.xml:MapReduce配置文件,继承core-site.xml配置文件。D、以上都正确答案:D63、启动Hadoop集群,要启动内部的集群框架是下列的哪个选项()A、Hadoop集群和HDFS集群框架B、YARN集群和MapReduce集群框架C、HDFS集群和YARN集群框架D、HDFS集群和MapReduce集群框架答案:C64、在下列哪个配置文件中可以修改数据块的副本数量()A、core-site.xmlB、hdfs-site.xmlC、slavesD、hadoop-env.sh答案:B65、Hadoop集群启动完成后,通过jps指令查看各节点的服务进程,主节点上一定会存在下列哪个进程()A、NodeManagerB、NameNodeC、DataNodeD、SecondaryNameNode答案:B66、VMware提供两种类型的克隆,正确的是下列哪项()A、完全克隆和不完全克隆B、链接克隆和非链接克隆C、完全克隆和链接克隆D、链接克隆和不完全克隆答案:C67、Hadoop集群的计算资源是由以下哪一项进行管理()A、NameNodeB、DataNodeC、ResourceManagerD、NodeManager答案:C68、下列关于主节点的格式化处理说法错误的是()A、初次启动HDFS集群时,必须对主节点进行格式化处理B、每次启动HDFS集群,都必须对主节点进行格式化处理C、初次启动HDFS时,不一定要对主节点进行格式化处理D、什么时候主节点都不需要进行格式化处理答案:BCD69、Hadoop集群的部署环境有下列哪些()A、单机版环境B、伪分布式环境C、完全分布式环境D、以上都不是答案:ABC70、下面哪个选项负责HDFS数据存储()。A、NameNodeB、DataNodeC、SecondaryNameNodeD、NodeManager答案:B71、HDfS中的block默认保存几份()A、1份B、2份C、3份D、不确定答案:C72、将Windows中的文件上传到HDFS目录下,会涉及到本地计算机(Windows)上的文件系统、集群服务器节点(Linux)上的文件系统以及HDFS文件系统。答案:正确73、将Windows中的文件上传到HDFS目录下,会涉及到下列哪些文件系统()A、本地计算机(Windows)上的文件系统B、集群服务器节点(Linux)上的文件系统C、HDFS文件系统D、不需要文件系统答案:ABC74、hadoopfs-chmod777命令的作用是改变文件所属组。答案:错误75、maven是专门用于构建和管理Java相关项目的工具,有一个pom.xml用于维护当前项目都用了哪些jar包。答案:正确76、MapReduce中Map过程输出的键值对,将有下列哪个组件()进行合并处理。A、MapperB、InputFormatC、ReducerD、OutputFormat答案:C77、Combiner组件的作用是对Map阶段输出的重复数据先做一次合并计算,再把新的(key,value)作为Reduce阶段的输入。答案:正确78、自定义Combiner时,不需要继承Reduce类。答案:错误

解析:自定义Combiner时,需要继承Reduce类,并且重写reduce()方法。79、MapReduce性能优化策略可以从下列哪些方面进行()A、数据输入B、Map阶段C、Reduce阶段D、Shuffl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论