Hadoop大数据项目实战微课版廖丽课后答案

上传人：大*** IP属地：四川上传时间：2025-12-10 格式：DOCX 页数：14 大小：33.43KB 积分：20 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、填空题1.大数据的特征包含___大量___、__多样_____、_低价值密度_____、__真实____。2.Hadoop3.x版本中的HDFS是由_NameNode、_DataNode_和_SecondaryNode_。3.目前ApacheHadoop发布的版本主要有__Hadoop1.x、___Hadoop2.x_、___Hadoop3.x__。二、简答题1.简述大数据的应用场景。答：大数据的应用领域有：电商领域、医疗领域、政府领域、传媒领域、金融领域、教育领域、交通领域等2.简述大数据的1.x和2.x的区别。答：在Hadoop1.x时代，主要由MapReduce和分布式文件系统(DistributedFileSystem，HDFS）组成，MapReduce既负责Hadoop的资源管理，又负责Hadoop的数据处理，负载较大，HDFS主要负责Hadoop分布式文件存储。在Hadoop2.x时代，增加了Yarn，Yarn负责Hadoop的资源管理和任务调度，MapReduce只负责Hadoop的数据处理，HDFS负责Hadoop中的分布式文件存储

一、填空题1.Hadoop集群部署方式分别是_本地模式、_伪分布模式__和完全分布模式。2.格式化HDFS文件系统的命令是_hdfsnamenode-format________。3.Hadoop默认开设HDFS端口号__9870_______和监控YARN集群端口号__8088______。二、选择题1.HDFS默认备份数量是多少？（D）。A.0B.1C.2D.32.关于Hadoop单机模式和伪分布式模式的说法，正确的是（D）。A.两者都起守护进程，且守护进程运行在一台机器上B.单机模式不使用HDFS，但加载守护进程C.两者都不与守护进程交互，避免复杂性D.后者比前者增加了HDFS输入输出以及可检查内存使用情况3.大数据集群的主要瓶颈是（C）。A.CPUB.网络C.磁盘IOD.内存4.大数据集群的主要瓶颈是（C）。A.CPUB.网络C.磁盘IOD.内存三、操作题1.在本地电脑中安装VM虚拟软件，并新建一个虚拟机参考教材2.按照书中的步骤，在VMware虚拟机中安装CentOS7操作系统参考教材3.按照书中的步骤，对CenterOS7操作系统进行环境配置，设置静态IP,克隆虚拟机，修改主机名，配置IP地址映射。参考教材使用XShell软件连接搭建好的CenterOS7集群，在集群中进行常用的Shell命令操作，例如软件的安装与删除，vim编辑器的使用，目录的创建与删除，文件的复制与移动等。参考教材5.在Hadoop集群中运行MapReduce自带的单词计数案例，并查看运行结果参考教材案例2在Hadoop集群中运行MapReduce自带的计算圆周率案例，并查看运行结果。第一步启动Hadoop切换到Hadoop安装目录下的sbin目录下执行./start-all.sh命令或执行./start-dfs.sh和./start-yarn.sh两条命令第二步使用hadoop-mapreduce-examples-3.1.3.jar计算圆周率hadoopjar../share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jarpi1010说明：第一个10是运行10次map任务，第二个10是每个map任务投掷次数，所以总投掷次数是10×10=100。

一、选择题1.HDFS默认备份数量是多少？（D）。A.0B.1C.2D.32.关于Hadoop单机模式和伪分布式模式的说法，正确的是（D）。A.两者都起守护进程，且守护进程运行在一台机器上B.单机模式不使用HDFS，但加载守护进程C.两者都不与守护进程交互，避免复杂性D.后者比前者增加了HDFS输入输出以及可检查内存使用情况3.HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件（C）。A.日志B.命名空间镜像C.两者都是D.34.关于HDFS的文件写入，正确的是（C）。A.支持多用户对同一文件的写操作B.用户可以在文件任意位置进行修改C.默认将文件块复制成三份存放D.复制的文件块默认都存在同一机架上5.下列哪个程序通常不与NameNode在一个节点启动？（A）。A.SecondaryNameNodeB.DataNodeC.resourcemanagerD.nodemenager6.下面哪个程序负责HDFS数据存储（C）。A.NameNodeB.JobtrackerC.DatanodeD.secondaryNameNode7.关于HDFS写数据流程，下面说法错误的是（B）。A.写数据首先需要找到NN确定写的位置B.如果pipline一个节点写失败，则重新申请DN节点再写C.写数据是以packet为大小进行的，默认64KD.pipeline反方向会进行数据的ack检验二、简单题1.简述HDFS体系结构答：HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件访问操作；集群中的DataNode管理存储数据。简述HDFS写数据工作流程答：HDFS写数据工作流程：（1）客户端通过DistributedFileSystem模块向NameNode请求上传ph.txt文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3）客户端请求第一个Block上传到哪几个DataNode服务器上。（4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。（6）dn1、dn2、dn3逐级应答客户端。（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步），依次上传文件，最终完成ph.txt文件的上传。

项目四一、填空题1.在MapReduce中，__map____阶段负责将任务分解，__reduce____阶段将任务合并。2.MapReduce的Partitioner组件目的是_将key均匀分布在ReduceTask上_。3.MapReduce默认的分区方式是Hash分区。4.MapReduce中默认的ReduceTask个数是1。5.MapReduce默认的输入格式是TextInputFormat。二、选择题1.关于MapReduce执行过程说法错误的是（D）A.MapReduce执行过程分为Mapper过程与Reducer过程。B.合并、排序、Shuffle是在Mapper输出之后，Reducer输出之前完成的。C.Map结束后，Partitioner会将相同Key分到同一个组交给Reduce进程。D.正常执行MapReduce任务时，Map函数和reduce函数都会被调用执行。2.关于Partitioner的说法不正确的是（B）A.Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。B.Partitioner的作用是对Mapper产生的中间结果进行分片。C.Parttitioner间接影响Reducer阶段的复杂均衡。D.Partitioner只提供了一个方法getPartition(Textkey,Textvalue,intnumPartitions)。3.MapReduce的Shuffle过程以下中哪个操作是最后做的？（D）A.排序B.合并C.分区D.溢写4.关于HadoopMapReduce分片（spit）概念，下列说法不正确的是（D）。A.Hadoop为每个split创建一个任务。B.split的多少决定了Map任务的个数。C.大多数情况下，理想的分片大小128M。D.split是一个物理概念。5.MapReduce自定义排序规则需要重写下列那项方法？（B）A.readFields()B.compareTo()C.map()D.reduce()三、解答题1.numReduceTasks指的是什么？，默认值是是多少？答：numReduceTasks是reduce的任务个数，默认个数是1。2.请简述MapReduce执行过程。答：（1）通过FileInputFormat组件读取数据；（2）执行Map（3）执行Shuffle（4）执行Reduce（5）通过FileOutputFormat执行输出

项目五一、填空题1.在MapReduce中，mapper程序的map()方法被调用的次数取决于数据的行总数，reducer程序的reduce()方法被调用的次数取决于有多少个唯一的key。2.Combiner组件的父类是reducer，Combine过程发生的阶段是map结束阶段。3.在MapReduce中，如果将reducer数量设置为0出现的结果是没有输出结果。4.在Hadoop中，默认的OutputFormat是TextOutputFormat。5.在MapReduce中，split分片数决定MapTask的个数。二、选择题1.默认的MapReduce输入格式是？（A）A.TextInputFormatB.KeyValueTextInputFormatC.NLineInputFormatD.SequenceFileInputFormat2.关于MapReduce优点，下列说法不正确的是（D）。A.高容错性B.适合PB级以上海量数据的离线C.良好的扩展性D.适合做实时计算3.以下关于Combiner编程的说法错误的是（C）A.Combiner最基本的是实现本地的key的归并B.使用Combiner编程，先完成的map会在本地聚合C.Combiner是发生在reduce的阶段中，主要作用是提高reducer的执行效率D.Combiner组件的父类就是Reducer4.下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是？（A）A.一个Map函数就是对一部分原始数据进行指定的操作。B.一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。C.Map与Map之间不是相互独立的。D.Reducee与Reduce之间不是相互独立的。三、解答题1.Hadoop有哪些类型的调度器？简要说明其工作方法。答：Hadoop主要有以下类型的调度器：1.先进先出调度器（FIFO）Hadoop中默认的调度器，也是一种批处理调度器。它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业2.容量调度器（CapacityScheduler)支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择一个合适队列：计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值，选择一个该比值最小的队列；然后按以下策略选择该队列中一个作业：按照作业优先级和提交时间顺序选择，同时考虑用户资源量限制和内存限制3.公平调度器（FairScheduler）公平调度是一种赋予作业（job）资源的方法，它的目的是让所有的作业随着时间的推移，都能平均的获取等同的共享资源。所有的job具有相同的资源,当单独一个作业在运行时，它将使用整个集群。当有其它作业被提交上来时，系统会将任务（task）空闲资源（container）赋给这些新的作业，以使得每一个作业都大概获取到等量的CPU时间。与Hadoop默认调度器维护一个作业队列不同，这个特性让小作业在合理的时间内完成的同时又不"饿"到消耗较长时间的大作业。公平调度可以和作业优先权搭配使用——优先权像权重一样用作为决定每个作业所能获取的整体计算时间的比例。同计算能力调度器类似，支持多队列多用户，每个队列中的资源量可以配置，同一队列中的作业公平共享队列中所有资源。2.简述MapReduce的Shuffle过程。答：Shuffle主要包括以下几个阶段：Map阶段：每个Map任务会处理输入数据中的一部分，执行用户自定义的Map操作，并输出中间键值对。Partition阶段：MapReduce框架会根据中间键值对的键来决定该对应到哪个Reduce任务。Sort阶段：MapReduce会对所有输出的键值对按键进行排序。Spill阶段：当缓存数据填满时，MapReduce会将数据写入本地磁盘文件中。Merge阶段：写入磁盘的多个小文件会被合并为一个大文件，同时进行排序。

一、填空题1.Hive默认元数据存储在DerBy数据库中。2.Hive查询语句selectceil(3.56)输出内容是4。3.Hive创建桶的关键字CLUSTEREDBY。4.SELECT句式中分组操作的子句是GROUPBY。5.使用Hive动态分区前，需要修改Hive的配置参数hive.exec.dynamic.partition.mode为nonstrict。6.Hive默认使用的数据库是default。二、选择题1.Hive是建立在（A）之上的一个数据仓库A.MapReduceB.HDFSC.HadoopD.Yarn2.下列关于\t"/weixin_38861839/article/details/_blank"Hive特点总结正确的选项是（B）。A.Hive支持自由的扩展集群的规模，只需要重启服务即可B.Hive支持自定义函数，用户可以根据自己的需求去定义函数C.HiveSQL执行时，需要避免节点出现问题D.Hive适合处理小批量数据3.下面关于Hive查看表table1的分区的描述正确的是（A）。A.showpartitionstable1;B.desctable1;C.showcreatetabletable1;D.droptable14.下面关于Hive四种排序方式的区别，描述正确的是（B）。A.orderby是要对输出的结果进行全局排序，多个reducer可以实现全局排序B.sortby不是全局排序，只是在进入到reducer之前完成排序C.distributeby指的是按照指定的字段划分到不同的输出reduce文件中，常见使用方式是orderbydistributebyD.clusterby不仅支持正序排序，也支持逆序排序5.Hive是为了解决哪类问题（A）。A.海量结构化日志的数据统计B.分布式组件调度C.分布式系统监控D.分布式系统高可用6.下面关于HiveSQL的内外表使用正确的是（A）。A.在/tmp/path创建外表：CREATEEXTERNALTABLE...LOCATION'/tmp/path';B.在/tmp/path创建外表：CREATETABLE...;C.创建内表：CREATEEXTERNALTABLE...LOCATION'/tmp/path';D.创建内表：CREATEEXTERNALTABLE...;7.下面关于Hive数据装载描述正确的是（C）。A.最好使用INSERT插入数据B.最好使用INSERTOVERWRITE插入数据C.可以使用LOADDATA加载D.什么场景，装载数据使用LOADDATA效率最低.8.下面关于HiveSQL的JOIN关键词正确的是（A）。(1)INNERNJOIN(2)JOIN(3)OUTERJOIN(4)RIGHTJOIN(5)CROSSJOIN(6)LEFTJOINA.(2)(4)(5)(6)B.(1)(4)(5)(6)C.(1)(4)(6)D.(3)(4)(6)9.代码select

ceil(2.34)的结果是哪一个（C）。A.2.3B.2C.3D.2.410.下面关于Hive内外表描述错误的是（C）。A.Hive内表的元数据和数据都由Hive自己管理B.Hive会管理外表的元数据C.当Hive内表的元数据发生变化时，内表的改动修改不会同步给元数据D.对外部表的表结构和分区进行修改，需要修复11.下面关于Hive内外表描述正确的是（D）。A.建表时候如果不显示声明表的类型，则建表为外表B.外表使用DROP语句可以删除的很干净C.外表由Hive自己管理D.建表时候如果不显示声明表的

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Hadoop大数据项目实战微课版廖丽课后答案

文档简介

温馨提示

最新文档

评论

Hadoop大数据项目实战微课版廖丽课后答案

文档简介

温馨提示

最新文档

评论

相关文档