《Hadoop大数据平台构建与应用教程》习题及答案_第1页
《Hadoop大数据平台构建与应用教程》习题及答案_第2页
《Hadoop大数据平台构建与应用教程》习题及答案_第3页
《Hadoop大数据平台构建与应用教程》习题及答案_第4页
《Hadoop大数据平台构建与应用教程》习题及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目一Linux操作系统配置填空题1.虚拟机有、、三种网络模式。2.SElinux配置文件参数SELINUX可能的取值有、。二、判断题1.不建议使用SSH软件远程连接Linux。 ()2.SSH是安全的。 ()3.关闭SELinux会降低系统的安全性。 ()三、选择题 1.常见的SSH远程连接软件有()(多选题)?A.SecureCRT B.Xshell C.FinalShell D.MobaXterm2.常用的虚拟机软件有?()(多选题)A.VMwareWorkstation B.VirtualBoxC.openstack D.Hadoop

项目二Hadoop集群搭建填空题1.格式化HDFS集群命令是。2.脚本一键启动Hadoop集群服务命令是。二、判断题1.Hadoop的HDFSWeb管理页面端口号为50070 ()2.Centos下安装JDK需要配置java环境变量。 ()3.启动Hadoop集群服务之前需要格式化文件系统。 ()三、选择题 1.以下哪一个Hadoop的安装部署的模式属于伪分布模式()?A.默认的模式,无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。B.在一台主机模拟多主机。即,Hadoop的守护程序在本地计算机上运行,模拟集群环境,并且是相互独立的Java进程。C.完全分布模式的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。D.高容错全分布模式的守护进程运行在多台主机搭建的集群上。2.下列哪项通常是集群的最主要的性能瓶颈 ()A.CPU B.网络 C.磁盘 D.内存

项目三Hadoop分布式文件系统操作一、填空题1.负责管理系统名称以及客户端对文件的访问,负责存储真实的数据块。2.HDFS中英文全称是、。3.进入和退出HDFS的安全模式的命令分别是和。二、判断题1.在Hadoop集群中,NameNode负责管理所有DataNode。()2.SecondaryNameNode是NameNode的备份,可以有效解决Hadoop集群单点故障问题。 ()3.因为HDFS有多个副本,所以NameNode是不存在单点问题的。 ()三、选择题 1.在一个基本的Hadoop集群中,DataNode主要负责什么?A.负责执行由JobTracker指派的任务 B.协调数据计算任务C.负责协调集群中的数据存储 D.存储被拆分的数据块2.在HDFS中,NameNode的主要功能是什么?A.维护了blockid到datanode本地文件的映射关系 B.存储文件内容C.文件内存保存在磁盘中 D.存储元数据

项目四Mapreduce分布式计算编程实战填空题1.MapReduce执行包括、、等阶段。2.MapReduce优点有、、、。二、判断题1.MapReduce中,Map阶段的输入可以作为Reduce阶段的输入。()2.MapReduce中,Reduce任务只能在Map任务完成之后开始。 ()3.MapReduce应用于大规模数据计算。 ()三、选择题 1.下列关于MapReduce模型的描述,错误的是哪一项?A.MapReduce采用“分而治之”策略 B.MapReduce设计的一个理念就是“计算向数据靠拢”C.MapReduce框架采用了Master/Slave架构 D.MapReduce应用程序只能用Java来写2.下列关于MapReduce工作流程,哪个描述是正确的?()A.所有的数据交换都是通过MapReduce框架自身去实现的B.不同的Map任务之间会进行通信 C.不同的Reduce任务之间可以发生信息交换D.用户可以显式地从一台机器向另一台机器发送消息

项目五Zookeeper分布式协调服务操作填空题1.Zookeeper集群主要有、、三种角色。2.ZNode有两种类型节点,分别是、。二、判断题1.zookeeper是分布式的。 ()2.Zookeeper集群宕机数超过集群数一半,则Zookeeper服务失效。 ()3.Zookeeper对节点的Watch监听通知是永久性的。 ()三、选择题 1.下列哪些操作可以触发监听器Watcher?A.getData B.getChildren C.exists D.setData2.下面与Zookeeper类似的框架是?()A.Protobuf B.Java C.Kafka D.Chubby

项目六Hadoop高可用集群搭建填空题1.高可用HDFS进程包含、、。2.高可用Yarn进程包含、。二、判断题1.Hadoop高可用有抗灾的功能。 ()2.Resourcemanager负责调度资源。 ()3.HadoopHA是两台NameNode同时执行NameNode角色的工作。()三、选择题1. Hadoop2.x版本中的数据块大小默认是多少? ()A.64M B.128M C.256M D.512M2.下列选项中哪个是高可用相对于完全分布式独有的进程? ()A.Namenode B.Datanode C.Resourcemanager D.QuorumPeerMain

项目七HBase数据库操作一、填空题1.MySQL中,用于创建新数据库的命令是。2.HBASE中最基本的数据单元是。二、判断题1.HBase中的列族(ColumnFamily)可以动态添加? ()2.HBase中的行键(RowKey)是唯一的。 ()3.MySQL中的数据是以表格的形式存储的。 ()三、选择题1. 在MySQL中,用于限制查询结果的数量的关键字是? ()A.LIMIT B.OFFSET C.TOP D.ROWS2.HBase中,数据存储的顺序是? ()A.按照行键的字典序排列 B.按照列族的字典序排列C.按照列限定符的字典序排列 D.随机顺序

项目八Hive数据仓库操作填空题1.Hive本质是将HQL转化为程序。2.Hive默认元数据存储在数据库中。3.Hive有、、、桶表等表。4.Hive中,关键字用于创建表,关键词用于修改表。二、判断题1.Hive中的分区就是分目录。 ()2.hive分区表就是对应的HDFS文件系统上的一个目录。()3.hive删除外部表不会删除对应数据 ()4.hive是使用HQL语句。()5.Hive可以使用命令行的方式进行管理()三、选择题1. Hive是建立在()之上的一个数据仓库。 ()A.HDFS B.MapReduce C.Hadoop D.HBase2.在Hive中,哪个命令用于创建新表 ()A.CREATEDATABASE B.CREATETABLE C.ALTERTABLE D.DROPTABLE3.在Hive中,对表进行分区需要指定什么属性? ()A.PARTITIONEDBY B.CLUSTEREDBY C.SORTEDBY D.INDEXEDBY4.按粒度大小的顺序,Hive数据被分为数据库、数据表、()和桶。()A.元组 B.栏 C.分区 D.行四、操作题创建字段为id、name、age的用户表,并且以户籍所在地城市名city进行分区。这里是创建两个表(用户表和分区表)还是一个分区表?已改。请自行准备数据,分区数为3个。这里是创建两个表(用户表和分区表)还是一个分区表?已改。

项目九Sqoop数据迁移操作填空题1.Sqoop主要用于在和之间进行传输数据。2.Sqoop底层利用技术方式加快了数据传输速度,并且具有较好的容错性功能。3.从数据库导入HDFS时,指定以制表符作为字段分隔符参数是。二、判断题1.Sqoop是关系数据库与Hadoop之间的数据桥梁,这个桥梁的重要组件是Sqoop连接器。 ()2.Sqoop从Hive表导出MySQL表时,首先需要在MySQL中创建表结构。()三、选择题1.以下()参数是Sqoop指令?(多选)A.Import B.output C.input D.export2.下列语句描述错误的是()。A.可以通过CLI方式、JavaAPI方式调用Sqoop。B.Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。C.Sqoop是独立的数据迁移工具,可以在任何系统上执行。D.如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhost或。四、简答题简述Sqoop导入与导出数据工作原理。五、编程题1.利用Sqoop将test数据库中的user表中id>5的用户导入到HDFS中的/user目录(user表字段:id,name)。2.利用Sqoop将test数据库中的emp表导入Hive表hive.emp_test表中。项目一Linux操作系统配置一、填空题桥接模式、NAT模式、仅主机模式enforcing、permissive、disabled二、判断题错误正确正确三、选择题A、B、C、DA、B项目二Hadoop集群搭建一、填空题hdfsnamenode-formatstart-all.sh二、判断题正确正确正确三、选择题BC项目三Hadoop分布式文件系统操作一、填空题NameNode、DataNodeHadoopDistributedFileSystemhdfsdfsadmin-safemodeenter、hdfsdfsadmin-safemodeleave二、判断题正确错误错误三、选择题DD项目四MapReduce分布式计算编程实战一、填空题Map、Shuffle、Reduce容错性高、扩展性好、适合批处理、易于编程二、判断题错误正确正确三、选择题DA项目五Zookeeper分布式协调服务操作一、填空题Leader、Follower、Observer持久节点、临时节点二、判断题正确正确错误三、选择题DD项目六Hadoop高可用集群搭建一、填空题NameNode、JournalNode、ZKFCResourceManager、ZKRMStateStore二、判断题正确正确错误三、选择题BD项目七HBase数据库操作一、填空题CREATEDATABASE单元格(Cell)二、判断题正确正确正确三、选择题AA项目八Hive数据仓库操作一、填空题MapReduceDerby内部表、外部表、分区表CREATETABLE、ALTERTABLE二、判断题正确正确正确正确正确三、选择题CBAC四、操作题CREATETABLEuser(

idINT,

nameSTRING,

ageINT

)

PARTITIONEDBY(citySTRING);插入数据时指定分区,如:INSERTINTOTA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论