




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
光环国际 大数据Hadoop期中考试1 单选题(每个1.5分,共20分)(1)Mapreduce擅长哪个领域的计算( A )。A. 离线批处理B. DAG计算C. 流式计算D. 实时计算(2)关于MapReduce原理,下面说法错误的是( D )。A. 分为Map和Reduce两个阶段B. Map阶段由一系列Map任务组成C. Reduce阶段由一系列Reduce任务组成D. Map阶段与Reduce阶段没有任何依赖关系(3)HDFS默认副本数是( C )。A. 1B. 2C. 3D. 4(4)不属于HDFS架构组成部分是( D )。A. NameNodeB. Secondary NameNodeC. DataNodeD. TaskTracker(Hadoop MapReduce 1.0的组件)(5)关于Block和Split两个概念,下面说法错误的是( C )。A. Block是HDFS中最小的数据存储单位B. Split是MapReduce中最小的计算单元C. Block是Split是一一对应关系(默认是一一对应的)D. Block和Split之间对应关系是任意的,可由用户控制(6)以下不属于Hadoop内核的组成部分的是( C )。A. HDFSB. MapReduceC. HBaseD. YARN(7)不属于HBase中的术语的是( D )。A. ColumnB. Column FamilyC. Row Key D. Meta(8)下面关于Hive,说法错误的是( A )。A. Hive支持所有标准SQL语法B. Hive底层采用的计算引擎是MapReduce(目前支持Spark、Tez等)C. Hive提供的HQL语法,与传统SQL很类似D. Hive Server可采用MySQL存储元数据信息(9)通常而言,一个标准的生产环境(考虑成本、效益等)中,Zookeeper实例个数不可能是( B )。A. 3B. 4C. 5D. 7(10)Flume的主要作用是( C )。A. 数据处理和分析B. 数据存储C. 数据收集D. 网络爬虫(11)HBase支持多语言(比如C+、Python等)访问,为实现该功能,它采用的开源软件是( C )。A. protobufB. 自定义网络协议C. thriftD. avro(12)关于HDFS和HBase,说法错误的是( D )。AHDFS不能随机读写,HBase可以BHDFS适合存储大文件,HBase可以存储小文件CHBase底层采用了HDFSDHDFS和HBase无直接关系(13)YARN和MapReduce的关系是( A )。A. MapReduce是一个计算框架,可运行在YARN之上BYARN是一个计算框架,可运行在MapReduce之上CMapReduce和YARN无直接关系D以上回答均不正确(14)关于MapReduce中的数据本地性,下面方法正确的是( AB )。AMap Task和Reduce Task都会考虑数据本地性B只有Map Task会考虑数据本地性(Reduce阶段是从Map阶段拉取Shuffle数据的)C只有Reduce Task会考虑数据本地性DMap Task和Reduce Task都不考虑数据本地性(15)与Hive相比,Presto主要优势是( C )。A利用MapReduce进行分布式计算,更加高效B完全分布式计算,可以充分利用集群资源CMPP架构,全内存计算D有很强的容错性(16)下面哪种存储格式是Hive中常用的列式存储格式( D )。A. Text FileB. Sequence FileC. ParquetD. ORC(17) 下面哪个信息不会存储在HBase的一个cell( EC )。A. row keyB. column family名称C. 表名D. 列名E. 版本号F. cell值数据存储冗余,非常耗费空间(18)默认情况下,一个MapReduce作业(处理的数据HDFS上的一个目录)的map task个数是由( B )决定的。A. 目录中文件个数B. 目录对应的block数目C. 默认个数是1D. 用户自己指定HDFS,Block默认大小为128MB。一个Block文件只能来自于一个文件。查看一个文件有多少个Block的命令:hdfs fsck /input files blocks -locations(19)Hive和Presto支持标准SQL吗?( BD )A. 都支持B. 都不支持C. Hive支持,Presto不支持D. Hive不支持,Presto支持(20)既然有了Hive,还需要用MapReduce编写程序处理数据吗?( B )A. 不需要B. 需要2 多选题(每个4分,共20分)(1) 关于HDFS,说法正确的是( ABC )A 不存在NameNode单点故障问题B 一个集群可存在多个NameNode对外提供服务C HDFS HA和Federation是它的两大特色D 不能存储小文件(2) 关于Kafka,说法正确的是( BCD )A 是一个分布式key/value存储系统B 由producer、broker和consumer等角色构成C 通过zookeeper进行服务协调D 消息可以存成多个副本以达到容错的目标(3) 关于MapReduce,说法正确的是( ACD )A MapReduce具有容错性,一台节点挂掉不会导致整个应用程序运行失败B 所有MapReduce程序公用一个ApplicationMasterC MapReduce程序可以运行在YARN之上(也可以运行在本地)D MapReduce是Hive默认的计算引擎(4) 用户可使用哪几种语言开发MapReduce应用程序( ABCD )A. C+B. JavaC. PHPD. Go(5) 下面哪几个属于YARN自带的资源调度器( BCD )A Deadline SchedulerB FIFO(先进先出)C Capacity Scheduler(容错调度系统)D Fair Scheduler(公平调度系统)3 简答题(每个5分,共10分)(1) 描述MapReduce作业从提交到YARN上,到运行结束的整个过程,请用步骤1,步骤2,描述。答:步骤1,客户端提交请求到Yarn的ResourceManager步骤2,RM确定一个AppMaster步骤3,AppMaster向RM申请NodeManager步骤4,AppMaster将Task发送给NodeManager仅限执行步骤5,AppMaster负责收集NodeManager的运行结果步骤6,AppMaster将结果返回给客户端(2) 试描述如何对Hadoop Streaming程序进行调试?并举出一个例子。答:?单机运行,本地测试:1.txt:cat,管道输入Mapper,sort(3) 试写出以下操作的shell命令:1) 在HDFS上创建目录/home/test答:hdfs dfs -mkdir /homehdfs dfs -mkdir /home/test或hdfs dfs -mkdir -p /home/test2) 将正在运行的ID为application_123132131_0001的应用程序杀死答:3) 查看HDFS上文件/home/test/1.txt的大小答:hdfs dfs -ls /home/test/1.txt4) 在Hive中创建一个parquet表,采用gzip压缩格式,该表名为test,包含两列:int类型名为id的列和string类型名为namename的列。如何在Presto中创建这个表,有何不同?答:create table if not exists test(id int,namename string)gzipstored as parquet;4 编程题(40分)(1)有一批文件,格式如下:11.12.1.211.14.2.311.11.4.111.12.1.111.14.2.2每行有4列,每一列均是一个整数,列之间采用“.”作为分隔符,将数据按照第二列和第三列分组,每组中第四列所有数之和。注:如果第二列相同,则按照第三列分组,比如上述结果为:12.1314.2511.41结果中,key为“第二列和第三列”值,value是对应的第四列累加和,key和value之间使用t分割。要求:使用任意语言实现以上功能,写出Mapper和Reducer,并给出相应的作业提交命令(或脚本)。答:(根据WordCount实例进行改造)Mapper:String values = value.toString().split(“.”);Text outputKey = new Text(values1+.+values2);IntWritable outputValue = new IntWritable(Integer.parsetInt(values3);Context.write(outputKey, outputValue);Reducer:无需
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师个人研修计划小学语文(16篇)
- 政治中考题目及答案广东
- 活动执行合同的基本要素
- 生态保护与产业集聚并重的2025年文化创意产业园区品牌塑造报告
- 2025年日语初级题目及答案
- 专业配方师考试题及答案
- 猪饲养员考试试题及答案
- 质量管理试卷及答案
- 2025年山西招聘特岗教师考试笔试试卷附答案
- 2025年山西建筑安管人员安全员考试题库及答案
- 妇科疾病中医外治课件
- 制定工装模具管理办法
- 关于湿疹的课件
- 陕西物业资质管理办法
- 2025年巴彦淖尔市磴口县社区工作者招聘考试试题【答案】
- 《爱的五种能力》
- 石膏固定病人护理常规
- 甘油二酯油与心脏健康科学指南
- 2025至2030中国管道运输行业深度研究及发展前景投资评估分析
- 麻醉科临床操作技术规范
- 办公场所消防培训课件
评论
0/150
提交评论