



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop 期中考试1 单选题(每个1.5 分,共 20 分)( 1 ) Mapreduce 擅长哪个领域的计算( A ) 。A. 离线批处理B. DAG计算C. 流式计算D. 实时计算( 2 )关于MapReduce 原理,下面说法错误的是( D ) 。A. 分为 Map 和 Reduce 两个阶段B. Map 阶段由一系列 Map 任务组成C. Reduce阶段由一系列 Reduce任务组成D. Map 阶段与 Reduce 阶段没有任何依赖关系(3) HDFS默认副本数是( C )。A. 1B. 2C. 3D. 4(4)不属于HDFS架构组成部分是( D )。A. NameNodeB.
2、 Secondary NameNodeC. DataNodeD. TaskTracke(r Hadoop MapReduce 1.0 的组件)( 5)关于Block 和 Split 两个概念,下面说法错误的是( C ) 。A. Block是HDFS中最小的数据存储单位B. Split 是 MapReduce 中最小的计算单元C. Block是Split是一一对应关系(默认是对应的)D. Block和Split之间对应关系是任意的,可由用户控制( 6 )以下不属于Hadoop 内核的组成部分的是( C ) 。A. HDFSB. MapReduceC. HBaseD. YARN( 7)不属于HBa
3、se 中的术语的是( D ) 。A. ColumnB. Column FamilyC. Row KeyD. Meta(8)下面关于Hive,说法错误的是( A )。A. Hive支持所有标准 SQL语法B. Hive底层采用的计算引擎是MapReduce (目前支持Spark、Tez等)C. Hive提供的HQL语法,与传统 SQL很类似D. Hive Server可采用MySQL存储元数据信息(9)通常而言,一个标准的生产环境(考虑成本、效益等)中,Zookeeper实例个数不可能是(B )。A. 3B. 4C. 5D. 7(10) Flume的主要作用是( C )。A.数据处理和分析B.数
4、据存储C.数据收集D.网络爬虫(11) HBase支持多语言(比如C+、Python等)访问,为实现该功能,它采用的开源软件是(C )。A. protobufB.自定义网络协议C. thriftD. avro(12)关于HDFS和HBase,说法错误的是( D )。A. HDFS不能随机读写,HBase可以B. HDFS适合存储大文件,HBase可以存储小文件C. HBase底层采用了 HDFSD. HDFS和HBase无直接关系(13) YARN和 MapReduce 的关系是( A )。A. MapReduce是一个计算框架,可运行在YARN之上B. YARN是一个计算框架,可运行在Map
5、Reduce之上C. MapReduce和YARN无直接关系D.以上回答均不正确 1 14)关于MapReduce中的数据本地性,下面方法正确的是( AB )。A. Map Task和Reduce Task都会考虑数据本地性B.只有Map Task会考虑数据本地性(Reduce阶段是从Map阶段拉取Shuffle数据的)C.只有Reduce Task会考虑数据本地性D. Map Task和Reduce Task都不考虑数据本地性(15)与Hive相比,Presto主要优势是( C )。A.利用MapReduce进行分布式计算,更加高效B.完全分布式计算,可以充分利用集群资源C. MPP架构,全
6、内存计算D.有很强的容错性(16)下面哪种存储格式是 Hive中常用的列式存储格式( D )。A. Text FileB. Sequence FileC. ParquetD. ORC (17)下面哪个信息不会存储在HBase的一个cell ( EC )。A. row keyB. column family 名称C.表名D.列名E.版本号F. cell 值数据存储冗余,非常耗费空间(18)默认情况下,一个MapReduce作业(处理白数据 HDFS±的一个目录)的map task个数是由(B ) 决定的。A.目录中文件个数B.目录对应的 block数目C.默认个数是1D.用户自己指定H
7、DFS, Block 默认大小为 128MB。一个Block文件只能来自于一个文件。查看一个文件有多少个Block 的命令:hdfs fsck /input files -blocks -locations(19) Hive 和 Presto 支持标准 SQL吗? ( BD )A.都支持B.都不支持C. Hive支持,Presto不支持D. Hive不支持,Presto支持(20)既然有了 Hive,还需要用 MapReduce编写程序处理数据吗? ( B )A.不需要B.需要2 .多选题(每个4分,共20分)(1) 关于HDFS说法正确的是( ABC )A.不存在NameNode单点故障问题
8、B. 一个集群可存在多个NameNode对外提供服务C. HDFS HA和Federation是它的两大特色D.不能存储小文件(2) 关于Kafka,说法正确的是( BCD )A.是一个分布式key/value存储系统8. 由 producer> broker 和 consumer 等角色构成C.通过zookeeper进行服务协调D.消息可以存成多个副本以达到容错的目标(3) 关于 MapReduce,说法正确的是( ACD )A. MapReduce具有容错性,一台节点挂掉不会导致整个应用程序运行失败B.所有 MapReduce 程序公用一个 ApplicationMasterC. M
9、apReduce程序可以运行在 YARN之上(也可以运行在本地)D. MapReduce是Hive默认的计算引擎(4) 用户可使用哪几种语言开发MapReduce应用程序(ABCD )A. C+B. JavaC. PHPD. Go(5) 下面哪几个属于 YARN自带的资源调度器( BCD )A. Deadline SchedulerB. FIFO (先进先出)C. Capacity Scheduler (容错调度系统)D Fair Scheduler (公平调度系统)3 简答题(每个5 分,共 10 分)(1) 描述MapReduce作业从提交到 YARN上,到运行结束的整个过程,请用步骤 1
10、,步骤2,, 描述。答:步骤 1 ,客户端提交请求到 Yarn 的 ResourceManager步骤2 , RM 确定一个 AppMaster步骤3 , AppMaster 向 RM 申请 NodeManager步骤4, AppMaster将Task发送给 NodeManager仅限执行步骤 5 , AppMaster 负责收集 NodeManager 的运行结果步骤 6 , AppMaster 将结果返回给客户端( 2 ) 试描述如何对Hadoop Streaming 程序进行调试?并举出一个例子。答:?单机运行,本地测试: 1.txt : cat ,管道输入Mapper , sort(
11、3 )试写出以下操作的 shell 命令:1)在HDFS上创建目录/home/test答:hdfs dfs -mkdir /homehdfs dfs -mkdir /home/test或hdfs dfs -mkdir -p /home/test2 ) 将正在运行的 ID 为的应用程序杀死 答:3)查看HDFS上文件/home/test/1.txt 的大小答: hdfs dfs -ls /home/test/1.txt4 ) 在 Hive 中创建一个parquet 表,采用 gzip 压缩格式,该表名为test ,包含两列:int 类型名为 id 的列和 string 类型名为 namename
12、 的列。 如何在 Presto 中创建这个表, 有何不同?答:create table if not exists test( id int,namename string)gzipstored as parquet;4 编程题( 40 分)( 1 )有一批文件,格式如下:每行有 4 列,每一列均是一个整数,列之间采用“.”作为分隔符,将数据按照第二列和第三列分组,每组中第四列所有数之和。注:如果第二列相同,则按照第三列分组,比如上述结果为:12.1314.2511.41结果中,key 为“第二列和第三列” 值, value 是对应的第四列累加和, key 和 value 之间使用 t 分割。
13、要求:使用任意语言实现以上功能,写出 Mapper 和 Reducer ,并给出相应的作业提交命令(或脚本)。答:(根据 WordCount 实例进行改造)Mapper:String values = value.toString().split(“. ” );Text outputKey = new Text(values1+ . +values2 );IntWritable outputValue = new IntWritable(Integer.parsetInt(values3);Context.write(outputKey, outputValue);Reducer:无需调整( 2 )编写 MapReduc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 助理广告师试题及答案有效解答
- 2024年广告中价值观表达试题及答案
- 2024年纺织品质量检验要点试题及答案
- 助理广告师评估标准解读试题及答案
- 全面提升国际商业美术设计师试题及答案
- 服装展览展示技巧试题及答案
- 儿童安全教育试题及答案
- 2024年助理广告师考试模拟考试准备试题及答案
- 2024年考试直击核心考点的技巧试题及答案
- 2024年助理广告师考试流程指南试题及答案
- 北京法源寺话剧剧本
- 健康评估试题库
- 被执行人财产申报表
- 吊装安全确认表及技术交底
- DBJ41∕T 228-2019 河南省房屋建筑施工现场安全资料管理标准
- 三级安全教育考试试题(的)
- DB13 5325-2021 生活垃圾焚烧大气污染控制标准
- 芒针疗法课件
- 鼓乐铿锵课件 (2)
- 小学二年级下册科学课件1.《春夏秋冬》大象版(22张)ppt课件
- 钢结构工程质量通病防治图册
评论
0/150
提交评论