大数据工程项目开发实战活页式教程王倩习题答案_第1页
大数据工程项目开发实战活页式教程王倩习题答案_第2页
大数据工程项目开发实战活页式教程王倩习题答案_第3页
大数据工程项目开发实战活页式教程王倩习题答案_第4页
大数据工程项目开发实战活页式教程王倩习题答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据工程项目开发实战活页式教程王倩习题答案习题1一、单选题1.下列选项中,最早提出“大数据”这一概念的是(B)。A.贝恩 B.麦肯锡C.吉拉德 D.杰弗逊判断题2.下列选项中,哪一项是研究大数据最重要的意义(D)。A.分析 B.统计C.测试 D.预测二、多选题1.下列选项中,属于Hadoop优势的有(ABD)。A.扩容能力强 B.可靠性C.低效率 D.高容错性2.下列选项中,属于Google提出的处理大数据的技术手段有(ACD)。A.MapReduce B.MySQLC.BigTable D.GFS三、填空题1.大数据的四大特征是体量大(Volume)、__________、速度快(Velocity)和_________。答案:【多样(Varity)】【价值(Value)】2.大数据的分为____________、非结构化数据和____________。答案:【结构化数据】【半结构化数据】四、简答题1.简述大数据在零售行业应用的具体表现。参考答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。2.简述Hadoop生态体系常见的子系统。参考答案:Hadoop生态体系中常见的子系统有HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、HBase分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库以及Flume日志收集工具。习题2一、单选题1.下列选项中,哪个配置文件可以配置HDFS地址、端口号以及临时文件目录( )。A.core-site.xml B.hdfs-site.xml C.mapred-site.xml D.yarn-site.xml 参考答案:A2.Hadoop集群启动成功后,用于监控HDFS集群的端口是( A.50010 B.50075 C.8485 D.50070 参考答案:D3.下列选项中,可以进行重启引导系统的是()。A.OK B.Cancel C.RebootD.Apply 参考答案:C4.下列选项中,关于SSH服务说法正确的是( )。 A.SSH服务是一种传输协议 B.SSH服务是一种通信协议C.SSH服务是一种数据包协议 D.SSH服务是一种网络安全协议参考答案:D5.下列选项中,一键启动HDFS集群的命令是( )。 A.start-namenode.sh B.start-datanode.shC.start-dfs.sh D.start-slave.sh参考答案:C6.在Hadoop的解压目录下,可以查看Hadoop的目录结构的命令是()。A.jps B.ll C.tar D.find参考答案:B7.下列选项中,存放Hadoop配置文件的目录是() A.includeB.bin C.libexeD.etc参考答案:D8.在配置Linux网络参数时,固定IP地址是将路由协议配置为( )。A.static B.dynamicC.immutable D.variable参考答案:A9.下列选项中,可以对Hadoop集群进行格式化的是( A.hadoopnamenode-format B.hadoopnamenode-ls C.hdfsdatanode-ls D.hdfsdatanode-format 参考答案:A10.下列选项中,查看Linux系统的IP配置的命令是( )。 A.ipconfigB.findC.ifconfigD.arp-a 参考答案:C二、多选题1.下列选项中,关于Hadoop集群说法正确的是( ) A.Hadoop集群包含Worker节点 B.Hadoop集群包含Master节点C.Hadoop集群包含Slave节点 D.Hadoop集群包含HMaster节点参考答案:BC2.Hadoop提供的自定义配置时编辑的配置文件中,包含( )。 A.core-site.xml B.hdfs-site.xml C.mapred-site.xml D.yarn-site.xml参考答案:ABCD三、判断题1.伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。() 参考答案:错2.启动Hadoop集群时,可能出现NodeManager进程无法启动或者启动后自动关闭情况,这是由于系统内存和资源分配不足导致的。()参考答案:对3.执行“start-all.sh”命令,可以一键启动整个Hadoop集群的服务。( )参考答案:对4.“yarn-env.sh”配置文件是用来保证Hadoop系统能够正常执行HDFS的守护进程NameNode、SecondaryNameNode和DataNode。( )参考答案:错5.通过执行命令“serviceiptablesstatus”可以关闭Linux系统的防火墙。( )参考答案:错6.Hadoop集群执行完MapReduce程序后,会输出“_SUCCESS”和“part-r-00000”结果文件。()参考答案:对7.通过使用虚拟机软件(如VMwareWorkstation),可以在同一台电脑上构建多个Linux虚拟机环境。()参考答案:对8.当完成Hadoop集群的安装和配置后,就可以直接启动集群。( ) 参考答案:错9.当配置好虚拟机的主机名和IP映射后,就可以正常使用虚拟机。() 参考答案:错10.启动Hadoop集群,只能有一种方式启动,即单节点逐个启动。( ) 参考答案:错11.在Hadoop的解压目录下的bin目录中,存放的是Hadoop的配置文件。() 参考答案:错12.在“hdfs-site.xml”配置文件中,可以配置HDFS数据块的副本数量。( ) 参考答案:对13.在安装部署Hadoop集群之前,不需要提前安装并配置好JDK。() 参考答案:错四、填空题1.当出现____________时,说明Hadoop集群已经被格式化成功。参考答案:successfullyformatted2.Hadoop集群启动成功后,通过端口_____________监控YARN集群。 参考答案:80883.Hadoop的解压目录下__________目录存放的是Hadoop管理脚本,包含HDFS和YARN中各类服务的启动或关闭脚本。 参考答案:sbin4.通过执行__________________命令,可以使得配置的环境变量文件生效。 参考答案:source/etc/profile5.“hadoop-mapreduce-examples-2.7.7.jar”包中有计算___________和pi值的功能。 参考答案:单词个数6.在Hadoop集群执行完MapReduce程序后,输出的结果文件___________表示此次任务成功执行。 参考答案:_SUCCESS7.Hadoop支持在________________系统和Windows系统上进行安装使用。参考答案:Linux8.Hadoop提供的________________和yarn-env.sh配置文件是用来指定Hadoop和YARN所需的运行环境。参考答案:hadoop-env.sh9.一键启动YARN集群的命令是_______________。参考答案:start-yarn.sh10.___________配置文件用于配置HDFS的NameNode和DataNode两大进程。参考答案:hdfs-site.xml11.启动Hadoop集群,主要是启动其内部包含的_________________和YARN集群。参考答案:HDFS集群12.______________配置文件用于记录Hadoop集群的所有从节点的主机名。参考答案:slaves13.在虚拟机配置IP映射时,选择__________模式进行配置。参考答案:NAT习题3一、单选题1.在MapReduce程序中,map()函数接收的数据格式是( A.字符串 B.整型 C.Long D.键值对 参考答案:D2.每个Map任务都有一个内存缓冲区,默认大小是( )。 A.128MB B.64MB C.100MB D.32MB 参考答案:C3.在MapTask的Combine阶段,当处理完所有数据时,MapTask会对所有的临时文件进行一次()。A.分片操作 B.合并操作 C.格式化操作 D.溢写操作参考答案:B4.下列选项中,主要用于决定整个MapReduce程序性能高低的阶段是( )。A.MapTask B.ReduceTaskC.分片、格式化数据源 D.Shuffle参考答案:D二、判断题1.MapReduce编程模型借鉴了面向过程的编程语言的设计思想。()参考答案:错2.在MapReduce程序进行格式化数据源操作时,是将划分好的分片格式化为键值对“<key,value>”形式的数据。( )参考答案:对3.带有倒排索引的文件称为“倒排索引文件”,简称“倒排文件”。()参考答案:对4.reduce()函数会将map()函数输出的键值对作为输入,将相同key值的value进行汇总,输出新的键值对。( )参考答案:对5.MapReduce通过TextOutputFormat组件输出到结果文件中。( )参考答案:对6.Combiner组件可以让Map对key进行分区,从而可以根据不同的key分发到不同的Reduce中去处理。() 参考答案:错7.对于MapReduce任务来说,一定需要Reduce过程。()参考答案:错8.在MapReduce程序中,只有Map阶段涉及Shuffle机制。( ) 参考答案:错9.MapReduce的数据流模型可能只有Map过程,由Map产生的数据直接被写入HDFS中。()参考答案:对10.Hadoop提供的Mapper类是实现Map任务的一个抽象基类。()参考答案:对11.MapTask作为MapReduce工作流程的前半部分,它主要经历Read阶段、Map阶段、Collect阶段、Spill阶段和Shuffle阶段。()参考答案:错12.MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台。( )参考答案:对13.由于Combiner组件不允许改变业务逻辑,所以无论调用多少次Combiner,Reduce的输出结果都是一样的。()参考答案:对14.ReduceTask作为MapReduce工作流程的后半部分,主要经历了Copy阶段、Merge阶段、Sort阶段、Reduce阶段和Write阶段。( )参考答案:对15.在Reduce阶段,设置Map和Reduce共存,当Map运行到一定程度后,Reduce也开始运行,减少Reduce的等待时间,可以提高MapReduce的性能。()参考答案:对三、填空题1.在MapTask的Split阶段,将数据写入本地磁盘前,要对数据进行一次______________,并在必要时对数据进行合并、压缩等操作。参考答案:本地排序2._________________是MapReduce的核心,它用来确保每个Reducer的输入都是按键排序的。参考答案:Shuffle3.MapReduce编程组件中,_______________组件主要用于描述输入数据的格式。参考答案:InputFormat4.当Map任务写入内存缓存区的数据到达阈值_______________时,会启动一个线程将内存中的溢出数据写入磁盘。参考答案:80M5.MapReduce程序的运行模式主要有两种,即本地运行模式和______________。参考答案:集群运行模式6._____________是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。参考答案:倒排索引7.MapReduce的核心思路是_______________。参考答案:分而治之8.____________是指从研究对象中按照某一个指标进行倒序或正序排列,取其中所需的n个数据,并对这n个数据进行重点分析的方法。参考答案:TopN分析法9.输入Map阶段的数据源,必须经过___________和格式化操作。参考答案:分片10.默认情况下,run()方法中的setup()和cleanup()方法在内部不作任何处理;也就是说,__________方法是处理数据的核心方法。参考答案:reduce()11.ReduceTask在Sort阶段,为了将key相同的数据聚在一起,Hadoop采用了_____________基于的策略。参考答案:排序12.______________组件的作用就是对Map阶段的输出的重复数据先进一次合并计算,然后将新的<key,value>对作为Reduce阶段的输入。参考答案:Combiner13.Reduce是MapReduce数据流模型的最后处理过程,其结果___________进行第二次汇总。参考答案:不会14.MapReduce通过默认组件________________将待处理的数据文件的每一行数据都转变为<key,value>键值对。参考答案:TextInputFormat15.MapReduce在操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为_____________和____________两个阶段。参考答案:Map、Reduce16.MapReduce编程模型的实现过程是通过___________和____________函数来完成的。参考答案:map()、reduce()四、简答题1.简述MapReduce的Map阶段和Reduce阶段。参考答案:Map阶段:负责将任务分解,即把复杂的任务分解成若干个“简单的任务”来并行处理,但前提是这些任务没有必然的依赖关系,可以单独执行任务。Reduce阶段:负责将任务合并,即把Map阶段的结果进行全局汇总。2.简述MapReduce的工作流程。参考答案:MapReduce的工作过程一共有5个步骤,分别是先分片、格式化数据源,再执行MapTask过程,接着执行Shuffle过程,然后执行ReduceTask过程,最后是写入文件操作。习题4 单选题D A D判断题√×√√√×√√×√√×√×√填空题HiveonSparkDriver组件外部表hive.metastore.warehouse.dir元数据对应表下并行列分隔符加载表文本文件(TextFile)Default建立一个链接自定义函数DISTINCT简答题比较Hive和MapReduce的异同。mapreduce和hive的区别:hive本身只是在hadoopmapreduce或者spark计算引擎上的封装,应用场景自然更局限,不可能满足所有需求。有些场景是不能用hive来实现,就需要mapreduce或者sparkrdd编程来实现。结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。直接让hive处理结构复杂的数据估计很难处理。小结:业务比较复杂的,还是必须写mapreduce才能实现。mr和hive比较:Hive与MapReduce底层都是使用的MapReduce进行计算,运行速度和资源消耗基本相同Hive的开发成本低于MapReduceHive读取文件时,不需要关心文件的格式,比MapReduce方便Hive中内部表和外部表的区别,开发时如何进行选择。(1)内部表:1)在创建的时候不需要加载数据,数据时后期load进去的2)如果是本地load,不会剪切数据,如果是从hdfsload,将会将hdfs的数据剪切过去。3)删除内部表的时候,将数据和元数据同时删除。(2)外部表:1)在创建表的时候需要加载数据位置信息3)后期不需要load数据,数据不会有移动过程3)删除外部表的时候,不会删除数据,只会删除元数据。(3)总结:建议在生产环境中使用外部表。产生数据倾斜的原因有哪些。1.key分布不均匀2.业务数据本身的特性3.建表时考虑不周4.某些SQL语句本身就有数据倾斜上机实验4Hive离线数据统计案例创建表accesscreatetableaccess(ipstring,something1string,something2string,timestring,timezonestring,request_typestring,refurlstring,http_protocolstring,status_codestring,request_body_sizestring,targurlstring,http_user_agentstring,something3string,something4string,something5string,something6string,something7string,something8string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'';加载数据:loaddatalocalinpath'/home/hadoop/ceshi/access.log'intotableaccess;数据示例:1--[18/Sep/2020:07:13:22+0000]"GET/js/google.jsHTTP/1.1"200475"http://blog.fens.me/vps-network-error/""Mozilla/5.0(X11;U;Linuxx86_64;en-US;rv:1.9)GeckoMinefield/3.0"5--[18/Sep/2020:07:13:22+0000]"GET/js/baidu.jsHTTP/1.1"200249"http://blog.fens.me/vps-network-error/""Mozilla/5.0(X11;U;Linuxx86_64;en-US;rv:1.9)GeckoMinefield/3.0"实现步骤:1.对原始数据进行抽取转换,分离时间droptableifexistst_etl_detail;createtablet_etl_detailasselectip,substring(time,2,11)asdate,substring(time,14,20)astimes,refurl,status_code,request_body_size,targurl,http_user_agentfromaccess;2.来源访问次数topn各时间维度URLselectdate,refurl,count(1)asnumberfromt_etl_detailgroupbydate,refurlorderbynumberdesclimit10;习题5 单选题D D A判断题×××√×√√√××√×√×√填空题Besteffort消费消息Hadoop事件(Event)ChannelSink传送成功FileChannelbytearrayip和端口flush到磁盘文件过大偏移量Pull一个四、简答题如何才能保证Flume数据不丢失?使用filechannel,保证数据存储在文件上配置flume高可用failover使用hdfssink,保证数据分布式存储Sqoop如何设置MapReduce的并发操作?默认Sqoop参数--m为1,表示切片数量为1,也就是只是用了一个maptask进行任务操作,可以修改--m为n,让n个maptask进行并发任务操作。Kafka如何设置Topic的Partition个数和备份数,设置Partition备份的意义是什么?通过num.partitions=n设置Topic的Partition个数,n为数值类型通过default.replication.factor=n设置Partition的备份数,n为数值类型设置Partition备份的意义在于,如果不设置Partition备份,那么Partition备份数为1,也就是说Partition只会保存一份数据在某个broker上,当这个broker失效后,Partition数据即丢失,当设置了Partition备份后,可以保证某一个broker失效后,还有备份的Partition可以被使用,不会影响数据的生产和消费。上机实验5离线处理组建的安装配置按照文档安装Flume参见5.1.3按照文档安装Kafka参见5.2.4按照文档安装Sqoop参见5.3.2习题7 单选题D C D判断题√×

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论