大数技术基础应用题_第1页
大数技术基础应用题_第2页
大数技术基础应用题_第3页
大数技术基础应用题_第4页
大数技术基础应用题_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术练习题库选择题部分(单选、多选、判断)1.HBase集群定时执行Compaction的目的是什么?A.减少同一Region,同一ColumnFamily下的文件数目B.提升数据读取性能C.减少同一ColumnFamily的文件数据D.减少同一Region的文件数目正确答案:AB章节:4.2.4解析:Hbase合并是为了减少region下的文件数2.FusionInsightHD系统中Hive支持的存储格式包括?A.HFileB.TextFileC.SeuenceFileD.RCFile正确答案:BCD章节:4.3.2解析:Hfile是Hbase的文件格式3.FusionInsightManager界面显示Hive服务状态为Bad时,可能原因有哪些?A.DBService不可用B.HDFS服务不可用C.MetaStore实例不可用D.HBase服务不可用正确答案:ABC章节:4.3.2解析:Hbase和Hive不具有关联关系4.以下哪类数据不属于半结构化数据?A.HTMLB.XMLC.二维表D.JSON正确答案:C章节:1.5解析:二维表为结构化数据5.FusionInsightHDHBase默认使用什么作为其底层文件存储系统?A.HDFSB.HadoopC.MemoryD.MapReduce正确答案:A章节:4.2.1/4.2.2解析:\6.Hadoop的HDFS是一种分布式文件系统,适合以下哪种应用场景的数据存储和管理?A.大量小文件存储B.高容错、高吞吐量C.低延迟读取D.流式数据访问正确答案:BD章节:4.1.1解析:HDFS存储大文件、高吞吐、高延迟、流式数据访问7.HBase的主要特点有哪些?A.高可靠性B.高性能C.面向列D.可伸缩正确答案:ABCD章节:4.2.1解析:\8.华为FusionInsightHD系统中关于HDFS的DataNode的说法正确的是?A.不会检查数据的有效性B.周期性地将本节点的Block相关信息发送给NameNodeC.不同的DataNode存储的Block一定是不同的D.一个DataNode上的Block可以是相同的正确答案:BD章节:4.1.3解析:由于三副本形式的存在,所以数据可能重复存储。HDFS-HA中数据节点需要周期性发送摘要信息给NameNode9.关于大数据的主要特征的理解和描述正确的有哪些?A.数据来源多,格式多B.数据增长速度快,处理速度快C.数据量大,计算量大D.数据价值密度低,价值高正确答案:ABCD章节:1.1.1解析:大数据4v特性10.下列哪些组件必须依赖于Zookeeper才能运行?A.HDFSB.HBaseC.SparkD.YARN正确答案:ABD章节:4.1.2/4.2.3/5.2.3/5.1.3解析:Spark对Zookeeper没有依赖关系11.YARN服务中,如果要给队列user设置容量为30%,应该配置哪个参数?A.yarn.scheduler.capacity.root.user.user-limit-factorB.yarn.scheduler.capacity.root.user.minimum-user-limit-percentC.yarn.scheduler.capacity.root.user.capacityD.yarn.scheduler.capacity.root.user.state正确答案:C章节:5.1.7解析:capacity为比例设置12.当Zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的?A.3B.4C.6D.以上都不是正确答案:C章节:6.4.4解析:奇数节点和奇数节点-1的容灾能力相同13.HBase中Region的物理存储单元是什么A.RegionB.ColumnFamilyC.ColumnD.Row正确答案:B章节:4.2.3解析:\14.在Zookeeper的服务模型中,Leader节点以主备模式存在,其他节点都属于Follower节点。A.正确B.错误正确答案:B章节:6.4.5解析:Leader节点只有一个,不存在主备15.Hadoop系统中,如果HDFS文件系统的备份因子是3,那么MapReduce每次运行Task都要从3个有副本的机器上传输需要处理的文件段。A.正确B.错误正确答案:B章节:5.1.4/4.1.4解析:数据传输时,只和一个存储数据的副本沟通16.下面关于Zookeeper的特性描述错误的是?A.客户端所发送的更新会按照他们被发送的顺序进行应用B.一条消息要被超过半数的Server接收,他将可以成功写入磁盘C.消息更新只能成功或失败,没有中间状态D.Zookeeper节点数必须为奇数个正确答案:D章节:6.4.5/6.4.6解析:Zookeeper节点数建议为奇数个17.FusionInsightHD中使用HBase进行数据读取服务时需要连接HMasterA.正确B.错误正确答案:B章节:4.2.4解析:Hbase读取数据与Hmaster无关18.HBase中一个Region进行Split操作时,将一个HFile文件真正分开到两个Region的过程发生在以下什么阶段?A.Split过程中B.Flush过程中C.Compaction过程中D.HFile分开过程中正确答案:C章节:4.2.3解析:Split本质上只是分割了元数据,实际的数据操作是在合并操作中完成的19.Hadoop中MapReduce组件擅长处理哪种场景的计算任务?A.迭代计算B.离线计算C.实时交互计算D.流式计算正确答案:B章节:5.1.1解析:MapReduce的核心特性20.YARN调度器分配资源的顺序,下面哪一个描述是正确的?A.任意机器->同机架->本地资源B.任意机器->本地资源->同机架C.本地资源->同机架->任意机器D.同机架->任意机器->本地资源正确答案:C章节:5.1.7解析:资源分配是由远及近的21.HDFS机制中NameNode负责管理元数据,Client端每次读请求都需要从NameNode的元数据磁盘中读取元数据信息,以此获取所读文件在DataNode中的位置。A.正确B.错误正确答案:A章节:4.1.2/4.1.4解析:HDFS的数据框架概念22.对高价值高度聚合的信息和知识的批次处理是大数据行业主要商业诉求A.正确B.错误正确答案:A章节:8解析:\23.HBase的数据文件HFile中一个KeyValue格式包含哪些信息?A.KeyB.ValueC.TimestampD.KeyType正确答案:ABCD章节:4.2.2/4.2.3解析:key-value基本结构24.如果YARN集群中只有Default、userA和userB子队列,那么允许将他们的容量分别设置为60%、25%、22%。A.正确B.错误正确答案:B章节:5.1.7/5.1.8解析:Yarn的资源分配队列资源分配和值需要为10025.大数据商业咨询服务方案在规划环节主要考虑以下哪些设计?A.大数据商业模式设计B.商业场景全景规划C.典型场景需求设计D.场景分解和业务设计正确答案:ABCD章节:8解析:\26.HDFS的Client写入文件时,数据的第一副本写入位置由NameNode确定,其他副本的写入位置由DataNode确定。A.正确B.错误正确答案:A章节:4.1.3/4.1.4解析:\27.HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?A.3B.4C.5D.6正确答案:B章节:4.2.2/4.2.3解析:9为start-region、到Z结束共4个28.关于Hive中普通表和外部表的描述不正确的是?A.默认创建普通表B.外部表实质是将已经存在HDFS上的文件路径跟表关联起来C.删除普通表时,元数据和数据同时被删除D.删除外部表时,只删除外部表数据而不删除元数据正确答案:D章节:4.3解析:Hive删除外部表只删除元数据,不删除数据29.FusionInsightHD平台中,HBase暂不支持二级索引A.正确B.错误正确答案:B章节:4.2.5解析:Hbase支持二级索引30.Hadoop系统中YARN分配给Container的内存大小,可以通过参数yarn.app.mapreduce.am.resource.mb来设置A.正确B.错误正确答案:B章节:5.1.7解析:Yarn.NodeManager.resource.memory-mb31.YARN通过ResourceManager对集群资源进行管理,它的主要功能有?A.集群资源调度B.应用程序管理C.日志管理D.以上说法都不对正确答案:AB章节:5.1.2/5.1.3解析:对应了ApplicationManager和Resourcescheduler的功能32.HDFS系统中对备用NameNode的作用的描述正确的有?A.主NameNode的热备B.备NameNode对内存没有要求C.帮助主NameNode合并编辑日志,减少主NameNode的启动时间D.备NameNode应与主NameNode部署到一个节点正确答案:AC章节:4.1.3解析:备NameNode需要和主NameNode参数一致部署在不同的设备上33.关于Hive建表的基本操作,描述正确的是?A.创建外部表的时需要指定external关键字B.一旦表创建好,不可再修改表名C.一旦表创建好,不可再修改列名D.一旦表创建好,不可再增加新列正确答案:A章节:4.3解析:\34.HBase的最小处理单元是Region,UserRegion和RegionServer之间的路由信息是保存在哪里的?A.ZookeeperB.HDFSC.MasterD.meta表正确答案:D章节:4.2.3解析:\35.大数据分析相关技术主要特征有哪些?A.机器学习,全量特征B.数据背后事件关联性分析C.以海量数据为基础D.以精确样本为基础正确答案:ABC章节:1.1解析:大数据的数据处理不会对精确数据进行操作,这是传统数据分析的数据要求36.FusionInsightHD系统中HDFS默认BlockSize是多少?A.32MB.64MC.128MD.256M正确答案:C章节:4.1.2解析:\37.下面关于ZKFC的说法错误的是?A.ZKFC(ZKFailoverController)作为一个Zookeeper集群的客户端,用来监控NameNode的状态信息B.ZKFC进程需要在NameNode的节点和Zookeeper的Leader节点中部署C.StandbyNameNode通过Zookeeper感知ActiveNameNode的状态,一旦ActiveNameNode宕机,StandbyNameNode就会执行升主操作D.HDFSNameNode的ZKFC连接到Zookeeper,把主机名等信息保存到Zookeeper中正确答案:B章节:4.1.2解析:ZKFC无需在Zookeeper部署38.以下哪个不属于Hadoop中MapReduce组件的特点?A.易于编程B.良好的拓展性C.实时计算D.高容错性正确答案:C章节:5.1.1解析:MapReduce是高延迟的离线计算39.HBase元数据MetaRegion路由信息保存在哪里?A.Root表B.ZookeeperC.HMasterD.Meta表正确答案:B章节:4.2.3解析:\40.FusionInsightHD集群中包含多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?A.HDFSB.NameNodeC.DataNodeD.HBase正确答案:BC章节:\解析:角色可以理解为组件中的进程41.执行HBase数据读取业务时,需要读取哪几部分数据?A.HFileB.HLogC.MemStoreD.HMaster正确答案:AC章节:4.2.4解析:BD是记录状态和管理的功能,不涉及数据读写42.YARN上有两个同级队列1与2,容量都是50%,1上已经有10个任务共占用了40的容量,2上有两个任务共占用了30的容量,那么由于1的任务数多,调度器会优先将资源分配给1。A.正确B.错误正确答案:B章节:5.1.7/5.1.8解析:优先分配利用资源少的节点43.FusionInsightHD的HBase服务包含哪些进程?A.HMasterB.SQLaveC.HRegionServerD.DataNode正确答案:AC章节:4.2.3解析:BD非Hbase组件44.HBase的主Master是如何选举的?A.随机选取B.由RegionServer进行裁决C.通过Zookeeper进行裁决D.HMaster为双主模式,不需要进行裁决正确答案:C章节:4.2.2/4.2.3解析:Zookeeper选举是Hadoop特性45.HDFS的NameNode节点主备状态管理及元数据文件合并分别由哪两个角色负责?A.ZKFC和备NameNodeB.主NameNode和备NameNodeC.ZKFC和主NameNodeD.主NameNode和JournalNode正确答案:A章节:4.1.2/4.1.3解析:主备管理由Zookeeper管理,元数据持久化是备namenode负责46.Hadoop系统中关于客户端向HDFS文件系统上传文件说法正确的是?A.客户端的文件数据经过NameNode传递给DataNodeB.客户端将文件划分为多个Block,根据datanode的地址信息,按顺序写入到每一个datanode中C.客户端根据datanode的地址信息,按顺序将整个文件写入每一个datanode中,然后由datanode将文件划分为多个blockD.客户端只上传数据到一个datanode,然后由namenode负责block复制正确答案:B章节:4.1.3解析:数据需要先分块后分配47.YARN中设置队列userA的最大使用资源量,需要配置哪个参数?A.yarn.scheduler.capacity.root.userA.user-limit-factorB.yarn.scheduler.capacity.root.userA.minimum-user-limit-percentC.yarn.scheduler.capacity.root.userA.stateD.yarn.scheduler.capacity.root.userA.maximum-capacity正确答案:D章节:5.1.7解析:\48.HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改。A.正确B.错误正确答案:B章节:4.1.1/4.1.2解析:HDFS只能追加写49.FusionInsightHD安装前准备,包括哪些步骤?(多选)A.完成硬件安装B.完成节点主机操作系统安装C.准备工具和软件。例如Putty、LLD、FusionInsightHD软件安装包等D.准备规划数据,例如网络参数和角色部署位置正确答案:ABCD章节:2.6解析:\50.HDFS管理节点提供双机HA(高可靠性)机制,主节点故障后,主备节点需要手动实现Failover。A.正确B.错误正确答案:B章节:4.1.1/4.1.2/4.1.3解析:主备切换自动执行51.Hadoop的NameNode用于存储文件系统的元数据。A.正确B.错误正确答案:A章节:4.1.1/4.1.2/4.1.3解析:\52.大数据需要传统行业思维的转变,要把数据收集,分析中作为业务流程的重要组成,数据端驱动业务流程优化,实现智能化和自动化,并依托数据资产实现跨界拓展A.正确B.错误正确答案:A章节:1.1解析:\53.Mapreduce过程中,默认情况下,一个分片就是一个块,也是一个mapTask.A.正确B.错误正确答案:A章节:5.1.6解析:\54.以下关于ZooKeeper关键特性中的原子性说法正确的是A.客户端发送的更新会按照他们被发送的顺序进行应用B.更新只能全部完成或失败,不会部分完成C.一条消息被一个server接收,将被所有server接收D.集群中无论哪台服务器,对外展示的均是同一视图正确答案:B章节:6.4.3/6.4.4/6.4.5解析:原子性:事务要么全部执行完成,要么全部不执行55.FusionlnsightHD系统中HDFS的Block默认保存几份?A.3份B.2份C.1份D.不确定正确答案:A章节:4.1.4解析:三副本机制56.基于Hadop幵源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有?A.MRB.SparkC.HDFSD.HBase正确答案:CD章节:4解析:\101.以下关于Zookeeper的Leader选举说法正确的是?A.当实例n为奇数时,假定n=2x+1,则成为leader节点需要x+1票B.Zookeeper选举leader时,需要半数以上的票数C.当实例数为8时,则成为leader节点需要5票,容灾能力为4D.当实例数n为奇数时,假定n=2x+1,则成为leader节点需要x票正确答案:AB章节:6.4.4/6.4.5解析:C,容灾能力为3;D,需要x+1票103.Hadoop平台中HBase的Region是由哪个服务进程来管理?A.HMasterB.DatanodeC.RegionServerD.Zookeeper正确答案:C章节:4.2.2/4.2.3解析:读写操作与正常管理由RegionServer执行解析:Nimbus主备操作至少双节点105.Hadoop中哪个模块负责HDFS的数据存储?A.NameNodeB.DataNodeC.ZooKeeperD.JobTraoker正确答案:B章节:4.1.2解析:\107.Hadoop的HBase不适合哪些数据类型的应用场景?A.大文件应用场景B.海量数据应用场景C.高吞吐率应用场景D.半结构化数据应用场景正确答案:A章节:4.2.1解析:Hbase结构上会对数据做分布式存储和维护,所以单文件过大会导致节点能力受限113.FusionInsight家族包含下列哪些子产品()?A.FusionInsightMinerB.FusionInsightFarmerC.FusionInsightHDD.GaussDB200正确答案:ABCD章节:1.4解析:GaussDB200即为FusionInsightlibra127.HBase的最小处理单元是Region,UserRegion和RegionServer之间的路由信息是保存在Zookeeper中。()A.正确B.错误正确答案:A章节:4.2.2/4.2.3解析:\128.FusionInsightHD系统中,HBase支持动态扩展列。()A.正确B.错误正确答案:A章节:4.2.1解析:\129.Hive是基于hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。以下关于Hive特性的描述不正确的是?()A.仅支持MapReduce计算引擎B.易用易编程C.可直接访问HDFS文件以及HBaseD.灵活方便的ETL(extract/transform/load)正确答案:A章节:4.3解析:Hive还可以支持Spark运算132.以下关于HBase存储模型的描述正确的是?()A.每一个KeyValue都拥有一个ualifier标识B.同一个key值key关联多个valueC.KeyValue中拥有时间戳、类型等关键信息D.即使是key值相同,ualifier也相同的多个KeyValue,也可能有多个,此时使用时间戳来区分正确答案:ABCD章节:4.2.2/4.2.3解析:\133.下列选项中适合MapReduce的场景有?()A.离线计算B.实时交互计算C.迭代计算D.流式计算正确答案:A章节:5.1.1解析:\134.YARN中,“从”节点负责以下哪些工作?()A.集群中所有资源的统一管理和分配B.监督Container的生命周期管理C.管理日志和不同应用程序用到的附属服务D.监控每个Container的资源使用(内存,CPU等)情况正确答案:BD章节:5.1.3解析:从节点主要是承担热备工作,不承担生产相关职能135.以下选项中,属于HDFS架构关键特性的是?()A.健壮机制B.多方式访问机制C.HA高可靠性D.元数据持久化机制正确答案:ABCD章节:4.1.3解析:AD为数据保护机制,BC为安全保护机制136.下列哪个命令是从HDFS下载目录/文件到本地的?()A.dfs-catB.dfs-mkdirC.dfs-getD.dfs-put正确答案:C章节:4.4.1解析:\137.在MapReduce编程中,代码不仅要描述做什么,还要描述具体怎么做。()A.正确B.错误正确答案:B章节:5.1.1解析:代码只需要描述做什么即可138.在华为大数据解决方案中,hadoop层包含以下哪些组件?()A.MinerB.SparkC.HiveD.Flink正确答案:BCD章节:1.3.2解析:miner为华为自研组件,不属于开源Hadoop139.HDFS的副本放置策略中,同一机架不同的服务器之间的距离是?()A.1B.3C.2D.4正确答案:C章节:4.1.5解析:\140.FusionInsightManager的主要功能有以下哪些?()A.安全管理B.数据集成C.系统管理D.服务治理正确答案:AC章节:1.4解析:数据集成与服务治理是Hadoop内部功能149.硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制。默认情况下,一份文件,HDFS会存()份?A.2B.4C.3D.5正确答案:C章节:4.1.5解析:HDFS三副本机制163.colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据搬迁带来的大量网络开销。()A.正确B.错误正确答案:A章节:4.1.5解析:\165.下列哪个不是HBase读取数据流程中涉及的角色或服务?()A.HDFSB.ZookeeperC.HMasterD.HRegionServer正确答案:C章节:4.2.4解析:Hmaster只负责管理,不参与读写业务166.以下属于hiveSQL中DDL(数据定义语言)的是?()A.修改表B.删除表C.建表D.数据导入正确答案:ABC章节:4.4.2解析:\168.FusionInsightHD中HBase默认使用什么组件作为其底层文件存储系统?()A.kafkaB.HDFSC.MemoryD.File正确答案:B章节:4.2.1解析:\169.HBase不适合哪些应用场景?()A.高吞吐率应用场景B.要求具有完全ACID特性的应用场景C.半结构化数据应用场景D.海量数据(TB、PB)应用场景正确答案:B章节:4.2.1解析:Hbase可以不严格遵守传统数据库的ACID特性解析:\175.MapReduce过程中,以下属于shuffle机制的是?()A.partitionB.sort/mergeC.copyD.combine正确答案:ABD章节:5.1.6解析:shuffle:分区、排序、组合、合并178.YARN中默认的资源调度器是?()A.FIFO调度器B.容量调度器C.Fair调度器D.以上全不正确正确答案:B章节:5.1.7解析:其余选项非调度器名称,只是策略名称179.ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。A.正确B.错误正确答案:A章节:5.1.4解析:\181.HDFS的基本系统构架中包含下列哪些节点?()A.ResourceManagerB.NameNodeC.NodeManagerD.DataNode正确答案:BD章节:4.1.2解析:AC为Yarn架构182.下列哪个命令是删除文件的?()A.dfs-clearB.dfs-delC.dfs-rmD.dfs-ls正确答案:C章节:4.4.1解析:\185.以下关于HBase二级索引的描述哪一项是正确的()A.二级索引把要查找的列与rowkey关联成一个索引表B.此时列成新的rowkey,原rowkey成为valueC.二级索引查询了2次D.以上全都正确正确答案:D章节:4.2.5解析:\186.Hive是一种数据仓库处理工具,使用类SQL的HiveL语言实现数据查询功能,所有Hive的数据都存储在HDFS中()A.正确B.错误正确答案:A章节:4.3.1解析:\188.在Hive中,以下关于分区的描述不正确的是()A.分区下可再有分区或者桶B.数据表可以按照某个字段的值划分分区C.每个分区是一个目录D.分区数量是固定的正确答案:D章节:4.3.2解析:分区是根据文件数和文件大小动态变化的193.Zookeeper可以为FusionInsightHD中哪些组件提供分布式管理支持()A.HBaseB.HDFSC.HiveD.Spark正确答案:ABCD章节:6.4.1解析:\194.HDFS联邦环境下,NameSpace(命名空间)包含以下哪些内容()A.目录B.文件C.块D.以上全不正确正确答案:ABC章节:4.1.5解析:联邦等同于在一个HDFS中虚拟化了多个独立的HDFS进程,互不干扰,架构完整且独立198.在YARN的任务调度流程中,下列哪个是ApplicationMaster负责的任务?A.申请和领取资源B.为任务设置好运行环境C.分配ContainerD.启动Map或Reduce任务正确答案:A章节:5.1.4解析:BCD为NodeManager和Container的任务200.HBase中数据存储的文件格式是什么?A.HFileB.HLogC.TextFileD.SeuenceFile正确答案:A章节:4.2.2解析:\201.以下关于Zookeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?A.同时写入磁盘和内存B.先写磁盘再写内存C.仅写入内存D.先写内存再写磁盘正确答案:B章节:6.4.6解析:\202.Hive中的这条命令“ALTERTABLEemployee1ADDcolumns(column1string);”是什么含义?A.删除表B.增加列C.创建表D.修改文件格式正确答案:B章节:4.4.3解析:\205.导入数据到Hive表时,不会检查数据合法性,只会要读取数据时候检查。A.正确B.错误正确答案:A章节:4.3.2解析:为了保证速度,导入时不会检查有效性216.下列选项中无法通过大数据技术实现的是?A.商业模式发现B.信用评估C.商品推荐D.运营分析正确答案:A章节:8解析:大数据不能替代现有的商业模式也无法发现219.以下关于HBase中HMaster的功能描述哪些是正确的?A.Region负载均衡,Region分裂以及分裂后的Region分配B.负责建表/修改表/删除表C.负责RegionServer的负载均衡D.RegionServer失效后的Region迁移正确答案:ABCD章节:4.2.3解析:\224.ZKFC进程部署在hdfs中的以下那个节点上?A.activenamenodeB.standbynamenodeC.datanodeD.以上全部不对正确答案:AB章节:4.1.3解析:ZKFC保证了NameNode的安全性和主备切换230.下列哪些措施是为了保障数据的完整性A.元数据可靠性保证B.重建失效数据盘的副本数据C.安全模式D.集群数据均衡正确答案:ABC章节:4.1.3解析:数据均衡是提醒性能,不会保证完整性232.在YARN的任务调度中,一旦ApplicationMaster申请到资源后,便与对应的ResourceManager通信,要求它启动任务A.正确B.错误正确答案:B章节:5.1.4解析:此处应为NodeManager233.HFS的出现解决了需要在HDFS中存储大量的小文件(10MB以下)。同时也要存储一些大文件(10MB以上)的混合的场景A.正确B.错误正确答案:B章节:4.2.5解析:此处概念为MOB的作用234.关于Hive与Hadoop其他组件的关系。以下描述错误的是?A.Hive最终将数据存储在HDFS中B.Hive是Hadoop平台的数据仓库工具C.Hive可以通过MapReduce执行任务D.Hive对HBase有强依赖正确答案:D章节:4.3.2解析:Hive与Hbase间无依赖关系235.Hive不支持超时重试机制。A.正确B.错误正确答案:B章节:4.3.2解析:Hive支持超时重试(有问题)236.FusionInsight中,HiveServer将用户提交的HQL语句进行编译,解析成对应的Yarn任务Spark任务或者HDFS操作,从而完成数据转换,分析。A.正确B.错误正确答案:A章节:4.3.2解析:Hive默认使用MapReduce作为计算引擎237.容量调度器在尽行资源分配,现有同级的2个队列1和2,他们的容量均为30,其中1已使用8,2已使用14,则会优先将资源分配1。A.正确B.错误正确答案:A章节:5.1.7解析:资源用量小的队列优先分配资源240.HDFS不适用于以下哪些场景?A.流式数据访问B.大量小文件存储C.大文件存储与访问D.随机写入正确答案:BD章节:4.1.1解析:小文件存储支持,但不适用,随机写是HDFS禁止的241.HDFS中的NameNode的主备仲裁,是由哪个组件控制的?A.ZookeeperFailoverControllerB.NodeManagerC.ResourceManagerD.HDFSClient正确答案:A章节:4.1.3解析:\解析:由Zookeeper来进行切换254.Zookeeper在分布式应用中的主要作用不包括一下哪些选项?A.选举Master节点B.保证各节点上数据的一致性C.分配集群资源D.存储及群中服务器信息正确答案:C章节:6.4解析:集群资源为Yarn功能255.HDFS中Namenode的主备仲裁,是由哪个组件控制的A.HDFSClientB.NodeManagerC.ResourceManagerD.ZooKeeperFailoverController正确答案:D章节:4.1.3解析:\258.HBase的数据文件HFile中一个KeyValue格式包含Key,Value,TimeStamp,KeyType等内容A.正确B.错误正确答案:A章节:4.2.2解析:\259.在有N个节点FusionInsightHD集群中部署HBase时,推荐部署()个HMaster进程,()个RegionServer进程A.3,NB.N,NC.2,ND.2,2正确答案:C章节:4.2.3解析:Hmaster至少两个,RegionServer可以多个260.Hive中“Groupby”指的是通过一定的规则将每一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理A.正确B.错误正确答案:A章节:4.3.2解析:\271.hbase的底层数据以()的形式存在的?A.keyvalueB.列存储C.行存储D.实时存储正确答案:A章节:4.2.1解析:数据的组织形式为Key-value272.二级索引为hbase提供了按照某些列的值进行索引的能力,二级索引先查索引表,再定位到数据表中的位置,不用全表扫描A.正确B.错误正确答案:A章节:4.2.5解析:\275.现有3个机架,有一个文件需要存3份,其中副本1和副本2存放在与client相同的机架且不同的服务器上。3副本根据HDFS的副本放置策略一定要存放在其他机架。A.正确B.错误正确答案:B章节:4.1.5解析:忽略了强制机架组的问题276.Kafka中partitionreplication之间同步数据,从partition的leader复制数据到follower需要线程(replicationFetcherThread),Follower(一个follower相当于consumer)主动从leader批量拉取消息的,这极大提高了吞吐量。A.正确B.错误正确答案:A章节:3.2.2解析:\277.NodeManager的内存和CPU的数量,是通过下列哪些选项进行配置?A.Yarn.scheduler.capacity.root.usermaximum-capacityB.Yarn.nodemanager.resource.cpu-vcoreC.Yarn.nodemanager.vmem-pmom-ratioD.Yarn.modemanager.resource.memory-mb正确答案:BCD章节:5.1.7解析:\278.下列选项中,哪些是MapReduce一定会有的过程?A.CombineB.MapC.ReduceD.Partition正确答案:BCD章节:5.1.6解析:A是可选项279.关于HIVE的描述不正确的是?A.Hive最佳使用场景是大数据集的批处理作业B.Hive可以实现在大规模数据集上实现低延迟快速的查询C.Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在作提交和调度的时候需要大量的开销D.Hive查询操作过程严格遵循HadoopMapReduce的作用执行模型,Hive将用户的HiveL语句通过解释器转换为MapReduceHadoop集群上正确答案:B章节:4.3.2解析:Hive整体延迟相对较高280.在Flink中,checkpoint机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的A.正确B.错误正确答案:A章节:5.4.3解析:\281.Hive中的“Groupby”指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理。A.正确B.错误正确答案:A章节:4.3.2解析:\282.HBase中以下哪种场景会出发Flush操作?A.HBase定期刷新Memstore,默认周期为1小时B.当WALs中文件数量达到阈值时C.Region中MemStore的总大小,达到了预设的FlushSize阈值D.MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小正确答案:ABCD章节:4.2.4解析:\286.Hbase中OpenScanner的过程,会创建两种不同的Scanner来读取HFile和MemStore的数据,HFile对应的Scanner为StoreFileScanner,MemStore对应的Scanner为MemStoreScanner。A.正确B.错误正确答案:A章节:4.2.4解析:\正确答案:D章节:4.3.1解析:Hive作为数据仓库,存储的是离线的历史数据288.关于Hive建表基本操作,描述正确的是A.一旦表建好,不可再修改表名B.一旦表建好,不可再增加新列C.创建外部表时需要制定external关键字D.一旦表创建好,不可再修改列名正确答案:C章节:4.4.3解析:Hive表建好之后可以在多个维度进行修改和调整291.传统数据处理的数据规模的单位是?A.TBB.EBC.PBD.GB正确答案:D章节:1.1解析:\292.Hadoop平台中,要查看YARN服务中一个application的信息,通常需要使用什么命令?A.containerB.jarC.application-attemptD.Application正确答案:D章节:5.5.1解析:\295.在大数据时代,企业所面临的挑战有以下哪些?A.企业各部门间数据分散,相同数据在各部门内部存储格式不一致。B.数据结构多样化。C.竞争对手的技术进步。D.数据存在噪音、缺失、存储类型不规范等问题,需要进行大量的数据预处理工作。正确答案:ABCD章节:1.2解析:\298.YARN中设置队列QuserA的最大使用资源量,需要配置哪个参数?A.yarn.scheduler.capacity.root.Quseruser-limit-factorB.yarn.scheduler.capacity.root.Quserminimum-user-limit-percentC.yarn.scheduler.capacity.root.QuserstateD.yarn.scheduler.capacity.root.Qusermaxirnum-capacity正确答案:D章节:5.1.7解析:\300.HBase的数据文件HFile中一个KeyValue格式包含哪些信息?A.KeyB.ValueC.TimeStampD.KeyType正确答案:ABCD章节:4.2.2解析:\301.Hive支持的存储格式包括?A.HFileB.TextFileC.SequenceFileD.RCFile正确答案:BCD章节:4.3.2解析:Hfile是Hbase的文件格式308.FusionInsightManager支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁。A.正确B.错误正确答案:A章节:1.4解析:\309.Hadoop系统中关于客户端向HDFS文件系统上传文件说法正确的是?A.客户端的文件数据经过NameNode传递给DataNodeB.客户端将文件划分为多个Block,根据DataNode的地址信息,按顺序写入每一个DataNode中C.客户端根据DataNode的地址信息,按顺序将整个文件写入每一个DataNode中,然后由DataNode将文件划分为多个BlockD.客户端只上传数据到一个DataNode,然后由NameNode负责Block复制正确答案:B章节:4.1.2/4.1.4解析:\310.FusionInsightHD系统中HBase的最小处理单元是Region,UserRegion和RegionServer之间的路由信息是保存在哪?A.ZooKeeperB.HDFSC.MasterD.meta表正确答案:D章节:4.2.4解析:meta表存储了所有region的位置311.HBase集群定时执行Compaction的目的是什么?A.减少同一个Region,同一个ColumnFamily下的文件数目B.提升数据读取性能C.减少同一个ColumnFamily的文件数据D.减少同一个Region的文件数目正确答案:AB章节:4.2.4解析:\319.Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管理?(多选)A.大量小文件存储B.高容错、高吞吐量C.低延迟读取D.流式数据访问正确答案:BD章节:4.1.1解析:\321.Hadoop的NameNode用于存储文件系统的元数据。A.正确B.错误正确答案:A章节:4.1.2解析:\327.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有?(多选)A.MRB.SparkC.HDFSD.HBase正确答案:CD章节:4.2/4.1/5.1/5.2解析:MR和Spark是计算组件328.Hadoop的HBase不适合哪些数据类型的应用场景?A.大文件应用场景B.海量数据应用场景C.高吞吐率应用场景D.半结构化数据应用场景正确答案:A章节:4.2.1解析:\329.FusionInsight集群组网设计中,二层组网指集群内二层交换,集群节点在一个子网里,适用节点数小于200的集群场景。A.正确B.错误正确答案:A章节:2.6解析:\331.关于大数据的主要特征理解和描述正确的有?(多选)A.来源多,格式多B.增长速度快,处理速度快C.存储量大,计算量大D.数据的价值密度较低正确答案:ABCD章节:1.1.1解析:\336.Hadoop中MapReduce组件擅长处理哪种场景的计算任务?A.迭代计算B.离线计算C.实时交互计算D.流式计算正确答案:B章节:5.1.1解析:\339.YARN上有两个同级队列Q1与Q2,容量都是50,Q1上已经有10个任务共占用了40的容量,Q2上有2个任务共占用了30的容量,那么由于Q1的任务数多,调度器会优先将资源分配给Q2A.正确B.错误正确答案:B章节:5.1.7解析:资源利用量最低的队列优先340.以下哪类数据不属于半结构化数据?A.HTMLB.XMLC.二维表D.JSON正确答案:C章节:4.2.1解析:二维表是结构化数据344.HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改。A.正确B.错误正确答案:B章节:4.1.1解析:因为有元数据,文件位置不支持随意更改351.FusionInsightHD系统中HBase支持动态扩展列。A.正确B.错误正确答案:A章节:4.2.3解析:\360.Hadoop通过ResourceManager对集群资源进行管理,它的主要功能有?(多选)A.集群资源调度B.应用程序管理C.集群资源管理D.日志管理正确答案:ABC章节:5.1.3解析:\361.以下关于Hadoop的HDFS描述正确的有?(多选)A.HDFS由NameNode,DataNode,Client组成B.HDFS备NameNode上的元数据是主NameNode同步过去的C.HDFS采用就近的机架节点进行数据的第一副本存储D.HDFS适合一次写入,多次读取的读写任务正确答案:ACD章节:4.1.1/4.1.2/4.1.3/解析:元数据持久化是备namenode负责362.Hadoop系统中YARN支持哪些资源类型的管理?(多选)A.内存B.CPUC.网络D.磁盘空间正确答案:AB章节:5.1.3解析:\364.FusionInsightHD系统中HDFS的Block默认保存几份?A.3份B.2份C.1份D.不确定正确答案:A章节:4.1.5解析:\370.FusionInsightHD系统中,以下选项哪一个不是HBase写数据流程涉及的角色或服务?A.ZooKeeperB.HDFSC.HMasterD.RegionServer正确答案:C章节:4.2.4解析:Hbase读取数据与Hmaster无关375.HBase的物理存储单元是什么?A.RegionB.ColumnFamilyC.ColumnD.ROW正确答案:B章节:4.2.3解析:\377.YARN服务中,如果要给队列QuserA设置容量为30%,应该配置那个参数?A.yarn.scheduler.capacity.root.Quseruser-limit-factorB.yarn.scheduler.capacity.root.Quserminimum-user-limit-percentC.yarn.scheduler.capacity.root.QusercapacityD.yarn.scheduler.capacity.root.Quserstate正确答案:C章节:5.1.7解析:\378.FusionInsightHD的HBase中保存一张用户信息表meg_table,Rowkey为用户id,其中一列为用户昵称,现在按先后顺序往这列写入三个KeyValue:001:Li,001:Mary,001:LiLy,请问scan'meg_table',{VERSIONS=>2}会返回哪几条数据?A.001:LiB.001:LilyC.001:Li,001:Mary,001:LiLyD.001:Mary,001:LiLy正确答案:D章节:4.2.2解析:\382.YARN容量调度器的主要特点有哪些?(多选)A.容量保证B.灵活比C.多重租赁D.动态更新配置文件正确答案:ABCD章节:5.1.7解析:\385.关于Hive在FusionInsightHD中的架构描述错误的是?(A)A.只要有一个Hiveserver不可用,整个Hive集群便不可用B.HiveServer负责接受客户端请求、解析、执行HQL命令并返回查询结果C.MetaStore用于提供元数据服务,依赖于DBServiceD.在同一时间点HiveSever只有一个处于Active状态,另一个则处于Standby状态正确答案:A章节:4.3.2解析:还有hiveserver2386.关于HBase中HFile的描述不正确的是?A.一个HFile属于一个RegionB.一个HFile包含多个列族的数据C.一个HFile包含多列数据D.一个HFile包含多行数据正确答案:B章节:4.2.2解析:hfile是StoreFile的具体实现,一个Store对应一个ColumnFamily388.YARN调度器分配资源申请的顺序,下面哪一个描述是正确的?A.任意机器->同机架->本地资源B.任意机器->本地资源->同机架C.本地资源->同机架->任意机器D.同机架->任意机器->本地资源正确答案:C章节:5.1.7解析:度器会优先匹配本地资源的申请请求,其次是同机架的,最后是任意机器的392.Hadoop系统中YARN资源的抽象是用什么表示?A.内存B.CPUC.ContainerD.磁盘空间正确答案:C章节:5.1.3解析:\394.FusionInsightHDHBase的管理进程是如何选择主节点的?A.随机选取B.由RegionServer进行裁决C.通过ZooKeeper进行裁决D.HMaster为双主模式,不需要进行裁决正确答案:C章节:4.2.2/4.2.3解析:Zookeeper选举是Hadoop特性395.大数据需要传统行业思维方式的转变,要把数据收集、分析作为业务流程的重要组成部分,数据驱动业务流程优化,实现智能化和自动化,并依托数据资产实现跨界拓展。A.正确B.错误正确答案:A章节:1.2解析:\401.Hadoop的HBase主要特点有哪些?(多选)A.高可靠性B.高性能C.面向列D.可伸缩正确答案:ABCD章节:4.2解析:\411.关于Hive与传统数据仓库的对比,以下描述错误的是?()A.由于Hive的数据存储在HDFS中,所以可以保证数据的高容错、高可靠。B.由于Hive基于大数据平台,所以查询效率比传统数据仓库快C.Hive基于HDFS存储,理论上存储量可以无限扩展,而传统的数据仓库存储量会有上限D.Hive元数据存储独立于数据存储之外,从而解耦合元数据和数据,灵活性高,而传统数据仓库数据应用单一,灵活性低。正确答案:B章节:4.3.1解析:两者没有因果关系418.华为FusionInsightHD行业成功案例都有哪些?()A.智慧园区B.数字政府C.智慧交通D.金融正确答案:ABCD章节:\解析:\419.FusionInsightHD数据高可靠性体现在以下哪些方面?()A.第三方备份系统集成B.关键数据掉电保护C.跨数据中心容灾D.硬盘热插拔正确答案:ABCD章节:\解析:\420.Hadoop集群规模很大时,数据的分布情况会非常关键,用户需要根据数据分布情况,决定集群是否扩容,数据是否需要做均衡等。以下关于FusionInsight资源分布监控说法正确的有?()A.帮助用户迅速找到资源消耗最高的节点,采取适当的措施B.通过每个服务主业的资源分布查看页面,查看到关键的资源分布情况C.可以帮助用户快速聚焦在最关键的资源消耗上D.通过DashBoard界面,可以查看到主机资源分布情况,例如内存占有率在50%~70%的主机列表,并提供连接跳转。正确答案:ABCD章节:\解析:\425.下列那些命令是HDFS下载文件/目录到本地的()A.dfs-mkdirB.dfs-putC.dfs-catD.dfs-get正确答案:D章节:4.4.1解析:\427.Hive不适用于一下哪个场景A.实时的在线数据分析B.非实时分析,例如日志分析,统计分析C.数据汇总,例如每天,每周用户点击数,点击排行D.数据挖掘,例如用户行为分析,兴趣分区,区域展示正确答案:A章节:4.3.1解析:\填空题部分1.关于大数据的4v定义分别是________、________、________、________答案:巨量化、多样性、处理速度快、价值密度低章节:1.1.12.大数据的处理流程分为________、________、________、________四个部分答案:数据获取、数据存储、数据分析、数据挖掘章节:003年、2004年Google发表的三篇论文主题分别为分布式文件系统________、分布式计算框架________、分布式的结构化数据存储系统________。(英文)答案:GFS、MapReduce、Bigtable章节:1.3.14.DougCutting基于2003年、2004年Google发表的三篇论文完成了相应的开源实现________和________(英文)答案:HDFS、MapReduce章节:1.3.15.组件________负责对集群的一致性和安全性进行保护与协调答案:Zookeeper章节:1.3.26.________数据是指数据能够以二维表格表示的数据。比如表格数据和文本数据;________数据是指无法以二维表格表示的数据。比如视频、音频等相关数据;________数据是指具有一定的结构化特征,但是又不能全部按照结构化数据去表示的数据,比如xml后缀的数据或者网页数据。答案:结构化、非结构化、半结构化章节:1.514.linux中,使用________命令列出文档信息,使用________命令切换工作目录答案:ls、cd章节:2.1.239.HDFS是Hadoop应用用到的一个最主要的________系统。一个HDFS集群主要由一个________和很多个________组成答案:分布式存储、NameNode、Datanode章节:4.1.140.HDFS具有________,________并且支持________答案:高容错性、高吞吐量、大文件存储章节:4.1.141.________相当于是数据的一个摘要信息,保存着文件的属性、长度、存储位置、类型等信息,类似于字典中的索引和正文的关系。答案:元数据章节:4.1.142.按照字典的方式进行类比,文件系统就相当于是字典,________相当于索引目录,________相当于是正文。答案:元数据、数据章节:4.1.144.HDFS分为三个组件,________用于存储生成元数据,运行一个实例;________用于存储实际的数据;________支持业务访问HDFS,提供了进入的门。答案:Namenode、Datanode、Client章节:4.1.245.在HDFS中,Zookeeper进程主要提供的是对进程________的保护。答案:NameNode章节:4.1.346.在namenode主备切换时,主要涉及到了两个文件的操作,一个是________,一个是________,第一个文件记录的是用户对于元数据的修改操作,第二个文件记录是元数据的镜像。答案:Editlog、Fsimage章节:4.1.347.ZKFC进程主要的两个工作就是获取NameNode上报的________,并且进行________这两个操作。答案:心跳、故障切换章节:4.1.349.在HDFS的数据副本机制中,HDFS默认会存储三份副本数据,假设现在收到写入数据请求的服务器自身有A数据,实际写入副本数据的服务器有B数据,规则设定为认为A数据和B数据在一个服务器内的时候,距离为________,A数据和B数据在同一机架内的不同服务器的时候距离为________,认为A数据和B数据不在同一机架内的时候距离为________答案:0、2、4章节:4.1.350.在HDFS中,默认当时间为________小时或者Editlog文件大小达到________M时,启动一次元数据持久化操作。答案:1、64章节:4.1.351.在HDFS的新写流程中,创建元数据操作主要的作用是分配________。答案:写空间章节:4.1.452.在HDFS的读流程中,Client采用________原则读取数据答案:就近章节:4.1.454.在HDFS数据存储策略中,节点组存储是由________执行的,标签存储是由________来做的。答案:Datanode、NameNode章节:4.1.556.HBase是一个高可靠性、________、________、________的分布式存储系统。答案:高性能、面向列、可伸缩章节:4.258.在Hbase中,KeyValue具有特定的结构。其中,________部分被用来快速的检索一条数据记录,________部分用来存储实际的用户数据信息。答案:Key、Value章节:4.2.259.在Hbase中,KeyValue作为承载用户数据的基本单元,分为了三部分,第一部分记录的是key值的长度和value值的长度,第二部分是key值的具体字段(行键值长度,________,列族长度,________,________,________),最后是实际的value数据。答案:行键值、列族值、时间戳、key类型章节:4.2.261.一个Region由一个或多个Store组成,每个Store对应一个________。答案:ColumnFamily章节:4.2.262.________定义了StoreFile在文件系统中的存储格式,它是当前HBase系统中StoreFile的具体实现。答案:HFile章节:4.2.263.在Hbase中,________进程负责管理所有的RegionServer、新RegionServer的注册、RegionServerFailover处理,并且负责建表/修改表/删除表以及一些集群操作。答案:HMaster章节:4.2.364.在Hbase中,Region的元数据是由________维护和管理,Region的数据和操作是由________来管理,作为________,只负责了读写等动作的执行。答案:Zookeeper、HMaster、RegionServer章节:4.2.365.在Hbase中,HMaster进程有主备角色,主备HMaster的裁决________交由决定。答案:Zookeeper章节:4.2.366.在Hbase中,每一个Region都关联一个Key值范围,即一个使用________Key和________Key描述的区间。答案:Start、End章节:4.2.367.在Hbase中,________是Region的一个物理存储单元答案:ColumnFamily章节:4.2.368.在Hbase中,正常的数据写入情况下,数据是被写入到Region的内存中的,即MemStore。所以当系统满足要求某些特定要求时还需要将数据从内存中写入到底层系统。这种情况就被称为________(英文)刷新写操作。答案:Flush章节:4.2.471.在Hbase中,随着时间的增加,Region中维护的数据规模会逐渐增大,最终造成读取延迟增大,性能下降,这种情况下,系统会对Region做________操作。答案:Split/分裂章节:4.2.473.Hive是基于Hadoop的一个数据仓库工具,用来进行数据________、________、________,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。答案:提取、转化、加载章节:4.375.Hive分为三个角色,________将用户提交的HQL语句进行编译,解析成对应的Yarn任务、Spark任务或者HDFS操作,从而完成数据的提取、转换、分析;________提供元数据服务;________对外提供基于https协议的元数据访问、DDL查询等服务。。答案:HiveServer、MetaStore、WebHcat章节:4.3.276.________指的是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。在HDFS上利用这一特性,将那些需要进行关联操作的文件存放在相同的数据节点上,在进行关联操作计算是避免了到其他数据节点上获取数据,大大降低了网络带宽的占用。答案:同分布/Colocation章节:4.3.278.MapReduce包含三层含义,是基于集群的________平台,是一个________与________框架,是一个________模型。答案:高性能并行计算、并行计算、运行软件、并行程序设计章节:5.1.179.MapReduce具有________、________、________的特点答案:易于编程、良好的扩展性、高容错性章节:5.1.180.yarn的引入为集群在________、________和________等方面带来了巨大好处。答案:利用率、资源统一管理、数据共享章节:5.1.281.在yarn架构中,________负责集群中所有资源的统一管理和分配,________是每个节点上的代理,________负责一个Application生命周期内的所有工作,________是Yarn中的资源抽象答案:ResourceManager、NodeManager、ApplicationMaster、Container章节:5.1.3简答题部分1.请说明大数据的4v定义?参考答案:"1.Volume:大数据的第一个核心特点就是需要保证的就是有足够多的数据,数据的体量在分析时所需要的时间是超过常规所能容忍的限度的。2.Variety:大数据的第二个核心的特点就是数据类型繁多,从结构化数据到非结构化数据,大数据可以说基本囊括了当前所有的类型的数据。3.Velocity:大数据的第三个特点就是数据处理速度快,虽然大数据引擎体量巨大,类型繁多,但是我们仍然需要保证快速的完成计算和反馈的任务。4.Value:大数据的第四个特点就是价值密度较低的,例如,监控视频每天会产生大量的数据,但是,最终有意义的视频只有当出现事故或者其他情况的时候产生的数据。所以,大数据本身的高价值性,是需要从海量数据中找寻到有价值的这部分数据而定义的。"2.请说明大数据的处理流程?参考答案:"数据获取:作为大数据引擎,如果需要对数据进行操作,首先先要有一个稳定的数据源提供数据,所以数据的来源与获取就成为了最初的大数据的相关需求。数据获取主要负责从数据源进行数据的采集工作,将外部数据采集到本地。数据获取主要由Flume日志采集系统和Kafka消息订阅系统实现。Flume主要对小规模的日志数据进行采集,Kafka是对大规模的对数据时间顺序要求比较高的数据和应用进行数据采集。数据存储:主要负责对数据进行存储管理和维护。经过数据获取拉取到大数据本地的数据,首先需要做的就是将数据进行存储维护,此时根据数据的不同,可以将存储分为文件存储和数据库存储,文件存储需要由HDFS分布式文件系统进行维护,数据库存储需要由HBase分布式数据库以及Hive分布式数据仓库维护。数据分析:数据存储并维护好之后,在本阶段就进入到应用阶段,对海量数据的主要应用操作会体现在数据分析上,分析主要是指在数据统计(count、select)层面的角度上,对数据进行规律的发现和找寻。数据挖掘:数据挖掘是大数据中的深度分析操作,通过数据挖掘用户可以构建一个分析模型,通过对数据进行算法挖掘操作,直接得到判断的规律,并且将其封装在一个模型中,最终使用该模型进行数据的预测。"3.请说明Hadoop系统中的核心组件与作用?参考答案:1.HDFS:分布式文件系统,主要用于存储和维护文件。2.HBase:分布式数据库,主要用于存储数据库表格类型数据。3.MapReduce:分布式离线计算引擎,主要负责对海量数据进行离线长时间计算。4.Streaming:实时流处理计算技术,主要负责进行实时性低延迟计算。5.Kafka:消息订阅系统,负责从大数据系统外部引入海量数据。6.Yarn:分布式资源协调组件,负责为所有的计算引擎分配数据分析和数据挖掘所需的CPU和内存资源。7.Spark:基于内存的分布式计算引擎,用于对海量数据进行快速低延迟的计算。8.Hive:分布式数据仓库,主要用于存储历史性的数据,进行基于数据仓库的数据分析或进行历史性数据的归档和查询。9.Flink:流计算处理和批处理平台,Flink兼备了实时计算和离线计算两种引擎的功能,是目前最常用的大数据计算平台之一。10.Flume:海量日志聚合平台,在采集日志数据或者数量级较小的数据时使用。11.ZooKeeper:集群分布式协调服务,在集群出现数据丢失、节点损坏、数据不一致等情况时,Zookeeper负责对集群的一致性和安全性进行保护与协调。"9.请说明HDFS的组件与功能?参考答案:"Namenode用于存储生成元数据,运行一个实例。该进程是由HDFS调入到内存中运行的。NameNode作为元数据的维护进程,为了能够提升整体读取的效率,将元数据的维护进程搭载在内存中进行运行,但是内存中的数据是易失的,只能用于元数据的使用,所以元数据还是需要在DataNode中进行存储。当系统启动之后,服务器会拉起HDFS进程,然后NameNode加载到内存中,然后NameNode会加载元数据镜像文件到自身内存中。Datanode用于存储实际的数据,每个Datanode会将自己维护的数据块信息上报到Namenode,运行多个实例。HDFS默认最小的存储空间为block,每个block默认的大小为128MB。DataNode除了需要维护数据之外,还需要留有一部分的空间用于存储元数据镜像文件Fsimage。Client支持业务访问HDFS,并从Namenode和Datanode中获取数据,返回给用户,多个业务和实例一起运行。"10.请说明HDFS中ZKFC进程的作用?参考答案:ZKFC(zookeeperFailoverController)用于控制在故障时Namenode的主备状态。进行故障切换。该进程的作用是为了保障当主NameNode出现故障的时候可以及时的进行故障切换,将业务切换到备NameNode中进行运行,保障业务的连续性,所以ZKFC需要及时检测主备NameNode的状态,并且将心跳信息及时上报给Zookeeper,所以ZKFC进程和NameNode进程一样多,并且需要和NameNode部署在一起。11.请说明HDFS元数据持久化的概念和作用?参考答案:"在进行HDFS的操作时,元数据都是存储在内存中的。当用户开启HDFS之后,首先系统会加载存储在硬盘上的Fsimage.iso元数据镜像文件中的内容到内存中,之后对内存中的元数据和Editlog操作日志进行维护,由于元数据是在内存中维护的,Fsimage.iso文件只在开机后加载时使用了一次。所以关机之后,当前正在使用的在内存中的元数据就会丢失,此时服务器中存储的Fsimage.iso文件就是上一次开机时加载的文件,从时效性上来说,就会很落后。当下一次开机时,我们加载旧的Fsimage.iso文件之后,元数据其实是处于不可用的状态的。因为元数据和数据是不一致状态的,这时候如果进行写操作或者读操作,就会读取出错误的文件,或者是无法读取文件。这个时候在开机进行加载的时候就需要通过Editlog来对元数据进行进一步的恢复性加载。这个时候需要耗费过长的时间来进行。也就影响了整体进程的加载速度。同时,为了保证数据的安全性(比如在突然断电的情况下,Editlog和Fsimage就可以出现数据丢失的情况),也需要元数据持久化,主要是为了更新Namenode中的Editlog(操作记录日志文件)和Fsimage(文件系统镜像)两个文件,保证两个文件在主备节点中的同步,最终当出现故障的时候,可以进行Failover操作,保证整体大数据平台的可用性。而且,做Editlog和Fsimage的合并也有利于在进程重启之后,可以尽快的进行元数据的加载操作。"13.请说明结构化数据、非结构化数据、半结构化数据的概念?参考答案:"结构化数据:具有固定的结构,属性划分,以及类型等信息。我们通常所理解的关系型数据库中所存储的数据信息,大多是结构化数据,如职工信息表,拥有ID、Name、Phone、Address等属性信息。通常直接存放在数据库表中。数据记录的每一个属性对应数据表的一个字段。非结构化数据:无法用统一的结构来表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论