大数据处理期末考试题库_第1页
大数据处理期末考试题库_第2页
大数据处理期末考试题库_第3页
大数据处理期末考试题库_第4页
大数据处理期末考试题库_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

库择题四大组件面哪个不是〕BCDR端是自带效劳的端口〔〕1.4本的最大变〔B〕AsparksqlRelease版本B引入SparkRCDataFrame支持动资源配SparkJob默认的调度模式〔AAFIFOFAIRC无D运行时指定哪个不是本地模式运的个条件D〕Aspark.localExecution.enabled:true显式定本运行CfinalStage无父StageDpartition默认值下面哪个不是的特点〔〕A.可B序化C可修改D可持化关于播变量下面哪个是错误的D〕A任调B是只读的存储各个节点D存储在磁盘或关于累加器,下面哪是错误的D〕A支持加法支持数值类型C可并行不支持自定义类型持的分布式部署方式中个是错误的〔D〕ABonCDon的的数量什么决〔A〕ABCD操窄〔B〕ABCD下面哪个操作肯定是宽依赖C)AmapBflatMapCreduceByKeyDsamplespark的和worker通过什么方式进行通信的?D〕ABnioCDAkka默认存储别〔A〕ABCD不支持那种〔D〕DD以不是的缓存法〔〕A〔〕BCache〔CMemory〔〕Task运行在下来哪里个项中上的作单元〔〕ADhive元数存储在derby和有什么区别〔〕A.没区别B.多会话持网络境D数据库的区别DataFrame和最大的区别〔〕A.科学统B.多了schemaC.存储方不一样D.外部数据支持Master的ElectedLeader事后做了些操作〕A.通知driverB.通知workerC.注册applicationD.直接ALIVE什么〔?正确案:基于内存计算框架基于磁盘计算框架一种基于框架一种行计算框架数据可以存储在哪些地方?正确答案:CassandraS3大数据处理主要的三种场景为〔〕正确答案:A,B,C批理交理流事理以Core有:A,B,C,D引移据使用程池减少task启动开使akka作为通框架以下SparkSQL的描述确的有?确答案:A,B,CSQL运行开发员之间处理SQL可以直接询中的数据SparkSQL运行开发人员之使用进行复制的据分析SparkSQL的性能上,和类似以的组?正答案:A,B,CR运行模式有哪些?正确答案:A,B,C,DonYarnorononCloud行模中on这种模,可以应于产境中.正确答案:正错行模中这模式,以应用于生产环境中.正确答案B正错用的资源治理器有哪些?正确答案:A,B,C,Dyarn有哪些组件正确答案SQL是年诞生伯克利学AMPLab的于内存计算框架正确答案:A确误对spark描述正的有?正确案:是基于内存计算的处理大量据的一个快速通用的引擎由实验室开发目前是apache的级工程是由语言开正确答案:确误容错机制是〔〕.正答案:A,DHadoop的区别〔确答A,C基于存计算框架,而Hadoop于硬盘计算框架基于盘计算框架,而Hadoop于内存计算框架是一站式计算框架而Hadoop只适合离线处理计算框架适合离处理计框架,而Hadoop是一站式计算框架根本特点有哪些?正确答案:EaseofuseRuns可以使用哪些语言来编写spark用程序正确答:javaR和比照,法正的选是?正确答案中间结果会储在磁上间结果存储在存中相对于hadoop提供了更多的操作已经完全取代见组件描述错误的选项是〔.确答案:BA.Spark:是以内存用架B.SparkStreaming:是一个对实时数据流进行低吞吐量、高容错性处理的流式处理架C.Spark:是一个可直接通过语RDD,来进行查询与计算D.SparkMLBase:是专注于机学习方面SparkGraphX:专注于计算方面SparkR:是一使用语言发,且能实并行处的计算架大数据期题目汇总选择下面哪个序负责据存储〔C〕A.C.D.HDFS中的默认保存几个备份A〕A.3份B.2份C.1份定认BlockSize大小是少.〔B〕A.B.C.下程任务度.B〕A.C.默认的度器策略是哪.A〕A.先进先调度器B.计算水平度器C.公平器优先级调度器Client上传文件的时候以下哪项正确?数NameNode传递DataNode端将文件分为Block,依次上传只上数据到台DataNode,然由NameNode责制作都确在的命令查看进程,终端出现以哪项能说明Hadoop节点启成功?〔D假MapReduce编程模型的和值进行特别置,以下哪一为一项不适宜运算.A.MaxB.MinC.CountD.AverageMapReduce编模型,键值<key,value的必须实现个接口?A〕ComparableWritableD.下哪一属构化数据.〔C〕A.企业ERP数据财务系统数据C.视频监D.日志据据库的存的据块,哪一项不一定提升效率.〔D〕A.-ROOT-表B.C.HFileindexD,普的数据块分布式式存储系统录按么集中放〕A.列族B.列C.行D.不确的组成中,须要有以下哪一.B〕A.C.询据库时,先需要从个表开查找.B〕A.C.用户表信息表15、设计分式数据库的数据时,为取样更高效一般可以对表中连续字段进行什么操作.〔〕A.分桶B.分区C.索引D.分表填题大据的特点Volume〔数容量、Variety〔据类型、Viscosity〔价值密度、Velocity〔速度〕、Veracity〔真实性〕大数据的性质:非结构性、不完备性、时效性、平安性、可靠性大数据处理的全过程:数据采集与记录-->数据抽取、洗、标记-->据集、转换、简约-分-->数解释大据关键术:流理并化摘索引、可化科研范式一式科实〕、二式〔科学理〕、三式〔系统模拟〕、第四式〔据密型〕CAP论:Consistency〔一致性、Availability〔可用性〕、PartitionTolerance分区容错.一个分布式统不可同时满足致性、用性、区容错三个系需求,最能同时足两.目标:兼容廉价的硬件设备、流数读、大数集、简的件型、大的平兼容性流特性性、性、性、:简多、作错、平用息索引的作过程:-取-处理-

搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,而找出所研究对象的内在规发现其价值.的三种式yarn配置的监控的默认端口是HDFSweb界面默认口为目前得广泛应用的分布式文件统主要包括和HDFS用“次写入,屡次读取的简文件模型HDFS采用了主从结模型.Hase3个主要功能件:库数效劳器,劳器型的核是函数和Reduce函数YARN的目标就是实现一个集群,多框架〞.题支持据的随读写.hbase支持,hadoop支持〔错〕NameNode责治元数信息metadata,client端每次读写求,都会磁盘读取入metadata信并反应给端〔内中读〕错〕的split是一个〔默认是〕〕MapReduce的据理.〔〕错〕式,对一MapReduce,Map和无个Mapper,能一个.对〕MapReduce,的默认task理〔对〕〔〕的要用.不〕〔对〕,〔〕.〔〔错〕简题简数据的(大体量):即可数百百、甚至模(样性:大数据括各种格式和形态的数据(时效性):.Veracity准确性理的结果证一定的.(价值:即大数据包很多深度的价,数据分析挖掘和利用带来巨大的商业价启动Hadoop系统当使用bin/start-all.sh令启动时,请给出集群各进程启动顺序答:启动顺序:—>datanodesecondarynamenode->resourcemanager->nodemanager简述主要技术特.列存表数据是稀的多维映射表读写严格致性提供很的数据写速度良好的性可扩性提据数据会自动片对故障是有自动的失效检测和恢复水平提供了方便与和集平科研究第一式、第范、第三范式、第范式式实验)、二式论式拟式密型计)式的研究.范式:以模和为科和分析,为理范式.第范式:以拟复为计算科学式为拟式.理论、实式,数据模拟成理,存在计算,科学用数据理学方法分析数据.的论CAP一致:所有节点在同一时间具有相同的数据..CAP定理一个分布式系统不可能同时满足一致性、可用性、和分区容错性多只能时足两个系统需求考虑满足系统需求时根据实际需要来选择关注点,进而采用相应.CAP选择:1.放弃分容错性.2.放弃可用放弃一致性.函语概点,Map及过程的含义功能分布平台点.函数式语言概念和点:函式语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论