2016技术专题大数据fusioninsight hd2.5基础-mapreduceyarn_第1页
2016技术专题大数据fusioninsight hd2.5基础-mapreduceyarn_第2页
2016技术专题大数据fusioninsight hd2.5基础-mapreduceyarn_第3页
2016技术专题大数据fusioninsight hd2.5基础-mapreduceyarn_第4页
2016技术专题大数据fusioninsight hd2.5基础-mapreduceyarn_第5页
免费预览已结束,剩余53页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FusionInsightHD1123452MapReduce基 发布的分布式计算框架 设计开发,用于大规模据集(大于1TB)的并易于编程:程序员仅需描述需要做什么,而具体怎么去做就交由系统的执行框架处良好的扩展性高容错性MapRedcue适合做什任务分而治之,子任MapRedcue不适合做什实时的交互式计算,要求快速响应,低延迟,比如SQL流式计算、实时分析,比 点击计算子任务之间相互依谁在使用31123454

采用hdfs做为底层,支持MapReduceYetAnotherResource

(实时处理)(迭代计算)YanReducepak、tor资源利用运维成本数据共享6MRv1的局限扩展性可靠性资源利用无法支持多种技术框

相比与MRv1,Yarn的优更快地MapReduce对多框架的支框架升级更7 8gMRAppMaster架构图MR所有的功能都集中在 RecoveryRecoveryNodeNode

MapNode

RecoveryHDFS NewApp客户端通知RM NewAppRM生成一个唯一标识的应用ID,又叫JobID,同时将当前NM资源描述信息反馈给Submit32JobRA例Job或其他资源描述Submit324Get4GetApp客户端向RM查询Kill6Report5RM(实际是AsM)将应用执行进展报Kill6Report5必要,客户端可直接通知RM(实际是AsM)终止 的运行

Allocate45AllocatesRequestStartsRequestStatusResponse

RM接收 45增强特性—容器(Container)重行效率。优化后的HadoopYarn集群计算性能最高提升2~3倍。增强特性—抢占式任务优先级在原生的HadoopYarn的资源调度机制中,若提交一个计算Job处理的数据量较大、较长时间地占据整FusionInsightHD提供了抢务增强特性—MapReduce任务可设置超时参MapRedue(。处理任务的方式也可在参数中指定。使用方法yarnjar<App_Jar_Name>[Main_Class]参数:-Derval=xxx(单位:秒配置了这个参数后,与UI中erval-sec属性配置相同,设 超时间隔时间112345每个节点由多个固定内存大小(512MB配单位组成。Container可以分配该内存整倍大Pmem-ratio为物理内存对应最多可使用的拟内存总Pcores-ratio为可分配的虚拟CPU1、调度 一群队列的信提交应用。每次NM,调度器根据一定的规则选择用,尝试在这个应用。 的。假设文件假如输入文件在ABC三个机器上有备份,那如果AM申请到的container在这3个机器上的其个task就无须从其它机器上传输要处理的文件段,节省网络传输。这就是Hadoop的本地优AMRMntanr)ntanr)申请其他节点上的ntanr)。无无容量保证:管理员可为每个队列设置资源最低保证和资源使用上限,而所有提交到该队列的应用程序共这些资源灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦程序提交,则其他队列释放的资源会归还给该队列支持优先级:队列支持任务优先级调度(默认是多重租赁:支持多用户共享集群和多应用程序同时运行源,管理员可为之增加多重约束(比如单个因不该用程序同时运行的任务动态更新配置文件:管理员可根据需要动态修改各种配置参数,以实 集群管理调度资源利用量最低的队列优先,比如同级的两个队列Q1和Q2,它们的容量均为30,而Q1已使用Q2已使用12,则会优先将资源分配给最小队列层级优先,例如:QueueA与QueueB.childQueueB,则QueueA优先资源回收请求队列优然后按以下策略选择按照任务优先级和提交时间顺序选择,同对于同优先级的任务,选择算法参见“DRF(主资源公平调度算法)”优点支持多任务并行执动态调整资源分配,提高任务执行效缺点队列设置和队列选择无法自动进行,用户需要了解大量系统信息,才能设置和选择列队列的资源容量(百分比总共有default、QueueA、QueueB,并,并共享空闲资队列的资源使用上限(百分比),由于存在资源共享,因此一个队列使用的资源可能超过其容(QueueA.capacity),而最多使用资源量可通过该参数限如果某个队列任务较少,可将剩余资源共享给其他队列,如果QueueA um-capacity配置为假设当前只有QueueA在运行任务,理论上QueueA可以占用整个集群100%的资源每个用户最低资源保障(百分比nupercent户可使用的资源量过50%;如果三个用户提交任务,则每个用户可使用资源量过33%;如果四个或者用户提交任务,则每个用户可使用资源量过25%。每个用户最多可使用的资源量(所在队列容量的倍数queue容量的倍数,用来设置一个user可以获 的资源。默认值为1,表示一个user获取的资源容过queue配置的capacity,无论集群有多少空闲资源。此值为float类型,最多仍不超um-capacityAppMaster最大可使用的资源量(百分比AppMastr%的最大活跃任务sftor)。干个用用相对独立资源的子集群,不同队列之间是相互的,所以分配在不同队列中的两个任务,无论优先级只针对同一个队列中的不a%的aa%的a示max{CPU,mem},而min表示min{user1,user2,…}=min{max{CPU1,mem1},max{CPU2,mem2},DRF被证明非常适合应用于多资源和复杂需求的环境中,因此被越来越多的系统采用,包括Mesos(集群管理器DRF算法的公平满足四个特共享性(SharingIncentive),即DRF确保各用户平均占真实性(Strategy-Proofness),即每个用户都不能通 来获 资源效率性(Pareto-Efficient),即每个用户都不能在未减少其他用户占有的资源的情况下增加资源份额非抢占性 ),即每个用户都不能抢占其他用户的资源需要的资源量分别为<1CPU4GB3CPUs,1GB对于用户A,每个任务要消耗总CPU的1/9和总内存的2/9,因而A对于用户B,每个任务要消耗总CPU的1/3和总内存的1/18,因而B的支配性资源为CPUDRF将均衡所有用户的支配性资源(最大化所有用户的主资源A获取的资源量为:<3CPUs,12GB>,可运行3个task;获取了2/3的这样分配,每个用户获取了相同比例的支配性DRF算法的一个可能的调度序112345注:一般采用以上方式部署高可靠的模式,即采用两个RM。具体部署方法参见安装停、客户端服务总体概各组件操作和康状指标动态 …

每个Map会产生多个新的键值

… … ………

以键值对的形式输出

Slaver

Data

Slaver

Slaver

1 33

包含单词的文

每个单词出现的oWorldByeoHadoopBye o

ByeHadoopoWorldMap(K,V)ForMap(K,V)Foreachworldwin}<1, oWorldBye<2, oHadoop<3,“Bye o

Map< >>> >

>>

Reduce o,11<Bye,11

Reduce(K,V[])Reduce(K,V[]){Intcount=0;ForeachvinVcount+=v;}ByeHadoopoWorldDAG(DirectedAcyclicGraph)作业,如第2章中的朴素 ChainMapper/ChainReducer:方便用户编写链式作业,即在Map或者Reduce阶段存HadoopStreaming:方便用户采用非Java语言编写作业,允许用户指定可执行文件或 作Mapper/ReducerHadoopPipes:专门为C/C++程序员编写MapReduce程序提供的工具包12setMapperClass(Class<3Reducer>cls)4 作业的biner类,默认为空。也可以在“mapred-site.xml” 5InputFormat>67HDFS。与setJarByClass(Class<?>cls)选择使用一个。也可以在“mapred-8setOutputFormat(Class<?OutputFormat>9extendsPartitioner>lass<?extendsCompressionCodec>codecClass) setJobPriority(JobPriority序方说setQueueName(StringsetNumMapTasks(intsetNumReduceTasks(int说说明开发接口上面仅介绍了一些常112345yarncommand可同时供普通用户和管理员用户使用,它包含了少量普通用户可以执行 yarn[--configconfdir]DefaultToenableordisablecontainerreuseToenableordisablereusingofcontainerswhentherequireddataislocaltotheDifferentprioritylabelscanbeconfiguredthisparameterandorderoftheseprioritieswillfromlowertoYARN的WebYARN的Web

节点信YARN的Web

调度和队列ENTERPRISEICTSOLUTIONSABETTERTheinformationin

.All maycontainpredictivestatementsincluding,withoutlimitation,statementsregardingthefuturefinancialandoperatingresults,futureportfolio,newtechnology,etc.Thereareanumberoffactorsthatcouldcauseactualresultsanddevelopmentstodiffermater

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论