




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高性能集群作业调度系统,曙光信息产业股份有限公司,提纲,作业调度系统概述PBS作业调度系统Maui调度器曙光Gridview作业调度中间件Q&A,1.1集群使用中存在的问题,系统资源整合异构资源,软硬件资源的整合任务综合管理用户提交的任务的统一安排用户权限的管理对用户进行各类权限控制,1.2作业调度系统的功能,资源管理器:管理集群的软硬件资源及认证信息等队列管理器:管理当前所有已提交但还未完成的作业调度器:为作业分配资源,1.3作业调度系统的组成,作业调度系统的结构,1.3作业调度系统的组成,1.4作业调度系统的发展历史,提纲,作业调度系统概述PBS作业调度系统Maui调度器曙光Gridview作业调度中间件Q&A,PBS(PortableBatchSystem),最初由NASA的Ames研究中心开发,设计为一个能满足异构计算网络需要的软件包。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由。PBS的开源版本为OpenPBS,目前已经停止开发。PBS的商业版为PBSPro,由Altair公司开发和维护。TORQUE(Tera-scaleOpen-sourceResourceandQueuemanager)为OpenPBS的后续开源版本,修正了OpenPBS的很多bug,功能和可扩展性都有很大提高。,2.1PBS作业调度系统,服务器:pbs_server调度器:pbs_sched执行器:pbs_mom,2.2PBS的组成,解压源文件包tarzxvftorque-2.5.12.tar.gz编译设置cdtorque-2.5.12./configure-prefix=/usr/local-with-server-home=/var/spool/torque-enable-syslog-with-scp-enable-docs默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。其余的配置文件和运行时环境将安装在/var/spool/torque下编译和安装makemakeinstall,2.3PBS的安装(TorqueServer端),节点操作系统相同,可以用如下SHELL脚本在计算节点(torque客户端)上安装,2.3PBS的安装(TorqueClient端),以root作为torque的管理员账号创建作业队列在torque的安装源文件根目录中,执行./torque.setuprootServer配置目录/var/spool/torque/server_priv/计算节点列表及属性:/var/spool/torque/server_priv/nodesnode2np=12amdchemnode3np=12amdchemnode4np=8intelchemnode5np=8intelchemnode6np=4intelbiogpunode7np=4intelbiogpu,2.3PBSServer配置,Server的系统启动脚本/etc/init.d/pbs_serverScheduler系统启动脚本/etc/init.d/pbs_schedMom系统启动脚本/etc/init.d/pbs_momTorque服务端chkconfigpbs_serveronchkconfigpbs_schedonservicepbs_serverstartservicepbs_schedstartTorque客户端chkconfigpbs_momonservicepbs_momstart,2.3PBS系统服务,2.4PBS主要操作,队列设置,节点查看,提交作业,查看作业,作业其他操作,PBS要能正常运行还需要通过qmgr命令在server进行配置,设置一些属性。输入qmgr命令进入配置交互命令,格式为qmgr动作对象类型和操作符,2.4.1PBS的队列设置,2.4.1PBS的队列设置,下面是让PBS可以正常运行的基本设置,导入server配置文件qmgrqueue.conf配置文件例子,2.4.1PBS的队列设置,资源和用户限制,2.4.1PBS的队列设置,2.4.2PBS查看节点状态,pbsnodes命令的主要参数-a列出所有结点及其属性,属性包括“state”和“status”-o将指定结点的状态标记为“offline”。这将帮助管理员暂时停止某些结点的服务-l以行的方式列出被标记的结点的状态,如-lfree,-loffline-c清除结点列表中的“offline”或“down”状态设置,使结点可以被分配给作业-r清除指定结点的“offline”状态,2.4.2PBS查看节点状态,步骤:准备:编写描述该作业的脚本,包括作业名,需要的资源等。提交:使用qsub命令将该作业提交给PBS服务器排队:服务器将该任务排入适当的队列调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。执行:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。查看结果:使用文本编辑软件vi或者系统命令cat,less等查看输出及错误信息显示。,2.4.3PBS作业提交,在PBS系统中,用户使用qsub命令提交用户程序。用户运行程序的命令及PBS环境变量设置组成PBS作业脚本,如下,2.4.3PBS作业提交基本命令,作业脚本使用如下格式提交到PBS系统运行,运行参数在PBS脚本和qsub命令行中均有效,qsub命令行参数的优先级更高,2.4.3PBS运行参数,2.4.3PBS环境变量,2.4.3PBS脚本举例,一些软件有特殊的节点指定格式,比如ANSYS的命令行参数格式为:ansys121-dis-machinesnode1:2:node2:2-itest.inp-otest.log这时我们可以对$PBS_NODEFILE进行字符处理,得到需要的格式,2.4.3PBS脚本举例,2.4.4PBS查看作业状态,注:用户只能删除自己的作业,管理员可以删除所有用户作业,2.4.5PBS作业其他操作,删除作业,作业挂起及取消,2.4.5PBS作业其他操作,更改作业,2.4.5PBS作业其他操作,交换作业顺序,2.4.5PBS作业其他操作,2.4.5PBS作业其他操作,PBS脚本中可以指定多个作业之间的依赖关系,比如作业提交前另一个作业必须完成,否则处于排队状态,当指定作业非正常结束,作业才能提交运行,作业调度系统概述PBS作业调度系统Maui调度器曙光Gridview作业调度中间件Q&A,提纲,Torque带有自己的默认调度策略器(pbs_sched),但是这个最基本的调度策略并不高级。它根据fifo的原则安排作业,对一般的集群管理应该是足够了,但如果你的集群有几百个以上节点,分成若干个队列,那pbs_sched就力不从心了。为此,可以使用一系列第三方的调度策略进行补充。Maui就是被广泛使用的调度策略之一。,3.1Maui调度器介绍,3.1Maui调度器介绍,Maui采用积极的调度策略优化资源的利用和减少作业的响应时间。Maui的资源和负载管理允许高级的参数配置:作业优先级(JobPriority)、调度和分配(SchedulingandAllocation)、公平性和公平共享(FairnessandFairshare)和预留策略(ReservationPolicy)。Maui的QoS机制允许资源和服务的直接传递、策略解除(PolicyExemption)和指定特征的受限访问。Maui需要资源管理器和其配合使用。我们可以把Maui想象为PBS中的一个插入部件。,集群已安装配置好Torque解压源文件包tarzxvfmaui-3.2.6p17.tar.gz编译设置cdmaui-3.2.6p17./configure-with-pbs=/usr/local-with-pbs指定Torque安装目录编译和安装makemakeinstall,3.1Maui安装(Server),编辑启动脚本cdmaui-3.2.6p17cpetc/maui.d/etc/init.d/vim/etc/init.d/maui.d修改其中的”MAUI_PREFIX=/usr/local/maui”(maui的安装目录)停用pbs_sched,启用mauichkconfigpbs_schedoffchkconfigmaui.donservicepbs_schedstopservicemaui.dstart,3.1Maui安装(Server),Maui的配置参数都写在配置文件maui.cfg中,配置参数可以参考官方手册MauiAdministratorsGuide主要参数如下:vimmaui.cfg#设置Maui服务器主机名SERVERHOSTserver#一级权限用户,拥有Maui所有控制权限,包括更改调度策略,更改作业属性ADMIN1root#二级权限用户,不能更改调度策略,但能更改作业属性ADMIN2zhangwangzhao#三级权限用户,只有查看权限,ALL表示所有账户ADMIN3ALL,3.2Maui配置,#定义资源管理器(ResourceManager),指定类型为PBS,以及Torque服务器主机名,刷新资源信息的时间,端口号RMCFG0TYPE=PBSHOST=serverRMPOLLINTERVAL00:00:30SERVERPORT42559SERVERMODENORMAL#日志设置LOGFILEmaui.logLOG10000000LOGLEVEL3,3.2Maui配置,#设置Fairshare策略#FSPOLICYPSDEDICATED#FSDEPTH7#FSINTERVAL86400#FSDECAY0.80#设置回填(Backfill)策略BACKFILLPOLICYFIRSTFITRESERVATIONPOLICYCURRENTHIGHEST#节点分配策略#NODEALLOCATIONPOLICYMINRESOURCE#NODEALLOCATIONPOLICYCPULOAD#NODEALLOCATIONPOLICYSHAREDNODEALLOCATIONPOLICYFIRSTAVAILABLE,3.2Maui配置,#QOS配置QOSCFGpreemptorQFLAGS=PREEMPTORQOSCFGpreempteeQFLAGS=PREEMPTEECLASSCFGhighPRIORITY=11000QDEF=preemptorCLASSCFGlowPRIORITY=6000QDEF=preempteeCLASSCFGmiddlePRIORITY=9000QDEF=preemptee#用户优先级设置USERCFGrootMAXPROC=400MAXNODE=100MAXJOB=100USERCFGtestPRIORITY=100MAXPROC=200MAXJOB=10USERCFGDEFAULTPRIORITY=100MAXPROC=100MAXJOB=4,3.2Maui配置,作业调度系统概述PBS作业调度系统Maui调度器曙光Gridview作业调度中间件Q&A,提纲,4曙光Gridview作业调度中间件,介绍,功能,中间件应用,使用方法,作业调度中间件结构图,4.1曙光Gridview作业调度中间件,强大的资源管理,4.2作业调度中间件功能,轻巧的专业应用提交,4.2作业调度中间件功能,提供完善的参数设置,2,灵活的提交方式,3,4.2作业调度中间件功能,作业提交,提供作业监控功能,提供多集群作业监控,4.2作业调度中间件功能,作业管理,提供多个时间段的报表,提供多种存储格式,实用的用户管理和记账功能,4.2作业调度中间件功能,稳定性高,4.2作业调度中间件功能,4.3GridView作业调度的应用,应用与作业调度系统相结合,高性能主要领域主要业务软件得到各个领域的首席工程师的验证,4.3GridView作业调度的应用,ANSYSLSDYNACFXCOMSOLFLUENT,ABINITGAUSSIANPWSCFVASP,4.4GridView作业调度的使用,4.4.1节点监控,节点监控提供以下几个功能(1)监控节点状态(2)增加节点(3)删除节点(4)重启节点进程,4.4.1节点监控,4.4.2队列管理,队列管理主要包含对队列的创建、删除、修改和查看等操作。只有root用户和用户管理中规定的管理员才能打开队列管理的主页面,从而操作控制队列。,4.4.2队列管理,4.4.2队列管理,4.4.3用户设置,用户管理主要是对用户在作业调度系统中的身份、优先级,以及在作业调度系统对资源的使用和使用上限进行设置、修改和查看。这里的用户是指已经存在于操作系统中的一般用户,不包括root用户和用户ID小于500的系统用户。,4.4.3用户设置,4.4.4作业提交,该作业调度系统主要通过web页面将作业提交给调度器。系统中有三种提交方式:(1)Portal提交(2)脚本方式提交(3)命令行方式提交每次只能选择一种方式提交,在打开提交窗口时,默认是第一种提交方式。,4.4.4.1portal提交,根据应用特点定制,目前集成了19种软件,具体使用方法见手册Gridview_应用Portal_用户手册,4.4.4.1portal提交,4.4.4.1portal提交,用户针对应用特殊配置每个应用在$HOME/.clusportal/目录下有个对应的.setting文件,前缀为应用名。,4.4.4.2脚本和命令行提交,4.4.4.2脚本和命令行提交,4.4.4.1portal提交,机群上作业情况,myjobidis326.node1runnodesisfollowing:node4node4node4node4begintimeisTueAug2111:09:34CST2012/public/software/ansys_inc/v121/fluent/fluent12.1.4/bin/fluent-r12.1.42d-g-t4-cnf=/opt/gridview/pbs/dispatcher/aux/326.node1-ssh-mpi=openmpi-i/home/shenj/work/fluent/3/cavity.jouparallel/timer/usagePerformanceTimerfor300iterationson4computenodesAveragewall-clocktimeperiteration:0.002secGlobalreductionsperiteration:53opsGlobalreductionstimeperiteration:0.000sec(0.0%)Totalwall-clocktime:0.560secTotalCPUtime:2.300secendtimeisTueAug2111:09:51CST2012,实现了平台无关的单一系统映像,减小了用户的软件安装以及跨平台使用的学习成本。实现了对高性能计算的完美封装。实现了对应用的性能提升。实现了对应用的高度优化,包括通信方式、网络连接等多种并行计算参数,为用户提供了计算性能的自动优化。高容错性保障。实现了对用户输入、系统命令、文件权限、作业调度系统等多方面的检查与确认功能,提高用户作业的成功率。基于web方式的提交。提交方式的限制,可降低用户操作难度,减少用户操作带来的系统不稳定因素,同时提高高性能和计算内部网络的安全性。支持用户定制开发。,GridviewWebPortal优势,“VNC管理”提供了查询、打开和删除等管理操作的功能。root和Gridview管理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年礼品包装行业风险投资发展分析及运作模式与投融资研究报告
- 2025-2030年樟脑产业市场深度调研及发展趋势与投资前景研究报告
- 2025-2030年梅子酒市场市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年旅游帐篷睡袋行业市场发展分析及前景趋势与投资管理研究报告
- 2025人事保管合同范本下载
- 2025-2030年投影设备行业市场发展分析与发展前景及投资战略研究报告
- 2024年水利水电工程社会责任的讨论及试题及答案
- 2025-2030年家庭影院行业发展分析及投资战略研究报告
- 2025-2030年宠物玩具市场发展现状分析及行业投资战略研究报告
- 2025-2030年基因药物产业市场深度调研及发展趋势与投资前景预测研究报告
- (高清版)JTGT 3650-01-2022 公路桥梁施工监控技术规程
- 中国历史地理智慧树知到期末考试答案章节答案2024年北京大学
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- GB/T 3164-2007真空技术图形符号
- 涉密测绘成果保密检查情况记录表
- 《电路分析基础》试题及答案
- 重介质旋流器选煤毕业设计说明书
- 电气设备调试定额
- 储能技术-储能材料-新能源材料-锂电池储能(PPT100页)
- 商品销售明细单(样本)
- 石油化工行业装卸车效率提升策略探讨
评论
0/150
提交评论