调度系统安装配置手册_第1页
调度系统安装配置手册_第2页
调度系统安装配置手册_第3页
调度系统安装配置手册_第4页
调度系统安装配置手册_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Torque + Maui配置手册之抛砖引玉篇 本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。本文中的涉及的软件版本Torque 版本: 2.1.17 maui版本:3.2.6p17。1. 集群资源管理器Torque1.1. 从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。机群的NFS共享存储位置为/home,所有用户目录都在该目录下。1.1.1. 解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-.2. 编译设置#./configure -enable-docs -with-scp -enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定-with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。1.1.3. 编译安装# make# make installServer端安装设置:在torque的安装源文件根目录中,执行#./torque.setup root以root作为torque的管理员账号创建作业队列。计算节点(Client端)的安装:由于计算节点节点系统相同,因而可以用如下SHELL script (脚本名字为torque.install.sh)在其余计算节点上安装:创建torque.install.sh脚本#vi torque.install.sh#!/bin/shcd /home/dawning/torque-2.1.17make install使用如下命令:npssh -on node1.32 sh /home/dawning/torque.install.sh 将在每个节点上安装TORQUE。1.1.4. TORQUE配置 在计算节点上配置TORQUE:在每个计算节点,必须配置MOM daemon信任pbs_server daemon,可以通过编辑/var/spool/torque/server_name来实现,把node33写入该文件即可。#cat /var/spool/torque/server_namenode33其余的配置参数写入/var/spool/torque/mom_priv/config 文件。配置计算节点的数据管理,数据管理允许作业的数据在计算节点和PBS_Server之间传递。对于共享文件系统,如NFS,可以通过在mom_priv/config 中用$usecp参数来指定如何映射用户的根目录。$usecp *:/home /home这里集群的mom_priv/config内容如下:# MOM server configuration file# if more than one value, separate# rule is defined by the name# host allowed to connect to mom server on privileged port# note: IP address of host running pbs_server it by comma.$pbsserver 3$clienthost node33#ideal processor load and max processor load$ideal_load 7$max_load 8# host allowed to connect to Mom server on unprivileged port#Specifies hosts which can be trusted to access mom services as non-root.#By default, no hosts are trusted to access mom services as non-root.$restricted *.node33# Log event :# 0x1ff : log all events + debug events# 0x0ff : just all events$logevent 0x0ff# alarm if the script hang or take very long time to execute$prologalarm 30# Specifies which directories should be staged$usecp *:/home /homeServer端资源管理配置指定计算节点为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes文件中指定,一个1行。#rsh node33#cd /var/spool/torque/server_priv#for i in seq 1 32;do echo node$i np=2;done nodes#cat nodesnode1 np=8node2 np=8node3 np=8node4 np=8node5 np=8node6 np=8node7 np=8node8 np=8node9 np=8node10 np=8node11 np=8node12 np=8node13 np=8node14 np=8node15 np=8node16 np=8node17 np=8node18 np=8node19 np=8node20 np=8node21 np=8node22 np=8node23 np=8node24 np=8node25 np=8node26 np=8node27 np=8node28 np=8node29 np=8node30 np=8node31 np=8node32 np=8 np=8是说每个节点有8个CPU(其余的以线程来跑)。指定作业的提交节点为node33,node34,node35:rootnode33 # qmgr -c set server submit_hosts = node33rootnode33 # qmgr -c set server submit_hosts += node34rootnode33 # qmgr -c set server submit_hosts += node351.1.5. 系统自动启动脚本1. Server的系统启动脚本/etc/init.d/pbs_server该脚本单独启动/重新启动/暂停/查看状态TORQUE中Server的守护进程#cp contrib/init.d/pbs_server /etc/init.d/编辑pbs_server:#vi /etc/init.d/pbs_serverPBS_DAEMON=/usr/local/sbin/pbs_serverPBS_HOME=/var/spool/torque要确保这两个变量设定正确。2. Mom系统启动脚本/etc/init.d/pbs_mom,在计算节点执行。该脚本单独启动/重新启动/暂停/查看状态TORQUE中Mom的守护进程。#cp contrib/init.d/pbs_mom /etc/init.d/#vi /etc/init.d/pbs_momPBS_DAEMON=/usr/local/sbin/pbs_momPBS_HOME=/var/spool/torquePBS_SERVER端测试:重启pbs_server,使刚才的配置生效。/etc/init.d/pbs_server restart# verify all queues are properly configured qstat -q# view additional server configuration qmgr -c p s# verify all nodes are correctly reportingpbsnodes -a # submit a basic job - DO NOT RUN AS ROOT su - testuserqstat2. 调度器系统MAUI的安装配置2.1.1. 在共享目录下解压缩MAUI# tar -zxf maui-3.2.6p17.tar.gz假设解压的文件夹名字为: /home/dawning/maui-3.2.6p172.1.2. 编译要是MAUI和TORQUE无缝的结合在一起,确保管理节点(PBS SERVER)上TORQUE的路径设置正确,#./configure -with-pbs=/usr/local#make#make install2.1.3. MAUI自启动脚本 rootnode33 maui-3.2.6p17# cp etc/maui.d /etc/init.d/rootnode33 maui-3.2.6p17# vi /etc/init.d/maui.d#!/bin/sh# maui This script will start and stop the MAUI Scheduler# chkconfig: 345 85 85# description: maui#ulimit -n 32768# Source the library functions. /etc/rc.d/init.d/functionsMAUI_PREFIX=/usr/local/maui# let see how we were calledcase $1 in start) echo -n Starting MAUI Scheduler: daemon $MAUI_PREFIX/sbin/maui echo ; stop) echo -n Shutting down MAUI Scheduler: killproc maui echo ; status) status maui ; restart) $0 stop $0 start ; *) echo Usage: maui start|stop|restart|status exit 1esac2.1.4. 与MAUI结合的node33上TORQUE设置在TORQUE的qmgr上rootnode33 maui-3.2.6p18# qmgrMax open servers: 4Qmgr: set server managers += root*.node33Qmgr: set server operators += root*.node33Qmgr: set server scheduling=TrueQmgr: quit要确保set server scheduling=True这条,这条语句确保了可以使用MAUI调度。其它设置:TORQUE默认作业的最大运行时间为3600s(1个小时),需要根据实际情况进行修改:设定作业运行所需时间资源不超过7天:qmgr -c set queue batch resources_default.walltime=604800qmgr c “set server query_other_jobs=TRUE”确保每个非管理员帐户可以查看其它帐户的作业信息。2.1.5. MAUI配置文件rootnode33 vi /usr/local/maui/maui.cfg# maui.cfg 3.2.6p17#edited by dolphin=#SERVERHOST node33SCHEDCFG0 SERVER=node33:42559 MODE=NORMAL#=end=# primary admin must be first in listADMIN1 root# Resource Manager Definition#=edited by dolphin#RMCFGNODE33 TYPE=PBSRMNMHOSTRMCFG0 TYPE=PBS HOST=node33#=end=# Allocation Manager DefinitionAMCFGbank TYPE=NONE# full parameter docs at /mauidocs/a.fparameters.html# use the schedctl -l command to display current configurationRMPOLLINTERVAL 00:00:30SERVERPORT 42559SERVERMODE NORMAL# Admin: /mauidocs/a.esecurity.htmlLOGFILE maui.logLOGFILEMAXSIZE 10000000LOGLEVEL 3# Job Priority: /mauidocs/5.1jobprioritization.htmlQUEUETIMEWEIGHT 1 # FairShare: /mauidocs/6.3fairshare.html#FSPOLICY PSDEDICATED#FSDEPTH 7#FSINTERVAL 86400#FSDECAY 0.80# Throttling Policies: /mauidocs/6.2throttlingpolicies.html# NONE SPECIFIED# Add by dolphin =#JOBNODEMATCHPOLICY EXACTNODE#NODEACCESSPOLICY SINGLEUSERJOBNODEMATCHPOLICY EXACTNODENODEACCESSPOLICY SHARED#NODECFGDEFAULT PRIORITYF=-JOBCOUNTENABLEMUITINODEJOBS TRUEENABLEMULTIREQJOBS TRUE# ended =# Backfill: /mauidocs/8.2backfill.htmlBACKFILLPOLICY FIRSTFITRESERVATIONPOLICY CURRENTHIGHEST# Node Allocation: /mauidocs/5.2nodeallocation.html# Add by dolphin =NODEALLOCATIONPOLICY FIRSTAVAILABLE#NODEALLOCATIONPOLICY PRIORITY# ended =#NODEALLOCATIONPOLICY MINRESOURCE# QOS: /mauidocs/7.3qos.html# QOSCFGhi PRIORITY=100 XFTARGET=100 FLAGS=PREEMPTOR:IGNMAXJOB# QOSCFGlow PRIORITY=-1000 FLAGS=PREEMPTEE# Standing Reservations: /mauidocs/7.1.3standingreservations.html# SRSTARTTIMEtest 8:00:00# SRENDTIMEtest 17:00:00# SRDAYStest MON TUE WED THU FRI# SRTASKCOUNTtest 20# SRMAXTIMEtest 0:30:00# Creds: /mauidocs/6.1fairnessoverview.html USERCFGDEFAULT MAXJOB=2 MAXNODE=3 USERCFGnano MAXJOB=64 MAXNODE=16#这里指定默认的每个帐户最大可以运行2个job,每个job所申请的节点总数不能超#过3个。而nano帐户在另外做限制,可以用16个节点,最大可以运行64个作业。# USERCFGDEFAULT FSTARGET=25.0# USERCFGjohn PRIORITY=100 FSTA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论