




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PBS作业调度使用方法:1. IBM HPC Platform 作业提交流程用户需要使用集群资源进行作业计算时,需要使用作业调度系统。IBM HPC Platform集群采用的是开源的Torque+Maui作业调度系统。l 任何用户都需要产生Job_que.sh任务作业脚本: genQue当前文件夹下会产生一个Job_que.sh 的shell作业脚本文件l 编辑Job_que.sh任务作业脚本: vi Job_que.shl 提交Job_que.sh任务作业脚本: qsub Job_que.sh 注意:在Job_que.sh中,所有任务的运行时间超过120小时的情况下,job作业将会被自动停止!如果有疑问和延长作业运行时间的需要请直接联系管理员。具体的更多关于任务作业脚本的说明、使用和提交请参考vi和本章第2小节:Torque PBS作业调度系统使用说明。2. Torque PBS作业调度系统使用说明Torque PBS 提供对批处理作业和分散的计算节点(Compute nodes)的控制。PBS是Protable Batch System的缩写,是一个任务管理系统。当多个用户使用同一个计算资源时,每个用户用PBS脚本提交自己的任务,由PBS对这些任务进行管理和资源的分配。l matlab作业的PBS脚本说明:#!/bin/sh#PBS -N JOB#PBS -l nodes=1:ppn=8#PBS -l feature=xe#PBS -l naccesspolicy=singlejob#PBS -o RunJob.out#PBS -e RunJob.err#PBS -l walltime=120:00:00#PBS -q batchecho - date -echo HomeDirectory is $PWDechoecho Current Dir is $PBS_O_WORKDIRechocd $PBS_O_WORKDIRecho -This is the node file -cat $PBS_NODEFILEecho -cat $PBS_NODEFILE host.mpdnp=$(cat $PBS_NODEFILE | wc -l)echo The number of core is $npechoecho#-# OpenMPI Job Submitting Example # # mpirun -np $np -machinefile host.mpd $BINPATH .#-_-# -_- have fun! #matlab nojvm nodesktop log 将这个脚本保存成为Job_que.sh后,使用然后qsub Job_que.sh就将这个任务提交给了系统。最后可以通过查看我那件下面log文件查看程序运行结果。l 串行作业C程序作业的PBS脚本说明:使用vi命令编辑一段最简单的串行C语言程序hello.c: vi hello.c#include stdio.hint main() printf(Hello world!n); return 0;使用C编译器编译hello.c程序,生成可执行命令hello: icc o hello hello.c成功编译后,修改PBS作业提交脚本Job_que.sh,如下: genQue vi Job_que.sh其中我们只使用一个核作为计算资源!#!/bin/sh#PBS -N JOB#PBS -l nodes=1:ppn=1#PBS -l feature=xe#PBS -l naccesspolicy=singlejob#PBS -o RunJob.out#PBS -e RunJob.err#PBS -l walltime=120:00:00#PBS -q batchecho - date -echo HomeDirectory is $PWDechoecho Current Dir is $PBS_O_WORKDIRechocd $PBS_O_WORKDIRecho -This is the node file -cat $PBS_NODEFILEecho -cat $PBS_NODEFILE host.mpdnp=$(cat $PBS_NODEFILE | wc -l)echo The number of core is $npechoecho#-# OpenMPI Job Submitting Example # # mpirun -np $np -machinefile host.mpd $BINPATH .#-_-# -_- have fun! #./hello log将这个脚本保存成为Job_que.sh后,使用然后qsub Job_que.sh就将这个任务提交给了系统。最后可以通过查看我那件下面log文件查看程序运行结果。l 并行MPI作业C程序作业的PBS脚本说明:使用vi命令编辑一段最简单的串行C语言程序mpihello.c: vi mpihello.c#include #include int main(int argc, char *argv) int MyID, NumProcess, NameLen; / MPI_MAX_PROCESSOR_NAME Maximun computer name char Processor_NameMPI_MAX_PROCESSOR_NAME; / MPI program starts MPI_Init(&argc, &argv); MPI_Comm_rank(MPI_COMM_WORLD, &MyID); / Tag of current process MPI_Comm_size(MPI_COMM_WORLD, &NumProcess); / Total number of processes MPI_Get_processor_name(Processor_Name, &NameLen); / Computer name of current process printf(Process No.%d of %d on %s nn, MyID, NumProcess, Processor_Name); / MPI program ends MPI_Finalize(); return 0;使用MPI C编译器编译hello.c程序,生成可执行命令hello:mp icc o mpihello mpihello.c成功编译后,修改PBS作业提交脚本Job_que.sh,如下: genQue vi Job_que.sh其中我们只使用一个核作为计算资源!#!/bin/sh#PBS -N JOB#PBS -l nodes=1:ppn=4#PBS -l feature=xe#PBS -l naccesspolicy=singlejob#PBS -o RunJob.out#PBS -e RunJob.err#PBS -l walltime=120:00:00#PBS -q batchecho - date -echo HomeDirectory is $PWDechoecho Current Dir is $PBS_O_WORKDIRechocd $PBS_O_WORKDIRecho -This is the node file -cat $PBS_NODEFILEecho -cat $PBS_NODEFILE host.mpdnp=$(cat $PBS_NODEFILE | wc -l)echo The number of core is $npechoecho#-# OpenMPI Job Submitting Example # # mpirun -np $np -machinefile host.mpd $BINPATH .#-_-# -_- have fun! #Mpirun np $np mpihello log将这个脚本保存成为Job_que.sh后,使用然后qsub Job_que.sh就将这个任务提交给了系统。最后可以通过查看我那件下面log文件查看程序运行结果。3. Torque PBS作业调度系统命令说明PBS脚本文件由脚本选项和运行脚本两部分组成:i. PBS作业脚本选项 (若无-C选项,则每项前面加#PBS);ii. 运行脚本同LINUX下一般的运行脚本文件。脚本中#PBS为脚本选项,用于设置一些参数:l #PBS N 表示任务名称。name限15 个字符,首字符为字母,无空格。l #PBS l表示资源列表,用于设定特定任务所需的一些参数。这里的nodes表示并行环境下可以使用的节点数,而walltime表示任务最大时限,而cput 表示cpu时间的最大时限,运行时间和cpu使用时间超过对应的时限,任务就会以超时退出。这三个参数不是PBS脚本参数,而是并行环境所需的参数。l #PBS -j表示系统输出,如果oe,则标准错误输出(stderr)和标准输出(stdout)合并为stdout,如果是eo,则合并为stderr,如果 没有设定或设定为n,则stderr和stdout分开。l #PBS -q表示当前任务选用的队列。在并行环境下,一个系统中往往有多个队列,任务提交后,将在所选的队列中排除等候。系统中有哪些队列可以用qstat -q查看。l #PBS -a date_time : date_time 格式为:CCYYMMDDhhmm.SS。表示经过date_time 时间后作业才可以运行。l #PBS -p priority : 任务优先级,整数,-1024,1023,若无定义则为0.l #PBS -M user_list : 定义有关此作业的mail 发给哪些用户。l #PBS -I :以交互方式运行l #PBS -l resource_list : 定义资源列表。以下为几个常用的资源种类。cput=N : 请求N 秒的CPU 时间; N 也可以是hh:mm:ss 的形式。mem=NK|M|GB|W:请求N kilo|mega|gigabytes|words 大小的内存。nodes=N:ppn=M : 请求N 个结点,每个结点M 个处理器。l #PBS -m mail_options :mail_option 为a:作业abort 时给用户发信;b:作业开始运行发信;e:作业结束运行时发信。若无此选项,默认为a。l #PBS -W additional_attributes : 作业的其它属性。l #PBS -z : 指明qsub 命令提交作业后,不在终端显示作业号。PBS常用命令格式:l qsub 命令:用于提交作业例:# qsub Job_que.sh 提交作名称为Job_que.sh的作业 l qstat -f-a-i -n-s -R -Q-q-B-u命令:用于查看作业状态参数说明:-f jobid 列出指定作业的信息-a 列出系统所有作业-i 列出不在运行的作业-n 列出分配给此作业的结点-s 列出队列管理员与scheduler所提供的建议-R 列出磁盘预留信息-Q 操作符是destination id,指明请求的是队列状态-q 列出队列状态,并以alternative形式显示-au userid 列出指定用户的所有作业-B 列出PBS Server信息-r 列出所有正在运行的作业-Qf queue 列出指定队列的信息-u 若操作符为作业号,则列出其状态。例# qstat -f 211 查询作业号为211的作业的具体信息。l qdel命令:用于删除已提交的作业参数说明:-W 间隔时间例:# qdel -W 15 211 15秒后删除作业号为211的作业更多的关于Torque和Maui的使用,请参考资源管理软件 TORQUE 与安装、设置一文。Torque官方网站说明文档:/products/torque/docs/Maui官方网站说明文档:/products/maui/docs/mauiadmin.shtml4. Torque+Maui作业调度系统介绍从用户角度看,集群系统就好像一台服务器或者PC。很多用户可以同时使用这个系统。但是当太多的用户使用集群系统时,系统性能会变得很差。资源管理就是管理用户提交的作业,合理给各个作业分配资源从而确保充分利用集群系统计算能力并尽可能快的得到运算结果。简单的说,集群资源由实现如下几个部分:l 资源管理器:为了确保分配给作业合适的资源,集群资源管理需要维护一个。这个数据库记 录了集群系统中各种资源的属性和状态、所有用户提交的请求和正在运行的作业。策略管理器根据这些数据和指定的调度策略生成优先级列表。资源管理器根据这优先级列表调度作业。资源管理器还应该具有资源预留能力。这样不仅可以保留强大的资源给需要的作业,而且可以预留一定的冗余资源以应付集群中的结点失效和突发的计算。l 作业调度策略管理器:策略管理器根据资源管理器得到各个结点上的资源状况和系统的作业信息生成一个优先级列表。这个列表告诉资源管理器何时在哪些结点上运行哪个作业。策略管理器不仅要提供一个复杂的参数集合去定义计算环境和作业,而且要为这个定义提供简捷灵活的表达方式以允许实现策略驱动的资源调度。在IBM HPC Platform中我们采用了Torque+Maui的资源管理和作业调度系统;其中Torque作为集群资源管理器,而Maui则是作为调度策略管理器。PBS(Portable Batch System)最初由NASA的Ames研究中心开发,主要为了提供一个能满足异构计算网络需要的软件包,用于灵活的批处理,特别是满足高性能计算的需要,如集群系统、超级计算机和大规模并行系统。PBS的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业,如MPI、 PVM、HPF、MPL;PBS是功能最为齐全, 历史最悠久, 支持最广泛的本地集群调度器之一。PBS的目前包括openPBS, PBS Pro和Torque三个主要分支. 其中OpenPBS是最早的PBS系统, 目前已经没有太多后续开发, PBS pro是PBS的商业版本, 功能最为丰富. Torque是Clustering公司接过了OpenPBS, 并给与后续支持的一个开源版本。应用PBS提交任务则会形成任务队列,依次执行,有效分配资源,避免资源竞
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论