




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PBS(Portable Batch System)最初由NASA的Ames研究中心开发,主要为了提供一个能满足异构计算网络需要的软件包,用于灵活的批处理,特别是满足高性能计算的需要,如集群系统、超级计算机和大规模并行系统。PBS的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业,如MPI、PVM、HPF、MPL;PBS是功能最为齐全, 历史最悠久, 支持最广泛的本地集群调度器之一. PBS的目前包括openPBS, PBS Pro和Torque三个主要分支. 其中OpenPBS是最早的PBS系统, 目前已经没有太多后续开发, PBS pro是PBS的商业版本, 功能最为丰富. Torque是Clustering公司接过了OpenPBS, 并给与后续支持的一个开源版本. PBS的应用不同于一般的直接运行: mpirun np number ./executable_file直接运行上句,则只能在单个节点上进行并行计算。如果要在多个节点上并行执行则要写machinefile或p4pgfile,两种文件的具体写法参考张林波等并行计算导论。运行命令分别为: mpirun machinefile filename mpirun p4pg filename应用PBS提交任务则会形成任务队列,依次执行,有效分配资源,避免资源竞争。否则CPU时间片会轮流分配给各个人的任务,从而影响所有人的正常作业。torque PBS 提供对批处理作业和分散的计算节点(Compute nodes)的控制。 安装Torque组件:在一个节点上(head node)安装pbs_server,所有计算节点上安装pbs_mom,所有计算节点和提交节点上安装PBS客户端。至少做最基本的配置,使Torque系统跑起来,也就是使pbs_server能知道该和哪些机器通话。 在pbs_server上创建一个作业提交队列。 在集群的所有节点上指定一个cluster name作为property。这可以用qmgr命令做到。比如: qmgr -c set node node properties=cluster-name。 确保作业可以提交到节点上去。这可以通过使用qsub命令做到。比如: echo sleep 30 | qsub -l nodes=3。1.0 作业提交系统Torque个人安装总结(PBS)1.1 Torque安装(在master管理结点上)1. 解压安装包tar -zxvf torque-2.3.0.tar.gz2. 进入到解压后的文件夹./configure -with-default-server=mastermakemake install3. 打包, 必须是个普通用户1) rootmaster torque-2.3.0# ./torque.setup 2) rootmaster torque-2.3.0# make packages把产生的 tpackages , torque-package-clients-linux-x86-64.sh, torque-package-mom-linux-x86-64.sh 拷贝到所有节点。3) 客户端安装rootmaster torque-2.3.0# ./torque-package-clients-linux-x86_64.sh -installrootmaster torque-2.3.0# ./torque-package-mom-linux-x86_64.sh -install4)编辑/var/spool/torque/server_priv/nodes (需要自己建立)加入如下内容master np=4node01 np=4.node09 np=45)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动。6)创建队列rootmaster # qmgrcreate queue studentsset queue students queue_type = Executionset queue students Priority = 40set queue students resources_max.cput = 96:00:00set queue students resources_min.cput = 00:00:01set queue students resources_default.cput = 96:00:00set queue students enabled = Trueset queue students started = True4、在node0x (x=1-9,计算结点上)rootnode0x torque-2.3.0# ./torque-package-clients-linux-x86_64.sh -installrootnode0x torque-2.3.0# ./torque-package-mom-linux-x86_64.sh -install然后启动pbs_mom ,把pbs_mom写入/etc/rc.local1.2 Torque PBS使用1、创建用户在master的root下useradd testpasswd test输入test密码到/var/yp下make一下2、配置普通用户的sshsu testssh-keygen -t dsacd .sshcat id_pub.dsa authorized_keyschmod 600 authorized_keys3、编写作业脚本,见下文4、启动mpdmpdboot -n 10 -f mfamfa内容:master:4node01:4.node09:45、提交,查询,删除作业提交作业:qsub pbsjobtest1master pbstest$ qsub pbsjob48.master 作业提交后会有一个作业号查询作业:qstattest1master pbstest$ qstat删除作业:qdel 作业号test1master pbstest$ qdel 482.0 PBS服务开启操作流程 我在Dawing上操作成功了! 1) 在主节点上打开PBS服务 /etc/init.d/pbs_server start 2) 在主节点和其他节点打开PBS客户端。主节点虽是服务端,但也可参加计算,因而要打开客服。依次执行如下: /etc/init.d/pbs_mom start 3) 在所有节点上打开调度器 /etc/init.d/maui.d start对于这些PBS的功能开启有几个相同的参量: status 查看状态 restart 重启 stop 终止 start 开启 4) 接下来是检查是否可以提交作业 pbsnodes a返回free即表示可以提交作业。 5) 写脚本vim pbs_ fdtd_TE_xyPML_MPI_OpenMP#!/bin/bash#PBS -l nodes=5:ppn=4 规定使用的节点数nodes以及每个节点能跑多少核ppn#PBS N taskname 任取一作业任务名tasknamecd $PBS_O_WORKDIR 到工作目录下(此为PBS提供的环境变量)mpirun -np 20 ./fdtd_TE_xyPML_MPI_OpenMP执行mpirun一句可以用-machinefile或-p4pg 命令参量制定 6) 提交 qsub pbs_ fdtd_TE_xyPML_MPI_OpenMP 7) 可用qstat查看作业任务,具体参量参看下文。流程终结!3.0 PBS常用命令和选项3.1 基本脚本写法和选项PBS是Protable Batch System的缩写,是一个任务管理系统。当多个用户使用同一个计算资源时,每个用户用PBS脚本提交自己的任务,由PBS对这些任务进行管理和资源的分配。下面是一个简单的PBS脚本:#!/bin/bash#PBS -l nodes=20#PBS -N snaphu#PBS -j oe#PBS -l walltime=24:00:00#PBS -l cput=1:00:00#PBS -q dquecd $PBS_O_WORKDIRcat $PBS_NODEFILE $PBS_NODEFILE NODEFILEmpirun -np ./mpitest将这个脚本保存成submit然后qsub submit就将这个mpitest的任务提交给了系统。脚本中#PBS为脚本选项,用于设置一些参数。#PBS -l表示资源列表,用于设定特定任务所需的一些参数。这里的nodes表示并行环境下可以使用的节点数,而walltime表示任务最大时限,而cput表示cpu时间的最大时限,运行时间和cpu使用时间超过对应的时限,任务就会以超时退出。这三个参数不是PBS脚本参数,而是并行环境所需的参数。#PBS -N表示任务名称。#PBS -j表示系统输出,如果是oe,则标准错误输出(stderr)和标准输出(stdout)合并为stdout,如果是eo,则合并为stderr,如果没有设定或设定为n,则stderr和stdout分开。#PBS -q表示当前任务选用的队列。在并行环境下,一个系统中往往有多个队列,任务提交后,将在所选的队列中排除等候。系统中有哪些队列可以用qstat -q查看。 PBS脚本文件由脚本选项和运行脚本两部分组成。 1) PBS作业脚本选项(若无-C选项,则每项前面加#PBS) 2) 运行脚本同LINUX下一般的运行脚本文件格式如下: mpirun np 进程数 ./可执行程序名3.2 PBS 命令与选项PBS提供的4条命令用于作业管理1. qsub 命令:用于提交作业脚本命令格式:qsub -a date_time-e path -I -l resource_list-M user_list -N name-S path_list -u user_list-W additional_attributes例:# qsub aaa.pbs 提交某作业,系统将产生一个作业号2. qstat 命令:用于查询作业状态信息命令格式:qstat -f-a-i -n-s -R -Q-q-B-u参数说明:-f jobid 列出指定作业的信息-a 列出系统所有作业-i 列出不在运行的作业-n 列出分配给此作业的结点-s 列出队列管理员与scheduler所提供的建议-R 列出磁盘预留信息-Q 操作符是destination id,指明请求的是队列状态-q 列出队列状态,并以alternative形式显示-au userid 列出指定用户的所有作业-B 列出PBS Server信息-r 列出所有正在运行的作业-Qf queue 列出指定队列的信息-u 若操作符为作业号,则列出其状态。若操作符为destination id,则列出运行在其上的属于user_list中用户的作业状态。例:# qstat -f 211 查询作业号为211的作业的具体信息。3. qdel 命令:用于删除已提交的作业命令格式:qdel -W 间隔时间 作业号例:# qdel -W 15 211 15秒后删除作业号为211的作业4. qmgr 命令:用于队列管理 qmgr -c create qu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年大学辅导员心理健康教育案例处理与评价试题库(含答案)
- 2025中小学网络安全责任书(范本)
- 防爆膜品牌介绍
- 钢板桩围护施工方案
- 浆喷桩施工方案
- 工商局行政强制执行课件
- 监理中级题库及答案
- 医疗技术临床应用管理办法培训试题及答案
- 2025年安全生产网络知识竞赛测试题库附答案
- 2025环境卫生管理中心面试题(含答案)
- 常用急救药品课件
- 幼儿园食品安全培训内容资料
- 康复诊疗指南与规范
- 人教版小学一至六年级英语单词汇总表
- 北京客运从业资格证考试
- 2019人教版高中英语必修三单词表带音标
- 一例臀部巨大脓肿切开引流患者的个案护理汇报课件
- JCT2199-2013 泡沫混凝土用泡沫剂
- 创业的励志格言80句
- 加油站主要生产设备清单
- 初中英语2022版新课程标准测试卷及答案
评论
0/150
提交评论