GPU-CPU协同并行计算非对称走时叠前时间偏移处理系统用户手册.doc_第1页
GPU-CPU协同并行计算非对称走时叠前时间偏移处理系统用户手册.doc_第2页
GPU-CPU协同并行计算非对称走时叠前时间偏移处理系统用户手册.doc_第3页
GPU-CPU协同并行计算非对称走时叠前时间偏移处理系统用户手册.doc_第4页
GPU-CPU协同并行计算非对称走时叠前时间偏移处理系统用户手册.doc_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

GPU CPUGPU CPU 协同并行计算协同并行计算 非对称走时叠前时间偏移处理系统非对称走时叠前时间偏移处理系统 The A Asymmetric T Travel time P Pre S Stack T Time M Migration System ATPSTM ATPSTM by GPU CPU C Co P Processing P Parallel C Computing CPPCCPPC 用用 户户 手手 册册 USER S MANUAL 因软件升级 请选择相应版本使用 北京吉星吉达科技有限公司 Beijing Geo Star Science 检 查 etc exportfs 中本机目录挂接是否正常 启动副节点 cp8002 cp8006 检查 GPU 服务器是否同步启动 检查 cp8001 出口的目录挂载是否正常 查看副节点命令 nodestat all 2 去电顺序 批命令执行 psh all sbin service netfs stop psh all sbin service ypbind stop psh all poweroff reboot 关闭副服务器节点 cp8002 cp8006 关闭主服务器节点 注 reboot 时 需等待副节点正常重启完成后 才可以重启主节点 7 37 3 CPPCCPPC 系统管理说明系统管理说明 1 1 系统简要 系统简要 GPU CPU 协同并行计算系统包含 6 个节点分别叫 cp8001 cp8006 其中 cp8001 为主节 点 cp8002 cp8006 为从节点 cp8001 上挂载 15T 的数据存储盘 文件系统为 xfs 各个 从节点以网络文件系统 NFS 方式访问此盘 另外 系统软件和应用软件的正常运行还需 GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 37 满足以下要求 1 正确配置所有节点 etc hosts 文件 内容如下 127 0 0 1 localhost localdomain localhost 168 200 100 3 168 173 100 1 168 173 8 1 cp8001 168 173 8 2 cp8002 168 173 8 3 cp8003 168 173 8 4 cp8004 168 173 8 5 cp8005 168 173 8 6 cp8006 1 配置 NIS 客户端 正确的 NIS 客户端配置是实现远程网络控制和 ssh 各节点间无密码访问服务的基础 具体配置如下 各节点 cp8001 cp8006 开启 ypbind 服务与状态查看命令 chkconfig ypbind on service ypbind start service ypbind status etc yp config 文件内容为 domain slgri server domain slgri server 168 200 100 3 etc sysconfig network 文件内容为 NISDOMAIN slgri HOSTNAME cp80 NETWORKING yes ete resolve conf 文件内容为 search nameserver 168 200 100 3 nameserver 168 200 1 2 2 网络文件系统 NFS Network FileSystem 的配置 NFS 的 server 端 cp8001 的分享目录由 etc exports 文件设定 配置如下 opt xcat ro no root squash sync install ro no root squash sync users rw no root squash sync gp0disk1 rw no root squash sync data rw sync 参数解释 rw 可擦写的权限 ro 只读的权限 no root squash 登入 NFS 主机使用分享目录的使用者 如果是 root 的话 那么对于这个分享的目录来说 他就具有 root 的权限 这个项目 极不安全 GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 38 不建议使用 root squash 在登入 NFS 主机使用分享之目录的使用者如果是 root 时 那 么这个使用者的权限将被压缩成为匿名使用者 通常他的 UID 与 GID 都会变成 nobody 那个身份 修改 etc exports 文件后 并不需要重启 nfs 服务 只要用 exportfs 重新加 载一次 etc exports 即可 exportfs r 重新挂载 etc exports 里面的设定 exportfs psh all service netfs restart psh all mount a NFS 的 client 端 cp8002 cp8006 开机需挂载 cp8001 的如下目录 可在 etc fstab 中配置 cp8001 home 用户的登录目录 cp8001 opt xcat 系统管理命令目录 cp8001 install xcat 安装所需目录 cp8001 data 软件安装目录 cp8001 usr local 用户目录 cp8001 gp0disk1 数据存储目录 4 配置各节点间 ssh 服务配置 此步骤十分重要 是保证软件稳定运行的关键 必须保证各个节点可以通过 ssh 无密码互相访问 各个节点开启 sshd 服务 chkconfig sshd on service sshd start 生成访问的所需配置文件 ssh 目录 包括 keys 等 gensshkeys 用户名 cd var yp make 注 在各节点用户下注 在各节点用户下 ssh ssh 目录文件必须是该用户权限 如果不是 可由命令目录文件必须是该用户权限 如果不是 可由命令 chown chown R R gstar gatargstar gatar home gstar ssh home gstar ssh 修改修改 4 系统安装 nvidia GPU 的驱动程序 在各节点系统启动级别为 3 的情况下执行显卡安装程序 然后按照提示操作 等安装完成后执行 nvidia xconfig 命令 即完成显卡驱动安装 命令如下 init 3 sh NVIDIA Linux x86 64 init 5 注 驱动程序的选择直接影响本系统运行的稳定性 如需替换不同版本 GPU 驱 动 需经 gstar 公司认可 5 用户环境变量配置 GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 39 软件安装目录 data geostar 设置环境变量 PATH PATH data geostar bin LD LIBRARY PATH LD LIBRARY PATH data geostar lib UIDPATH data geostar bin U CWPROOT data cwp 用户载入环境变量命令 source cshrc 2 2 GPUGPU 监控工具监控工具 nvidia settings 配置以及显示当前节点的 GPU 显存大小 主频 温度等基本信息 nvidia smi 收集本机 GPU 的基本信息存储在当前目录中的 nvidia smi log 文件中 nvidia bug reporter sh 收集错误信息以及系统环境信息生成 nvidia bug reporter log 文件 nvidia uninstall 卸载当前 GPU 驱动程序 3 3 作业监控作业监控 g1g1 显示作业的运行情况 显示运行总时间或者运行进度 使用方法 g1 num dir num 1 代表运行结束的作业 2 代表运行中的作业 3 1 2 dir 是工区下存放 status 文件的目录 g2g2 监控各个节点作业运行时间和作业名称 g3g3 hostname 监控节点的 GPU 温度状态和基本信息 使用说明 g3 命令使用前需要设置 DISPLAY 环境变量到显示终端 g4g4 hostname 文本显示 GPU 状态 g5g5 交互显示作业运行比例 相当于 geoview 见用户手册 g6g6 相当于 geojob 见用户手册 4 4 系统管理系统管理 psh host host command host 范围内的节点执行 command 命令 例如 psh all reboot psh cp8002 service ypbind restart pkill 9 进程名称 将进程批量清除 gennsshkey 用户名 以 root 账户执行 生成用户的 ssh 的 public key 以便各个节点的该用户可以不用密码互相访问 主节点新建账户后使用 5 5 常用命令 常用命令 GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 40 psh all pkill 9 cudapstmz 杀死全部的偏移作业 psh all service netfs stop 关机前卸载所有从节点的网络文件系统 psh all service ypbind stop 关机前关闭 ypbind 用户管理 psh all pkill 9 idxio 杀死全部分数据作业进程 gensshkeys gstar 生成 gstar 用户在节点间的无密码通信密匙 psh all rm f scr 清空各个节点缓存空间 7 4 xcat 管理系统简要说明管理系统简要说明 Xcat 是 pc 集群的 linux 操作系统安装的分发工具 本集群利用此软件安装 主节点则 需提供 ypserv ypxfrd yppasswdd 服务 chkconfig ypserv on service ypserv start chkconfig ypxfrd on service ypxfrd start chkconfig yppasswdd on service yppasswdd start 1 1 xcatxcat系统安装的参数配置系统安装的参数配置 参数文件位于 opt xcat etc目录下 运行xcat相关command命令的参数文 件都由此配置 安装参阅xCAT 1 3 0 Torque Maui的安装实施手册 1 1 site tabsite tab 文件是 xCAT 的主配置表 集群的全局定义 其中有些选项是 xCAT 管理 自动安装节点操作系统时要使用 例如 hostname 的修改 有些选项是不再使用 rsh rsh 路径 指的是 rsh 或 ssh 命令的路径 psh prsync bwatch addclusteruser makegmroutes makepbsnodefile 使用此设置 rcp rcp 路径 指的是 rcp 或 scp 命令的路径 gkhfile SSH 记录全局主机表的文件的路径 makesshgkh ssh 使用它 tftpdir tftp 服务使用目录 nodeset makedhcp mkks mkstage 使用它 tftpxcatroot tftp 中 xcat 特有文件所使用的目录 nodeset makedhcp mkstage 使用它 domain 此集群的 DNS 域名 genrhosts genhostsequiv gennis makedns makesshgkh 使用它 nameservers DNS 服务器的 IP 地址 多个地址使用逗号分隔 makedns genscript post rh 使用它 forwarders 默认网关的 IP 地址 多个地址使用逗号分隔 在 xcat 中 有管理功 能的节点如刀片中心的管理模块 电源管理交换机 APC SAN 光纤交换机等都应该在管 理网络中 使用单独的 VLAN 这样在某些需要使用 fence 设备的情况 或将集群分为多 个小的集群时 此项有用 可自行在 genscripts post rh 中完成此功能 nets DNS 服务所服务的地址段 使用 network netmask 方式表示 多个地址段用 逗号分隔 或用 NA 来表示此管理节点不提供 DNS 服务 决定 etc hosts 中的那些条目 被用于生成 dns 文件以用于正向及反向解析 makedns 使用它 dnsdir DNS 服务使用的目录或 NA 基于 nets 项 或 nets 为 NA 此为 NA makedns 使用它 GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 41 dnschroot yes 或 no dns 服务是否使用 chroot 方式 makedns 使用它 dnsallowq 使用 network netmask 方式表示 多个地址段用逗号分隔 决定有权访 问 DNS 服务的地址段或 NA makedns 使用它 domainaliasip DNS 域的 IP 地址别名或 NA makedns 使用它 mxhosts 集群中的 FQDN 邮件网关或 NA makedns 使用它 mailhosts 集群中的邮件服务器别名或 NA makedns 使用它 master 管理节点的名称 genrhosts nodeset genhostsequiv gennis makedns mkstage 使用它 pbshome PBS 的工作目录 genpbs genpbsmomconfig genpbsschedconfig genpbsserverconfig makepbsnodefile trimpbslogs 使用它 pbsprefix PBS 的安装目录 genpbs genpbsmomconfig genpbsschedconfig genpbsserverconfig makepbsnodefile 使用它 pbsserver PBS server 所在的节点名称 genpbs 使用它 scheduler PBS 所使用的调度名 maui 或 fifo 即 pbs sched genpbsserverconfig 使用它 xcatprefix xCAT 的安装路径 nodeset addclusteruser genpbs genpbsmomconfig makedns pkilluser mkstage 使用它 keyboard 定义键盘类型 timezone 定义时区 offutc UTC 时区的差值 mapperhost Myrinet 的 mapper 主机或 NA 建议使用静态 mapper serialmac 用来收集 MAC 地址的默认串口设备 0 为 COM A 1 1 为 COM B 2 或 NA makedhcp mkstage 使用它 serialbps 默认串口速率 snmpc 默认 SNMP 连接字串 snmpd 默认 SNMP 连接字串 poweralerts Y 或 N 监控电源警告 timeservers 使用的时间同步服务器 逗号分隔 logdays 日志循环时间 installdir 安装文件所在的目录 clustername 集群的名称 dhcpver 使用 dhcp 的什么版本来生成相关文件 makedhcp 使用它 dhcpconf dhcp 配置文件的绝对路径 makedhcp 使用它 dhcpinterfaces DHCP 使用的网络接口 makedhcp 使用它 dhcpistftp yes 或 no tftp 服务器使用动态地址 makedhcp 使用它 dynamicr 用来收集 MAC 地址的网络接口 类型和范围 mkstage makedhcp 使用它 wins wins 服务器名称 usernodes 用户节点 逗号分隔 用于用户直接访问 usermaster 用户管理主节点名称 在此上用户被添加 addclusteruser 使用它 nisdomain NIS 的域名 或 NA addclusteruser makedhcp gennis 使用它 nismaster NIS 的主节点主机名或 NA addclusteruser makedhcp gennis 使用它 nisslaves 逗号分隔的 NIS 辅节点主机名或 NA gennis 使用它 homelinks 用户主目录的所在的绝对路径 addclusteruser 使用它 chagemin 允许密码在两次修改的之间的最小时间 addclusteruser chage 使用它 GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 42 chagemax 允许密码在两次修改的之间的最大时间 addclusteruser chage 使用它 chagewarn 在密码需要修改前多少天提醒用户 addclusteruser chage 使用它 chageinactive 在密码过期后不活动用户被锁定 addclusteruser chage 使用它 mpcliroot mpcli 的主目录 mpcli2root mpcli2 的主目录 dpccliroot dpccli 的主目录 ipmitool ipmitool 所在的路径 sshkeyver SSH 协议版本 myrimask myrinet 的网络掩码 opmaxp 定义电源最大控制的并行处理器 ipmimaxp 一条命令最多同时打开的 IPMI 会话数 ipmitimeout 命令等待返回的最大秒数 ipmiretries 最大重试次数 ipmisdrcache yes 或 no 是否将 BMC SDR 的内容缓存至 var cache xcat 下 xcatport xCat 服务使用的端口 autogpfsdport autoGPFS 服务监听的端口 autogpfsdmax 同时连接的最大数 autogpfsdmode new 或 old 节点加入是否安装 GPFS new 自动安装 old 不安装 pshmaxp psh 一次执行的最大进程数 bufferedcons yes 或 no 如果 wcons 或 rcons 使用 GNU screen yes 将在你断开 会话后 屏幕内容依被更新 wconsyo wcons 中 Y 轴的偏移量 subdhcp 对大系统定义更多的下级 dhcp 服务器 vmwdisplay 定义 X 监视器来监控 VMware VGA 控制台 2 2 nodehm tabnodehm tab 文件各项如下 详见 man nodehm tab 具体根据节点的硬件来确定 power reset cad vitals inv cons mpcons eventlogs getmacs netboot eth0 gcons s b beacon bootseq serialbps cp8002NA NA NA NA NA NA NA NA conslogs pxe sky2 vnc N NA NA def cp8003NA NA NA NA NA NA NA NA conslogs pxe sky2 vnc N NA NA def 3 3 nodelist tabnodelist tab 文件文件 定义节点及所属组 cp8002 all compute cp8003 all compute 4 4 nodepos tabnodepos tab 文件文件 内容为空即可 定义各个节点的物理位置 比如在那个房间 那个机架上等等 5 5 noderes tabnoderes tab 文件 文件 定义节点或组所使用的资源 详见 man noderes tab node TFTP NFS INSTALL INSTALL DIR SERIAL USENIS INSTALL ROLL ACCT GM PBS ACCESS GPU CPUGPU CPU 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 协同并行计算非对称走时叠前时间偏移系统用户手册 试行版 43 GPFS INSTALL NIC PRIMARY NIC MASTER MTFTP MTFTP MCASTADDR MTFTP MCASTMASK M TFTP BLKSIZE MTFTP SERVERPORT cp8002 cp8001 cp8001 install NA N N N N N N N eth0 eth0 cp8001 cp8003 cp8001 cp8001 install NA N N N N N N N eth0 eth0 cp8001 6 6 nodetype tabnodetype tab 文件文件 定义节点的系统类型 架构 及使用的映像类型 node osver arch type cp8002 rhas4 x86 64 compute cp8003 rhas4 x86 64 compute 7 7 passwd tabpasswd tab 文件文件 定义各种管理设备使用的用户及密码 passwd tab defines the passw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论