浪潮天梭系统集群培训资料PPT课件.ppt_第1页
浪潮天梭系统集群培训资料PPT课件.ppt_第2页
浪潮天梭系统集群培训资料PPT课件.ppt_第3页
浪潮天梭系统集群培训资料PPT课件.ppt_第4页
浪潮天梭系统集群培训资料PPT课件.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浪潮天梭TS10K集群培训,8/12/2020,Inspur group,一、什么是集群?,“联结起来的计算机的集合,整个系统使用起来像一个单一的一体的计算资源” - Greg Pfister, In Search of clusters,二、为什么用集群?,通俗的说,就是单一计算节点的资源已经无法满足我们的计算需求,比如内存的容量,cpu的计算能力。也许一个算例我们要计算数周甚至数月,这时候我们就需要用到集群来处理这些计算问题。,三、集群有哪些部分组成?,计算节点:承载集群的计算任务 管理节点:用户登录、管理调度整个集群、任务提交等,提供对整个系统的监控管理 存储节点:存储大量的计算数据,高

2、可用,高安全,硬件架构,网络架构,网络规划,管理ip:11.11.11.100管理节点 11.11.11.131计算节点 11.11.11.3235 io节点 计算 ip:10.10.10段,尾数同上 IPMI网络:11.11.100.100管理节点 11.11.100.101104 io节点 11.11.101.100 第一个刀箱,对应101120,cu01cu20 11.11.102.100 第二个刀箱,对应101121,cu21cu31,8/12/2020,Inspur group,需要的条件:,1、客户端与集群连通 2、客户端如果为linux可以直接ssh登录到管理节点;如果为wind

3、ows系统,需要安装相应软件 3、一个合法账号! 4、相应操作知识积累,并行环境搭建,Linux集群并行环境主要配置以下4个服务 1、rsh服务 通讯服务 2、ssh服务通讯服务 3、nfs服务 目录共享 4、nis服务 用户同步,并行环境搭建-rsh服务配置,rsh服务配置 开启root用户对所有节点的rsh权限 1、编辑/etc/hosts节点名称解析,加入所有(包括本机)节点的ip地址和对应的计算机名; 此文件在一台机器上编辑完毕可以拷贝到别的节点上使用;注意127.0.0.1这一行不要动,否则会影响到服务器的正常使用。 例如: 11.11.11.100 mu01 11.11.11.1

4、cu01 11.11.11.10 cu10,并行环境搭建-rsh服务配置,2、编辑/root/.rhosts和/etc/hosts.equiv,加入所有节点的计算机名 例如: mu01 cu01 cu10 3、开启rsh服务:setupsystem services*rsh*rlogin*rexec,并行环境搭建-rsh服务配置,4、编辑/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以) 5、重起服务service xinetd restart rsh的配置需要在所有节点上进行。,并行环境搭建-ssh服务配置,1、在mu01上以root登录,然后运行ss

5、h-keygen t dsa,目的是简单的在 /root下创建目录.ssh,当提示输入passphase时打入两次回车。这将生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub 2、在cu01上以root登录,运行ssh-keygen t dsa,然后在mu01上运行scp /root/.ssh/ id_dsa.pub gpu01:/root/.ssh/authorized_keys,在cu01的/root/.ssh/目录下运行cat id_dsa.pub authorized_keys,再运行scp authorized_keys gpu02:/root/.ss

6、h/,并行环境搭建-ssh服务配置,3、在cu02的/root/.ssh/目录下运行cat id_dsa.pub authorized_keys,再运行scp authorized_keys cu03:/root/.ssh/ 4、重复以上步骤在后面结点上,在最后的计算节点上将生成一个完整的authorized_keys文件,然后把authorized_keys文件用scp命令拷贝到其余所有节点的/root/.ssh/目录下,ssh配置完成。,并行环境搭建-nfs服务配置,server端配置 1、建立文件/etc/exports(若已存在该文件,则先删除再重新建立) 2、vi /etc/expo

7、rts/,在文件内添加上语句: /home *(rw,no_root_squash,sync) /opt*(rw,no_root_squash,sync) (目录为需要共享的目录,目录和星号之间有空格。) 3、激活nfs chkconfig nfs on service nfs restart 此时可以到client上用showmount e IP(或者server的主机名)来扫描server端共享的目录。若exports文件重新编辑了,可以运行exportfs rv来更新一下,这样client端就可以挂载修改后的目录了。,并行环境搭建-nfs服务配置,client端配置 1、扫描可以使用的s

8、erver目录:showmount e mu01 2、使用mount将远程主机分享的目录挂载进来: mount t nfs vers=3 mu01:/opt /opt 此时可以通过df命令看挂载是否正常; 为了实现开机自动挂载还可将 mount t nfs vers=3 mu01:/opt /opt 写入到/etc/rc.local中以使节点启动后自动挂载目录。,并行环境搭建-nis服务配置,server端配置 1、配置NIS域名 nisdomainname TS10K 把NISDOMAIN=TS10K添加到network里 实现开机自动配置域名 2、开启两个服务: service yppas

9、swdd start service ypserv start(需要先配置NIS域名才能启动成功) 可以使用rpcinfo u 本机名 ypserv 察看ypserv是否启动,若成功启动会看到: program 100004 version 1 ready and waiting program 100004 version 2 ready and waiting,并行环境搭建-nis服务配置,若没看到,则把ypserv重新启动一下即可。 回车后会显示类似内容:mu01 has been set up as a NIS server ,now you can run ypinit s mu01

10、 on all slave server. 在server端重新建立新用户后,需要到/var/yp 目录下make一下,这样client端才能使用新用户登录 3、数据初始化 cd /usr/lib64/yp ./ypinit m ctl+d来结束这个命令 再打入回车,并行环境搭建-nis服务配置,client端配置 1、设定NIS client setupauthentication configuration*use NIS 填写:Domain:TS10K (NIS的域名) Server: mu01 (server端的名称或者ip) 2、开启服务 setupsystem services*y

11、pbind service ypbind restart 使用命令:ypcat passwd 可以发现在server端建立的帐户名称被列举了出来;若使用这些帐户的话需要在本地/home目录下建立其相对应的用户目录。,编译环境,集群中现存的编译器 gcc icc ifort mpicc mpiicc等 调用集群内部高速的IB计算网络,通常使用 mpirun -genv I_MPI_DEVICE rdssm np machinefile +执行文件 rdssm即是mpirun编译器调用IB协议的参数。 如果是ssm,则是使用以太网络。,编译软件,安装intel C编译器,fortran编译器,mk

12、l数学库一体包。 安装intel mpi编译器。 安装目录:/opt/intel 计算节点挂载管理节点的nfs共享安装路径调用编译软件等。,编译软件-Intel 并行环境变量设置,在/.bashrc里加入如下三行 source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64 #intel编译器 source /opt/intel/mkl/bin/intel64/mklvars_intel64.sh #intel数学库 source /opt/intel/impi/5.0.2.044/bin64/mpivars.sh #

13、intel mpi 执行source /.bashrc使编译器环境变量生效。 可将它写进/etc/bashrc里,新加用户将其作为默认编译器,MPI程序的并行编译,编译方法: mpicc -o hello hello.c mpiicc o hello hello.c 执行方法: ./hello 注:1,mpicc是调用gcc为底层 的编译,mpiicc是调用icc为底层的编译。 2,源代码需支持并行编译。,程序编译步骤简介 下载源码包(不是版本越新越好) 查看INSTALL文件或官方installation指导(查看依赖和参数) configure -prefix=path/to/your/s

14、oft (可选) make make install 依赖库 1. 查看版本 2. 指定安装路径 3. 设置环境变量 写到 /.bash_profile (普通用户) export PATH=$PATH:/path/to/your/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib,软件编译,TSExa并行文件系统,底层为lustre并行系统,包含4台2U机架式5270M4,其中两台io01,io02做为mds双机互备节点,另外两台io节点作为oss节点,各自挂载一部分存储空间分别为ost0,ost1,且为双机互备。 Md

15、t包含两块硬盘做raid1;ost包含7块硬盘做raid5,剩下一块全局热备盘,共计17块硬盘。 每个ost约22T空间,共约44T空间。,TSExa并行文件系统,Io01与io02存在心跳,io03与io04之间存在心跳,当一节点宕机时,另一互备节点会接替其挂载资源并提供服务。 管理节点mu01,及31台计算刀片为lustre的客户端,挂载目录为/lustre即为存储空间,可用df h查看。 挂载指令mount.lustre ibio01o2ib,ibio02o2ib:/lustre /lustre,TSCE集群作业管理调度软件,TSCE集群作业管理调度软件常用作业指令 qnodes,pbs

16、nodes用于查看当前可用节点与核心数。,TSCE集群作业管理调度软件,qnodes与pbsnodes等效,通常可以qnodes l all查看节点是否就位,qsub作业提交,用法:qsub test.pbs qstat查看作业状态。 qstat an查看作业使用节点及核心情况,TSCE集群作业管理调度软件,qdel删除作业,用法:qdel 作业号 几种作业的状态(S): Q 作业排队 R 作业执行 C 作业清除 E 作业退出,TSCE集群作业管理调度软件,PBS相关指令,管理节点服务: pbs_server,作业管理服务 maui,作业调度器 计算节点服务: pbs_mom,作业调度子服务,

17、与pbs_server相对应 service pbs_server status查看服务状态。 每次重启pbs_server服务时,需对应重启pbs_mom服务,最终保证qnodes下没有down的节点。,所装软件版本,intel parallel 2015.1.133 /opt/intel intel 编译器 Intel mpi 5.0.2.044 /opt/intel/impi/intel并行mpi TSCE 3.3 /opt/tsce 浪潮作业调度软件,集成torque ansys 14.0/opt/soft/ansys应用软件 pdsh 2.29/opt/pdsh-2.2.29 并行批

18、处理软件 mpich 3.0.4 /opt/soft/mpich3.0.4 编译器 所有节点操作系统 RHEL 6.5,Vasp脚本,#PBS -N vasptest #PBS -l nodes=3:ppn=12 #PBS -l walltime=12:00:00 #PBS -q batch #PBS -V #PBS -S /bin/bash cd $PBS_O_WORKDIR EXEC=/opt/software/vasp5.3.5/vasp(具体目录视情况而定),NP=cat $PBS_NODEFILE | wc -l NN=cat $PBS_NODEFILE | sort | uniq

19、| tee /tmp/nodes.$ | wc -l cat $PBS_NODEFILE /tmp/nodefile.$ mpirun -genv I_MPI_DEVICE rdssm -machinefile /tmp/nodefile.$ -n $NP $EXEC rm -f /tmp/nodefile.$,TSCE网页管理界面,远端输入登陆ip:8080/TSCE可调出TSCE的网页管理界面,TSCE网页管理界面,主界面,TSCE网页管理界面,TSCE网页最主要的功能集群监控,8/12/2020,Inspur group,集群批处理软件使用,pdsh是集群常用并行批处理软件 rootmu

20、01 test# pdsh w cu01-31 uptime allc串行处理,机器开机说明,1 将所有PDU加电,等待1分钟,待设备完成加电自检。 2 开启存储阵列,需要先开扩展柜,再开主柜,直接打开电源即可。(若如掉电,存储尽量保持开机状态) 3 开启管理节点mu01,约两分钟进入系统。 4 开启TSExa系统元数据节点,即 io01与io02,约两分钟进入系统,进系统后,执行crm_mon检查互备是否正常,如果不正常需要重启pacemaker和corosync服务。 5 开启oss节点,打开io03与io04,约两分钟进入系统,判断互备是否正常。 6 待io节点都开机后正常后,依次打开3

21、1个刀片计算节点。 7 mu01挂载并行文件系统。 常规检查: rootmu01 #mount.lustre ibio01o2ib,ibio02o2ib:/lustre /lustre rootmu01 # allc uptime rootmu01 # allc “df h|grep /opt” rootmu01 #allc “df h|grep /home” rootmu01 #allc “ypcat passwd” rootmu01 #qnodes -l all,机器关机说明,1先关闭cu计算节点 可以在mu01上用allc poweroff命令把31个计算节点关闭 2 再关闭管理节点mu

22、01,直接在mu01上运行poweroff。 3 如果必要,关闭并行文件系统,io01io04依次关闭(因为已经关闭管理节点,只能现场关闭) 4 最后关闭存储510H及扩展柜,只能现场关闭。 注:1,如果不能现场关闭存储io节点,可以在管理节点上先行卸载lustre挂载,然后关闭io节点,再关闭自身,但存储阵列510H不能命令行关闭。 2,如果关机出现不能正常关机卡在某一步,需手动强制关机,及长按关机键数秒。,节点IPMI管理界面,此界面是集成在主板的硬件管理界面。 管理界面节点需管理节点firefox,输入ip。 管理节点和io节点用户名及密码见铭牌 刀片的管理用户名与密码:root LC6

23、s5d?FW?,存储挂载情况,查看用户存储空间 df -h 整个集群上存储挂载情况为 计算节点 rootcu01 # df h 除本地文件系统外,还包括nfs的mu01节点/opt与io01的/home 管理节点(mount) rootmu01 opt# df -h,新建一个用户并提交作业流程解析,step1 在集群中添加新用户,首先在管理节点mu01上添加新用户 添加用户命令:rootmu01 # /opt/ssh/adduser 新建用户的设置初始密码,用户在拿到帐号后,第一时间,使用该账号登录到mu01,然后ssh到cu01输入yppasswd来更改密码。 新建地用户已配置好基本的并行环境。 Intel 编译器环境变量写到/etc/bashrc里,这样,每个存在用户均调用该环境变量。,新建一个用户并提交作业流程解析,step2 测试用户 新用户添加后,尝试使用新用户test登录 rootmu01 # su - test testmu0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论