版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浪潮天梭TS10K集群培训4/20/2026Inspurgroup第一章集群介绍1一、什么是集群?“联结起来的计算机的集合,整个系统使用起来像一个单一的一体的计算资源”
-GregPfister,InSearchofclusters二、为什么用集群?通俗的说,就是单一计算节点的资源已经无法满足我们的计算需求,比如内存的容量,cpu的计算能力。也许一个算例我们要计算数周甚至数月,这时候我们就需要用到集群来处理这些计算问题。三、集群有哪些部分组成?
计算节点:承载集群的计算任务
管理节点:用户登录、管理调度整个集群、任务提交等,提供对整个系统的监控管理
存储节点:存储大量的计算数据,高可用,高安全
硬件架构网络架构网络规划管理ip:00管理节点~31计算节点2~35io节点计算ip:10.10.10段,尾数同上IPMI网络:00管理节点
01~104io节点
00第一个刀箱,对应101~120,cu01~cu20
00第二个刀箱,对应101~121,cu21~cu314/20/2026Inspurgroup第二章集群使用2需要的条件:1、客户端与集群连通2、客户端如果为linux可以直接ssh登录到管理节点;如果为windows系统,需要安装相应软件3、一个合法账号!4、相应操作知识积累并行环境搭建Linux集群并行环境主要配置以下4个服务1、rsh服务通讯服务2、ssh服务
通讯服务3、nfs服务目录共享4、nis服务用户同步并行环境搭建-rsh服务配置rsh服务配置开启root用户对所有节点的rsh权限1、编辑/etc/hosts节点名称解析,加入所有(包括本机)节点的ip地址和对应的计算机名;此文件在一台机器上编辑完毕可以拷贝到别的节点上使用;注意这一行不要动,否则会影响到服务器的正常使用。例如:00mu01cu010cu10并行环境搭建-rsh服务配置2、编辑/root/.rhosts和/etc/hosts.equiv,加入所有节点的计算机名例如:mu01cu01cu103、开启rsh服务:setup→systemservices→[*]rsh[*]rlogin[*]rexec并行环境搭建-rsh服务配置4、编辑/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以)5、重起服务servicexinetdrestart
rsh的配置需要在所有节点上进行。并行环境搭建-ssh服务配置1、在mu01上以root登录,然后运行ssh-keygen–tdsa,目的是简单的在/root下创建目录.ssh,当提示输入passphase时打入两次回车。这将生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub2、在cu01上以root登录,运行ssh-keygen–tdsa,然后在mu01上运行scp/root/.ssh/id_dsa.pubgpu01:/root/.ssh/authorized_keys,在cu01的/root/.ssh/目录下运行catid_dsa.pub〉〉authorized_keys,再运行scpauthorized_keysgpu02:/root/.ssh/并行环境搭建-ssh服务配置3、在cu02的/root/.ssh/目录下运行catid_dsa.pub〉〉authorized_keys,再运行scpauthorized_keyscu03:/root/.ssh/4、重复以上步骤在后面结点上,在最后的计算节点上将生成一个完整的authorized_keys文件,然后把authorized_keys文件用scp命令拷贝到其余所有节点的/root/.ssh/目录下,ssh配置完成。并行环境搭建-nfs服务配置server端配置1、建立文件/etc/exports(若已存在该文件,则先删除再重新建立)2、vi/etc/exports/,在文件内添加上语句:/home*(rw,no_root_squash,sync)/opt*(rw,no_root_squash,sync)(目录为需要共享的目录,目录和星号之间有空格。)3、激活nfschkconfignfson
servicenfsrestart
此时可以到client上用showmount–eIP(或者server的主机名)来扫描server端共享的目录。若exports文件重新编辑了,可以运行exportfs–rv来更新一下,这样client端就可以挂载修改后的目录了。并行环境搭建-nfs服务配置client端配置1、扫描可以使用的server目录:showmount–emu012、使用mount将远程主机分享的目录挂载进来:mount–tnfsvers=3mu01:/opt/opt
此时可以通过df命令看挂载是否正常;
为了实现开机自动挂载还可将mount–tnfsvers=3mu01:/opt/opt写入到/etc/rc.local中以使节点启动后自动挂载目录。并行环境搭建-nis服务配置server端配置1、配置NIS域名nisdomainnameTS10K
把NISDOMAIN=TS10K添加到network里实现开机自动配置域名2、开启两个服务:serviceyppasswddstartserviceypservstart(需要先配置NIS域名才能启动成功)可以使用rpcinfo–u本机名ypserv察看ypserv是否启动,若成功启动会看到:program100004version1readyandwaitingprogram100004version2readyandwaiting并行环境搭建-nis服务配置若没看到,则把ypserv重新启动一下即可。回车后会显示类似内容:mu01hasbeensetupasaNISserver,nowyoucanrunypinit–smu01onallslaveserver.在server端重新建立新用户后,需要到/var/yp目录下make一下,这样client端才能使用新用户登录3、数据初始化cd/usr/lib64/yp./ypinit–mctl+d来结束这个命令再打入回车并行环境搭建-nis服务配置client端配置1、设定NISclientsetup→authenticationconfiguration→[*]useNIS填写:Domain:TS10K(NIS的域名)Server:mu01(server端的名称或者ip)2、开启服务setup→systemservices→[*]ypbindserviceypbindrestart使用命令:ypcatpasswd可以发现在server端建立的帐户名称被列举了出来;若使用这些帐户的话需要在本地/home目录下建立其相对应的用户目录。编译环境集群中现存的编译器gcciccifortmpiccmpiicc等调用集群内部高速的IB计算网络,通常使用mpirun-genvI_MPI_DEVICErdssm–np–machinefile+执行文件rdssm即是mpirun编译器调用IB协议的参数。如果是ssm,则是使用以太网络。编译软件安装intelC编译器,fortran编译器,mkl数学库一体包。安装intelmpi编译器。安装目录:/opt/intel计算节点挂载管理节点的nfs共享安装路径调用编译软件等。编译软件-Intel并行环境变量设置在~/.bashrc里加入如下三行source/opt/intel/composer_xe_2015.1.133/bin/compilervars.shintel64###intel编译器source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh###intel数学库source/opt/intel/impi/44/bin64/mpivars.sh###intelmpi执行source~/.bashrc使编译器环境变量生效。可将它写进/etc/bashrc里,新加用户将其作为默认编译器MPI程序的并行编译编译方法:mpicc-ohellohello.cmpiicc–ohellohello.c执行方法:./hello注:1,mpicc是调用gcc为底层的编译,mpiicc是调用icc为底层的编译。
2,源代码需支持并行编译。程序编译步骤简介下载源码包(不是版本越新越好)查看INSTALL文件或官方installation指导(查看依赖和参数)configure--prefix=path/to/your/soft(可选)makemakeinstall依赖库1.查看版本2.指定安装路径3.设置环境变量
写到~/.bash_profile(普通用户)exportPATH=$PATH:/path/to/your/binexportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib软件编译TSExa并行文件系统底层为lustre并行系统,包含4台2U机架式5270M4,其中两台io01,io02做为mds双机互备节点,另外两台io节点作为oss节点,各自挂载一部分存储空间分别为ost0,ost1,且为双机互备。Mdt包含两块硬盘做raid1;ost包含7块硬盘做raid5,剩下一块全局热备盘,共计17块硬盘。每个ost约22T空间,共约44T空间。TSExa并行文件系统Io01与io02存在心跳,io03与io04之间存在心跳,当一节点宕机时,另一互备节点会接替其挂载资源并提供服务。管理节点mu01,及31台计算刀片为lustre的客户端,挂载目录为/lustre即为存储空间,可用df–h查看。挂载指令mount.lustreibio01@o2ib,ibio02@o2ib:/lustre/lustreTSCE集群作业管理调度软件TSCE集群作业管理调度软件常用作业指令qnodes,pbsnodes用于查看当前可用节点与核心数。TSCE集群作业管理调度软件qnodes与pbsnodes等效,通常可以qnodes–lall查看节点是否就位TSCE集群作业管理调度软件qdel删除作业,用法:qdel作业号几种作业的状态(S):Q作业排队R作业执行C作业清除E作业退出TSCE集群作业管理调度软件PBS相关指令管理节点服务:pbs_server,作业管理服务maui,作业调度器计算节点服务:pbs_mom,作业调度子服务,与pbs_server相对应servicepbs_serverstatus查看服务状态。每次重启pbs_server服务时,需对应重启pbs_mom服务,最终保证qnodes下没有down的节点。所装软件版本intelparallel2015.1.133/opt/intel intel编译器Intelmpi44
/opt/intel/impi/ intel并行mpiTSCE3.3
/opt/tsce浪潮作业调度软件,集成torqueansys14.0 /opt/soft/ansys
应用软件pdsh2.29 /opt/pdsh-2.2.29并行批处理软件mpich3.0.4/opt/soft/mpich3.0.4编译器所有节点操作系统RHEL6.5Vasp脚本NP=`cat$PBS_NODEFILE|wc-l`NN=`cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$$|wc-l`cat$PBS_NODEFILE>/tmp/nodefile.$$mpirun-genvI_MPI_DEVICErdssm-machinefile/tmp/nodefile.$$-n$NP$EXECrm-f/tmp/nodefile.$$TSCE网页管理界面远端输入登陆ip:8080/TSCE可调出TSCE的网页管理界面TSCE网页管理界面主界面TSCE网页管理界面TSCE网页最主要的功能——集群监控4/20/2026Inspurgroup第三章集群维护管理3集群批处理软件使用机器开机说明1将所有PDU加电,等待1分钟,待设备完成加电自检。2开启存储阵列,需要先开扩展柜,再开主柜,直接打开电源即可。(若如掉电,存储尽量保持开机状态)3开启管理节点mu01,约两分钟进入系统。4开启TSExa系统元数据节点,即io01与io02,约两分钟进入系统,进系统后,执行crm_mon检查互备是否正常,如果不正常需要重启pacemaker和corosync服务。5开启oss节点,打开io03与io04,约两分钟进入系统,判断互备是否正常。6待io节点都开机后正常后,依次打开31个刀片计算节点。7mu01挂载并行文件系统。常规检查:[root@mu01~]#mount.lustreibio01@o2ib,ibio02@o2ib:/lustre/lustre[root@mu01~]#allcuptime[root@mu01~]#
allc“df–h|grep/opt”[root@mu01~]#allc“df–h|grep/home”[root@mu01~]#allc“ypcatpasswd”[root@mu01~]#qnodes-lall机器关机说明1先关闭cu计算节点可以在mu01上用allcpoweroff命令把31个计算节点关闭2再关闭管理节点mu01,直接在mu01上运行poweroff。3如果必要,关闭并行文件系统,io01~io04依次关闭(因为已经关闭管理节点,只能现场关闭)4最后关闭存储510H及扩展柜,只能现场关闭。注:1,如果不能现场关闭存储io节点,可以在管理节点上先行卸载lustre挂载,然后关闭io节点,再关闭自身,但存储阵列510H不能命令行关闭。
2,如果关机出现不能正常关机卡在某一步,需手动强制关机,及长按关机键数秒。节点IPMI管理界面此界面是集成在主板的硬件管理界面。管理界面节点需管理节点firefox,输入ip。管理节点和io节点用户名及密码见铭牌刀片的管理用户名与密码:rootLC6s5d?FW?存储挂载情况查看用户存储空间df-h整个集群上存储挂载情况为计算节点
[root@cu01~]#df–h除本地文件系统外,还包括nfs的mu01节点/opt与io01的/home管理节点(mount)[root@mu01opt]#df-h新建一个用户并提交作业流程解析step1在集群中添加新用户,首先在管理节点mu01上添加新用户添加用户命令:[root@mu01~]#/opt/ssh/adduser新建用户的设置初始密码,用户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东韶关学院招聘辅导员30人(编制)农业笔试模拟试题及答案解析
- 2026贵州贵阳市观山湖区第三十六幼儿园(第一分园)招聘2人农业笔试备考试题及答案解析
- 2026湖北教师招聘统考罗田县招聘31人农业笔试备考试题及答案解析
- 2026海南琼中县社会保险服务中心社会招聘见习生2人农业考试备考试题及答案解析
- 2026浙江大学医学院附属第二医院招聘消毒供应中心工作人员2人农业笔试备考试题及答案解析
- 2026湖南永州市江华瑶族自治县第二批引进急需紧缺专业人才16人农业笔试参考题库及答案解析
- 2026河南安阳钢铁建设有限责任公司社会招聘成熟型人才2人农业笔试模拟试题及答案解析
- 2026广东惠州惠东县纪委监委招聘纪检监察助理人员5人农业考试备考题库及答案解析
- 2026湖北教师招聘统考大悟县140人农业考试备考题库及答案解析
- 2026广东惠州博罗县第八人民医院招聘12人农业笔试模拟试题及答案解析
- 水利工程施工监理规范SL288-2014(CB、JL用表全套)
- 《网上观看大熊猫》名师课件
- GA/T 2133.2-2024便携式微型计算机移动警务终端第2部分:安全监控组件技术规范
- (正式版)HGT 3655-2024 紫外光(UV)固化木器涂料
- 湘教版高中数学必修二知识点清单
- 2024年山东出版集团有限公司招聘笔试参考题库含答案解析
- 2023年初级会计职称《初级会计实务》真题
- (中职)电子技术基础与技能教ppt教学课件汇总完整版电子教案
- 氢气管道施工技术管理及质量控制
- 光拍频法测量光速
- 原厂操作IBM v5000,v7000换盘
评论
0/150
提交评论