已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浪潮天梭TS10K集群培训,12/17/2019,Inspurgroup,一、什么是集群?,“联结起来的计算机的集合,整个系统使用起来像一个单一的一体的计算资源”-GregPfister,InSearchofclusters,二、为什么用集群?,通俗的说,就是单一计算节点的资源已经无法满足我们的计算需求,比如内存的容量,cpu的计算能力。也许一个算例我们要计算数周甚至数月,这时候我们就需要用到集群来处理这些计算问题。,三、集群有哪些部分组成?,计算节点:承载集群的计算任务管理节点:用户登录、管理调度整个集群、任务提交等,提供对整个系统的监控管理存储节点:存储大量的计算数据,高可用,高安全,硬件架构,网络架构,网络规划,管理ip:11.11.11.100管理节点11.11.11.131计算节点11.11.11.3235io节点计算ip:10.10.10段,尾数同上IPMI网络:11.11.100.100管理节点11.11.100.101104io节点11.11.101.100第一个刀箱,对应101120,cu01cu2011.11.102.100第二个刀箱,对应101121,cu21cu31,12/17/2019,Inspurgroup,需要的条件:,1、客户端与集群连通2、客户端如果为linux可以直接ssh登录到管理节点;如果为windows系统,需要安装相应软件3、一个合法账号!4、相应操作知识积累,并行环境搭建,Linux集群并行环境主要配置以下4个服务1、rsh服务通讯服务2、ssh服务通讯服务3、nfs服务目录共享4、nis服务用户同步,并行环境搭建-rsh服务配置,rsh服务配置开启root用户对所有节点的rsh权限1、编辑/etc/hosts节点名称解析,加入所有(包括本机)节点的ip地址和对应的计算机名;此文件在一台机器上编辑完毕可以拷贝到别的节点上使用;注意127.0.0.1这一行不要动,否则会影响到服务器的正常使用。例如:11.11.11.100mu0111.11.11.1cu0111.11.11.10cu10,并行环境搭建-rsh服务配置,2、编辑/root/.rhosts和/etc/hosts.equiv,加入所有节点的计算机名例如:mu01cu01cu103、开启rsh服务:setupsystemservices*rsh*rlogin*rexec,并行环境搭建-rsh服务配置,4、编辑/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以)5、重起服务servicexinetdrestartrsh的配置需要在所有节点上进行。,并行环境搭建-ssh服务配置,1、在mu01上以root登录,然后运行ssh-keygentdsa,目的是简单的在/root下创建目录.ssh,当提示输入passphase时打入两次回车。这将生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub2、在cu01上以root登录,运行ssh-keygentdsa,然后在mu01上运行scp/root/.ssh/id_dsa.pubgpu01:/root/.ssh/authorized_keys,在cu01的/root/.ssh/目录下运行catid_dsa.pubauthorized_keys,再运行scpauthorized_keysgpu02:/root/.ssh/,并行环境搭建-ssh服务配置,3、在cu02的/root/.ssh/目录下运行catid_dsa.pubauthorized_keys,再运行scpauthorized_keyscu03:/root/.ssh/4、重复以上步骤在后面结点上,在最后的计算节点上将生成一个完整的authorized_keys文件,然后把authorized_keys文件用scp命令拷贝到其余所有节点的/root/.ssh/目录下,ssh配置完成。,并行环境搭建-nfs服务配置,server端配置1、建立文件/etc/exports(若已存在该文件,则先删除再重新建立)2、vi/etc/exports/,在文件内添加上语句:/home*(rw,no_root_squash,sync)/opt*(rw,no_root_squash,sync)(目录为需要共享的目录,目录和星号之间有空格。)3、激活nfschkconfignfsonservicenfsrestart此时可以到client上用showmounteIP(或者server的主机名)来扫描server端共享的目录。若exports文件重新编辑了,可以运行exportfsrv来更新一下,这样client端就可以挂载修改后的目录了。,并行环境搭建-nfs服务配置,client端配置1、扫描可以使用的server目录:showmountemu012、使用mount将远程主机分享的目录挂载进来:mounttnfsvers=3mu01:/opt/opt此时可以通过df命令看挂载是否正常;为了实现开机自动挂载还可将mounttnfsvers=3mu01:/opt/opt写入到/etc/rc.local中以使节点启动后自动挂载目录。,并行环境搭建-nis服务配置,server端配置1、配置NIS域名nisdomainnameTS10K把NISDOMAIN=TS10K添加到network里实现开机自动配置域名2、开启两个服务:serviceyppasswddstartserviceypservstart(需要先配置NIS域名才能启动成功)可以使用rpcinfou本机名ypserv察看ypserv是否启动,若成功启动会看到:program100004version1readyandwaitingprogram100004version2readyandwaiting,并行环境搭建-nis服务配置,若没看到,则把ypserv重新启动一下即可。回车后会显示类似内容:mu01hasbeensetupasaNISserver,nowyoucanrunypinitsmu01onallslaveserver.在server端重新建立新用户后,需要到/var/yp目录下make一下,这样client端才能使用新用户登录3、数据初始化cd/usr/lib64/yp./ypinitmctl+d来结束这个命令再打入回车,并行环境搭建-nis服务配置,client端配置1、设定NISclientsetupauthenticationconfiguration*useNIS填写:Domain:TS10K(NIS的域名)Server:mu01(server端的名称或者ip)2、开启服务setupsystemservices*ypbindserviceypbindrestart使用命令:ypcatpasswd可以发现在server端建立的帐户名称被列举了出来;若使用这些帐户的话需要在本地/home目录下建立其相对应的用户目录。,编译环境,集群中现存的编译器gcciccifortmpiccmpiicc等调用集群内部高速的IB计算网络,通常使用mpirun-genvI_MPI_DEVICErdssmnpmachinefile+执行文件rdssm即是mpirun编译器调用IB协议的参数。如果是ssm,则是使用以太网络。,编译软件,安装intelC编译器,fortran编译器,mkl数学库一体包。安装intelmpi编译器。安装目录:/opt/intel计算节点挂载管理节点的nfs共享安装路径调用编译软件等。,编译软件-Intel并行环境变量设置,在/.bashrc里加入如下三行source/opt/intel/composer_xe_2015.1.133/bin/compilervars.shintel64#intel编译器source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh#intel数学库source/opt/intel/impi/5.0.2.044/bin64/mpivars.sh#intelmpi执行source/.bashrc使编译器环境变量生效。可将它写进/etc/bashrc里,新加用户将其作为默认编译器,MPI程序的并行编译,编译方法:mpicc-ohellohello.cmpiiccohellohello.c执行方法:./hello注:1,mpicc是调用gcc为底层的编译,mpiicc是调用icc为底层的编译。2,源代码需支持并行编译。,程序编译步骤简介下载源码包(不是版本越新越好)查看INSTALL文件或官方installation指导(查看依赖和参数)configure-prefix=path/to/your/soft(可选)makemakeinstall依赖库1.查看版本2.指定安装路径3.设置环境变量写到/.bash_profile(普通用户)exportPATH=$PATH:/path/to/your/binexportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib,软件编译,TSExa并行文件系统,底层为lustre并行系统,包含4台2U机架式5270M4,其中两台io01,io02做为mds双机互备节点,另外两台io节点作为oss节点,各自挂载一部分存储空间分别为ost0,ost1,且为双机互备。Mdt包含两块硬盘做raid1;ost包含7块硬盘做raid5,剩下一块全局热备盘,共计17块硬盘。每个ost约22T空间,共约44T空间。,TSExa并行文件系统,Io01与io02存在心跳,io03与io04之间存在心跳,当一节点宕机时,另一互备节点会接替其挂载资源并提供服务。管理节点mu01,及31台计算刀片为lustre的客户端,挂载目录为/lustre即为存储空间,可用dfh查看。挂载指令mount.lustreibio01o2ib,ibio02o2ib:/lustre/lustre,TSCE集群作业管理调度软件,TSCE集群作业管理调度软件常用作业指令qnodes,pbsnodes用于查看当前可用节点与核心数。,TSCE集群作业管理调度软件,qnodes与pbsnodes等效,通常可以qnodeslall查看节点是否就位,qsub作业提交,用法:qsubtest.pbsqstat查看作业状态。qstatan查看作业使用节点及核心情况,TSCE集群作业管理调度软件,qdel删除作业,用法:qdel作业号几种作业的状态(S):Q作业排队R作业执行C作业清除E作业退出,TSCE集群作业管理调度软件,PBS相关指令,管理节点服务:pbs_server,作业管理服务maui,作业调度器计算节点服务:pbs_mom,作业调度子服务,与pbs_server相对应servicepbs_serverstatus查看服务状态。每次重启pbs_server服务时,需对应重启pbs_mom服务,最终保证qnodes下没有down的节点。,所装软件版本,intelparallel2015.1.133/opt/intelintel编译器Intelmpi5.0.2.044/opt/intel/impi/intel并行mpiTSCE3.3/opt/tsce浪潮作业调度软件,集成torqueansys14.0/opt/soft/ansys应用软件pdsh2.29/opt/pdsh-2.2.29并行批处理软件mpich3.0.4/opt/soft/mpich3.0.4编译器所有节点操作系统RHEL6.5,Vasp脚本,#PBS-Nvasptest#PBS-lnodes=3:ppn=12#PBS-lwalltime=12:00:00#PBS-qbatch#PBS-V#PBS-S/bin/bashcd$PBS_O_WORKDIREXEC=/opt/software/vasp5.3.5/vasp(具体目录视情况而定),NP=cat$PBS_NODEFILE|wc-lNN=cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$|wc-lcat$PBS_NODEFILE/tmp/nodefile.$mpirun-genvI_MPI_DEVICErdssm-machinefile/tmp/nodefile.$-n$NP$EXECrm-f/tmp/nodefile.$,TSCE网页管理界面,远端输入登陆ip:8080/TSCE可调出TSCE的网页管理界面,TSCE网页管理界面,主界面,TSCE网页管理界面,TSCE网页最主要的功能集群监控,12/17/2019,Inspurgroup,集群批处理软件使用,pdsh是集群常用并行批处理软件rootmu01test#pdshwcu01-31uptimeallc串行处理,机器开机说明,1将所有PDU加电,等待1分钟,待设备完成加电自检。2开启存储阵列,需要先开扩展柜,再开主柜,直接打开电源即可。(若如掉电,存储尽量保持开机状态)3开启管理节点mu01,约两分钟进入系统。4开启TSExa系统元数据节点,即io01与io02,约两分钟进入系统,进系统后,执行crm_mon检查互备是否正常,如果不正常需要重启pacemaker和corosync服务。5开启oss节点,打开io03与io04,约两分钟进入系统,判断互备是否正常。6待io节点都开机后正常后,依次打开31个刀片计算节点。7mu01挂载并行文件系统。常规检查:rootmu01#mount.lustreibio01o2ib,ibio02o2ib:/lustre/lustrerootmu01#allcuptimerootmu01#allc“dfh|grep/opt”rootmu01#allc“dfh|grep/home”rootmu01#allc“ypcatpasswd”rootmu01#qnodes-lall,机器关机说明,1先关闭cu计算节点可以在mu01上用allcpoweroff命令把31个计算节点关闭2再关闭管理节点mu01,直接在mu01上运行poweroff。3如果必要,关闭并行文件系统,io01io04依次关闭(因为已经关闭管理节点,只能现场关闭)4最后关闭存储510H及扩展柜,只能现场关闭。注:1,如果不能现场关闭存储io节点,可以在管理节点上先行卸载lustre挂载,然后关闭io节点,再关闭自身,但存储阵列510H不能命令行关闭。2,如果关机出现不能正常关机卡在某一步,需手动强制关机,及长按关机键数秒。,节点IPMI管理界面,此界面是集成在主板的硬件管理界面。管理界面节点需管理节点firefox,输入ip。管理节点和io节点用户名及密码见铭牌刀片的管理用户名与密码:rootLC6s5d?FW?,存储挂载情况,查看用户存储空间df-h整个集群上存储挂载情况为计算节点rootcu01#dfh除本地文件系统外,还包括nfs的mu01节点/opt与io01的/home管理节点(mount)rootmu01opt#df-h,新建一个用户并提交作业流程解析,step1在集群中添加新用户,首先在管理节点mu01上添加新用户添加用户命令:rootmu01#/opt/ssh/adduser新建用户的设置初始密码,用户在拿到帐号后,第一时间,使用该账号登录到mu01,然后ssh到cu01输入yppasswd来更改密码。新建地用户已配置好基本的并行环境。Intel编译器环境变量写到/etc/bashrc里,这样,每个存在用户均调用该环境变量。,新建一个用户并提交作业流程解析,step2测试用户新用户添加后,尝试使用新用户test登录rootmu01#su-testtestm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州黔南州公安机关招聘警务辅助人员体能测评参考题库带答案解析
- 2025江西南昌云智大数据产业研究院第二批工作人员招聘2人备考题库带答案解析
- 2025年中国科学技术大学研究生院劳务派遣岗位招聘1人模拟试卷附答案解析
- 2025福建厦门市集美区园博幼儿园非在编(顶岗)教职工招聘2人备考公基题库带答案解析
- 2026年陕西省选调生招录(面向武汉大学)参考题库带答案解析
- 2025广东韶关市乳源瑶族自治县融媒体中心招聘记者1人历年真题汇编带答案解析
- 2025北京市网信办社会招聘15人历年真题库带答案解析
- 2025内蒙古工程项目管理有限公司招聘6人参考题库附答案解析
- 2025上海宋庆龄幼儿园工作人员招聘2人参考题库附答案解析
- 2025广东广州市红十字会医院第一次招聘47人历年真题库带答案解析
- 供应商整改管理制度
- 大中型企业安全生产标准化管理体系要求变化解读
- CHINET2024年全年细菌耐药监测结果
- 2025年泵站运行工职业技能比武竞赛参考试指导题库500题(含答案)
- 2025年装饰艺术考试试题及答案
- 唾液腺疾病影像诊断讲解
- 改革开放与新时代知到智慧树章节测试课后答案2024年秋同济大学
- 机电一体化系统的设计与控制
- 【MOOC】《大学计算机基础》(北京航空航天大学)章节作业中国大学慕课答案
- 冬季铁路调车安全
- 2024年10月自考00262法律文书写作试题及答案含评分参考
评论
0/150
提交评论