版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、青海大学浪潮高性能集群 2014/6/24目录青海大学浪潮高性能集群1一:集群配置各项信息31.1:机柜拓扑31.2:集群IP地址分布41.3:集群软件环境5二:高性能集群环境搭建122.1:光盘安装redhat操作系统122.2:网络灌装计算节点操作系统282.3:配置并行环境41三:编译器安装553.1:intel 2013编译器安装553.2:intel并行编译器安装673.3:PGI编译器安装74四:mpi实现安装76五:libs安装77六:WRF安装79安装jasper79安装hdf580七:PBS使用1037.1:PBS脚本1037.2:PBS常用命令解析104八:集群报修106一
2、:集群配置各项信息1.1:机柜拓扑机柜由上而下依次为:mu01管理节点、cu01-cu05计算节点、kvm视频切换器、cu06-cu12计算节点、千兆以太网交换机、infiniband 40Gb交换机。1.2:集群IP地址分布节点名称节点作用以太网地址Infiniband地址外网连接地址Mu01管理节点000040cu01第1个计算节点cu02第2个计算节点cu03第3个计算节点cu04第4个计算节点
3、cu05第5个计算节点cu06第6个计算节点cu07第7个计算节点cu08第8个计算节点cu09第9个计算节点cu10第10个计算节点00cu11第11个计算节点1cu12第12个计算节点21.3:集群软件环境1.3.1:集群基本环境操作系统版本Redhat 6.4 X86_
4、64内核版本2.6.32-358.el6.x86_64Infiniband驱动版本MLNX_OFED_LINUX-2.0-3.0.0-rhel6.4-x86_641.3.2:编译器版本编译器名称版本安装位置GccRed Hat 4.4.7-3/usr/binGfortranRed Hat 4.4.7-3/usr/binPython Python 2.6.6/usr/binPGI10.6/opt/pgiIcc2013/opt/intelIfort2013/opt/intelMpicc36/opt/intel/impiMpiifrot36/opt/intel/impi1
5、.3.3:mpi实现mpi名称版本安装位置impi (intel mpi)36/opt/intel/impimpich-gnu3.1.1/opt/mpi/mpich-3.1.1-gnumpich-intel3.1.1/opt/mpi/mpich-3.1.1-intel2013mvapich2.1.9/opt/mpi/mvapich2-1.9mvapich-intel2.1.9/opt/mpi/mvapich2-1.9-intelopenmpi-gnu1.4.1/opt/mpi/openmpi-1.4.1-gnuopenmpi-intel1.4.1/opt/mpi/mvapich2
6、-1.9-intel2013openmi-gnu1.6.5/opt/mpi/openmpi-1.6.5-gnuopenmpi-intel1.6.5/opt/mpi/openmpi-1.6.5-intel20131.3.4:libs库名称版本安装位置Blas/opt/libs/blasFftw-gnu2.1.5/opt/libs/fftw-2.1.5-gnuFftw-intel2.1.5/opt/libs/fftw-2.1.5-intel2013Fftw-gnu3.3.4/opt/libs/fftw-3.3.4-gnuFftw-intel3.3.4/opt/libs/fftw-3.3.4-int
7、el2013Gsl1.15/opt/gsl-1.15Hdf5/opt/libs/hdf5-intel2013Jasper/opt/libs/jasperLapack/opt/libs/lapackLibfm1.4.0/opt/libs/libfm-1.4.0Libint2.0.3/opt/libs/libint-2.0.3Libpng/opt/libs/libpngLibxc1.1.0/opt/libs/libxc-1.1.0Libxc1.2.0/opt/libs/libxc-1.2.0Mpiblacs/opt/libs/mpiblacsNetcdf/opt/libs/netcdfNetcdf
8、-gnu/opt/libs/netcdf-gnuSPARSKIT2/opt/libs/SPARSKIT2spglib1.6.0/opt/libs/spglib-1.6.0Tcl8.6/opt/libs/tcl5.6Zlib1.2.8/opt/libs/zlib-1.2.8Hdf5-pgi1.8.9/opt/libs/pgi-libs/hdf5Jasper-pgi1.701/opt/libs/pgi-libs/jasperLibpng-pgi/opt/libs/pgi-libs/libpngNetcdf-pgi4.2/opt/libs/pgi-libs/netcdf1.3.5:应用软件安装软件名
9、称安装版本安装位置WRFV3-intelV3/opt/soft/WRFV3.intelWRFV3-PGIV3/opt/soft/WRFV3-pgiWPS-intelV3/opt/soft/WPSWPS-PGIV3/opt/soft/WPS-pgiARWpostV3/opt/soft/ARWpostARWpostV3/opt/soft/ARWpost-pgiMM5/opt/soft/MM51.3.6:存储规划600GB SAS 15K (ID5)600GB SAS 15K (ID11)600GB SAS 15K (ID17)600GB SAS 15K (ID23)600GB SAS 15K (I
10、D4)600GB SAS 15K (ID10)600GB SAS 15K (ID16)600GB SAS 15K (ID22)600GB SAS 15K (ID3)600GB SAS 15K (ID9)600GB SAS 15K (ID15)600GB SAS 15K (ID21)600GB SAS 15K (ID2)600GB SAS 15K (ID8)600GB SAS 15K (ID14)600GB SAS 15K (ID20)600GB SAS 15K (ID1)600GB SAS 15K (ID7)600GB SAS 15K (ID13)600GB SAS 15K (ID19)600
11、GB SAS 15K (ID0)600GB SAS 15K (ID6)600GB SAS 15K (ID12)600GB SAS 15K (ID18)黄色标示23块600GB SAS硬盘创建raid5,空间大小为12TB,红色硬盘代表热备盘,在有硬盘故障时,红色硬盘自动加入raid5组,保证数据安全。所有节点通过NFS服务挂载存储12TB空间,用于数据的读写,所有节点挂载目录为/data,挂载命令为:mount -t nfs -o vers=3 00:/nfs/data-data1 /data/1.3.7:新建用户请使用root用户登陆管理节点,进入/opt/useradd目录
12、。以新建inspur用户为例,执行./useradd inspur即可完成用户的创建与rsh ssh无密码访问的设置。脚本信息如下:#!/bin/bashuseradd $1 -d /data/home/$1 (指定用户目录位置)echo "111111" |passwd $1 stdin (初始用户密码)cd /var/ypmakeecho "NIS user $1 has been added.-passwd:111111home: /home/$1-"#echo module unuse /usr/share/Modules/modulefiles
13、 >> /lustre/home/$1/.bashrc#echo module use /lustre/inspur/modules >>/lustre/home/$1/.bashrccp -rf /opt/useradd/ssh-configure /data/home/$1 (拷贝ssh无密码访问脚本)su $1 -c "/data/home/$1/ssh-configure/step1.exp $1" (生成ssh-key)echo "step1.exp is ok.-#50%-"su $1 -c "/data/h
14、ome/$1/ssh-configure/step2.exp $1 111111" (所有节点创建无密码访问)echo "step2.exp is ok.mow you can use ssh for $1-#100%-"注:新创建用户密码为111111,为了保证集群和数据的安全,请创建完用户后及时修改密码。1.3.8:集群开关机顺序开机:首先开启存储节点,稍等5分钟后等存储节点充分启动完毕后开启mu01管理节点(需要启动时间5分钟),mu01节点充分启动完毕后依次开启cu01cu12计算节点。关机:使用root用户登陆管理节点,在/root目录下运行sh pow
15、eroff.sh即可完毕对所有计算节点的关闭。计算节点关机完毕后运行poweroff关闭管理节点。二:高性能集群环境搭建2.1:光盘安装redhat操作系统以红帽6.4的操作系统安装为例1插入光盘,引导机器选择从光盘启动。选择第一个,第一个是常用基本系统安装,第二项为带显卡驱动的系统安装,如果有GPU的时候,可能需要选择第二个,然后到系统中之后,在更改为本身的驱动2.如需加载相应驱动(一般为raid卡驱动),否则直接回车,则在按tab键,进入选择界面,在boot:处输入linux dd ,安装引导程序会提示需要插入U盘,并选择相应驱动。插入U盘3. 检查光盘介质,如果确认光盘介质完好则选择SK
16、IP4. 欢迎界面,点NEXT5. 选择语言,请选择English(English);选择习惯键盘,请选择U.S.English6. 选择存储方式,为基本存储设备7. 输入主机名,网络可以到系统中配置8,选择时区,为东八区,上海9,输入root密码,Next继续10,系统分区方式,请选择Create custom layout11,分区;如客户无特别需求,则默认按/boot分区512M;swap分区为内存的1-2倍;其他空间归为根分区/12,设置grub,直接点NEXT13. 选择安装包,请选择Customize now;之后点击NEXT14.选择安装包,可根据用户需要来安装,如果没要求,就全
17、部安装,避免编译过程中缺少必要的库文件,务必选全Application,Development,Base System每一项。小技巧:可以像windows一样按住shift键把右边的小项全选,再点击右键有个“all optional packages”可选。15. 选择完成后,出现安装准备画面,点击NEXT,后进入到格式化,格式化完成就会安装系统。16. 安装完成后点击Reboot 重启。17. 第一次启动会进入下图界面,进行系统初始化得设定18. License,直接点击Forward19设置软件升级,直接Forward21添加用户,不添加,直接Forward,可在系统中添加用户22Date
18、 and Time 直接Forward23Kdump,直接Forward,选择不可用Kdump,点击finish至此系统安装完毕。系统安装完毕后的配置1, 关闭防火墙2, 关闭selinux3, 关闭NetworkManger服务4, 配置网络,可以通过setup来配置如下所示,在Terminal中运行setup然后配置网络,也可以修改/etc/sysconfig/network-scripts/ifcfg-eth0配置文件来配置网络,也可以配置修改配置网络,配置文件事例如下:5,修改ssh配置如果通过修改/etc/ssh/sshd_config文件实现机器远程ssh相应速度非常慢,可关闭ss
19、h的DNS的解析rootmu01 # vi /etc/ssh/sshd_config修改UseDNS一行,就可以实现修改完成后,重启机器即可2.2:网络灌装计算节点操作系统配置HTTP服务HTTP服务提供了安装过程中的所需要的安装包和提供安装的配置文件,配置http过程如下:1, 启动httpd服务rootmu01 # service httpd startStarting httpd: httpd: Could not reliably determine the server's fully qualified domain name, using 00 fo
20、r ServerName OK 2, 配置http服务修改hosts文件,使各个节点可正常解析rootmu01 # cat /etc/hosts localhost localhost.localdomain localhost4 localhost4.localdomain4:1 localhost localhost.localdomain localhost6 localhost6.localdomain600 mu01 cu01rootmu01 # mkdir /var/www/html/rhel6u4x64将安装iso文件
21、中的所有文件拷贝到/var/www/html/rhel6u4x64,也可以直接挂在iso镜像到/var/www/html/rhel6u4x64下,如下所示:rootmu01 # mount /dev/cdrom /var/www/html/rhel6u4x64/mount: block device /dev/sr0 is write-protected, mounting read-onlyrootmu01 # df -hFilesystem Size Used Avail Use% Mounted on/dev/sda2 56G 22G 32G 40% /tmpfs 246M 100K 2
22、46M 1% /dev/shm/dev/sr0 3.5G 3.5G 0 100% /var/www/html/rhel6u3x64配置TFTP服务1, 配置tftp文件修改红色标注处,将tftp服务开启rootmu01 # vi /etc/xinetd.d/tftp # default: off# description: The tftp server serves files using the trivial file transfer # protocol. The tftp protocol is often used to boot diskless # workstations,
23、 download configuration files to network-aware printers, # and to start the installation process for some operating systems.service tftp socket_type = dgram protocol = udp wait = yes user = root server = /usr/sbin/in.tftpd server_args = -s /tftpboot disable = no per_source = 11 cps = 100 2 flags = I
24、Pv42, 重启xintd服务rootmu01 # /etc/init.d/xinetd restartStopping xinetd: OK Starting xinetd: OK 配置DHCP服务1, 配置dhcp文件实例中的配置文件只列举了部分配置,如果需要其他配置,可以查阅相关资料,修改红色字体标注部分rootmu01 # vi /etc/dhcp/dhcpd.conf # DHCP Server Configuration file.# see /usr/share/doc/dhcp*/dhcpd.conf.sample# see 'man 5 dhcpd.conf'
25、ddns-update-style interim;ignore client-updates;subnet netmask # - default gateway option routers 00; option subnet-mask ; option nis-domain "TS10K"# option domain-name ""# option domain-name-servers 00; opt
26、ion time-offset -18000; # Eastern Standard Time# option ntp-servers 00;# option netbios-name-servers 00;# - Selects point-to-point node (default is hybrid). Don't change this unless# - you understand Netbios very well# option netbios-node-type 2;range dynamic-bootp 192.
27、168.0.1 0;(起止IP地址) default-lease-time 21600; max-lease-time 43200;# network installation configuration allow booting; allow bootp; class "pxeclients" match if substring(option vendor-class-identifier, 0, 9) = "PXEClient"next-server 00; filename "pxelinu
28、x.0" # network installation configuration# we want the nameserver to appear at a fixed address如果需要添加节点的MAC地址与地址绑定,请添加如下配置host cu01 hardware ethernet 00:0C:29:73:78:F0; fixed-address ; 2, 启动DHCP服务rootmu01 # /etc/init.d/dhcpd restartStopping dhcpd: OK Starting dhcpd: OK 配置网络灌装脚本修改tftp配
29、置rootmu01 # mkdir /tftpbootrootmu01 # mkdir /tftpboot/pxelinux.cfgrootmu01 # cp /usr/share/syslinux/pxelinux.0 /tftpboot/rootmu01 # cp /var/www/html/rhel6u4x64/isolinux/isolinux.cfg /tftpboot/pxelinux.cfg/defaultrootmu01 # cp /var/www/html/rhel6u4x64/images/pxeboot/initrd.img /tftpboot/rootmu01 # cp
30、 /var/www/html/rhel6u4x64/images/pxeboot/vmlinuz /tftpboot/rootmu01 # cp /var/www/html/rhel6u4x64/isolinux/vesamenu.c32 /tftpboot/rootmu01 # chmod 644 /tftpboot/pxelinux.cfg/defaultrootmu01 # vi /tftpboot/pxelinux.cfg/defaultdefault vesamenu.c32#prompt 1timeout 600display boot.msgmenu background spl
31、ash.jpgmenu title Welcome to Red Hat Enterprise Linux 6.4!menu color border 0 #ffffffff #00000000menu color sel 7 #ffffffff #ff000000menu color title 0 #ffffffff #00000000menu color tabmsg 0 #ffffffff #00000000menu color unsel 0 #ffffffff #00000000menu color hotsel 0 #ff000000 #ffffffffmenu color ho
32、tkey 7 #ffffffff #ff000000menu color scrollbar 0 #ffffffff #00000000label linux menu label Install or upgrade an existing system menu default kernel vmlinuz append initrd=initrd.img ksdevice=eth0ks=00/rhel6u4x64ks.cfglabel vesa menu label Install system with basic video driver kerne
33、l vmlinuz append initrd=initrd.img xdriver=vesa nomodesetlabel rescue menu label Rescue installed system kernel vmlinuz append initrd=initrd.img rescuelabel local menu label Boot from local drive localboot 0xfffflabel memtest86 menu label Memory test kernel memtest append -生成KS文件文件如果原来生成过,可以根据需要修改即可
34、生成KS文件过程如下:1, 配置本地base的yum源,以便生成安装包列表,修改yum文件即可rootmu01 # vi /etc/yum.repos.d/rhel-source.repo basename=basebaseurl=file:/var/www/html/rhel6u4x64gpgcheck=0enabled=1gpgkey=file:/etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-beta打开kickstart软件,配置相应选项打开之后,根据选择配置选项,然后点击File保存即可选择需要安装的包时,选择全部安装即可然后点击file点击保存即可保存之后可以
35、生成ks.cfg文件,将文件放置在/var/www/html目录下即可然后将计算节点开机,按下F12从网络引导,或者修改引导顺序即可引导安装操作系统,如下图所示2.3:配置并行环境RSH服务开启root用户对所有节点的rsh权限编辑/etc/hosts,加入所有(包括本机的)节点的ip地址和对应的计算机名;此文件在一台机器上编辑完毕可以拷贝到别的节点上使用;注意这一行不要动,否则会影响到nis的正常使用。例如:rootmu01 # cat /etc/hosts localhost localhost.localdomain localhost4 localh
36、ost4.localdomain4:1 localhost localhost.localdomain localhost6 localhost6.localdomain600 mu01 cu012、编辑/root/.rhosts和/etc/hosts.equiv,加入所有节点的计算机名例如:mu01cu013、开启rsh服务:setupsystem services*rsh*rlogin*rexec去掉sendmail(影响OS启动速度,并非必需)。4、编辑/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以)5
37、、重起服务service xinetd restart rsh的配置需要在所有节点上进行。配置SSH 无密码访问集群节点之间一般都是通过脚本配置无密码访问,脚本配置过程如下:将所有将要使用ssh登录的机器主机明写入hostfile中,每一行一个主机名(1)root用户的无密码访问rootmu01 # cd ssh-configure-root/rootmu01 ssh-configure-root# pwd/root/ssh-configure-rootrootmu01 ssh-configure-root# lltotal 12-rw-r-r- 1 root root 663 May 8 1
38、7:30 step1.exp-rw-r-r- 1 root root 693 May 8 17:30 step2.exp-rw-r-r- 1 root root 599 May 8 17:30 step3.exprootmu01 ssh-configure-root# vi hostfilemu01cu01rootmu01 ssh-configure-root# chmod 777 step*rootmu01 ssh-configure-root# ./step1.exp spawn ssh-keygen -t dsaGenerating public/private dsa key pair
39、.Enter file in which to save the key (/root/.ssh/id_dsa): Created directory '/root/.ssh'.Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /root/.ssh/id_dsa.Your public key has been saved in /root/.ssh/id_dsa.pub.The key fingerprin
40、t is:88:1a:2b:b7:76:d8:5e:8d:3e:1a:8d:29:16:78:f3:d3 rootmu01The key's randomart image is:+- DSA 1024-+| | | | . . . |. = . . S | . B = o |. *o* E . | +ooo=. | .oo. |+-+rootmu01 ssh-configure-root# ./step2.exp 111111spawn ssh mu01 hostnameThe authenticity of host 'mu01 (00)' c
41、an't be established.RSA key fingerprint is 6c:b9:d4:ae:ef:71:c1:5d:2c:99:d4:93:c9:0f:e8:d5.Are you sure you want to continue connecting (yes/no)? yesWarning: Permanently added 'mu01,00' (RSA) to the list of known hosts.mu01send: spawn id exp4 not open while executing"send
42、 - "111111r""spawn ssh cu01 hostnameThe authenticity of host 'cu01 ()' can't be established.RSA key fingerprint is 20:68:2b:a0:57:ca:f5:18:d9:cb:c9:a5:37:54:b5:14.Are you sure you want to continue connecting (yes/no)? yesWarning: Permanently added 'cu01,192.
43、168.0.1' (RSA) to the list of known hosts.rootcu01's password: cu01rootmu01 ssh-configure-root# ./step3.exp 111111spawn scp -rp /root/.ssh mu01:/rootauthorized_keys 100% 599 0.6KB/s 00:00 id_dsa.pub 100% 599 0.6KB/s 00:00 id_dsa 100% 668 0.7KB/s 00:00 known_hosts 100% 798 0.8KB/s 00:00 send:
44、 spawn id exp4 not open while executing"send - "111111r""spawn scp -rp /root/.ssh cu01:/rootrootcu01's password: authorized_keys 100% 599 0.6KB/s 00:00 id_dsa.pub 100% 599 0.6KB/s 00:00 id_dsa 100% 668 0.7KB/s 00:00 known_hosts 100% 798 0.8KB/s 00:00说明:A、所有机器的root密码必须全部都相同,所有
45、主机是可解析的(/etc/hosts文件)。B、三个可执行脚本实际上都是autoexpect脚本。C、在执行step2.exp与step3.exp时需要将ROOT_PASSWORD替换为root密码。D、如三个脚本中的任何一个执行出现错误,必须按照循序,重新再执行一次这三个脚本。E、各脚本作用如下:step1.exp 脚本是用于生成root密匙step2.exp脚本是将所有主机加入ssh已知主机列表,也就是/root/.ssh/known_hosts文件step3.exp是将ssh配置文件复制到所有远程主机上面,这样所有主机之间就可以实现ssh无密码访问。(二)普通用户的配置方法:普通用户由于
46、共享了home目录,所以不需要将ssh配置文件复制到远程主机上。(以下操作除特殊声明外,都在/home/USERNAME /ssh-configure目录下完成。本文档中使用的是inspur账户)(1)将所有将要使用ssh登录的机器主机明写入hostfile中,每一行一个主机名。(同root用户书写方法)inspur mu01 ssh-configure$ pwd/home/inspur/ssh-configureinspur mu01 ssh-configure$ lshostfilestep1.expstep2.expinspurmu01 ssh-configure$ ./step1.exp inspurinspur mu01 ssh-configure$ ./step2.exp inspur TEST_PASSWORD说明:A、所有主机是可解析的(/etc/hosts文件)B 、两个可执行脚本实际上都是autoexpect脚本C 、在执行step2.exp时需要将TEST_PASSWORD替换为inspur密码D 、如两个脚本中的任何一个执行出现错误,必须按照循序,重新再执行一次这两个脚本。NFS服务NFS,是Network Fil
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色中国从我做起-植树节特别节目大纲-生态环境保护
- 中储粮2026招聘信息岗高频题库
- 财务预算编制标准化模板年度与季度预算
- 二甲双胍在多囊卵巢综合征中的临床应用专家共识
- 个人借款风险应对承诺书(3篇)
- 提交上季度财务报表的回函(7篇)
- 汽车维修与保养技术规范操作手册
- 与租赁方商谈续租事宜的商洽函(4篇)
- 社交礼仪手册职场与生活指南
- 高中物理光学实验与习题训练考试
- 2026河北省国控商贸集团有限公司招聘备考题库及一套答案详解
- (甘肃二模)甘肃省2026年高三年级第二次模拟考试生物试卷(含答案)
- 2024年广东省深圳市中考语文试题(原卷版)
- 2026届江苏省南京市、盐城市高三一模英语卷(含答案)
- 2026年数据资产合规性评估报告范本
- 社会团体内部规章制度
- 湖南省湘西州2025-2026学年七年级上学期期末考试历史试卷(解析版)
- 2026年南阳农业职业学院单招职业适应性考试题库及答案详解(真题汇编)
- 2026年教科版三年级科学下册 3.6一天中影子的变化(课件)
- 餐饮安全专题培训班课件
- 新华三杯考试题库及答案
评论
0/150
提交评论