科CHESS集群系统实施技术标准20191229v2_第1页
科CHESS集群系统实施技术标准20191229v2_第2页
科CHESS集群系统实施技术标准20191229v2_第3页
科CHESS集群系统实施技术标准20191229v2_第4页
科CHESS集群系统实施技术标准20191229v2_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(保密文件,仅限公司内部)联科CHESS高性能计算集群系统交付实施技术标准(保密文件,仅限公司内部)2019年12月114版本号提交日期更新记录提交人1.02019年12月25日提交初稿李永义2.02019年12月29日虚拟机和物理机环境验证修订李永义(保密文件,仅限公司内部)1.集群系统IP地址和主机名规划11.1确认IP地址和主机名称规划11.2确认系统软件具体版本21.3集群系统软件安装目录规划32.管理节点初始化安装Linux42.1管理节点安装Linux操作系统42.2准备临时Linux local yum repo,之后改为xCAT的yum repo42.3清理相关的Linux系统环境52.4编写/etc/hosts文件52.5配置时间同步服务62.6配置LDAP帐号管理系统72.7安装和配置OPA/IB网络驱动92.8编译和安装GPFS软件包112.9配置基于主机的ssh无密码访问122.10交换机端口配置快速转发143.管理节点安装和配置xCAT153.1关于xCAT的一些基础信息153.2管理节点安装xCAT183.3拷贝操作系统镜像,修改完善yum repo等设置203.4配置xCAT site表213.5配置xCAT networks表223.6配置xCAT passwd表233.7配置xCAT nodehm和ipmi表233.8 重点关注的一张表postscripts263.9借助postscripts机制传输文件274.xCAT批量部署操作系统镜像294.1增加或更改操作系统镜像osimage294.2修改操作系统镜像的kickstart文件314.3修改操作系统镜像的pkglist文件354.4添加节点到xCAT管理平台354.5测试一台部署新增的集群节点374.6再次聚焦关注postscripts394.6.1调用xCAT提供的postscripts脚本setupntp,hardeths404.6.2第一个postscripts脚本config_others404.6.3安装Intel OPA驱动程序的脚本install_opa454.6.4安装gpfs软件包的脚本install_gpfs464.7批量安装所有的IO存储节点475.安装和配置GPFS集群并行文件系统485.1创建和配置GPFS集群485.2添加磁盘nsd和创建GPFS文件系统515.3删除nsd和GPFS文件系统535.4 编写配置GPFS的xCAT postscripts脚本545.5GPFS磁盘配额和快照管理565.6GPFS文件系统调整inode等调优问题586.安装和配置集群资源管理系统636.1安装CHESS cas资源调度器636.2其他节点安装cas的xCAT postscripts脚本656.3升级CHESS cas资源调度器666.4配置CHESS cas资源调度器676.5管理节点安装CHESS ng WEB平台696.6管理节点配置CHESS ng基本参数706.7其他节点安装ng-agent的postscripts脚本746.8安装和配置CHESS data报表模块756.9安装CHESS ctmon监控模块816.10其他节点安装ctmon的postscripts脚本827.集群系统基本性能测试847.1安装Intel Parallel Studio及其他准备工作847.2Stream 内存性能和压力测试877.3IMB网络带宽和延时测试897.4Iozone 磁盘性能和压力测试927.5HPL Linpack集群性能和压力测试948.配置集群HA高可用服务988.1Keepalived HA高可用软件简介988.2手动调试mariadb服务可HA切换998.3手动调试chess-ng服务可HA切换1018.4修改chess-ng和mariadb服务相关的文件1028.5编写mariadb和chess-ng高可用keepalived配置1028.6配置CHESS ng的vnc服务为HA高可用1069.自我检查和内部验收10910.其他技术专题汇总11210.1备份xCAT管理节点11210.2CentOS7 xCAT配置双网卡绑定脚本11210.3CentOS7 xCAT安装nvidia显卡驱动脚本1131. 集群系统IP地址和主机名规划参考项目的前期投标技术方案、商务合同,重点参考高性能计算集群实施方案文档,现场检查硬件拓扑情况,检查所有网络线缆、存储线缆连接正确。1.1确认IP地址和主机名称规划根据实际情况,与用户讨论和规划IP地址规划表,主要包括:集群节点主机名称,Linux 系统eno1、IP over IB网络ib0、硬件监控网络IPMI(iLo、iDRAC等)等三套IP地址,以及集群对外服务的IP地址等等。针对中型规模以上集群系统,计算节点命名规则建议采用c01n01分段格式,其中c01对应某个刀片机箱、某个采购批次,n01对应某个刀片机箱、某个采购批次的第一个计算节点。具体节点命名规则、IP地址规划示例如下,以最终用户指导为准。Node NameLinux IP/eno1/16MAC地址ib0/16IPMI/16mgt01mgt02刀片机箱CMM/OA(1)00以太网交换机(1)01IB交换机(1)02c01n01c01n02c01n03c01n04c01n05c01n06c01n07c01n08c01n09c01n10000c01n1111c01n1222c01n13333c01n14444c01n15555c01n16666集群系统IP地址规划表参考如下附件表格。建议使用xCAT的IPMI硬件管理功能,实现远程集中开关机等功能,需要为xCAT管理节点额外配置1个网络端口,配置IPMI监控网络IP地址,连接1条网线到IPMI监控网络交换机。考虑到冗余性,可以选择至少2台管理节点,做上面描述的访问IPMI网络的相关硬件网络链路配置、IP地址配置。1.2确认系统软件具体版本与客户讨论确定Linux操作系统、集群并行文件系统、集群作业调度系统、集群并行计算环境软件包的具体版本。本文档参考软件环境版本如下:软件名称版 本安装节点安装目录备注CentOS Linux7.6所有节点操作系统xCAT2.14.6管理节点/install; /opt/xcat集群管理系统CHESS6.0所有节点/share/apps/clustertech作业调度系统GPFS5.0.1所有节点并行文件系统编译器和MPI环境所有节点/share/apps/intel/ipsxe2018u3并行计算环境1.3集群系统软件安装目录规划本技术标准建议的系统软件安装目录,规划如下表;在没有用户特别要求的情况下,现场服务工程师按此规划执行。软件名称安装节点安装目录备注xCAT管理节点/install;/opt/xcat默认mgt01,集群管理和部署系统GPFS,NFS或Lustre等所有节点集群全局共享文件系统挂载的路径/share集群文件系统,不建议/opt挂载为共享CHESS cas所有节点(节点本地目录)/opt/clustertech/chess/cas/;/share/apps/clustertech/chess/cas_shared/作业调度系统调度器CHESS ng所有节点/share/apps/clustertech/chess/ng作业调度系统WEBCHESS data管理节点/share/apps/clustertech/data作业调度系统报表Intel Parallel Studio所有节点/share/apps/intel/ipsxe2018u3;/share/apps/intel/ipsxe2019u5Intel icc ifort编译器,Intel MPI并行环境,Intel MKL函数库用户家目录所有节点/share/home放置在全局共享目录;GPFS建议做单独fileset自定义脚本所有节点/share/bin自定义集群管理脚本作业提交脚本所有节点/share/jobscripts供用户参考的CHESS、LSF或Slurm作业脚本应用程序所有节点/share/apps/Ansys软件所有节点/share/apps/ansys_inc/Ansys软件各个版本Platform LSF所有节点/share/apps/platform/lsf10.1Platform LSF 10.1Platform PAC管理节点单机安装目录/opt/platform/pac10.1;HA高可用安装增加共享配置文件目录SHARED_CONFIGURATION_DIR=/share/apps/platform/pac10.1Platform PAC 10.12. 管理节点初始化安装Linux2.1管理节点安装Linux操作系统从本章开始描述CHESS集群的安装和调试过程,首先安装和配置集群系统的第一台管理节点。集群第一台管理节点(比如mgt01),一般建议采用原始CentOS ISO镜像,通过IPMI远程管理工具,进行手动安装;硬盘分区格式,与客户沟通确认。如果用户没有特殊要求,参考执行下面的分区表:part /boot -size 1024 -fstype xfs -ondisk sdapart /boot/efi -size 500 -fstype efi -asprimary -ondisk sdapart swap -size 32000 -ondisk sdapart / -size 1 -grow -fstype xfs -ondisk sda 安装完成后,配置好主机名,IP地址,DNS等网络设置。nmcli connection modify eno1 ipv4.address 51/24 ipv4.method manual connection.autoconnect yeshostnamectl set-hostname mgt01hostnamectl statuscat /etc/resolv.confdomain hpc.localsearch hpc.localnameserver 512.2准备临时Linux local yum repo,之后改为xCAT的yum repomkdir /mnt/cdrommount -o loop CentOS-7-x86_64-DVD-1810.iso /mnt/cdrommkdir /etc/yum.repos.d/bakmv /etc/yum.repos.d/* /etc/yum.repos.d/bak/cat /etc/yum.repos.d/centos-source.repo /etc/rc.d/rc.localchmod +x /etc/rc.d/rc.localsystemctl disable ksm.servicesystemctl disable ksmtuned.service#systemctl disable initial-setup-graphical.servicesystemctl disable ntpd.serviceyum erase -y abrtrootmgt01 # chmod +x /root/cleansystemrootmgt01 # /root/cleansystem2.4编写/etc/hosts文件rootmgt01 # cat /etc/hosts localhost localhost.localdomain localhost4 localhost4.localdomain4:1 localhost localhost.localdomain localhost6 localhost6.localdomain6 node01 node0251 mgt0152 mgt02 node01-opa node02-opa51 mgt01-opa52 mgt02-opa node01-ilo node02-ilo51 mgt01-ilo52 mgt02-ilo上述三个网段的/etc/hosts主机解析,要求梳理完整。目前不推荐使用xCAT makehosts方式自动生成/etc/hosts列表。目前建议仅写主机名短名即可。2.5配置时间同步服务CentOS 7开始,不再使用ntpd服务,推荐使用chronyd服务。 rootmgt01 # yum install -y chronyrootmgt01 # vi /etc/chrony.conf # Allow NTP client access from local network.allow /24rootmgt01 # systemctl enable chronydrootmgt01 # systemctl restart chronyd其他节点计算节点的chronyd服务,通过xCAT脚本setupntp来实现配置。rootmgt01 # chronyc sources -v210 Number of sources = 4 .- Source mode = server, = = peer, # = local clock. / .- Source state * = current synced, + = combined , - = not combined,| / ? = unreachable, x = time may be in error, = time too variable.| .- xxxx yyyy +/- zzzz| Reachability register (octal) -. | xxxx = adjusted offset,| Log2(Polling interval) -. | | yyyy = measured offset,| | | zzzz = estimated error.| | | MS Name/IP address Stratum Poll Reach LastRx Last sample =- 3 10 277 10 +12ms +12ms +/- 139ms- de-user.deepinid.deepin. 3 10 377 959 -7484us-7831us +/- 156ms* 02 2 10 377 7 -3553us-3935us +/- 36ms+ 84 2 10 377 997 +2244us+1898us +/- 51ms设置本机时间date -s 20151021 15:36:00 或者 date -s 06/18/14 或者 date -s 14:20:50hwclock -w设置系统时区为上海timedatectl set-timezone Asia/Shanghai rootmgt01 # timedatectl Local time: Fri 2017-04-07 14:14:26 CST Universal time: Fri 2017-04-07 06:14:26 UTC RTC time: Fri 2017-04-07 06:14:26 Time zone: Asia/Shanghai (CST, +0800) NTP enabled: noNTP synchronized: yes RTC in local TZ: no DST active: n/a2.6配置LDAP帐号管理系统CHESS集群推荐使用LDAP帐号管理系统,两台管理节点mgt01和mgt02搭建为主备LDAP服务器。LDAP服务相对比较复杂,我们开发、测试了配置DLAP服务器的脚本,可以简化、规范化LDAP服务器的配置过程。 rootmgt01#cd /root/rootmgt01 # tar xzvf ldap.tar.gzrootmgt01 # ll-rw-. 1 root root 1615 Dec 27 10:35 anaconda-ks.cfg-rwxr-xr-x. 1 root root 424 Dec 27 11:37 cleansystem.shdrwxr-xr-x 2 root root 180 Dec 27 17:24 ldap-rw-r-r- 1 root root 328329 Dec 29 11:12 ldap.tar.gz-rw-r-r- 1 root root 3430400 Dec 29 11:13 phpldapadmin-1.2.3.tarrootmgt01 # cd ldap/rootmgt01 ldap# cat readme.txt # must be run in a fresh environment without ldap# if not, use eraseldap to remove ldap first# edit profile.ldap first# run ldap.master on master node# run ldap.slave on slave node# run ldap.cient on all nodes 当前这个步骤,编辑profile.ldap,在mgt01执行ldap.master即可完成。 在部署好LDAP的Standby节点后,注意到Standby节点执行相关设置脚本。 LDAP服务器搭建完成后,配置phpldapadmin的web管理软件包,可以通过phpldapadmin的Web管理界面进行查询和管理。rootmgt01# yum install httpd php php-bcmath php-gd php-mbstring php-xml php-ldap mod_auth_kerbrootmgt01# tar xvf phpldapadmin-1.2.3.tarrootmgt01# mv phpldapadmin-1.2.3 /var/www/html/phpldapadminrootmgt01# cp /var/www/html/phpldapadmin/config/config.php.example /var/www/html/phpldapadmin/config/config.php /phpldapadmin/htdocs/推荐使用我们提供的LDAP脚本进行帐号管理。rootmgt01 bin# mkdir -p /share/binrootmgt01 bin# mkdir -p /share/homerootmgt01 bin# ./ldapadduser.sh Please Usage: ./ldapadduser.sh -G second group,example bbb,ccc -b /bin/bash -p passwd -m /home/user # must; may./ldapadduser.sh -f #The user information read from the file,format: shell password home second_group./ldapadduser.sh -r #add group./ldapadduser.sh -s #search user./ldapadduser.sh -d #delete user修改Linux添加账号的默认home路径设置。rootmgt01 # cat /etc/default/useradd # useradd defaults fileGROUP=100HOME=/share/homeINACTIVE=-1EXPIRE=SHELL=/bin/bashSKEL=/etc/skelCREATE_MAIL_SPOOL=yes2.7安装和配置OPA/IB网络驱动在管理节点安装OPA或者Infiniband网络驱动,验证驱动的兼容性。安装OPA驱动程序过程,参考如下:yum install -y libibmad libibverbs librdmacm libibcm qperf perftest rdma infinipath-psm expat elfutils-libelf-devel libstdc+-devel gcc-gfortran atlas tcl expect tcsh sysfsutils pciutils bc libibumad libibumad-devel libibumad libibumad-devel libibverbs-devel libibmaddevel librdmacm-devel ibacm-devel openssl-devel libuuid-devel expatdevel infinipath-psm-devel valgrind-devel libgnome libibverbs* libhfi1 papi ncurses-devel hwloc hwloc-gui libatomiccd /tmp/tar xzvf /share/source/IntelOPA-IFS.RHEL76-x86_.0.445.tgz cd /tmp/IntelOPA-IFS.RHEL76-x86_.0.445./INSTALL -acd -OPA_IP=$(ip addr show|grep 172.16.1|awk print $2|sed s/.*/g;s/172.16.1/172.16.2/g)cat /etc/sysconfig/network-scripts/ifcfg-ib0 /etc/sysconfig/network-scripts/ifcfg-ib0 hosts.allrootmgt01 conf# cat hosts.all |awk print $1,$2 hosts生成hosts文件rootmgt01 conf# cat hosts,localhost,node01,node0251,mgt0152,mgt02,node01-opa,node02-opa生成keys文件rootmgt01 conf# ssh-keyscan -t rsa 51,mgt01# 51:22 SSH-2.0-OpenSSH_7.451,mgt01 ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCYIvo2y3LKc5QYShaXLH6a5vw7/2g/D2IDDe2cUt8WcSlIc0BGL1rtnQU9IodYkeXwDiik4eQTdoWEKX5ufh0pB1CUySX+zxfAPf7aQ0TjySgn1udUkdJAcRrBt65617lqIVsPPnnRFiI7LInTwao7tqVy2eAXVTtdGkzd9jhex5SxbgCfy9Nfj4sdw1ExgLtn8dcuQA31SJBEQJsrkqQ+IHzXB1aAfxv7ECgnRmOahr9p4byb9+4GYtV6LZa8lVvM8zqwRjFBSl/9hvCeq5VhAkuXGTlPtOB0GBYCmDYyJ9KGyi6Drpfmh739ngkFrUVdh/fgxGwFwJ9Cg6197r39rootmgt01 conf# ssh-keyscan -t rsa 51,mgt01 keys# 51:22 SSH-2.0-OpenSSH_7.4删除keys文件中的主机名部分,仅仅留着key数值;查看刚才生成的hosts文件有多少行,key复制相同的行数-1,使得hosts文件和key文件行数相同。rootmgt01 conf# cat hosts|wc -l45rootmgt01 conf# vi keys rootmgt01 conf# vi keys rootmgt01 conf# cat keys |wc -l45拼装hosts和keysrootmgt01 conf# paste hosts keys ssh_known_hostsrootmgt01 conf# cat ssh_known_hosts | wc -l45生成shosts.equivrootmgt01 # cat hosts |sed s/,/n/g shosts.equiv最终目标,将生成的认证文件,拷贝至/etc/ssh目录rootmgt01 conf# cp ssh_known_hosts /etc/ssh/rootmgt01 conf# cp shosts.equiv /etc/ssh/打包ssh相关配置文件rootmgt01 etc# cd /etc/rootmgt01 etc# tar cvf ssh.tar ssh/ssh问题debug处理ssh -v node03 注:最大vvvsshd -ddd2.10交换机端口配置快速转发某些品牌交换机交换机,需要配置连接服务器网口打开快速转发,否则xcat部署时遇到kickstart文件下载失败提示。参考信息如下。h3c:建立端口组,只用于批量修改端口配置,此端口组和多网口绑定端口组不同port-group manual 1添加端口group-member GigabitEthernet 1/0/1 to GigabitEthernet 1/0/22stp edged-port enablecisco:interface GigabitEthernet 1/0/1spanning-tree portfast 3. 管理节点安装和配置xCAT本章节主要描述为管理节点安装和配置xCAT的过程。3.1关于xCAT的一些基础信息软件下载: //files/xcat/官方文档:http:/xcat-docs.readthedocs.io/en/latest/xCAT软件体系架构如下。 xcatd.service - xCAT management service Loaded: loaded (/usr/lib/systemd/system/xcatd.service; enabled; vendor preset: disabled) Active: active (running) since Thu 2019-11-28 18:56:01 CST; 1 weeks 1 days ago Main PID: 11349 (xcatd: SSL list) Tasks: 7 Memory: 128.6M CGroup: /system.slice/xcatd.service 11348 /usr/sbin/in.tftpd -v -l -s /tftpboot -m /etc/tftpmapfile4xcat.conf 11349 xcatd: SSL listener 11350 xcatd: DB Access 11351 xcatd: UDP listener 11352 xcatd: install monitor 11353 xcatd: Discovery worker 11354 xcatd: Command log writerxCAT配置信息和配置方法xCAT Objects对象可以在xCAT中管理的单元被定义为一个对象。xCAT从集群信息中抽象出几种类型的对象来表示集群

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论