




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如何快速构建高性能集群系统 解决方案中心马少杰 部署规划及硬件安装SugonHPCInstaller批量部署操作系统Clusconf快速配置集群Clussoft快速安装软件 部署规划及硬件安装 千兆交换机 局域网 Internet 路由器 防火墙 远程控制 内网 外网 以太网交换机 控制台 本地KVM 以太网 光纤网 Infiniband网 KVM管理网 登陆 管理节点 机房环境 并行存储系统 高速Inifiniband交换机 刀片集群 GPGPU节点 计算系统 存储系统 SMP胖节点 2 算例上传作业提交 101100011010100100010010010010011000110101001000100100110001101010010001001001100011010100100010010000100100110001101010000100100110001101010000100100110001101010000100100110001101010 高性能计算作业的工作流程 集群配置表 机柜摆放 功耗14KW 功耗10KW 功耗10KW 功耗14KW 功耗14KW 普通风冷单机柜不能超过15千瓦 且各机柜负载最好均衡 控制台放置为中间机柜19U左右 交换机放置中间机柜 如果为上走线 则在机柜上部 原则1 同类相邻同一种类型节点 硬件 操作系统 用途等 应该是连续的编号原则2 从多到少按用途 计算节点 IO节点 管理节点计算节点内部 刀片最多 GPU节点其次 胖节点最少原则3 从高到低高端到低端 八路 四路 双路内存容量 64G 32G 16G高度越高 5U 4U 2U 1U以上原则冲突时 优先级 原则1 原则2 原则3 节点编号 CB85刀片计算节点 64台GPU计算节点 8台A950八路胖节点 2台A840四路胖节点 2台IO节点 4台A620管理节点 2台A620node1 node64刀片CB85node65 node72GPU节点node73 node74A950node75 node76A840node77 node80IO节点A620node81 node82管理节点A620 第一套以太网络 配置为管理网所有服务器的第一块网卡 eth0 接入同一物理网络 配置为集群管理网 机架式服务器对应第一块网卡eth0 刀片机箱对应第一个网络模块 一般是交换模块 管理网络IP地址和主机名规范为 管理网对应的主机名 node 默认设置为系统主机名 此外 需要根据节点功能 在 etc hosts中设置主机别名 比如 10 10 10 1node1comput1 10 10 10 10node10comput1010 10 10 11node11io110 10 10 12node12io210 10 10 13node13admin110 10 10 14node14admin2 IP地址 IPMIIP地址设计IPMI网络IP地址和主机名规范为 刀片管理模块IP地址和主机名规范为 IP地址设置 第二套以太网络 如果有 配置为备用管理网络或千兆计算网络 Infiniband网ipoIBIP地址和主机名规范为 IP地址设置 上架 布线 贴标签 上电 SugonInstaller批量部署操作系统 SugonHPCInstaller 1最合理的应用使用场景 每个工程师都有一个Windows笔记本 可随意切换操作系统镜像 2最广泛的兼容性 使用KS机制 不存在与系统的raid卡的兼容问题 3最方便的使用 安装后单一命令修改IP地址 用于网络批量自动化安装操作系统的软件 帮助简化集群操作系统的安装步骤 摆脱集群操作系统安装时对光盘及光驱的依赖支持操作系统RedhatCentOsSuseWindows 1 SugonHPCInstaller简介 网络安装操作原理 必备条件 第一 网络中有个放用来系统安装文件的地方 称之为系统安装服务器第二 客户机的网卡支持远程启动 网络安装过程基于PXE DHCP TFTP HTTP NFS FTP 协议 PXE Pre bootExecutionEnvironment 是由Intel设计的协议 它可以使计算机通过网络启动 协议分为client和server两端 PXEclient在网卡的ROM中 当计算机引导时 BIOS把PXEclient调入内存执行 并显示出命令菜单 经用户选择后 PXEclient将放置在远端的操作系统通过网络下载到本地运行 DHCP DynamicHostConfigurationProtocol 动态主机设置协议 是一个局域网的网络协议 使用UDP协议工作 主要用于给内部网络或网络服务供应商自动分配IP地址 DHCPServer是用来给DHCPClient动态分配IP地址的协议 由DHCPserver来给PXEclient分配一个IP地址 TFTP TrivialFileTransferProtocol 简单文件传输协议 是TCP IP协议族中的一个用来在客户机与服务器之间进行简单文件传输的协议 提供不复杂 开销不大的文件传输服务 它负责把系统安装文件传输到客户端 HTTP NFS NetworkFileSystem FTP用来共享系统安装源 网络安装操作原理 网络安装操作系统原理图 现有网络安装方式 SuseAutoYast RedhetKickstart 异曲同工 SugonHPCInstaller原理 与传统网络安装系统方式类似 需要配置HTTP和FTP服务 通过深度远程启动管理器提供DHCP和TFTP的传输服务 用虚拟光驱加载操作系统镜像 2 SugonHPCInstaller安装过程 安装SugonHPCInstaller软件安装虚拟光驱DeamonTool 装载操作系统镜像安装IIS 配置HTTP FTP服务IIS主要是安装在WindowsXP和Windows7上具体介绍必备服务在不同系统上的配置过程 2 1SugonHPCInstaller安装 2 2安装虚拟光驱 2 2安装虚拟光驱 装载镜像 2 3 1安装IIS WindowsXP 安装IIS WindowsXP 测试是否安装成功单击 控制面板 双击 管理服务 得到下图 即安装成功 配置HTTP服务 WindowsXP 配置HTTP服务 WindowsXP 测试IIS的HTTP服务是否配置成功通过http 172 10 16 254 ks cfg查看或下载文件 配置FTP服务 WindowsXP 搭建FTP服务 端口号默认 目录指向虚拟光驱 FTP账号abc 密码123 配置FTP服务 WindowsXP 测试IIS的FTP服务是否配置成功通过输入ftp abc 123 172 16 10 254可以访问到虚拟光驱根目录即配置成功 2 3 2IIS安装 Windows7 IIS安装 Windows7 测试是否安装成功单击 控制面板 查看方式改为 小图标 双击 管理服务 得到下图 出现 Internet信息服务 IIS 管理器 即安装成功 配置HTTP服务 Windows7 使用IIS搭建HTTP服务 端口号默认 目录指向D linstall pxeboot目录 配置HTTP服务 Windows7 点击 DefaultWebSite 再点击右边栏的 绑定 对端口是80的网站编辑 IP地址设为 172 16 10 254 配置HTTP服务 Windows7 测试IIS的HTTP服务是否配置成功通过http 172 10 16 254 ks cfg查看或下载文件 配置FTP服务 Windows7 搭建FTP服务 端口号默认 目录指向虚拟光驱 FTP账号abc 密码123 配置FTP服务 Windows7 配置FTP服务 Windows7 测试IIS的FTP服务是否配置成功通过输入ftp abc 123 172 16 10 254可以访问到虚拟光驱根目录即配置成功 3 SugonHPCInstallers使用 第一次安装和配置的过程有点漫长 但是一劳永逸 今后安装系统流程简单 人力物力投资巨少 事半功倍 SugonHPCInstaller的使用超级简单 一目了然 SugonHPCInstaller使用 SugonHPCInstaller使用 SugonHPCInstaller msi已自动对系统的IP配置 变为172 16 10 254 客户端通过PXE安装操作系统 安装服务器已经准备就绪 通过BIOS修改需要安装操作系统的客户端以PXE方式启动 Network方式 客户端会自动从FTP下载镜像进行系统安装 客户端从网络启动 客户端通过PXE安装操作系统 客户端通过PXE安装操作系统 如果客户端上有多块网卡 在启运后 操作系统安装过程中会提供需要选择哪块网卡 根据实际情况 选择正确的网卡即可 当遇到ks cfg文件无法下载时 出现中断 现象如图 需要关闭服务器的防火墙 之后就会自动下载安装 直到完毕 重启 注意点 客户端通过PXE安装操作系统 ip sh 用来设置地址的文件 在安装服务器上的d linstall pxeboot目录下 文件中配置了eth0 eth1两个网卡地址的前3段数字 在启动系统安装服务器前 根据具体需要修改好eth0及eth1的IP地址的前三段数字 客户端系统安装完毕后 登录系统 请执行 ip sh节点号 即可 它会自动配置好IP地址 系统安装好后配置IP地址 操作系统安装完毕后 红帽5的密码为dawning 123456 下划线为空格 红帽6的密码为dawning 123456 Suse的密码为111111 系统密码 Clusconf快速配置集群 一个配置和管理集群的命令行工具 使用他可以方便快速的完成对集群的初始配置和后期管理Clusconf三类操作 operation 集群配置操作 用于集群配置集群管理操作 用于配置完成后的集群管理维护IPMI操作 使用IPMI相关功能控制集群 clusconf简介 1Adddingparallelexcutingmode andsameresultscombine2Addingipmirelativeoperationsclusconf set ipmiclusconf ipmi infoclusconf ipmi poweronclusconf ipmi ipoweron InteligentPowerOn clusonf ipmi poweroffclusconf ipmi ipoweroff InteligentPowerOff 3Addingoperationtodisplayclusterinfoclusconf sys info4fixbug1 sync filecreatepathiftherearenoparentspathinothernodes2 checkosandwarningifallofOSisdeferentinthecluster3 erroriftabkeysusedin etc hosts4 adduser useraddcanspecifytheuseruid5 sync timeaddingthecommandto etc crontab clusconf1 4changelog 高性能集群三要素 无密码访问配通 统一的用户印象 统一的文件印象 对于普通用户来说 所有节点看到的某一个文件都是相同的文件 通过nfs或者并行文件系统实现 通过NIS或同步用户信息来实现 网络全通rsh或ssh无密码访问配通 clusconf 使高性能集群三要素实现 集群硬件安装到位 线缆连接正常节点操作系统安装正确 网络线缆连接正确 节点IP地址配置正确 Clusconf使用前要求 安装clusconf配置 etc hosts文件 Clusconf安装与配置 1tarxvzfclusconf 1 4 tgz2cdclusconf 1 43 install根据提示输入安装路径 默认路径为 opt clusconf查看安装路径载入环境变量4source etc profile d clusconf env sh5whichclusconf查看安装路径 127 0 0 1localhost10 10 10 1node1comput110 10 10 2node2comput2 10 10 10 30node30comput3010 10 10 31node31io110 10 10 32node32io210 10 10 33node33admin112 12 12 1inode1 12 12 12 33inode33 修改 etc nfs cfg 如果使用clusconf配置nfs文件系统 clusconf配置 NFSDIRinode31 public publicNFSDIRinode32 public2 public2 NFSDIRnode33 data1 data1 NFSDIRinode40 data2 data2BINDHOME public home 修改 etc ipmi cfg 如果使用clusconfIPMI相关功能 ipmiaddrhostnamecharacteripmiusernameipmipasswd11 11 20 1node1computrootsuperuser11 11 20 2node2computrootsuperuser11 11 20 3node3ioadminadmin11 11 20 4node4iorootsuperuser11 11 20 5node5adminrootsuperuser11 11 20 6node6adminadminadmin clusconf Options 选项 Operation 操作 选项如下 h help help查看帮助 p prefix标识节点的前缀 默认值为node n snlist标识节点的序号 默认为 etc hosts中所有的具有前缀的节点 r标识节点间交互使用ssh或者rsh 默认是使用ssh s标识进行操作时使用顺序模式 默认关闭该选项 使用并行模式 操作分为如下三类操作配置操作 用于集群初期配置管理操作 用于集群管理IPMI相关操作 使用IPMI相关功能 clusconf使用 p和 n的使用clusconf sync dohostname标识的节点为 etc hosts中所有的node为前缀的节点clusconf pcomput sync dohostname标识的节点为 etc hosts中所有的comput为前缀的节点clusconf n seq130 sync dohostname标识的节点为node1 node30clusconf pinode n seq130 seq3550 5556 sync dohostname标识的节点为inode1 inode30 加上inode35 inode50 再加上inode55 inode56 clusconf使用 并行模式与顺序模式 s打开顺序模式 默认使用并行模式并行模式 多节点操作时并行执行 并且自动合并相同的执行结果顺序模式 多节点操作时顺序执行 并且按顺序显示执行结果 clusconf使用 并行模式执行clusconf sync docat etc issuenode 1 3 5 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node2 VMwareESX4 1 Kandinsky Kernel ronan m 顺序模式执行clusconf sync docat etc issueExcutingCommandcat etc issueOnthewholeCluster node1 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node2 VMwareESX4 1 Kandinsky Kernel ronan m node3 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node4 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node5 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m 1设置某用户的ssh无密码访问 set sshusername 按照提示 输入回车即可2设置所有用户的rsh无密码访问 set rsh 系统会检查是否已经安装了rsh serverrpm包 如果没有安装 请安装rsh serverrpm包 然后再执行此条命令3按照集群规范设置服务 set service 会自动关闭防火墙 selinux sendmail等等不必要的影响并行计算的服务4设置nfs服务 set nfs 如果集群要配置nfs 需要修改 etc nfs cfg文件 详情查看4 2配置完成后 每个客户端会产生 etc nfs local文件 系统每次启动时会执行 从而正确挂载nfs文件系统 Clusconf配置操作 NFSDIRinode31 public publicNFSDIRinode32 public2 public2 NFSDIRnode33 data1 data1 NFSDIRinode40 data2 data2BINDHOME public home 5按照预定的流程一键配置集群 set all 按照如下流程 一键配置集群1 test net2 sys info3 set sshroot4 sync file etc hosts5 set rsh6 set service7 set nfs8 sync user9 sync time10 sync do date df a verifythesetting clusconf配置操作 1测试网络 test net 测试 etc hosts表中的Ip地址是否都正常 如果不正常 会自动提示2显示集群信息 sys info 显示标识的节点的操作系统 版本 CPU型号 核心数 内存容量等各个节点信息3显示cpu负载 disp cpu 显示标识的节点的CPU负载超过5 的进程信息 4同步集群用户 sync user 同步标识的节点的用户信息 包括用户 组 密码等信息5添加一个用户到指定的节点 useradd adduserusername 按照提示添加用户 包括用户名 家目录 用户组 uid 密码等信息 添加完成后自动同步用户信息 并且提示是否配置该用户的ssh无密码访问 默认按照提示可配置完成6删除标识的节点的一个用户 deluser userdelusername 删除用户 并自动同步标识的节点的用户信息 clusconf管理操作 7同步时间 sync time clusconf sync time同步标识的节点的时间 并将命令添加到当前管理节点的 etc crontab中 每日0点自动同步集群时间8同步文件 sync filefile files path paths clusconf sync filefile files path paths可以同步标识的节点的单个文件 多个文件 路径 多个路径9执行相同的命令 sync docommand clusconf sync docommand在标识的节点同时执行某个命令 如果选择并行模式 则自动对结果进行筛选 clusconf管理操作 确认修改 etc ipmi cfg正确1设置ipmiIP地址 set ipmi 此命令通过ssh rsh远程登陆到指定节点上修改主机的IPMI地址 IP地址按照ipmi cfg编写的为准 子网掩码设置为255 255 0 0 IP地址为静态 2显示ipmi信息 ipmi info 通过访问ipmi网络地址 读取指定节点的ipmi的接口的ip地址 子网掩码 以及电源状态信息 并对结果进行筛选显示 3IPMI开机 ipmi poweron 通过访问ipmi的网络地址 对指定节点使用ipmi控制开机 只要集群上电 即可通过此命令对节点批量开机 从而大大简化系统开机流程和工作量 4IPMI关机 ipmi poweroff 通过访问ipmi的网络地址 对指定节点使用ipmi控制挂机 只要集群上电 即可通过此命令对节点批量关机 从而大大简化系统关机流程和工作量 clusconfIPMI相关操作 ipmiaddrhostnamecharacteripmiusernameipmipasswd11 11 20 1node1computrootsuperuser11 11 20 2node2computrootsuperuser11 11 20 3node3ioadminadmin11 11 20 4node4iorootsuperuser11 11 20 5node5adminrootsuperuser11 11 20 6node6adminadminadmin 5IPMI智能开机 ipmi ipoweron 通过访问ipmi的网络地址 对指定节点使用ipmi控制智能开机 智能开机 指的是根据ipmi cfg文件定义的节点角色 按照集群开机的顺序 IO节点 管理节点 计算节点 进行开机 并对开机的结果进行检查 只要集群上电 即可通过此命令对节点批量关机 并且规避了由于开机顺序的依赖关系导致的问题和故障 从而大大简化系统开机流程和工作量 智能开机 需要确认你当前工作节点为管理登陆节点 当前路径为本地路径 6IPMI智能关机 ipmi ipoweroff 通过访问ipmi的网络地址 对指定节点使用ipmi控制智能关机 智能开机 指的是根据ipmi cfg文件定义的节点角色 按照集群关机的顺序 计算节点 管理节点 IO节点 进行关机 并对关机的结果进行检查 只要集群上电 即可通过此命令对节点批量关机 并且规避了由于关机顺序的依赖关系导致的问题和故障 从而大大简化系统关机流程和工作量 智能关机 需要确认你当前工作节点为管理登陆节点 当前路径为本地路径 clusconfIPMI智能开关机 Clussoft快速安装软件 HPC软件环境自动部署工具Clussoft HPC软件环境主要包括编译器 常用函数库 并行库 benchmark工具集 各领域应用软件等HPC软件环境部署的困难 绝大部分软件需要编译 容易出错 对实施人员的技术经验要求较高软件之间的依赖关系复杂许多软件需要针对不同的硬件平台做不同的配置和优化手动安装工作量巨大 重复劳动很多 效率低下Clussoft的设计功能 提供HPC软件环境的自动部署将各个软件的编译安装都脚本化 自动解决软件依赖关系 自动针对软硬件平台选择优化配置解放劳动力 提供部署效率和质量 将HPC软件实施标准化适合高性能计算云平台的软件快速部署模块化设计 开发方便 HPC软件环境自动部署工具Clussoft Clussoft部分组件 clussoft base 编译器 函数库 并行库等clussoft benchmark 常用benchmark工具 CPU 内存 网络 I O等 clussoft md 常用开源分子动力学 MonteCarlo等应用软件clussoft qchem 常用开源计算化学 物理 材料类应用软件clussoft bio 生命科学领域常用开源应用软件clussoft gpu GPGPU开发环境及应用软件 正在开发 clussoft mets 气象海洋类应用软件 正在开发 总计已支持超过90 个HPC软件 处理器架构Clussoft广泛支持基于Intel或AMD的x86 64处理器 操作系统Clussoft官方支持如下版本Linux操作系统 其它操作系统可能会有部分问题 RedHatEnterpriseLinux5 3 5 7forx86 64RedHatEnterpriseLinux6 0 6 2forx86 64CentOS5 3 5 7forx86 64CentOS6 0 6 2forx86 64SUSELinuxEnterp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国中信金融资产江西分公司招聘2人笔试模拟试题及答案详解(全优)
- 安全培训有效评估表课件
- 安全培训时间法律课件
- 地质钻探施工方案及安全操作规程
- 小学数学教研活动年度总结
- 普通话考试话题万能答题素材集
- 2021年高考真题重庆卷物理试题(解析版)
- 办公设备租赁合同
- 信息技术在农业种植上的推广应用协议
- 小学语文口语交际教学案例分析
- 药学知识与技能课件
- 主持人个人礼仪规范
- 2025年人教版《太阳》标准课件
- 老年患者的安全管理课件
- 教学课件:《公差配合与技术测量》
- 《天体和天体系统》课件
- 《生物制品连续制造指南》
- 2025年高压电工作业考试国家总局题库及答案(共280题)
- 给药错误的应急流程
- 交流电能表现场校验仪检定规程
- 复旦大学金融科技研究院发布-中国金融科技专利技术白皮书(2024年)
评论
0/150
提交评论