高性能集群管理 XX股份有限公司解决方案中心_第1页
高性能集群管理 XX股份有限公司解决方案中心_第2页
高性能集群管理 XX股份有限公司解决方案中心_第3页
高性能集群管理 XX股份有限公司解决方案中心_第4页
高性能集群管理 XX股份有限公司解决方案中心_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

何沧平曙光信息产业股份有限公司 高性能集群管理 提纲 常规方式管理IPMI使用Clusconf管理集群Gridview管理集群 系统开机 集群系统设备的开启和关闭需要按照一定的顺序进行 如果不按照合理顺序进行 容易导致集群工作不正常 集群系统开启的顺序为 机柜上电 将机柜电源箱空开拨至 ON 状态 将每个机柜PDU的空开拨至 ON 状态 一般情况下 机柜上电后 会自动开启网络交换机 存储磁盘阵列 KVM等设备 确保已开启网络交换设备 包括以太网交换机 IB交换机 存储交换机等 确保已开启磁盘阵列 检查磁盘阵列指示灯或显示屏 确保磁盘阵列已启动 开启IO节点 等待操作系统完全启动后 检查确保已挂载上磁盘阵列存储空间 开启登陆管理节点 操作系统完全启动后 检查是否挂载上IO节点的网络共享存储 开启计算节点 包括刀片计算节点 GPGPU计算节点 SMP胖节点等 其中开启刀片计算节点前 需要按刀片机箱电源按钮为刀片机箱上电 系统关机 集群系统关闭的顺序原则上与开启顺序相反 关闭所有计算节点 包括刀片计算节点 GPGPU计算节点 SMP胖节点等 关闭登陆管理节点 关闭IO节点 机柜下电 将机柜PDU的空开拨至 OFF 状态 将机柜电源箱空开也拨至 OFF 状态 机柜下电同时也关闭了网络交换机 磁盘阵列 KVM等设备 网络配置管理 主机名 etc sysconfig network redhat etc hostname suse 网络的配置 cd etc sysconfig network scripts viifcfg eth0写入网络IP等 viifcfg eth1写入网络IP等设置完IP后 重启网络系统 etc init d networkrestart etc hosts文件格式 ip地址主机名 cat etc hosts127 0 0 1localhost localdomainlocalhost10 10 10 1node1 存储系统管理 集群IO节点光纤网络挂载磁盘阵列存储设备 存储挂载到 public目录 可以在IO节点上使用root账户执行以下命令进行手动挂载 mount dev sdc public以上挂载命令可加进系统开机自动执行脚本中 系统启动后 会自动挂载磁盘阵列存储 IO节点作为NFSServer 集群其它节点通过以太网或InfiniBand网挂载网络共享存储 在其它节点上可以使用以下命令执行手动挂载 mount tnfsio public public以上挂载命令可加进系统开机自动执行脚本中 节点系统启动后 会自动挂载网络共享存储 系统环境设置 开机启动脚本 RedHat etc rc local Suse etc init d after local cat etc init d after localsleep30mount tnfsio public publicmount bind public home home软件安装管理高性能集群需要安装编译器 数学库和各种应用软件等 为避免混乱需统一规划 源代码 public software sourcecode编译器 public software compiler数学库 public software mathlibMPI public software mpi应用软件 public software环境变量 public software profile d 系统环境设置 续 全局环境变量 etc profile etc profile d sh这些文件中设置的环境变量对所有用户都起作用 登录时自动生效 称为全局环境变量 全局环境变量可用来设定一些默认的应用环境 如指定编译器 MPI并行库等 用户环境变量安装一个应用程序后 相关的环境参数尽量不要加入全局环境变量 避免版本冲突 可在 public software profile d 目录下创建相应的env文件 让用户在 bashrc或PBS脚本中自由选择source 设置一个新的环境变量 export命令 exportNAME RaidCheng echo NAMERaidCheng几个关键的环境变量 HOME 当前用户的主目录PATH 决定了shell将到哪些目录中寻找命令或可执行程序LD LIBRARY PATH shell在哪些目录寻找动态链接库 非常重要INCLUDE 编译程序时 设定在哪些目录下寻找头文件 集群同步文件和执行相同命令 同步文件 foriin seq120 doscp etc hosts10 10 10 i etc done foriin seq120 doscp etc rc localnode i etc done执行相同的命令 foriin seq120 dosshnode ihostname done foriin seq120 dosshnode iinit0 done 集群用户管理 添加用户 添加用户需要使用root账户在登录管理节点上进行 分以下几个步骤 在登录管理节点上添加用户 设定密码 用户主目录需指定在共享文件夹 public home 下 useradd m d public home passwdusername将登录管理节点的几个用户信息文件 etc passwd etc shadow etc group 同步到所有计算节点设置无密码登录由root用户切换到新添加用户 执行命令 ssh keygen trsa一路回车 在用户的主目录下生成 ssh的文件夹 进入到 ssh文件夹内 cd ssh catid rsa pub authorized keys 集群用户管理 删除用户 删除用户也需要使用root账户在登录管理节点上进行 注意加上 r参数会同时删除该用户主目录 请慎用 userdel r username删除用户后 同样需要同步集群用户信息 提纲 常规方式管理IPMI使用Clusconf管理集群Gridview管理集群 IPMIIPMI IntelligentPlatformManagementInterface 即智能平台管理接口 是使硬件管理具备智能化的新一代通用接口标准 用户可以利用IPMI监控服务器的物理特征 比如温度 电压 风扇工作状态等 IPMI的最大优势在于它是独立于BIOS和OS的 所以用户无论在开机还是在关机的状态下 只要接通电源就可以实现对服务器的监控发展历史1998年Intel DELL HP及NEC共同提出IPMI规格 可以透过网路远端控制温度 电压 2001年IPMI从1 0版改版至1 5版 新增PCIManagementBus等功能 2004年Intel发表了IPMI2 0的规格 能够向下相容IPMI1 0及1 5的规格 新增了ConsoleRedirection 并可以通过Port Modem以及Lan远端管理伺服器 并加强了安全 VLAN和刀片服务器的支持 IPMI简介 IPMI硬件结构 IPMI工作原理 应用类型1 自动安装OS2 监控管理3 故障监控使用方式1 IPMITOOL2 浏览器http方式登录到BMC IPMI功能使用 IPMITOOLIpmitool是一种可用在linux系统下的命令行方式的ipmi平台管理工具 它支持ipmi1 5规范 最新的规范为ipmi2 0 通过它可以实现获取传感器的信息 显示系统日志内容 网络远程开关机等功能 使用条件 服务器硬件本身提供对ipmi BIOS中确定服务器是否支持ipmi 即主板上要具有BMC管理微控制器 操作系统提供相应的ipmi驱动ipmi管理工具ipmitool使用方式本地调用远程调用 IPMITOOL 配置本地IPMI 载入支持IPMI功能的系统模块 cd lib modules 2 6 18 238 el5 kernel drivers char ipmi insmodipmi devintf ko insmodipmi msghandler ko insmodipmi poweroff ko insmodipmi si ko insmodipmi watchdog ko创建字符设备node 使ipmitool可以通过驱动程序访问ipmi系统接口 cat proc devices grepipmi252ipmidev mknod dev ipmic2520查看 etc init d ipmistatusipmi msghandlermoduleloaded ipmi simoduleloaded ipmi devintfmoduleloaded dev ipmi0exists 本地使用IPMI IPMI本地监控使用命令 ipmitool Iopencommand其中 Iopen表示使用OpenIPMI接口 command有以下项 raw 发送一个原始的IPMI请求 并且打印回复信息 lan 配置网络 lan 信道 channel chassis 查看主板的状态和配置电源event 向BMC发送一个已定义的事件 event 可用于测试配置的SNMP是否成功mc 查看MC ManagementContollor 状态和各种允许的项sdr 打印传感器仓库中的任何监控项和从传感器读取到的值 sensor 打印周详的传感器信息 Fru 打印内建的FieldReplaceableUnit FRU 信息sel 打印SystemEventLog SEL pef 配置PlatformEventFiltering PEF 事件过滤平台用于在监控系统发现有event时候 用PEF中的策略进行事件过滤 然后看是否需要报警 sol isol 用于配置通过串口的Lan进行监控user 配置BMC中用户的信息 channel 配置ManagementController信道 本地使用IPMI 示例 ipmitool Iopensensorlist获取传感器中的各种监测值和该值的监测阈值ipmitool Iopensdr同样获取传感器中的各种监测值和该值的监测阈值ipmitool Iopensensorthresh配置ID值等于id的监测项的各种限制值ipmitool Iopenchassisstatus查看主板状态 其中包括了主板电源信息 主板工作状态等ipmitool Iopenchassisrestart cause查看上次系统重启的原因ipmitool Iopenchassispolicylist查看支持的底盘电源相关策略 ipmitool Iopenchassispower poweron启动底盘 用此命令能够远程开机ipmitool Iopenchassispower poweroff关闭底盘 用此命令能够远程关机ipmitool Iopenchassispower powerstatus查看电源状态ipmitool Iopenchassispowerreset实现硬重启 用此命令能够远程重启ipmitool Iopenmcreset使BMC重新硬启动ipmitool Iopenmcinfo查看BMC硬件信息ipmitool Iopenmcsetenables on off 配置bmc相应的允许 禁止选项 ipmitool Iopenmcgetenables列出BMC任何允许的选项ipmitool Iopenlanprint1打印现在channel1的信息 网络监控命令 lan 查看网络配置状态print 可获得IPMI的IP地址 ipmitool Iopenlanprint1显示BMC通道的信息 其中命令的1表示channel1为LAN接口如果不知道BMC使用的是哪个通道 请使用下面的命令确认 ipmitool Iopenchannelinfo1配置网络属性命令setipmitool Iopenlanset1ipsrcstatic设置本地BMC地址为静态ipmitool Iopenlanset1ipaddr192 168 0 51设置本地BMC的IP地址ipmitool Iopenlanset1netmask255 255 255 0子网掩码ipmitool Iopenlanset1defgwipaddr192 168 0 254网关 IPMI用户设置 查看BMC的用户列表 ipmitooluserlist1对BMC的1号用户设置用户名username ipmitoolusersetname1username对BMC的1号用户设置密码123456 ipmitoolusersetpassword1123456 远程IPMI控制 远程使用IPMI ipmitool Ilan H192 168 0 51 Uroot PsuperuserpowerstatusChassisPowerison ipmitool Ilan H192 168 0 51 Uroot PsuperusersdrCPU0TEMP 0degreesC crCPU1TEMP 0degreesC crCPU2TEMP 0degreesC crCPU3TEMP 0degreesC crAMBIENT noreading ns CPU0 MOS AREA 27degreesC ok Ilan或lanplus均可 H U P 其他命令与本地使用命令相同 在管理端服务器 打开支持java的浏览器 输入设置的IP 出现登录界面 使用用户名和密码登录后会出现主界面 然后用户可以通过点击不同的按钮实现相应的功能 浏览器http方式登录到BMC http方式同样支持开关机功能 底层信息监控 事件日志 用户及权限设置 网络设置和KVMOverIP 虚拟媒体等功能 KVMoverIP技术是传统KVM切换技术在IP网络上的延伸 通过这项技术 用户可以从本地计算机登录到远程的被管理端 将被管理端的视频输出重定向到本地计算机的显示器 并使用本地计算机的键盘鼠标对远程系统进行操作 从而消除了距离限制 降低设备维护和管理成本 KVMOverIP KVMOverIP RemoteControl ConsoleRediration 虚拟媒体功能虚拟媒体功能让用户能够把本地计算机上的光驱或其他存储媒体连接至远程服务器系统 就如同它们直接连接在远程服务器的物理端口一般 以加载远程ISO为例 在KVMoverIP界面 点击device RedirectISO 选择ISO文件 加载成功 提纲 常规方式管理IPMI使用Clusconf管理集群Gridview管理集群 一个配置和管理集群的命令行工具 使用他可以方便快速的完成对集群的初始配置和后期管理Clusconf三类操作 operation 集群配置操作 用于集群配置集群管理操作 用于配置完成后的集群管理维护IPMI操作 使用IPMI相关功能控制集群 clusconf简介 安装clusconf配置 etc hosts文件 Clusconf安装与配置 1tarxvzfclusconf 1 4 tgz2cdclusconf 1 43 install根据提示输入安装路径 默认路径为 opt clusconf查看安装路径载入环境变量4source etc profile d clusconf env sh5whichclusconf查看安装路径 127 0 0 1localhost10 10 10 1node1comput110 10 10 2node2comput2 10 10 10 30node30comput3010 10 10 31node31io110 10 10 32node32io210 10 10 33node33admin112 12 12 1inode1 12 12 12 33inode33 修改 etc nfs cfg 如果使用clusconf配置nfs文件系统 clusconf配置 NFSDIRinode31 public publicNFSDIRinode32 public2 public2 NFSDIRnode33 data1 data1 NFSDIRinode40 data2 data2BINDHOME public home 修改 etc ipmi cfg 如果使用clusconfIPMI相关功能 ipmiaddrhostnamecharacteripmiusernameipmipasswd11 11 20 1node1computrootsuperuser11 11 20 2node2computrootsuperuser11 11 20 3node3ioadminadmin11 11 20 4node4iorootsuperuser11 11 20 5node5adminrootsuperuser11 11 20 6node6adminadminadmin clusconf Options 选项 Operation 操作 选项如下 h help help查看帮助 p prefix标识节点的前缀 默认值为node n snlist标识节点的序号 默认为 etc hosts中所有的具有前缀的节点 r标识节点间交互使用ssh或者rsh 默认是使用ssh s标识进行操作时使用顺序模式 默认关闭该选项 使用并行模式 操作分为如下三类操作配置操作 用于集群初期配置管理操作 用于集群管理IPMI相关操作 使用IPMI相关功能 clusconf使用 p和 n的使用clusconf sync dohostname标识的节点为 etc hosts中所有的node为前缀的节点clusconf pcomput sync dohostname标识的节点为 etc hosts中所有的comput为前缀的节点clusconf n seq130 sync dohostname标识的节点为node1 node30clusconf pinode n seq130 seq3550 5556 sync dohostname标识的节点为inode1 inode30 加上inode35 inode50 再加上inode55 inode56 clusconf使用 并行模式与顺序模式 s打开顺序模式 默认使用并行模式并行模式 多节点操作时并行执行 并且自动合并相同的执行结果顺序模式 多节点操作时顺序执行 并且按顺序显示执行结果 clusconf使用 并行模式执行clusconf sync docat etc issuenode 1 3 5 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node2 VMwareESX4 1 Kandinsky Kernel ronan m 顺序模式执行clusconf sync docat etc issueExcutingCommandcat etc issueOnthewholeCluster node1 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node2 VMwareESX4 1 Kandinsky Kernel ronan m node3 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node4 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m node5 RedHatEnterpriseLinuxServerrelease6 2 Santiago Kernel ronan m 1设置某用户的ssh无密码访问 set sshusername 按照提示 输入回车即可2设置所有用户的rsh无密码访问 set rsh 系统会检查是否已经安装了rsh serverrpm包 如果没有安装 请安装rsh serverrpm包 然后再执行此条命令3按照集群规范设置服务 set service 会自动关闭防火墙 selinux sendmail等等不必要的影响并行计算的服务4设置nfs服务 set nfs 如果集群要配置nfs 需要修改 etc nfs cfg文件 详情查看4 2配置完成后 每个客户端会产生 etc nfs local文件 系统每次启动时会执行 从而正确挂载nfs文件系统 Clusconf配置操作 NFSDIRinode31 public publicNFSDIRinode32 public2 public2 NFSDIRnode33 data1 data1 NFSDIRinode40 data2 data2BINDHOME public home 5按照预定的流程一键配置集群 set all 按照如下流程 一键配置集群1 test net2 sys info3 set sshroot4 sync file etc hosts5 set rsh6 set service7 set nfs8 sync user9 sync time10 sync do date df a verifythesetting clusconf配置操作 1测试网络 test net 测试 etc hosts表中的Ip地址是否都正常 如果不正常 会自动提示2显示集群信息 sys info 显示标识的节点的操作系统 版本 CPU型号 核心数 内存容量等各个节点信息3显示cpu负载 disp cpu 显示标识的节点的CPU负载超过5 的进程信息 4同步集群用户 sync user 同步标识的节点的用户信息 包括用户 组 密码等信息5添加一个用户到指定的节点 useradd adduserusername 按照提示添加用户 包括用户名 家目录 用户组 uid 密码等信息 添加完成后自动同步用户信息 并且提示是否配置该用户的ssh无密码访问 默认按照提示可配置完成6删除标识的节点的一个用户 deluser userdelusername 删除用户 并自动同步标识的节点的用户信息 clusconf管理操作 7同步时间 sync time clusconf sync time同步标识的节点的时间 并将命令添加到当前管理节点的 etc crontab中 每日0点自动同步集群时间8同步文件 sync filefile files path paths clusconf sync filefile files path paths可以同步标识的节点的单个文件 多个文件 路径 多个路径9执行相同的命令 sync docommand clusconf sync docommand在标识的节点同时执行某个命令 如果选择并行模式 则自动对结果进行筛选 clusconf管理操作 确认修改 etc ipmi cfg正确1设置ipmiIP地址 set ipmi 此命令通过ssh rsh远程登陆到指定节点上修改主机的IPMI地址 IP地址按照ipmi cfg编写的为准 子网掩码设置为255 255 0 0 IP地址为静态 2显示ipmi信息 ipmi info 通过访问ipmi网络地址 读取指定节点的ipmi的接口的ip地址 子网掩码 以及电源状态信息 并对结果进行筛选显示 3IPMI开机 ipmi poweron 通过访问ipmi的网络地址 对指定节点使用ipmi控制开机 只要集群上电 即可通过此命令对节点批量开机 从而大大简化系统开机流程和工作量 4IPMI关机 ipmi poweroff 通过访问ipmi的网络地址 对指定节点使用ipmi控制挂机 只要集群上电 即可通过此命令对节点批量关机 从而大大简化系统关机流程和工作量 clusconfIPMI相关操作 ipmiaddrhostnamecharacteripmiusernameipmipasswd11 11 20 1node1computrootsuperuser11 11 20 2node2computrootsuperuser11 11 20 3node3ioadminadmin11 11 20 4node4iorootsuperuser11 11 20 5node5adminrootsuperuser11 11 20 6node6adminadminadmin 5IPMI智能开机 ipmi ipoweron 通过访问ipmi的网络地址 对指定节点使用ipmi控制智能开机 智能开机 指的是根据ipmi cfg文件定义的节点角色 按照集群开机的顺序 IO节点 管理节点 计算节点 进行开机 并对开机的结果进行检查 只要集群上电 即可通过此命令对节点批量关机 并且规避了由于开机顺序的依赖关系导致的问题和故障 从而大大简化系统开机流程和工作量 智能开机 需要确认你当前工作节点为管理登陆节点 当前路径为本地路径 6IPMI智能关机 ipmi ipoweroff 通过访问ipmi的网络地址 对指定节点使用ipmi控制智能关机 智能开机 指的是根据ipmi cfg文件定义的节点角色 按照集群关机的顺序 计算节点 管理节点 IO节点 进行关机 并对关机的结果进行检查 只要集群上电 即可通过此命令对节点批量关机 并且规避了由于关机顺序的依赖关系导致的问题和故障 从而大大简化系统关机流程和工作量 智能关机 需要确认你当前工作节点为管理登陆节点 当前路径为本地路径 clusconfIPMI智能开关机 提纲 集群日常管理IPMI使用Clusconf管理集群Gridview管理集群 管理系统构成 资源添加 向导方式 点击资源管理 增加资源 资源添加 批量导入方式 使用Excel表 按照模版添加资源 可批量导入至系统中 点击资源管理 批量增加资源 资源查询 高级查询 按照多种信息进行综合查询 可选择资源名称 参数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论