曙光集群培训文档.doc_第1页
曙光集群培训文档.doc_第2页
曙光集群培训文档.doc_第3页
曙光集群培训文档.doc_第4页
曙光集群培训文档.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

曙光天潮集群产品使用手册曙光信息产业(北京)有限公司二零一二年十二月曙光信息产业(北京)有限公司 地 址:北京市海淀区水磨西街64号 邮政编码:100084电 话传 真 录1.概述22.高性能集群结构23开关机63.1.开机顺序:63.2.关机顺序:64.登陆64.1文本界面登陆64.2文件传输74.3图形软件运行界面8概述曙光天潮系列集群产品是国家863计划重大研究成果,是面向网格的高性能计算机,可以为网格提供计算服务,同时也是面向信息服务的超级服务器,可以承载多种类型的商业计算应用。天潮集群产品解决方案包含节点机、网络、存储、管理系统等多个组成单元,因此其部署和实施专业性要求较高。2.高性能集群结构本集群系统共有一个机柜,2个节点,存储,kvm,建模节点和一台千兆交换机组成,面向机柜正面从上向下分别是千兆交换机,存储,node1,kvm,node2,如图:节点系统本集群节点系统由曙光A840和A620节点组成,管理I/O计算节点编号为(node1:处理器:4*AMD Opteron 6238(2.6GHz十二核)内存:128G DDR3 R-ECC 内存,提供32根插槽,支持高级内存容错功能,最大支持512GB内存硬盘:1600GB 10000转 SAS热拔插硬盘 外设:16X DVD-ROM网卡:集成3个千兆以太网接口,支持网卡冗余功能,支持网络唤醒功能 机箱:4U机架式电源:1000W 冗余热拔插电源,支持电源记忆功能/4Gb光纤HBA卡/Red Hat Linux 6.2 企业版64位),node1具体位置如图: 计算节点编号为(node2 :处理器:2*AMD Opteron CPU 6212 8核 2.6GHz 64位直连架构八核处理器(2.6GHz) 内存:48GB DDR3 R-ECC 内存,提供16根插槽,支持高级内存容错功能,最大支持64GB内存; 硬盘:/SAS/600G(2.5吋)1/SAS子卡1/超薄DVD-RW/单电源/Red Hat Linux 6.2 企业版64位); 网络系统高性能集群共有2套千兆网,对应关系如下表:节点命名对应管理网ip地址对应计算网ip地址对应计算网节点名称Node110101.1gnode1Node210101.2gnode2Node10101010.100建模节点Node1 ,node2的登陆用户名为:root,密码:111111Node10 登陆用户名为:administraotr,密码:111111存储系统本项目存储系统有1个存储柜子,配置5块2T(SATA)硬盘,存储做了1个RAID5;共约8T可用空间;划分1个linux分区,ext3文件系统:直接挂载点:node1/public大小约为8T;通过NFS服务和网络自动挂载共享目录为每节点/public;软件均安装在/public/software下(如marc软件安装在/public/software/MSC目录下),用户目录为/public/home(用来存放用户计算文件和保存结果文件)软件包都放在/public/soft下 存储系统的管理界面入口需要用windows远程桌面登陆到Node10上,启动IE浏览器,在IE浏览器里输入http:/ ,能打开登陆界面如图显示: 默认用户名:administrator默认密码:password建议每月定期观察1次存储机壳中硬盘状态是否为绿(绿色表示正常)。集群软件环境A. 全网全通,实现rsh或ssh的无密码访问(节点之间访问正常的保证);B. 统一的文件系统映像,通过nfs实现(节点之间文件的一致性);3开关机3.1.开机顺序:一般存储系统是要保持24小时常开机强烈建议存储系统不要开、关或断电除非万不得已(如果必要)先开存储机壳,等前面板硬盘指示灯状态常亮后 (存储开关在存储后方),再开管理I/O计算节点(node1),最后开启计算节点(node2)。3.2.关机顺序:强烈建议存储系统不要开、关或断电除非万不得已先关 计算节点(node2),再关 I/O管理计算节点(node1),(如果必要)最后关闭存储机壳(存储开关在存储后方)。4.登陆用户在windows或Linux下,使用客户端,通过ssh协议来链接。4.1文本界面登陆软件:SSH Secure Shell Client 以ssh client 为例输入服务器 IP地址:(-),用户名:root,密码:111111。即可登陆服务器终端进行命令操作。用户计算目录为:/home4.2文件传输软件:SSH Secure File Transfer Client winscp以SSH Secure File Transfer Client为例4.3图形软件运行界面软件:xmanager xstart 或 xshell登陆服务器打开xstart(包含在xmanager软件中),输入服务器登陆节点的ip地址(01),选择rlogin协议和“2. xterm(Linux)”方式,并输入管理员分配的用户名和密码:点击“Run”,即可登陆到登陆节点:启动marc需要输入命令:mentat启动图形界面进行操作。Vnc登陆使用: 或在登陆节点上命令行运行:vncserver(注意要记住进程号客户端登陆时要用)在客户端启动vncviewer软件登陆,3种登陆软件在功能上面是一样的。Vncviewer这款软件在计算的时候,客户端可以自由关机,而Xmanager和SSH Secure File Transfer Client这2款软件在fluent计算过程中客户机不能关机,如果关机,计算进程将停止,而对于集群管理员来说使用Xmanager和SSH Secure File Transfer Client这2款软件就比较方便。Pgi编译器已经安装好,版本是10.0安装在/public/software/pgi,已经添加到环境变量/etc/profile里面,可以直接使用。*真正计算时候建议创建计算用户,目前在测试所以使用root。5.集群常见问题对于集群管理员来说得到反馈常见的问题就是不能计算或不能并行计算,一般出现问题直接检查2个大方面:1网络环境检查集群网络环境的畅通与否直接导致计算的成功与失败,可以使用曙光集群实施脚本文件来检查套网络18个节点的连接情况,运行命令: sh /public/soft/setup_cluster-1.2.3/setup_cluster -sync_do ping gnode1 (检查计算网络连接情况);运行命令: sh /public/soft/setup_cluster-1.2.3/setup_cluster -sync_do ping node1 (检查管理网络连接情况);如果有网络不通情况要进行不通节点的系统级和硬件级的检查(如重启节点操作系统,观察运行是否正常,或硬件问题系统无法启动直接致电曙光4008100466报修,报修时需要提供机器主机编号)存储共享目录的挂载检查 集群存储共享目录(/public)挂载不正常也直接导致计算报错、无法计算,因为所有的计算软件,MPI,编译器等都安装或放在存储共享目录(/public)下,可以通过曙光集群实施脚本文件来检查集群存储目录挂载情况,运行命令: sh /public/soft/setup_cluster-1.2.3/setup_cluster -sync_do ls /public要仔细检查每个节点的目录挂载情况,正常情况为/public 目录下都有 lost+found这个空文件夹,如果发现有挂载不正常节点,需要ssh登陆到不正常节点,运行命令:source /etc/nfs.local ,重启节点系统观察存储共享目录的挂载是否正常。常用命令:全部节点重启命令,包括管理I/O节点:sh /public/soft/setup_cluster-1.2.3/setup_cluster -sync_do reboot全部节点关机命令,包括管理I/O节点:sh /public/soft/setup_cluster-1.2.3/setup_cluster -sync_do halt在进机房查看温度的同时,建议1天检查1次,也要定期观察存储2个机壳里面硬盘的状态,看看是否有红灯报警的硬盘,如果有请及时致电曙光4008100466。如何在服务器上运行MARC1. 运行marc前的准备1登陆服务器打开xstart(包含在xmanager软件中),输入服务器登陆节点的ip地址(01),选择ssh协议和“2. xterm(Linux)”方式,并输入管理员分配的用户名和密码:点击“Run”,即可登陆到登陆节点:2 进入到算例文件所在的目录,例如在“h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论