




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
HPC集群用户手册2019年11月29日目录1.HPC集群介绍21.1.集群各节点角色定位21.2.集群硬件拓扑图31.3.集群各节点硬件配置31.4.集群软件列表31.5.登录IP地址42.远程登录与远程数据传输52.1.SSH远程登录52.2.图形远程登录62.3.FileZillia82.4.修改密码93.CHESS作业调度系统103.1.作业集群概念介绍103.2.集群队列113.3.通过脚本提交作业113.4.通过命令行提交作业123.5.使用脚本提交Fluent作业133.6.使用命令行提交Fluent作业133.7.杀掉作业143.8.查看作业155.1.查看节点状态信息165.2.显示节点负载信息175.3.查看队列信息184.CHESS WEB Portal的使用204.1.用户登录204.2.数据管理214.3.作业提交234.4.作业管理255.Linux常用命令作用说明29手册更新记录版本号提交日期更新记录提交人1.02019年11月27日创建文档魏爱东信息反馈11. HPC集群介绍1.1. 集群各节点角色定位管理节点通常也被称作“控制台(console)”,负责管理整个集群,所有的集群管理软件都安装在此节点上,通常一个集群中设置一个或两个(主备模式)管理节点。计算节点专用于计算的节点。通常配置多核高速CPU,大内存。登录节点用于提供用户登录服务的节点。可与管理节点复用。存储节点连接存储用于为其它节点提供网络文件系统服务的节点,通常也被称作“IO节点”。有时与管理节点复用。存储系统容量较大的独立磁盘阵列,挂接在IO节点。管理网络用于传输操作系统管理控制信息的专用网络,通常是千兆以太网。计算网络用于传输节点之间作业交互数据信息,通常为一套高速网络,如万兆以太网,InfiniBand网络。监控网络用于集群内部硬件管理的网络,不依赖操作系统,通常是IPMI(或HP iLo)硬件管理网络。外部网络用户通过外部网络连接到集群,多配置在登录节点或者管理节点。11.2. 集群硬件拓扑图1.3. 集群各节点硬件配置类型名称CPU内存磁盘数量管理/存储/登录节点mgt01-mgt022*Silver 4216 CPU 2.10GHz 16c64GB2*480G raid12计算节点node01-node204*Gold 6230 CPU 2.10GHz 20c786GB480G20磁盘阵列双控制器FC-SAN存储,裸容量192T,系统可用容量116T2计算网络100G Intel OPA高速网络1套管理网络1Gb千兆以太网1套监控网络1Gb千兆以太网1套1.4. 集群软件列表软件名称版 本安装节点安装目录备注CentOS7.6所有节点xCAT2.14.6管理节点/install; /opt/xcatmgt01Spectrum Scale5.0.1-1所有节点挂载路径 /share并行文件系统CHESS cas所有节点/opt/clustertech/chess/cas/share/apps/clustertech/chess/cas_shared/作业管理系统CHESS ng6.0.1所有节点/share/apps/clustertech/chess/ng作业管理WEBIntel Parallel Studio2018u32019u5所有节点/share/apps/intel/Intel icc ifort编译器Intel mpiIntel mkl数学库gcc4.8.5所有节点/usr/binC编译器gfortran4.8.5所有节点/usr/binfortran编译器fluent19.5所有节点/share/apps/ansys_inc/1.5. 登录IP地址主机IP备注mgt013mgt014mgt01或mgt015在mgt01和mgt02间自动漂移292. 远程登录与远程数据传输 2.1. SSH远程登录远程SSH登录集群操作、提交作业等既快速又方便。ssh登录客户端有很多如putty,SecureCRT, xShell, MobaXterm。本文介绍开源的putty使用方式。PuTTY是一个免费小巧的Win32平台下的telnet,rlogin和ssh客户端。它的主程序非常小,但是功能丝毫不逊色于商业的ssh类工具。 PuTTY下载地址: .uk/sgtatham/putty/download.html 1. 打开PuTTY,输入地址,端口,协议,然后点击”open”按钮 2. 输入用户名和密码 注:图中IP地址、用户名和密码不代表实际集群配置。输入密码时不会回显。 技巧:可以将经常访问的地址保存起来,方便下次使用 2.2. 图形远程登录VNC(Virtual Network Computing),为一种使用RFB协议的屏幕画面分享及远程操作软件。此软件借由网络,可传送键盘与鼠标的动作及实时的屏幕画面。VNC与操作系统无关,因此可跨平台使用,例如可用Windows连接到Linux的电脑。 常用的VNC软件有RealVNC和TigerVNC等。客户端下载地址:/en/connect/download/viewer/windows/1. 配置vncserver 首先ssh登录到服务器,执行命令vncserver,生成端口号 $ vncserver -geometry 1920x1080New :3 (root) desktop is :3 Starting applications specified in /root/.vnc/xstartup Log file is /root/.vnc/:3.log 注:如果是初次运行vncserver提示输入密码2次。 注意:-geometry 1920x1080 这个参数是指定分辨率 x是 xyz的x。2. 在客户端电脑通过VNC Client连接vncserver 打开VNC Client,输入Server端的IP地址和显示号: 输入密码即可进入到系统界面 2.3. FileZillia FileZilla是一个免费开源的FTP软件,分为客户端版本和服务器版本,具备所有的FTP软件功能。可控性、有条理的界面和管理多站点的简化方式使得Filezilla客户端版成为一个方便高效的FTP客户端工具,而FileZilla Server则是一个小巧并且可靠的支持FTP&SFTP的FTP服务器软件。FileZilla支持ftp及sftp协议。FileZilla客户端下载地址:/download/client 1. 打开FileZillia2. 初次连接显示如下图,单机Yes 2.4. 修改密码 用户登录管理节点,执行 passwd根据提示输入旧密码,再输入两次新密码完成修改。如果忘记密码需要找管理员重置。注意:输入密码时不会有回显。3. CHESS作业调度系统本HPC集群采用ClusterTech CHESS作业调度系统,通过CHESS来进行作业的提交,监视和控制,以下会描述CHESS队列的相关配置,作业控制的命令以及相关参数。3.1. 作业集群概念介绍相关名词概念解释Cluster 集群一组运行作业调度系统和计算任务的服务器,作为一个统一的整体,提供计算服务,有共享的软硬件资源。Job 作业在集群中运行的一个工作单元。作业是提交到集群运行的一个命令,可以是简单或复杂的问题,如工程仿真,复杂的数学计算,量化模拟。系统根据其配置进行作业调度,作业控制,跟踪作业状态。Job states 作业状态CHESS作业状态包含如下几种:PEND 排队,作业在队列中等待被调度RUN 运行,作业被分配到某节点正在运行DONE 完成,作业正常完成退出code 为0EXIT 退出,作业完成退出代码非0PSUSP 排队的时候被挂起SSUSP 被作业调度系统挂起POST_DONE 后处理完成,没有错误POST_ERR 后处理完成,有错误Job slotJob Slot可以理解为可以分配工作的最小单元,字面上可以理解为存放作业的抽屉。一般默认为每节点的job slot等于CPU core。Queue 队列队列是作业的容器,作业在被调度运行之前在队列中排队。不同的队列可以设置不同的调度和作业控制策略。Hosts 主机是集群中一台独立的计算机。Submission host 提交节点提交作业的节点Execution host 执行节点执行作业的节点,所有的excution host都是 server host。Server host 服务节点在集群中一般是计算节点,可以提交或执行作业。Master host 管理节点,负载调度和分配作业。运行master LIM和mbatchd进程。3.2. 集群队列队列名称优先级节点备注high高全部20台计算节点normal中全部20台计算节点temp低全部20台计算节点vncmgt01,mgt02图形桌面debug全部管理员测试队列3.3. 通过脚本提交作业提交作业脚本: test.chess提交作业方法:bsub test.chess注意:这里有个 myout.$LSB_JOBID.log以上红色标注项需要根据实际情况修改。然后执行bsub fluent.chess 提交作业。3.6. 使用命令行提交Fluent作业首先将如下内容export ANSA_SRV=2325mgt02,2325mgt01export PATH=/share/apps/ansys_inc/v195/fluent/bin:$PATH加入到/.bashrc 文件中。添加加一次就可以了。后续提交作业不必重复添加。执行如下命令提交作业:bsub -J myjob -q normal -n 160 -R spanptile=80 -o out.%J.txt fluent 3d -i testCore80fcc.jou -ssh -lsf -pib.infinipath -mpi=intel 注意,以上为一行命令。红色部分根据实际情况修改。3.7. 杀掉作业bkill jobid 杀死作业,普通用户只能杀自己的作业如: bkill 125bkill -r jobid #将作业强制从CHESS中移除,注意,这种方式作业进程不一定杀掉,需登录到节点上用top查看确认。3.8. 查看作业 查看作业命令:bjobs-l 作业详细信息 -C 查看指定时间段的作业-q 查看指定队列上的作业-u 查看指定用户、用户组的作业无参数为做作业概要信息作业状态说明: PEND作业在队里中排队等待 RUN任务正在执行 PSUSP任务在排队等待中被用户挂起 SSUSP任务被系统挂起 USUSP任务被用户自行使用bstop命令挂起 DONE作业正常结束,exit代码为0 EXIT作业退出,exit代码不为0查看某个作业详细信息:bjobs j jobid查看所有作业(包括近期“一小时内”结束的作业):bjobs -a5.1. 查看节点状态信息 bhosts -w节点状态说明:ok 表示正常,并且还有空余JOB_SLOT可以接受作业closed 分为closed_Adm closed_Full closed_Limclosed_Adm是管理员人为close某个节点,如需打开可用badmin hopen 节点名 打开该节点。closed_Full表示该节点所有cpu核都已运行作业;closed_Lim表示该节点lim进程不正常,如果刚刚重启过CHESS进程需要稍等一会儿,会自动变为正常,如果长时间处于此状态,请检查网络是否通,是否开启防火墙。5.2. 显示节点负载信息 lsload5.3. 查看队列信息 #bqueues命令格式:bqueues -l -m host_name | -m host_group -u user_name |-u user_group | -u all queue_name .-l 队列详细信息 -m 查看可使用指定机器名、机器组的队列-u 查看指定用户、用户组可使用的队列无参数为队列概要信息4. CHESS WEB Portal的使用4.1. 用户登录建议使用chrome浏览器登录。登录地址如下:15:9002输入账号,密码完成登录。4.2. 数据管理将鼠标移到页面最左端,点击数据管理可以在数据管理页面右键进行创建文件夹,上传文件等操作。将作业所需的输入文件均上传到工作目录:文本文件可以在线预览,编辑。4.3. 作业提交点击页面上到相应软件,如FLUENT_SOLVER, 点击提交页面根据需求填写作业名,选择队列,CPU core数量,计算版本,并选择输入文件。确认无误后可以点击提交。存为模板功能可以将当前选择保留,作为默认选项。提交后转到列表界面可以查看作业状态。4.4. 作业管理可以在对应应用的列表界面查看应用作业,也可以点击左侧到作业管理,查看所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全员安全生产操作题库及模拟题
- 2025年英语教师职业等级认证初级考试模拟题与答案详解
- 校园消防安全专题片(3篇)
- 2025年网络安全工程师面试模拟题及面试技巧
- 2025年小学教师安全知识测试题含考核答案
- 2025年安全生产安全管理知识安全趋势题及答案
- 2025届东营市利津县中考冲刺卷数学试题含解析
- 2025年后期制作岗位面试常见问题及答案
- 2025年安全管理竞聘面试常见问题答案
- 2025年市场营销经理岗位招聘考试专业知识模拟题及解析
- 危险废物处置服务协议
- 《观光农业概论》课件
- 派出所签订治安调解协议书范文
- 情境领导力培训课件
- DBJ41T 277-2023 装配式钢结构集成楼盖应用技术规程 河南省工程建设标准(住建厅版)
- 飞灰螯合物运输服务方案
- 中建三局社招在线测评题
- 研究生学术表达能力培养智慧树知到答案2024年西安建筑科技大学、清华大学、同济大学、山东大学、河北工程大学、《环境工程》英文版和《环境工程》编辑部
- 玉米种植风险评估与管理
- 2024-2030年中国自动涂胶机行业市场发展趋势与前景展望战略分析报告
- DL∕T 2582.1-2022 水电站公用辅助设备运行规程 第1部分:油系统
评论
0/150
提交评论