版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高性能计算平台使用培训主要内容什么是高性能计算西电高性能计算中心概况Linux常用命令高性能计算集群及调度介绍平台使用简介高算资源申请常见问题释疑1.什么是高性能计算第一章什么是高性能计算高性能计算
高性能计算(HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如那些来自InfiniBand的网络互连。高性能计算的一个典型趋势就是将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题。这通常被称为高性能计算集群。这一计算方法的基本原理就是将问题分为若干部分,而相连的每台计算机(称为节点)均可同时将其解决,从而显著缩短了解决整个问题所需的计算时间。为什么要做高性能计算人类对计算及性能的要求是无止境的从系统的角度:集成系统资源,以满足不断增长的对性能和功能的要求从应用的角度:适当分解应用,以实现更大规模或更细致的计算高性能计算作为计算机科学的一个分支,致力于开发高性能计算机和运行在高性能计算机上的应用软件。回顾历史,高性能计算作为一个强大的计算工具,与科学研究的发展密不可分。一方面,科学研究对计算能力永无止境的需求促进了高性能计算技术向前发展;另一方面,高性能计算技术的每一次巨大进步都为科学研究提供了全新的手段。高性能集群性能衡量指标FLOPS(浮点运算每秒)理论峰值:峰值=主频(GHz)*总核心数*4(4代表每个时钟周期做4次浮点运算)
例如:10个AMD双路12核刀片(CPU6174,主频2.2)总核心数=10×2×12=240
峰值=2.2×240×4=2112GFLOPS=2.1TFLOPS=2.1万亿次。
GPU峰值:每张2050卡双精度峰值=0.515TFLOPS单精度峰值=1.03TFOPS
双精度峰值=0.515*GPU卡数目(TFLOPS)单精度峰值=1.03*GPU卡数目(TFLOPS)高性能集群性能衡量指标系统效率=实测峰值/理论峰值如何提高效率:(1)通过优化网络(2)通过优化测试程序的编译与设置(3)通过优化内存的配置与容量(4)通过优化运行参数及系统参数!目前:一套通过Infiniband网络互连的集群,效率一般在70%以上。高性能计算应用领域2.西电高性能计算中心概况第二章高性能计算中心简介
我校高性能计算公共平台于2020年10月正式投入使用,是我校“双一流”高校建设的重要基础设施,由信息和网络中心负责建设和运维,面向全校提供科学计算的公共服务,满足学校科学研究和人才培养对大规模计算的需求。校级平台采用异构的计算架构,包括两个管理节点及两个登录节点,计算节点由30个CPU计算节点和32个GPU节点组成,总计算能力约680TFlops(万亿次);计算网络采用InfinbandFDR100G高速互联网络;存储总裸容量超过1.5PB。平台目前已经安装配置了多个版本的编译器、MPI并行库及数学库,通过EnvironmentModules管理环境变量,用户能够更加便捷的使用公共软件,同时预安装了MATLAB,Anaconda,Lammps,Tensorflow、Pytorch等AI应用,开源软件。高性能计算平台与学校统一身份认证系统集成,已申请用户,通过统一认证账号和密码即可登录平台。
硬件资源
西安电子科技大学高性能计算平台由2个管理节点、2个登陆节点、30个cpu计算节点、32个GPU节点组成,可用存储空间为1.5PB,聚合总算力达680TFlops。
节点类别主要规格节点数量合计管理节点2*Intel(R)Xeon(R)Gold6248RCPU@3.00GHz,512GB2个
登录节点2*Intel(R)Xeon(R)Gold6248RCPU@3.00GHz,512GB2个
GPU节点CPU:2*Intel(R)Xeon(R)Platinum816324核心,48线程,2.5GHz内存:16*32GB硬盘:SSD2TB2个GPU节点数32
TeslaV100*42张TeslaA100*22张
TeslaP100*3张RTX3080*53张
RTX2080*24张RTX3090*16张TeslaA40*4张CPU:ntel(R)Xeon(R)Gold5218RCPU20核心,40线程,2.1GHz4个2*Intel(R)Xeon(R)Gold6230CPU@2.10GHz,256GB,8个CPU:Intel(R)Xeon(R)Gold6226RCPU@2.90GHz5个CPU:2*Intel(R)Xeon(R)Gold5218RCPU20核心,40线程,2.1GHz内存:6*32GB硬盘:SSD960GB4T*26个CPU:2*Intel(R)Xeon(R)Gold6330CPU@2.00GHz28核心,512G内存2个CPU:2*Intel(R)Xeon(R)Gold6330CPU@2.00GHz28核心
,512内存5CPU节点CPU:2*Intel(R)Xeon(R)Gold6226RCPU@2.90GHz
内存:128GB8个CPU节点数30CPU:2*Intel4210CPU,10核心,2.2GHz内存:128GB3个4*Intel(R)Xeon(R)Gold6230CPU@2.10GHz,768GB4个CPU:2*Intel(R)Xeon(R)Gold6348CPU@2.60GHz
内存:256GBDDR415个软件资源软件名版本简介适合学科MATLAB2020aMATLAB是美国MathWorks公司出品的商业数学软件,用于数据分析、无线通信、深度学习、图像处理与计算机视觉、信号处理、量化金融与风险管理、机器人,控制系统等领域。用于数值分析、数值和符号计算、工程与科学绘图、控制系统的设计与仿真、数字图像处理、数字信号处理、通讯系统设计与仿真、财务与金融工程等领域Anaconda2021.05Anaconda是一个用于科学计算的Python发行版,支持Linux,Mac,Windows,包含了众多流行的科学计算、数据分析的Python包。数据科学、机器学习、大数据处理和预测分析Lammps
29Oct20LAMMPS,即Large-scaleAtomic/MolecularMassivelyParallelSimulator,是一种分子动力学模拟器,主要用于分子动力学相关的一些计算和模拟工作化学化工、生物医药、材料科学与工程等学科领域操作系统CentOSLinuxrelease7.7.1908编译环境gccinteloneapi套件数学库intelmkl并行环境openmpimpichintelmpiGPU环境cuda系统环境部分应用软件资源列表高性能计算中心现状高性能计算中心现状3.Linux常用命令第三章CentOS简介CentOS(CommunityEnterpriseOperatingSystem)是Linux发版之一,它是来自于RedHatEnterpriseLinux依照开放源代码规定发布的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器以CentOS替代商业版的RedHatEnterpriseLinux使用。两者的不同,在于CentOS并不包含封闭源代码软件。CentOS完全遵守RedHat的再发行政策,并且致力与上游产品在功能上完全兼容。CentOS是免费的、开源的、可以重新分发的开源操作系统
CentOSLinux发行版是一个稳定的,可预测的,可管理的和可复现的平台,源于RedHatEnterpriseLinux(RHEL)依照开放源代码规定释出的源码所编译而成。Linux常用命令ls 查看当前目录内容cd 切换目录mkdir 创建目录rmdir 删除空目录cp 拷贝文件或目录rm 删除目录或文件ln 创建链接pwd 查看当前工作目录touch 修改文件或者目录的时间属性,若文件不存
在,系统会建立一个新的文件。chmod 修改目录或文件权限Linux常用命令chown
修改目录或文件所属组ssh
远程登录命令ping 测试主机之间网络状况ipaddr
查看所有网卡ip信息uptime 查看系统负载和启动时间free 查看空闲内存top 查看进程资源ps–elf 查看系统进程lsof
查看打开的文件cat/etc/redhat-release查看系统版本4.高性能计算集群及调度介绍第四章资源管理与调度软件
景行资源管理与调度软件(JHUnischeduler)是一套集资源监控、管理以及分布式应用调度为一体的云计算基础架构管理中间件。使用它可以快速地建立起一套完整的校级应用服务平台。
调度软件可以将多个节点关联起来建立一个集群,并统一管理和调度集群中的各类软硬件资源,包括各品牌服务器和图形工作站上的CPU、内存、存储、许可证、GPU卡和远程图形桌面等。支持Linux、Windows和Unix混合集群,也支持物理服务器、虚拟机和Docker容器组成的混合集群。调度软件可以根据集群中节点主机的负载条件和应用程序的资源需求,从整个集群应用服务平台中选择最合适的计算节点。调度系统作用资源管理与调度软件相关概念作业:
作业是指用户向景行资源管理与调度软件提交可执行命令,根据调度配置的策略,景行资源管理与调度软件对作业进行调度、控制和跟踪。在景行资源管理与调度软件中,每个作业命令可以是单一的进程,也可以是一组协作的并发进程。景行资源管理与调度软件为正在执行的每个命令创建一个新的进程组,并且每一个作业控制操作都将作用于该组中的所有进程。
作业实际上是在节点上运行的一组进程的集合,比如一组图像处理过程或是一组数据库事务进程。一般来说,作业都是在节点后台运行的。作业号:
是作业身份的唯一标识,在作业提交时由景行资源管理与调度软件分配给作业。当使用jsub提交作业时,景行资源管理与调度软件输出显示作业号。资源管理与调度软件相关概念作业状态:
作业有以下几种状态:
等待(PEND):在队列中等待调度和派发。
运行(RUN):派发成功,作业运行。
执行完成(DONE):正常完成,返回值为0。
退出(EXIT):作业退出,返回非0的值。
等待挂起(PSUSP):作业在等待时被用户或景行资源管理与调度软件管理员挂起。
系统挂起(SSUSP):被景行资源管理与调度软件系统挂起。
用户挂起(USUSP):作业在派发后被用户或景行资源管理与调度软件管理员挂起。
UNKNOWN:作业的执行节点上的jobagent
进程停止或者直接宕机。资源管理与调度软件相关概念队列:
一组作业以指定规则的顺序排列在作业容器中,等待景行资源管理与调度软件派发这些作业到可执行的节点资源上,这个作业容器被称之为队列。通过队列实现了不同的作业调度和控制策略,只对提交到该队列中的所有作业起作用。队列不等同于单独的若干节点,每一个队列可以使用集群中的所有服务节点,或为系统配置的服务器节点的一个子集。应用:
应用可为某些类型的作业提供功能配置。通常使用应用程序配置定义来优化队列级别设置。默认应用为default。5.平台使用简介第五章集群登录方式集群提供三种登录使用方式,分别为“登录密钥”、“terminal”和“Linux桌面”,双击图标即可打开终端进行登录及作业提交,如图:登录密钥打开“登录密钥”会弹出下图所示窗口,在密钥密码中输入5位以上密码,点击确认,会提交作业,产生以用户名为文件名的ssh登录密钥文件,将文件下载下来,使用ssh工具进行连接登录密钥创建成功,现在可以通过ssh工具进行连接登录密钥导入密钥后,输入密码进行登录:Terminal打开“Terminal”会通过图形应用客户端打开终端,显示如下:Linux桌面打开“Linux桌面”会通过图形应用客户端打开Linux桌面,显示如下:常用图标功能说明:我的作业
“我的作业”主要包括查看作业信息、终止作业、挂起作业、继续作业、作业置顶、作业置底、删除数据、重新提交和修改作业这些功能常用图标功能说明:我的会话
“我的会话”包含“三维图形会话”和“作业会话”两个标签页,其主要功能有查看会话详细信息,对会话进行连接、断开、注销。常用图标功能说明:集群状态
“集群状态”可以在集群状态中实时监控集群任何一个机器的具体使用用情况,方便用户直观地了解集群机器资源的使用情况。常用图标功能说明:我的数据
“我的数据”主要是对数据区、工作区中的数据进行管理和操作。其中数据区指的是用户在远端服务器上映射的用户家目录存储。工作区指的是用户仿真作业数据在远端服务器上映射的存储目录。点击桌面图标“我的数据”即可访问数据管理页面。默认用户磁盘配额为300G。常用图标功能说明:我的数据
新增在线编辑功能常用图标功能说明:应用仓库应用仓库中显示所有上线应用,可根据实际情况,选择启用,或停用。所有启用应用图标,会出现在平台主页上,停用应用图标在平台主页回收。常用图标功能说明:镜像仓库常用图标功能说明:Docker通用提交常用图标功能说明:Docker通用提交常用队列与节点关系在高算运行环境中,队列与计算资源是对应关系在当前的高算环境中,开放的常用公共队列与公共资源主要有:debug:(特点:调试作业,最大12核,最长计算20分钟)normal:(特点:默认队列,cpu计算作业,最大80核,最长计算时间28800分钟,允许跨节点并行作业)gpu:(特点:
gpu计算作业,最大48核,最长计算时间28800分钟,单机作业)队列与资源常用命令jqueues:查看所有队列列表;QUEUE_NAMEPRIOSTATUSMAXJL/UJL/PJL/HNJOBSPENDRUNSUSPRSVPENDHOSTnormal10Open:Active----1004060000codesign_app40Open:Active-1--101000codesign_deskt*40Open:Active-1--505000gpu40Open:Active----404000debug10Open:Active----000000jqueues–l队列名:查看具体某个队列的配置信息jqueues-lgpuQUEUE:gpu--gpuqueuePARAMETERS/STATISTICSPRIONICESTATUSMAXJL/UJL/PJL/HNJOBSPENDRUNSSUSPUSUSPRSVPENDHOST4010Open:Active----4040000DEFAULTLIMITS:RUNLIMIT17280.0minjhosts
机器(机器组名):查看队列相关的机器组的情况jhostscpuHOST_NAMESTATUSJL/UMAXNJOBSRUNSSUSPUSUSPRSVnode01ok-3200000node02ok-3200000……编译与提交节点编译与提交节点:login01_d_01编译环境:moduleavail:命令查看现有的编译环境moduleload:加载指定的编译环境modulerm环境名称:删除加载的指定环境调度系统环境变量加载调度系统环境变量包含调度系统命令执行所需要的环境信息,在使用时要预先加载,加载方式为:./apps/env/hpcprofile或source/apps/env/hpcprofile建议:写到个人家目录下的.bashrc文件中,自动加载作业提交命令作业提交基本命令:jsub作业提交命令格式:usage:jsub[-h][-V][-x][-H][-Pproject_name][-Rres_req][-qqueue_name...][-m"host_name[+[pref_level]]|host_group[+[pref_level]]..."][-nmin_processors[,max_processors]][-Jjob_name][-i
in_file][-oout_file][-eerr_file][-Epre_exec_command[argument...]][-Eppost_exec_command[argument...]][-cwd
current_working_directory][-gpgpu"[type=type1,type2]num=gpu_num"]command[command...]常用CPU作业提交命令格式jsub–Jjob_name–ncpu_number–qqueue_name–ooutput_file“作业执行命令、参数或脚本”注意:(1)作业提交所在的目录即为作业执行的目录,因此相对路径均需要以当前目录为基础;(2)如果提交格式为脚本,脚本中命令或执行文件要写为绝对路径。参数含义:-Jjob_name:指定作业名(可不设置)-ncpu_number:指定作业运行所需要的cpu资源数(如果不指定则默认为1)-qqueue_name:指定作业提交的队列资源(不设置默认为normal队列)CPU作业提交举例作业提交举例jsub
-Jdemo-n2-qdebug-oout.%J
hostname命令行方式提交示例:-ooutput_file:指定作业运行过程中输出信息保存的文件名,路径默认为作业提交路径(不设置则不输出过程信息)“作业执行的命令、参数或脚本”:既可以直接运行命令,也可以根据作业的需要编写包含复杂逻辑的脚本常用GPU作业提交命令格式jsub–Jjob_name–gpgpu
gpu_number–qqueue_name–ooutput_file“作业执行命令、参数或脚本”注意:(1)作业提交所在的目录即为作业执行的目录,因此相对路径均需要以当前目录为基础;(2)如果提交格式为脚本,脚本中命令或执行文件要写为绝对路径。参数含义:-Jjob_name:指定作业名(可不设置)-gpgpu
gpu_number:指定作业运行所需要的gpu资源数-qqueue_name:指定作业提交的队列资源(不设置默认为normal队列)GPU作业提交举例作业提交举例jsub
-Jgpudemo-qgpu-gpgpu2-Rspan[hosts=1]-oout.%J
nvidia-smi命令行方式提交示例:-ooutput_file:指定作业运行过程中输出信息保存的文件名,路径默认为作业提交路径(不设置则不输出过程信息)“作业执行的命令、参数或脚本”:既可以直接运行命令,也可以根据作业的需要编写包含复杂逻辑的脚本作业提交举例作业提交举例先将环境变量设置好,然后提交作业作业提交举例作业提交举例查看作业输出文件脚本提交举例#!/bin/bash##申请资源#JSUB-qgpu#JSUB-gpgpu1##定义输出文件#JSUB-eerror.%J#JSUB-ooutput.%J##加载环境变量moduleloadlammps/gcc/29Oct20##生成$nodelist
和$ncpu
./apps/software/tools/hostfile##执行命令mpirun-np$ncpu-ppn1-f$nodelist
lmp-sfgpu-pkgpu2-inin.rhodo删除并行计算节点文件rm$nodelist脚本提交举例作业提交举例在/apps/software/example目录下存放了脚本提交算例文件,大家可以参考并使用使用前请将该算例文件拷贝到自己家目录下进行使用脚本提交举例作业提交举例提交lammps作业脚本提交举例作业提交举例提交matlab作业脚本提交举例作业提交举例提交pytorch或者tensorflow作业作业信息查询查询作业命令:jjobs查询作业运行详细信息:jjobs–l作业号jjobs-lxxxxJob<xxxx>,JobName<VASP>,User<jhadmin>,Project<default>,Status<DONE>,Queue<blade_para>,Application<default>,Command<#!/bin/sh;#JSUB-qblade_para;#JSUB-n48;#JSUB-eerror.%J;#JSUB-ooutput.%J;#JSUB-JVASP;source/opt/intel/composer_xe_2013/bin/compilervars.shintel64;source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh;moduleloadmpi/intelmpi/5.0.2;/opt/software/other/hostsfile;ex=$(echo`whichmpirun`);$ex-np48-machinefile.hostfile/opt/soft/vasp5.3/vasp.5.3.2>MonNov2318:45:49:Submittedfromhost<xdhpc01>,CWD</home/users/jhadmin/vasp3>,OutputFile<output.2248>,ErrorFile<error.2248>,48ProcessorsRequested;MonNov2318:45:49:Startedon48Hosts/Processors<24*node11><24*node45>,Ex
ecutionHome</home/users/jhadmin>,ExecutionCWD</home/u
sers/jhadmin/vasp3>,Executionuser<jhadmin>;MonNov2318:47:51:Donesuccessfully.TheCPUtimeusedis2577.8seconds.SCHEDULINGPARAMETERS:r15sr1mr5mr15mut
pgiols
LoadSched--------
LoadStop--
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年上海中医药大学单招职业技能考试题库及答案解析(夺冠系列)
- 2026年河北石油职业技术大学单招综合素质考试题库附答案解析
- 基于神经网络的语音识别
- 房屋打包委托协议书
- 房屋提前退房协议书
- 房屋整租间合同范本
- 房屋电梯移交协议书
- 房屋竞买协议书范本
- 房屋置换居间协议书
- 房屋裂缝修补协议书
- 2025年天翼云高级运维工程师认证参考试题库(含答案)
- 医院合作体检协议书
- 八年级语文下册第三单元《红色经典》“表达交流”综合实践志趣北师大版教案
- 活动执行协议合同书
- 2025年超星尔雅学习通《生物学与生命科学》考试备考题库及答案解析
- 交付管理岗转正答辩
- 落实企业安全生产主体责任知识试题及答案
- 2025广东东莞市樟木头镇招聘编外聘用人员14人笔试考试参考题库及答案解析
- 2025湖北随州北星汇能产业发展有限公司招聘延期笔试考试参考题库及答案解析
- 石榴树修剪培训课件
- 2025至2030中国文化地产行业项目调研及市场前景预测评估报告
评论
0/150
提交评论