版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于超算云的高性能计算服务化平台湖南大学 国家超级计算长沙中心 1、背景和挑战2、高性能计算服务化关键技术3、超算云服务平台及整体架构背景:高性能计算服务化是面向业务需求领域的全流程服务化实际问题1数学模型2求解器3提炼算法计算结果并行计算任务调度4分解背景:高性能计算服务化=高性能计算集群+云原生+函数计算高性能计算机/超算系统VirtualizationOperationSystemContainerRuntimeApplicationFunctionsIAASFAASSAASPAAS前后处理模块冲压成形仿真体积成形仿真结构力学分析仿真热力学分析仿真裂纹扩张仿真工程优化工具箱材料数据库SAAS天河物理节点基础数学函数库(高性能计算算子)稀疏矩阵向量乘快速傅里叶变换归并比对……N体方法波尔兹曼磁流体力学2018.6美国顶点每秒20亿亿次Power+GPU2016.06神威
太湖之光每秒12.5亿亿次申威26010片上主处理器(1个)和协处理器(64个)内存共享2013.06天河二号每秒5.49亿亿次CPU+MIC2020.6日本富岳每秒42亿亿次ARMA64FX处理器48
计算核心4
协处理核心2021天河三号每秒百亿亿次飞腾+迈创背景:大规模异构是超级计算发展的主流挑战:传统超算在操作使用上难以原生适应高效的计算服务化,智能应用场景、AI计算特性为高性能计算服务化提出了更高要求如何基于现有主流超算系统的系统结构构建高性能计算云服务基础设施,解决HPC
for
大数据与AI计算的难题实际特征较少缺乏适应超算异构并行的机器学习算法库模型和数据自适应/并行难需解决的问题1Serverless:数据和应用感知的任务调度与资源分配需解决的问题2云原生:构建高效的分布式机器学习环境需解构决的建问题3函数计算:融合高性能计算与机器学习算子感知差自适应低算力浪费高效能数据并行处理与智能分析系统超算调度系统超算算法库涉及数据的
少难缺1、背景和挑战2、高性能计算服务化关键技术3、超算云服务平台及整体架构Serverless:数据和应用感知的任务调度与资源分配Serverless≠FaaSServerless=FaaS+
BaaSBaaS=DC+
DaaS构建数据和应用感知的分布式计算和数据处理环境Serverless:数据和应用感知的任务调度与资源分配计算框架数据偏斜环境感知任务调度其它任务调度基于二分图建模的最优本地性感知任务调度算法优化总通信距离的Executor分配方法自适应数据流中间分区方法基于动态内存感知的任务调度算法Spark中的Shuffle过程均衡调度Spark中的SKRSP改进的推测执行策略Hadoop中的时空任务调度提出面向Hadoop架构的内部通信量优化的Shuffle过程任务放置策略提出抗数据偏斜的Spark中间数据分片机制Serverless:数据和应用感知的任务调度与资源分配Spark-Streaming中抗数据偏斜方法利用前一个批次已经处理产生的中间数据预测下一批次作业的中间数据key分布。然后针对中间数据分配不均,在范围分区方案基础上实现Shuffle操作前后的分区平衡Serverless:数据和应用感知的任务调度与资源分配基于Spark平台二分图建模最优本地性感知任务调度算法Spark原生任务调度器采用贪婪的策略分配任务到executor上,会造成数据本地性局部最优基于二分图建模提出了一种最优的数据本地性感知任务调度算法,最小化每阶段任务的总通信代价,以此减少map和reduce任务的跨节点/机架数据传输量,降低通信延迟Serverless:数据和应用感知的任务调度与资源分配性能评估Hadoop
Shuffle过程任务放置:抗倾斜的Spark中间数据分片机制(SKRSP)
:性能
vs.
数据偏斜Spark-Streaming抗数据偏斜框架(Spark-ETWR)Sort下不同策略的性能比较Join数据分片实验结果Spark本地性感知任务调度算法(OptLTS)集群宏基准下不同算法的性能比较云原生:构建高效的分布式机器学习环境构建面向机器学习的分布式并行计算体系结构问题提出:对于迭代图算法,给定𝑮𝐭−𝟏的迭代结果和𝛅𝑮𝒕,如何有效地快速地计算得到𝑮𝒕的迭代结果(1)预处理步。此步骤为增量计算做好准备,以便在图更新后识别已更改顶点𝛿𝑉𝑐。𝑡(2)增量计算。此步骤仅计算已更改顶点的状态。δ𝑥ҧ𝑡表示已更𝑡改顶点𝛿𝑉𝑡的计算结果。δ𝑥ҧ𝑡是通过在已更改顶点𝛿𝑉𝑐上以初始状态δ𝑥ҧ
0迭代𝛽轮所获得的。𝑡(3)合并计算。此步骤是在整个顶点集𝑉𝑡
上执行的,顶点初始状𝑡−1
𝑡−1态为𝑥ҧ∗ ∪
δ𝑥ҧ𝑡,其中𝑥ҧ∗ 为上一个图的迭代结果。最终的收敛顶𝑡点状态集𝑥ҧ∗是在𝛾轮迭代后所获得的。云原生:构建高效的分布式机器学习环境构建面向机器学习的分布式并行计算体系结构扩展分布式并行框架Spark实现GPU资源的自动申请和释放,迭代计算任务的管理扩展Spark原生的抽象数据类型RDD,
符合GPU
基于块的合并访存。提供GIIRDD的缓存策略,实现迭代计算的数据复用,加速计算收敛JVM-GPU通信缓存与滑动窗口机制通过PCIe传输到设备端内存,并通过Gspark提供的接口,封装任务逻辑,由JNI将指令发送到设备端kernel执行;使用一级缓存(Shared
Memory)开辟中间结果缓存区,加速迭代计算中共享数据的访问;使用基于block的滑动窗口机制并利用全局内存的合并访存机制来实现数据置换。云原生:构建高效的分布式机器学习环境云原生:构建高效的分布式机器学习环境AEML:用于分布式异构环境中的多GPU负载平衡的加速引擎,以插件形式整合到Spark框架中。其包含多个子组件,分别实现任务映射,GPU负载均衡调度和设备资源管理,可以有效地将GPU集成到分布式处理框架中,并在多个异构GPU之间实现负载平衡。MGMS
:基于多个GPU和多个流的异构任务执行模型,有效地平衡多个GPU的工作量性能评估IncGraph-分布式增量图计算模型:分布式异构增量迭代加速体系结构:不同数据集执行时间
传统迭代
vs.增量迭代基于Spark的动态内存感知调度算法:与原生spark任务调度策略对比(执行时间)不同数据集大小和迭代次数的加速效果AEML-分布式异构多GPU负载均衡加速引擎:不同GPU工作负载(FSA)下的任务执行时间FSA(Thefeedbackbasedstreamsadjustment
scheme)函数计算:融合高性能计算算子与机器学习算子的开放式框架Virtualization Container高性能计算机/超算系统RuntimeApplicationFunctions1.
稠密线性代数……2.
稀疏线性代数3.
光谱方法4.
N体方法5.
结构化网格6.
非结构网格7.蒙特卡洛方法8.组合逻辑9.图的遍历10.动态规划11.回溯和分支定界12.构建图模型13.有限状态机……1.
卷积计算2.
池化3.
全连接4.
随机梯度下降5.线性回归6.
Logistic回归7.线性判别分析8.
KNN9.随机森林10.
牛顿法11.拟牛顿法12.对偶方法……高性能计算算子机器学习算子编程模型数据模型开发框架流程构建计算化学:机器学习+高性能计算助力高通量催化剂筛选函数计算:融合高性能计算算子与机器学习算子的开放式框架机器学习筛选催化剂自动DFT计算验证机器学习模型再训练拟合计算化学:机器学习+高性能计算助力高通量催化剂筛选函数计算:融合高性能计算算子与机器学习算子的开放式框架机器学习筛选催化剂自动DFT计算验证机器学习模型再训练1、背景和挑战2、高性能计算服务化关键技术3、超算云服务平台及整体架构计费管理与APP工具计算服务建模、验证与调试 虚机、容器与微服务管理高效能数据并行处理与智能分析系统超级计算机集群及其算力网科学工程计算人工智能应用大数据应用区块链应用高效能数据并行处理与智能分析系统飞腾、鲲鹏处理器X86处理器大数据并行处理与建模分析子系统高效能数据并行处理与智能分析系统异构并行环境时空任务调度子系统高性能计算资源池及管理子系统高效能数据并行处理与智能分析系统分布式体系结构优化技术异构计算融合关键技术云计算资源管理OpenStack云管平台K8S应用容器多后端存储池本地存储超算云计算集群节点NAS/SAN 分布式存储容器资源管理异构资源池环境ARM架构:飞腾、鲲鹏
+
麒麟操作系统兼容国产X86
CPU国产CPU/GPU异构超级计算机分布式任务调度系统大数据处理与建模分析国产密码算法:SM2、SM3、SM4国密PKI体系实现对天河超算及国产服务器等计算资源的弹性管理与按需分配自主虚拟化管理平台、分布式云存储、云审计运维,以及应用容器兼容飞腾、鲲鹏、海光等国产ARM芯片和X86芯片关键子系统1:高性能计算资源池及管理子系统关键子系统2:跨域资源管理与多云级联优化对多云环境下各云实例上资源的调度途径,研发OpenStack原生组件网关接口和相应的资源管理策略针对多云架构中顶层资源信息特征,提出VM镜像跨域冷迁移策略及内存数据跨域传输机制云计算资源池并行处理环境基于云的大数据并行处理与挖掘平台智能应用基于GPU集群的分布式深度学习并行处理框架高性能计算算子库算法库深度学习算子库机器学习算法…
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年新乡延津县招聘城镇公益性岗位人员35名笔试参考题库及答案解析
- 2026年中国石油辽河油田分公司校园招聘考试模拟试题及答案解析
- 2026江西赣州市政公用集团社会招聘39人考试参考题库及答案解析
- 2026广东汕头大学医学院实验动物中心劳务派遣人员招聘4人考试备考试题及答案解析
- 2026安徽铜陵市定向招录选调生中同步开展“名校优才”招聘42人考试备考题库及答案解析
- 2026河北省中医院招聘劳务派遣人员43人笔试模拟试题及答案解析
- 2025吉林省吉林大学材料科学与工程学院郎兴友教授团队博士后招聘1人考试备考题库及答案解析
- 2026春季浙商银行校园招聘备考题库附答案详解(巩固)
- 2026湖北汽车工业学院人才引进90人备考题库附参考答案详解(b卷)
- 2026广东清远私立学校2026年教师招聘37人备考题库及答案详解(基础+提升)
- DB11∕T 1828-2021 文物保护工程资料管理规程
- 商标基础知识培训课件解析
- 结直肠癌教学课件文字
- 2025年血型相关考试题目及答案
- 2024年南京市公务员考试行测试卷历年真题完整答案详解
- 建筑工程材料质量售后服务保证措施
- 医院人员调配管理制度
- 消防微腐败课件
- 冲压模具寿命管理制度
- DB31/ 765.5-2015上海市重点行业反恐怖防范系统管理规范第5部分:总则
- 水泵检修工技能培训课件
评论
0/150
提交评论