2026(智算中心)高校超算云解决方案_第1页
2026(智算中心)高校超算云解决方案_第2页
2026(智算中心)高校超算云解决方案_第3页
2026(智算中心)高校超算云解决方案_第4页
2026(智算中心)高校超算云解决方案_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

录01录01行业发展分析02方案设计03典型案例04其他大模型纲领性政策页新基建推动数智化新发展纲领性政策页近年来,国家高度重视高等教育和职业教育改革发展,政策频出。聚焦近年来,国家高度重视高等教育和职业教育改革发展,政策频出。聚焦教育新型基础设施建设,支撑一智算超算2021.07教育部等六部门联合发布《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》核心目标:发挥数据作为新型生产要素的作用。构建新型数据中心、促进教育数据应用、推动平台开放协同、升级网2023.10教育部等六部门联合发布《算力基础设施高质量发展行动计划》 高等教育职业教育2022.04《中华人民共和国职业教育法(修订草案)》云化、智能化是教育行业信息化发展趋势在云计算技术的整体发展推动下,教育云具有资源云化、数据云化、业务云化三个共性特点,呈现顶层设计先行,智算超算需求突出趋势。数字校园智慧校园1.0基础信息化技术在教育行业广泛应用融合创新,全面开启智能化时代智慧校园2.0通过数据采集、数据汇聚、数据挖掘,实现数通过数据采集、数据汇聚、数据挖掘,实现数据对业务的赋能。资源云化-降本增效云原生与容器技术日益成熟,设施资源的横向拉通,提升运维效率。以统一资源平台为底座,算力需求快速部署、快速迭代。技术架构多样,解决方案基本类似政府平台数据计算技术架构多样,解决方案基本类似政府平台数据计算数据存储数据教育大平台教育省级平台数据建模模型训练机器学习监控系统计费管理监控系统计费管理安全管理服务管理资源管理架构不变无缝迁移云原生应用应用能力开放分布式文件系统/数据库数据仓架构不变无缝迁移云原生应用应用能力开放PaaS常见架构与技术栈数据清洗数据管理数据融合数据清洗数据管理数据融合智能终端采集可视/代码埋点数据人工导入全域数据库、主题库治理IaaS常见架构与技术栈数据采集数据采集系统虚拟化分布式存储关系型数据库新兴学科在教学、科研、实训环境搭建过程中面临诸多痛点目前在人工智能教学、科研、实训等环境搭建过程中普遍面临的多种痛点环境搭建繁杂,难维护环境搭建繁杂,难维护Deadline算力资源不足硬件使用成本高模型部署困难多人协作困难第第页项专属云传统自建国内高校校级超算中心平台现状123456789一流大学普遍重视计算对提高科研创新能力的作用,近年来持续强化自身计算服务能力,为科研创新提供重要支撑。ChatGPT等人工智能爆火ChatGPT等人工智能爆火,加剧全国高校算力荒国内某top3高校AI实验室非大模型团队6人共4块3090卡,同实验室的大模型团队10个人用10块A800卡,从全国情况来看算力建设滞后:算力平台建设仍处于起步阶段未建设校级算力平台91.6%VS未建设校级算力平台91.6%VS已建设校级算力平台8.4%4949运算能力(Tfops)5002502000以上5002502000以上4141存储空间(TB)2505007501000差距:目前ChatGPT-3.5每日消耗算力3640Petafolps(1P=1024T)数据来源赛尔网络调研报告应用软件需求并行扩展性双路计算节点计算化学、物理、材料、天文等应用异构加速并行扩展性双路计算节点计算化学、物理、材料、天文等应用异构加速分子动力学等应用大内存需求胖节点白质分析等应用Vasp,Lammps,GaussVasp,Lammps,Gauss仿真设计OpenOpenFOAM,…生命科学BioInformatic,BioInformatic,…应用创新是高校竞争力的重要体现,这些应用软件对底层的超算、智算资源也提出了新的要求。智算学科与专业当前人工智能超算中心在地球科学、生命科学、工业仿真、物理化学材料、油气勘探、智慧城市等领域发挥着越来越CAE生命科学材料学/化学天文物理地球/地理气象环境图形CAD工作站l存储需求适中松耦合高性能计算松耦合高性能计算学l存储需求适中紧耦合高性能计算紧耦合高性能计算l存储需求适中数据密集型高性能计算数据密集型高性能计算录01录01行业发展分析02方案设计03典型案例04其他大模型第10页第10页运维监控平台基于公有云技术底座能力,运维监控平台基于公有云技术底座能力,打造超算、智算平台。本方案架构主要包括AI智算集群、超算集群、高速网络、通平台安全配额管理计费管理总览视图权限管理规格定价操作日志服务目录项目管理软件基础设施硬件基础设施数据处理模型开发模型训练自动建模模型部署模型推理模型管理模型监控调度策略资源监控作业管理应用中心云主机裸金属云硬盘Tensorflow、PaddlePaddle...数据管理并行环境编译器自动化部署镜像服务对象存储VPC基建基础设施强电系统弱电系统不间断电源系统制冷系统监控系统消防系统基建基础设施页典型超算智算中心核心系统单元包含通用计算子系统、智能计算(AI)子系统和高性能计算(HPC)子系统。l超算计算节点和智能计算节点分别通过IB/RoCE网络等高速网络交换子系统进行高速互连;心l集成多层次、多协议、多种数据保护模式的全闪存存储系统和高性能并行文件存储系统,以及配套的信息安全子系统和心超算中心融合管理子系统信息安全子系统高速网络交换子系统通用CPU算力子系统GPU智算子系统HPC超算子系统全闪存存储子系统高性能文件存储子系统页推理节点推理节点应用场景:实时巡检推理参数服务器应用场景:模型参数同步边缘节点应用场景:变电站数据预处理训练节点分层算力配置散热设计可靠性设计变电站部署。应用场景:确保设备在极端环境下的稳定运 大模型网络架构参数面优化数据面优化技术:RoCEv2。参数面优化数据面优化技术:RoCEv2。设备型号:迈络思SN3700。性能指标:带宽200G,延迟<5μs。核心功能:模型并行训练参数同步,确保高效分布式训练。技术:5G+工业WiFi。设备型号:华为AP7060。性能指标:带宽1Gbps。核心功能:无人机/传感器数据回传,满足边缘设备的数据传输需求。存储架构设备型号:曙光RDMA网关。性能指标:带宽100GB/s。核心功能:训练数据高速读取,提升数据传输效性能指标:热层2000万IOPS,温层500GB/s带宽,冷层10GB/s顺序读写,满足不同数据存储需求。存储层级:热层采用华为Dorado8000NVMeSSD,温层采用曙光ParaStor500KHDD,冷层采用阿里云OSS冷存储。数据类型:热层存储训练数据集和模型Checkpoint,温层存储历史巡检影像和SCADA数据,冷层存储归档模型和十年期数据。热层存储产品:华为Dorado8000。数据类型:训练数据集/模型Checkpoint。性能指标:2000万IOPS。应用场景:满足高频访问和快速读写需求。温层存储产品:曙光ParaStor500K。数据类型:历史巡检影像/SCADA数据。性能指标:500GB/s带宽。应用场景:存储中等访问频率的数据。冷层存储产品:阿里云OSS冷存储。数据类型:归档模型/十年期数据。性能指标:10GB/s顺序读写。应用场景:长期数据归档和备份。安全架构第14页数据安全模型安全物理安全安全架构设计安全架构第14页数据安全模型安全物理安全措施:国密SM4加密+数据分级(生产数据措施:训练数据溯源+模型水印(防篡改)。昇腾910B验证组件:昇腾910B。认证昇腾910B验证组件:昇腾910B。认证:电力工业环境适应性测试。测试结果:-40℃~70℃稳定运行,满足电力行业恶劣环境需求。组件:MindSpore。认证:模型迁移测试。测试结果:TensorFlow模型迁移成功率95%,适配国产深度学习框架。麒麟OS验证组件:麒麟OS。认证:电力业务系统兼容性测试。测试结果:适配SCADA/EMS系统,确保操作系统与电力业务系统的兼容性。页公网接入 运维专网八公网接入 运维专网八专线接入各服务器带外管理带内管理各服务器带外管理带内管理裸金属TORAI计算集群裸金属TOR1、AI计算集群:AI计算集群间采用4*200GBRDMA网2、HPC计算节点:采用100GBRDMA网络搭建超算集3、通用计算区:各服务器通过25G网卡接入上联计算4、高性能存储:通过100G网络组成并行文件存储集群,7、管理区:提供带外和带内管理,带外通过1个GE网卡8、出口区:配置公网出口、专线接入以及运维专线等网网络架构—IB组网网络架构整套网络分为整套网络分为超高速计算网络和业务网络、管理网络三部分。超算节点、智算节点以及并行文件存储均采用超高速网络。ll成熟的Infiniband拓扑结构l可灵活配置为非阻塞线速或1/N线速l容易保障网络延迟和带宽性能l规模越大,网络成本增加越快…………页业务网络业务网络IB交换机:40端口非阻塞管理HDR200Gb/sI页设计说明以物理机形态提供,上层部署超算平台,由超算平台统一管理集无损网络互联,业务采用万兆双网口上联业务交换机,业务交换机上联存储小核心。第18第18页设计说明设计说明业务节点底层基于裸金属,单独配置管理节置超算裸金属管理节点。每台裸金属均支持VPC+高速无损网络。通过2*25GE上联至裸金属TOR,作为业务网络。第19第19页设计说明联leaf;l全闪采用2*100GRDMA高速无损网卡上联,2*25GE上业务交换机。l通用宿主机通过4*25GE(含计lSDN管控节点2*25GE上联至l块存储节点采用4*25GE上联至管理网采用两口万兆网卡上联页通过软件管理系统来实现算力调度是高效利用算力资源的关键软件管理系统主要包含统一运营管理平台、HPC集群管理调度系统、AI平台调度系统、集群基础软件系统(操作系统、编译器、数学函数库全方位支撑管理平台软硬件系统。统一运营管理平台统一运营管理平台l租户可通过统一运营管理平台为超算中心用户提供一个统一的入口,使其可以方便访问各种资源和服务。实现用户、项目、服务目录、费用、配额、定价、操作日志的统一管理。HPCHPC集群管理与作业调度系统l针对集群打造一体化集群操作系统平台,主要包含集群管理与作业调度系统、综合监控管理平台、调度资源管理、作业管理4大模块。AI平台调度系统AI平台调度系统l基础AI研发平台,提供丰富的算力资源、训练数据、各种算法框架和研发工具,支持分布式训练和自动学习,打通深度学习全链路。高效易用的调度管理平台智能计算深度学习开发用户l数据智能计算深度学习开发用户l数据、训练、调优、推理工程计算工程计算领域用户容器服务AI/HPC/通用行业用户l容器全生命周期管理l可对接有成型架构的外源科学计算科学计算领域用户l作业提交、模板提交l数据管理、队列管理弹性计算云化业务需求用户l基于虚拟化的弹性计算页PaaS:平台即服务TaaS:任务即服务[1]MaaS:模型即服务[2]TaaS服务能框能框使架原生资源+组网高性能无损网络分布式存储文件存储块存储对象存储异构池化算力高性能无损网络分布式存储文件存储块存储对象存储异构池化算力裸金属实例虚拟机实例容器实例AI使能平台九天AI开发框架智算适配层软件跨架构编译器算力抽象运行时跨架构编译器算力抽象运行时NeuWareNeuWare…CANNROCmCUDA智算运营智算运营运营管理模块能力开放用户界面编排调度能力开放用户界面编排调度算力交易智算运维管理性能管理资产管理性能管理资产管理资源管理告警管理运维管理模块算力管理模块容器网络管理裸金属虚拟机算力管理模块容器网络管理裸金属虚拟机算力管理存储管理构成服务用途备注业务软件学科科研算法应用软件/算法统一由学校提供自研、开源、商用AI智算平台AI研发环境AI模型研发、AI教学实训九天智算平台、行业生态伙伴调度平台集群管理数据管理、数据生产、自适应计算、行业算法集群管理调度系统算力平台GPU云主机/GPU裸金属计算集群独享实例,性能稳定,适合于大批量常规任务计算云容器引擎更加细粒度调度,需要应用支持容器化部署对象存储数据存储提供原始数据的归档存储,降低成本文件存储通用算力场景,更稳定并行文件存储超算、智算场景,性能更优计算+调度系统算力、集群调度部署开源调度引擎公网带宽/云专线算力之间互联、数据交互网络算力混合组网安全云安全中心平台安全、租户安全按需九天智算大模型方案总体架构页智算软件平台硬件基础智算软件平台硬件基础设施基于公有云技术底座能力,联合九天共同构建智算平台,提供从数据处理、模型训练到推理应用的境、工具和平台,助力人工智能技术与应用场景的深度融合。视频解析文档解析舆情监管文本审核身份识别票据识别视频解析文档解析舆情监管文本审核身份识别票据识别语音识别语音扩展语音合成人脸识别人脸核身图像审核媒体转码视频安防NLPOCR公有云技术底座训练平台核心功能提供简单易用的多模态数据接入及管理功能,预置多场景标注工具模板提供开放灵活的交互式集成开发环境,预置数据、基础模型、计算框架及算法提供丰富多样的训练资源套餐,如式训练面向各个行业智能化场景,提供全全自动执行核心功能支核心功能支持AI模型云边协同部署和更新,纳管边缘资源,提供云上应用延申到边缘的能力支持多框架模型的统一纳管,支持将本地已训练好的模型导入到平台上进行模型纳管支持模型实时、边缘推理多场景的服务部署,支持通过上传镜像自定义部署服务支持运行推理服务过程中的指标监控、弹性扩容等管理操作,实现运行数据可视化平台架构九天智算平台:自动可视化建模零代码全流程可视化高精度AI自动化开发模型应用推理部署模型应用推理部署端到端AI应用应用家宽推荐家宽推荐结果预测结果预测采购优化采购优化财务稽核财务稽核描述性分析描述性分析预测性分析预测性分析决策性分析决策性分析诊断分析诊断分析闭环服务闭环服务探索性分析探索性分析数据中心数据中心公有云数据本地数据实验分享数据探索模型训练统计分析异常处理特征选择算法组件特征分析空值处理特征相关性超参自动调优数据转换特征编码模型可视化聚类分析类型定义特征衍生数据处理特征工程实验分享数据探索模型训练统计分析异常处理特征选择算法组件特征分析空值处理特征相关性超参自动调优数据转换特征编码模型可视化聚类分析类型定义特征衍生数据处理特征工程任务调度计费管理权限管理云原生算法框架云原生算法框架CPU/GPUASICAI分布式存储数据01行业发展分析录录02方案设计03典型案例04其他大模型高校案例1:项目背景项目背景建设方案建设方案),方案价值方案价值打造超算、智算平台方案架构主要包括AI智算集群、超算集群、高速网络、通用计算集群、高性能存储集群、安全中心、云管平台、运维平台等高校案例2:南京大学项目背景项目背景建设方案建设方案安全的网络隔离环境。通过A100的GPU显卡服务器提供GPU云主机方案价值核心交换机40GE网络TOR*2台管理核心*2台计算TOR*2台存储TOR*2台共享TOR*2台SDN管理交换机*2台接入层管理POD01行业发展分析录02录0303典型案例04其他大模型百度智算大模型方案总体架构智算软件平台硬件基础工具平台文心文心大模型行业大模型视觉生物计算跨模态视觉生物计算跨模态3.5鹏城-百度文心3.5鹏城-百度文心公有云技术底座设施公有云技术底座新兴技术赋能,大模型驱动教育场景创新应用百度智算平台:科研服务中台百度一站式应用开发生产平台百度一站式应用开发生产平台支持数据处理、算法开发、模型训练、模型部署的全流程业务,提供Notebook、零代码可视化托拉拽、AutoML等多种建百度智算平台:构建行业人才体系基于百度智能云产品、技术和企业案例,提供人工智能领域实战环境赛、就业等环节,构建产教融合的人才培养体系,为中国智能经济和智能社会的发展提供AI人才保障。竞赛游学服务竞赛游学服务就业推荐服务教学实训|科学研究|智能应用开发|认证考试|竞赛教学管理平台教学管理课程管理学员画像直播互动考试模块才智中心高性能服务器智能硬件公有云资源人工智能体系化课程高性能服务器智能硬件公有云资源人工智能体系化课程考试认证服务考试认证服务师资培训服务讯飞讯飞大模型架构基于公有云技术底座能力,联合科大讯飞共同构建超算智算平台。本方案架构主要包括底层算力集群、智运工具链智运工具链运营平台通用AI训练平台通用AI训练平台智训大模型训练平台数据处理平台数据处理平台 智管智管智管平台 令openEuiercaNhs星火版操作系统异构计算框架异构芯片讯飞星火大模型平台:为用户提供一站式服务多平台支持全信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论