版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
01
行业发展分析02
方案设计目录03
典型案例04
其他大模型2021.07教育部等六部门联合发布《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》核心目标:发挥数据作为新型生产要素的作用。构建新型数据中心
、促进教育数据应用
、推动平台开放协同、升级网络学习空间2023.10教育部等六部门联合发布《算力基础设施高质量发展行动计划》
“算力+教育”:鼓励科研院所根据需求适度建设算力资源
,有效支撑面向重大项目或课题的开发与创新。推进公共算力资源覆盖校园
,鼓励各类高等院校、职业院校积极运用算力平台为学校实习实验实训环境、平台和基地建设及转型发展
提供支撑
,促进教育公平
,全面提升教育体系内在质量水平。职业教育职教“双高计划”建设高水平高职学校和高水平专业2021.10两办《关于推动现代职业教育高质量发展的意见》
2022.04《中华人民共和国职业教育法(修订草案)》深化产教融合
推动职普融通
聘用时强化技能要求高等教育高校“双一流”建设世界一流大学和世界一流学科2021.03教育部《高等学校数字校园建设规范(试行)》2022.03教育部《教育部高等教育司2022年工作要点》大数据、人工智能赋能
信息化与人才培养深度融合与创新近年来,
国家高度重视高等教育和职业教育改革发展
,政策频出。聚焦教育新型基础设施建设
,支撑一流大学与一流学科、高水平职校与高水平专业建设
,服务高科技、高技能人才培养
,推动教育和经济社会高质量发展。新基建推动数智化新发展,信息化与人才培养深度融合纲领性政策高校智算超算第
3
页
在云计算技术的整体发展推动下,教育云具有资源云化、数据云化、业务云化三个共性特点,呈现顶层设计先行,智算超算需求突出趋势。资源云化-降本增效云原生与容器技术日益成熟,设施资源的横向拉通,提升运维效率。G端
B端C端业务云化-智能应用以统一资源平台为底座,
算力需求快速部署、快速迭代。G端B端C端主管部门电子白板K12学校摄像头高职学院电子班牌教师学生家长电脑学生卡闸机 PaaS常见架构与技术栈
REST多租户
并行处理应用服务器分布式缓存 IaaS常见架构与技术栈
系统虚拟化分布式存储关系型数据库NoSQL数据云化-数据驱动通过数据采集、数据汇聚、数据挖掘,实现数据对业务的赋能。智慧校园2.0教育新基建:
5G+云网成为新底座云化、智能化是教育行业信息化发展趋势技术架构多样,解决方案基本类似用户管理
+服务
教学
+管理科研
+实训学习应用数据建模模型训练
机器学习分布式文件系统/数据库数据仓数据湖基础信息化技术在教育行业广泛应用融合创新,全面开启智能化时代
SaaS常见架构与技术栈
HTML/CSSJavaScriptSilverlightAdobeAIR数字校园
智慧校园1.0全域数据库、主题库资源统一管理、灵活调度政府平台数据计算数据存储数据治理数据采集计费管理安全管理服务管理资源管理第
4
页智能终端采集可视/代码埋点数据人工导入数据管理数据融合数据清洗云原生应用应用能力开放架构不变无缝迁移教育省级平台教育大平台监控系统项专属云传统自建商业模式云服务模式,按资源容量付费,灵活;初始投入小软硬件Capex一次买断,初始投入大,灵活性较差部署速度快;业务通常只有分钟级别慢;通常以月为单位灵活性高;按需伸缩集群规模低;通常需要提前做3-5年规划,采购周期长生态通过应用市场快速同步公有云应用,加速业务创新不具备同步公有云应用市场能力可用性专业运维团队提供更高服务的可靠性,支持业务容灾部署可用性取决于基础设施条件和运维团队水平,实现容灾需要更高的成本付出可靠性享受公有云机房T3+高可靠等级,云服务可用性最高可达99.95%可靠性受限客户机房或托管机房本身能力运维模式运维即服务,集中统一运维,成本低,对一线人员要求低第三方独立运维较多,成本高,人员要求高且流失率高,稳定性差目前在人工智能教学、科研、实训等环境搭建过程中普遍面临的多种痛点新兴学科在教学、科研、实训环境搭建过程中面临诸多痛点Deadline算力资源不足顶会workshop、论文投稿deadline实验室计算资源紧张,短期算力需求暴增训练数据不便获取公开数据集零散,数据集较大本地难以存储;行业数据集较难获取模型部署困难针对不同算法框架的模型,所需要考虑的部署问题和方法都有所不同多人协作困难本地开发环境不便于多人协作,影响学习进度硬件使用成本高学校或学生购置硬件成本高,计算资源利用率低环境搭建繁杂,难维护实验环境种类多,搭建时间数小时到数天不等,后期维护困难高校传统科研计算业务环境面临的困难及挑战第
5
页序号学校规模时间1华中师大1000万亿次2017年2南京大学896万亿次2016年3郑州大学800万亿次2017年4北京大学411万亿次2017年5大连理工350万亿次2016年6上海交大265万亿次2013年7南方科大245万亿次2016年8清华大学215万亿次2016年9中科大158万亿次2016年10复旦大学112万亿次2015年11西交大110万亿次2015年高校属性总数建有超算比例一流高校(原985)423276.19%一流学科建设高校(原211)953536.8%4117算力空间不足:主要集中在250TB10
3
1
1
0存储空间(TB)10250
500
750
1000
1250
1500
1750
2000
2000以上差距:目前ChatGPT-3.5每日消耗算力3640Petafolps(1P=1024T)数据来源赛尔网络调研报告国内某top3高校AI实验室非大模型团队6人共4块3090卡,同实验室的大模型团队10个人用10块A800卡,从全国情况来看算力建设滞后:算力平台建设仍处于起步阶段一流大学普遍重视计算对提高科研创新能力的作用,近年来持续强化自身计算服务能力
,为科研创新提供重要支撑。ChatGPT等人工智能爆火,加剧全国高校算力荒运算能力不足:主要集中在250Tflops运算能力(Tfops)超算智算云-需求分析已建设校级算力平台8.4%未建设校级算力平台91.6%国内高校校级超算中心平台现状750
1000
1250
1500
1750
2000
2000以上第
6
页2
1VS250500494003571应用创新是高校竞争力的重要体现,
这些应用软件对底层的超算、智算资源也提出了新的要求。u数据摘自上海交通大学高性能计算中心官网数据集市场需求:国内高校对超算智算需求的特点大内存需求胖节点CAE、基因拼接、蛋
白质分析等应用异构加速GPU节点分子动力学等应用并行扩展性双路计算节点计算化学、物理、材
料、天文等应用自然科学生命科学BioInformatic,
…仿真设计高速网络
(提高数据的IO)多浮点支持(FP64/FP32/FP16/INT8)高度并行化(问题的拆分与并行计算)第
7
页Vasp,
Lammps,Gaussian
…OpenFOAM,
…应用软件需求异构性(CPU+GPU)使用GPU最多的应用使用CPU最多的应用松耦合高性能计算数据密集型高性能计算
场景
场景
场景金融风险评估/遥感与测绘/分子动力电磁仿真/流体动力学(CAE)/汽车碰撞气象预报/基因测序/图形渲染/EDA/学模拟能源勘探
资源需求
资源需求
资源需求特性l
网络需求适中l
高网络IO(如IB)l
高网络IO(如IB)l存储需求适中l存储需求适中l
高存储IO当前人工智能超算中心在地球科学、生命科学、工业仿真、物理化学材料、油气勘探、智慧城市等领域发挥着越来越重要的作用。强劲算力能够有力支撑用户运行高精度、多尺度的建模与仿真
,数据训练与推理
,促进各领域的科技创新与智能化创新。图形CAD工作站
场景机械/工业制图设计/GPU3D/制图能力/建筑信息模型/三维建模渲染
资源需求l
网络需求适中l存储需求适中智算、超算涉及的主要学科生命科学医学/生物学基因测序/蛋白质动力学紧耦合高性能计算材料学/化学自旋电子学/纳米科学分子动力学CAECAE仿真/汽车/芯片碰撞/流体/电磁天文物理天体测量/天体力学宇宙起源地球/地理地球模拟地理信息空间数据气象环境天气/气象预测污染/臭氧空洞智算学科与专业第
8
页01
行业发展分析02
方案设计03
典型案例目录04
其他大模型服务目录项目管理用户管理统一运营管理平台配额管理计费管理总览视图权限管理规格定价操作日志运
维监控
平
台强电系统弱电系统不间断电源系统制冷系统监控系统消防系统机房工程人工智能平台高性能计算平台通用算力平台数据处理
模型开发模型训练自动建模模型部署
模型推理模型管理
模型监控调度策略资源监控
作业管理
应用中心云主机
裸金属
云硬盘预置算法框架:PyTorch、Tensorflow、PaddlePaddle...九天智算平台集成开发环境:Jupyter
Lab、
VSCode生态伙伴智算平台数据管理并行环境
编译器
自动化部署镜像服务对象存储
VPC公有云技术底座管理节点AI计算集群HPC计算集群通用云计算集群高速存储集群
(并行文件存储)高速RDMA网络基于公有云技术底座能力,
打造超算
、
智算平台
。
本方案架构主要包括AI智算集群、超算集群、高速网络、通用计算集群、高性能存储集群、安全中心、云管平台、运维平台等。软件基础设施平台安全智算、超算云方案总体架构基建基础设施硬件基础设施第
10页智算云超算云
自有能力生态合作超算中心融合管理子系统(包含统一门户)高速网络交换子系统通用CPU算力子系统GPU智算子系统
HPC超算子系统全闪存存储子系统高性能文件存储子系统典型超算智算中心核心系统单元包含通用计算子系统、智能计算(AI)
子系统和高性能计算(HPC)
子系统。l
超算计算节点和智能计算节点分别通过IB/RoCE网络等高速网络交换子系统进行高速互连;l
集成多层次、
多协议、
多种数据保护模式的全闪存存储系统和高性能并行文件存储系统
,
以及配套的信息安全子系统和超算中心融合管理子系统。超算智算中心系统组成典型超算数据中心架构信息安全子系统第
1
1
页技术特点:支持-25℃~55℃宽温工作,适应户外变电站部署。应用场景:确保设备在极端环境下的稳定运行。国产化适配:采用国产散热技术,提升设备的环
境适应性。技术特点:训练节点双电源冗余,推理节点支持热插拔(MTTR<30分钟)。应用场景:保障设备的高可靠性和快速恢复能力。国产化适配:基于国产硬件设计,提升系统的整
体可靠性。分层算力配置
推理节点设备型号:寒武纪MLU370-X8数量:
100台单价:4万元算力指标:8000TOPS(INT8)应用场景:实时巡检推理
训练节点设备型号:昇腾910B-640TOPS数量:80台单价:
12万元算力指标:51200TOPS应用场景:大模型训练(负荷预测)
参数服务器设备型号:海光DCU3256数量:20台单价:6万元算力指标:64核/节点应用场景:模型参数同步
边缘节点设备型号:浪潮NE5260M(带NPU)数量:30台单价:4万元算力指标:200TOPS应用场景:变电站数据预处理硬件选型与算力集群散热设计可靠性设计第
1
2
页性能指标:热层2000万IOPS,
温层500GB/s带宽,冷层10GB/s顺序读写,满足不同数据存储需求。存储层级:热层采用华为Dorado
8000
NVMe
SSD,温层采用曙光ParaStor
500K
HDD,冷层采用阿里云OSS冷存储。数据类型:热层存储训练数据集和模型Checkpoint,温层存储历史巡检影像和SCADA数据,冷层存储归档模型和十年期数据。
热层存储产品:华为Dorado
8000。配置:1PB
NVMe
SSD。数据类型:训练数据集/模型Checkpoint。性能指标:
2000万IOPS。应用场景:满足高频访问和快速读写需求。
温层存储产品:曙光ParaStor
500K。配置:5PB
HDD。数据类型:历史巡检影像/SCADA数据。性能指标:
500GB/s带宽。应用场景:存储中等访问频率的数据。
冷层存储产品:阿里云OSS冷存储。配置:10PB对象存储。数据类型:归档模型/十年期数据。性能指标:
10GB/s顺序读写。应用场景:长期数据归档和备份。大模型网络架构网络平面:参数面采用RoCEv2,数据面采用NVMeover
Fabrics,边缘接入采用5G+工业WiFi。设备型号:参数面使用迈络思SN3700,数据面使用曙光RDMA网关,边缘接入使用华为AP7060。性能指标:参数面200G/<5μs,数据面100GB/s,边缘接入1Gbps,确保高效数据传输。技术:
RoCE
v2。设备型号:迈络思SN3700。性能指标:带宽200G,延迟<
5μs。核心功能:模型并行训练参数同步,确保高效分布式训练。技术:
NVMe
over
Fabrics。设备型号:曙光RDMA网关。性能指标:带宽100GB/s。核心功能:训练数据高速读取,提升数据传输效率。技术:
5G+工业WiFi。设备型号:华为AP7060。性能指标:带宽1Gbps。核心功能:无人机/传感器数据回传,满足边缘设备的数据传输需求。网络与存储方案
第
13
页存储架构参数面优化数据面优化边缘接入优化MindSpore验证组件:
MindSpore。认证:模型迁移测试。测试结果:
TensorFlow模型迁移成功率95%
,适配国产深度学习框架。昇腾910B验证组件:昇腾910B。认证:电力工业环境适应性测试。测试结果:
-40℃~70℃稳定运行,满足电力行业恶劣环境需求。模型安全
措施:训练数据溯源+模型水印(防篡改)。标准符合:满足等保三级+电力行业信创要求。技术细节:对模型进行水印标记,防止模型被篡改和非法使用。物理安全
措施:训练中心部署于电网自有园区。标准符合:符合GB50174-2017A级标准。技术细节:确保数据中心的物理环境安全,防止外部干扰和破坏。数据安全
措施:国密SM4加密+数据分级(生产数据禁止出境)。标准符合:符合《电力监控系统安全防护规定》,确保数据安全。技术细节:对敏感数据进行加密处理,严格控制数据访问权限。组件:麒麟OS。认证:电力业务系统兼容性测试。测试结果:适配SCADA/EMS系统,确保操作系统与电力业务系统的兼容性。合规性
国产化验证清单麒麟OS验证安全架构设计安全架构第
1
4页方案设计说明:1、AI计算集群:AI计算集群间采用4*200GB
RDMA网络
,满足高带宽低时延通信需求;各节点同时通过25G网卡接入上联裸金属TOR并接入业务核心交换机。2、
HPC计算节点:采用100GB
RDMA网络搭建超算集群
,各节点同时通过10G网卡接入上联业务TOR
,再上联接入存储核心交换机。3、通用计算区:各服务器通过25G网卡接入上联计算
TOR
,为租户提供云主机、块存储等产品。4、高性能存储:
通过100G网络组成并行文件存储集群,提供给超算及智算集群使用。5、SDN网络区:提供SDN设备
,实现VxLAN封装/解封装
,完成Overlay与Underlay切换。6、网络互联区:
由管理核心、业务核心、存储核心及汇聚交换机组成
,用于南北向以及东西向流量。7、管理区:提供带外和带内管理
,带外通过1个GE网卡接入IPMI交换机
,带内通过10GE接入管理TOR。8、
出口区:配置公网出口、专线接入以及运维专线等网络
,满足公网用户、校内用户以及运维人员接入需求。SDN防火墙AI计算集群
裸金属TOR计算TORSDN管控业务TOR...高性能存储节点
...RoCE交换机集群高速网络网络互联区
业务核心交换机业务汇聚交换机高性能防火墙存储核心交换机管理区带内管理带外管理管理接入TOR各服务器BMC接入SDN网络区SLBSDN网关图
例
200GE——100GE40GE25GE10GE
GE智算、超算总体网络拓扑ironic...管理节点
运维专网八第
1
5
页专线接入公网接入通用计算节点HPC节点专线接入交换机*2管理汇聚交换机接入路由器*2并行文件存储Spine交换机leaf交换机leaf交换机存储TOR宿主机...整套网络分为超高速计算网络和业务网络
、
管理网络三部分
。
超算节点
、
智算节点以及并行文件存储均采用超高速网络
。超高速计算网络
…………Fat-Tree(胖树)结构l成熟的
Infiniband拓扑结构l可灵活配置为非阻塞线速或
1/N线速l容易保障网络延迟和带宽性能l规模越大,网络成本增加越快管理汇聚交换机10GE管理接入交换机/千兆IPMI交换机IB交换机:40端口非阻塞管理HDR
200Gb/s
InfiniBand智能交换机100Gb汇聚交换机25Gb接入交换机网络架构—IB组网SpineLeaf网络架构第
1
6
页管理/监控网络业务网络以物理机形态提供
,
上层部署超
算平台
,由超算平台统一管理集群间
采
用
单口1
00G
R
DMA
高速
无损网络互联
,
业务采用万兆双
网口上联业务交换机
,
业务交换
机上联存储小核心。
...
...SpineLeaf超算管理节点超算平台详细组网架构设计说明管理和监控接入交换机(10GE)......存储核心*2第
1
7
页业务节点底层基于裸金属
,
单独配置管理节点
(管理域
)
用
于
部
署
智
算
管
理
平
台
,
另配置超算裸金属管理节点
。
每台裸金属均支持V
PC+
高速无损网络
。
通过2
*
25GE上联至裸金属TOR,
作为业务网络。...AI计算节点
...图形渲染集群裸金属管理节点*2台智算平台详细组网架构计算核心*2
设计说明裸金属接入交换机(25GE)第
18页接入交换机(25GE)SpineLeaf......l混
闪
并
行
文
件
存
储
采
用
2
*
100
G
R
DMA
高
速
无
损网
卡
上
联leaf;l全闪采
用
2
*
100
G
R
DMA
高
速无
损网
卡上联,
2
*
25
GE
上
联存储交换机并接入存储小核心供昇腾
910
B
使用
。l对
象
存
储
及
四
层
负
载
均
衡
设
备
均
采
用
4
*
10
GE
上
联
至
万
兆
业务交换机
。l并行文件存储管理
网采用两口千兆网
卡上联至管理交换
机
。l对象存储管理网采用千兆管理网
。...
全闪并行文件存储
...
混闪并行文件存储存储核心
并行文件存储及对象存储组网架构SpineLeaf...对象存储四层负载均衡设计说明存储接入交换机(10GE)第
19页存储接入交换(25GE)......管理接入交换机设计说明l
通用宿主机通过4
*
25GE
(含计
算、
存
储网
)
上
联
至
计
算
TOR;l
SD
N
管控节点2
*
25GE
上联至计算TOR;lironic
(
裸
金
属
服
务
)
和DHCP节点2
*
25GE上联计算TOR
,2
*
25GE上
联至
裸
金
属TOR;l
块存储节点采用4
*
25GE上联至计算TOR;l块
存
储
采
用
千
兆
管
理
网
,
其余管理网采用两口万兆网卡上联
至管理交换机。...ironic&DHCP...SDN管控...块存储
...
通用宿主机通用算力组网架构管理接入交换机(10GE)第
2
0
页裸金属TOR
(25GE)计算TOR(25GE)计算核心
通过软件管理系统来实现算力调度是高效利用算力资源的关键软件管理系统主要包含统一运营管理平台、HPC集群管理调度系统、
AI平台调度系统、
集群基础软件系统(操作系统、编译器、数学函数库)
,全方位支撑管理平台软硬件系统。l租户可通过统一运营管理平台为超算中心用户提供一个统一的入口
,
使其可以方便访问各种资源和服务。
实现用户、项目、服务目录、费用、配额、定价、操作日志的统一管理。l
基础AI研发平台
,
提供丰富的算力资源、
训练数据、
各种算法框架和研发工具
,
支持分布式训练和自动学习
,
打通深度学习全链路。l
针对集群打造一体化集群操作系统平台
,
主要包含集群管理与作业调度系统、
综合监控管理平台、
调度资源管理、作业管理4大模块。AI平台调度系统统一运营管理平台HPC集群管理与作业调度系统算力管理系统高效易用的调度管理平台第
2
1
页智能计算
深度学习开发用户l
Notebook服务l数据、训练、调优、推理
全流程覆盖l
主流框架及开发工具科学计算
科学计算领域用户l
Eshell(命令行)、客户端l作业提交、模板提交l数据管理、队列管理工程计算
工程计算领域用户l
图形提交l仿真计算:前处理、求解、后处理l
VNC可视化、会话桌面容器服务 AI/HPC/通用行业用户l容器全生命周期管理l
高级配置
,批量操作l
可对接有成型架构的外源
服务供应商弹性计算
云化业务需求用户l基于虚拟化的弹性计算l
多种规格、弹性灵活l
支持远程桌面及命令行
核心模块
平台核心模块第
22
页…CANNNeuWareROCmCUDA跨架构编译器
算力抽象运行时
AI+视频|自动驾驶
|智慧医疗
|
元宇宙
|
多媒体渲染
|
大模型训练
TaaS服务
使AI使能平台智能系统能
框九天AI开发框架智算运营管理模块架TensorFlowPyTorchMxNetPaddlePaddleMindSpore运营用户界面编排调度计量计费能力开放智算适配层软件智算协同原生智算运维智算中心构建标准统一的智算中心软硬件全栈技术体系,其中研究院九天平台负责智能系统建设
,云能力中心负责智算统一运营门户建设
,提供裸金属、虚拟机、容器的软件服务,各设备厂家提供计算/存储/网络等物理设备、CANN等算子库。IaaS:基础设施即服务PaaS:
平台即服务TaaS:任务即服务[1]MaaS:模型即服务[2]注[1]
TaaS:用户只需关注业务本身
,无需关心应用、平台、基础设施的组织形式和状态注[2]MaaS:基于大模型的新型
商业模式
,为下游应用提供安全、高效、低成本的模型使用Hypervisor
+
IaaS服务裸金属实例虚拟机实例
容器实例运维管理模块性能管理智算中心全栈技术架构算力管理存储管理网络管理异构池化算力
分布式存储
高性能无损网络 CPUGPU
DPU
块存储文件存储对象存储RoCE
DPU裸金属虚拟机算力交易算力基础设施PaaS服务容器算力管理模块第
2
3
页资源+组网告警管理日志管理资产管理资源管理构成服务用途备注业务软件学科科研算法应用软件/算法统一由学校提供自研、开源、商用AI智算平台AI研发环境AI模型研发、
AI教学实训九天智算平台、行业生态伙伴调度平台集群管理数据管理、数据生产、自适应计算、行业算法集群管理调度系统算力平台GPU云主机/GPU裸金属计算集群独享实例,性能稳定,适合于大批量常规任务计算云容器引擎更加细粒度调度,需要应用支持容器化部署对象存储数据存储提供原始数据的归档存储,降低成本文件存储通用算力场景,更稳定并行文件存储超算、智算场景,性能更优计算+调度系统算力、集群调度部署开源调度引擎网络公网带宽/云专线算力之间互联、数据交互网络算力混合组网安全云安全中心平台安全、租户安全按需智算、超算平台配置示例第
2
4
页NLP
OCR语音
图像
视频模
型训练基于公有云技术底座能力
,
联合九天共同构建智算平台,
提供从数据处理
、
模型训练到推理应用的一
站
式
全
流
程
AI
开
发
服
务
,
为大模型
、
数
字
人
、
智能质检
、
智能客服等
AI
能
力
及
应
用
提
供
研
发
环境
、
工具和平台,
助力人工智能技术与应用场景的深度融合。公有云技术底座智算软件平台AI统一算法仓:行业汇聚、百花齐放推理平台九天智算大模型方案总体架构高速存储集群(并行文件存储)数据探索数据标注硬件基础设施分布式训练自动建模多卡训练单卡训练九天大模型架构高速RDMA网络AI计算集群媒体转码视频安防通用云计算集群HPC计算集群管理节点健康码识别图像审核人脸核身人脸识别语音扩展语音识别票据识别身份识别文本审核舆情监管语音合成文档解析视频解析第
2
5
页训练平台
核心功能提供简单易用的多模态数据接入及
管理功能,预置多场景标注工具模
板提供开放灵活的交互式集成开发环
境,预置数据、基础模型、计算框
架及算法提供丰富多样的训练资源套餐,如
CPU、
GPU等,支持多机多卡分布
式训练九天训练平台
平台训练模块提供丰富的算力资源、训练数据、齐全的算法框架和研发工具,支持单机和分布式等多种训练模式。国产芯片适配实现对华为昇腾、寒武纪MLU等异构计算资源的算力资源调度和模型适配,集成国产AI芯片和算法框架,提升生态多样性系统性能优异通过多级系统缓存,大幅度提升小文件读取效率。通过GPU虚拟化,大幅度提升利用率,降低使用成本高可用架构保障基于云原生技术架构,平台具备容灾自愈、弹性伸缩、负载均衡、灰度发布等高可用特性多机多卡分布式训练针对大模型训练时间长、效率低的痛点,实现基于数据并行的多机多卡分布式训练面向各个行业智能化场景,提供全
自动建模服务。可完成AI流水线的
全自动执行九天智算平台:训练平台模型训练自动建模数据处理模型开发第
26
页平台架构支持AI模型云边协同部署和更新
,
纳管边缘资源
,提供云上应用延申
到边缘的能力支持模型实时、
边缘推理多场景的
服务部署
,支持通过上传镜像自定
义部署服务支持多框架模型的统一纳管
,支持
将本地已训练好的模型导入到平台
上进行模型纳管支持运行推理服务过程中的指标监
控、
弹性扩容等管理操作
,实现运
行数据可视化模型管理模型部署模型推理云边协同九天推理模块沉淀优秀共性的AI能力,研发测试双环境保障服务低成本迁移,可灵活组合形成复合AI能力,提升AI应用的开发和部署效率。高效部署模式产研双轨自由部署切换,云边端协同部署,自有AI模型和成熟AI能力灵活组合部署超高吞吐量体系化AI标准化部署,使用TensorRT加速和动态Batch优化提升服务吞吐量高性能推理业界领先模型加速与压缩算法,适配多种硬件、多框架的高性能模型推理九天智算平台:推理模块超高并发量弹性高可用,服务毫秒级响应;超高并发量可达到4600次/秒核心功能第
27
页
数据探索数据处理特征工程模型训练建模中心智算平台基于大数据特征分析、业务智能算子、AutoML、AutoCV等核心能力,提供结构化数据一站式建模服务,降低AI技术门槛,实现模型治理和模型全生命周期管理。模型九天基础设施云原生算法框架CPU/
GPUASIC
AI分布式存储数据应用
家宽推荐
结果预测
采购优化
财务稽核
零代码全流程可视化面向广泛领域,提供低门槛、零代码的建模工具,实现流程化、可复用、可追溯高精度AI自动化开发将业界最新模型和技术固化形成CV、NLP算法库,沉淀行业典型场景预置模型端到端AI应用支持一键发布为API在线服务、或下载成为SDK,灵活适配各种运行环境九天智算平台:
自动可视化建模第
28
页九天自动建模描述性分析预测性分析决策性分析诊断分析闭环服务探索性分析
模型应用推理部署超参自动调优模型可视化特征分析时序/地域分析特征相关性特征编码公有云数据本地数据空值处理数据转换特征选择算法组件聚类分析统计分析模型验证应用实验分享特征衍生计费管理权限管理日志监控任务调度数据中心类型定义异常处理平台架构02
方案设计03
典型案例04
其他大模型目录01
行业发展分析打造超算、智算平台方案架构主要包括AI智算集群、超算集群、高速网络、通用计算集群、高性能存储集群、安全中心、云管平台、运维平台等l联合浙江公司、售前中心
,基于九天平台承建浙江大学高性能计算及智算中心项目,整合高性能CPU、GPU、
国产AI芯片等计算资源,通过九天人工智能平台开放
,让每位师生都享有高性能算力
,大大
提升科研效率
,降低师生科研门槛l提供24.6P
FLOPS单精度算力(FP32),
9.1PFLOPS双精度算力(FP64)
,高速网络采用800Gbps带宽
,并行文件存储达17.2PB。浙江大学现有高性能计算集群为数十个中小型集群,各集群由科研团队自管,存在部分服务器裸硬件没有集群化,算力较为分散。缺乏校级平台统一管理全校资源,单项目无法一次性调用大批量资源,成果产出效率和速度低。为实现高效的科研及教学,计划建设一套高效、安全、可靠的智算超算专属云平台。(1)实现算力统一门户。将超算能力与智算能力结合,实现数据模型训
练到模型推理及验证的无缝衔接。(2)AI智算集群、超算集群、高速网络
,组建高效科研环境。有效提升浙江大学科研实训效率,满足广大师生的数字化需求。高校案例1:浙江大学算力中心项目方案价值项目背景建设方案第
30
页校内网校内网接入防火墙*2台核心交换机*2台互联层40GE网络TOR*2台SDN网关(2台-阿里提供)管理核心*2台管理POD存储TOR*2台共享TOR*2台10GE管理TOR*2台
SDN管理交换机*2台…GE管理接入TOR*2台(容量型)4台接入层中移南大联合体通过搭建校企合作人才培养平台
,实现教育教学与产业、学校与企业深度合作。拟建设一套安全可靠的信创专属云平台
,融合IaaS及PaaS层服务能力
,构建包括数据中台和应用中台的“两中台”解决方案
,提供操作系统、计算、存储、
网络
等相关服务套件
,实现面向内部各部门、上下游客户的标准化IT服务
,以支撑稳态及敏态业务场景。建设方案采用XX公有云全栈专属云(ECSO)建设方案
,通过以租代建的方式,为南京大学提供高性能国产化服务器
,实现计算资源、存储资源、
网络等资源的专属使用
,满足多人并发上课场景的性能要求。提供高
安全的网络隔离环境。通过A100的GPU显卡服务器提供GPU云主机服务
,满足南京大学课程研发实训需求。(1)
国产化信创资源池。安全可靠
,资源独享
,避免业务高发期资源被抢占造成的业务卡顿情况。(2)GPU云主机
,有效提升南京大学课程研发实训效率
,满足广大师生的数字化需求。高校案例2:南京大学ECSO信创专属云项目方案价值项目背景第
31
页管理域核心防火墙&内网防火墙*2台SDN控制器(3台)-阿里提供CNP、Lakehouse(9台)对象存储EOS(4台)NFV专用计算节点(2台)容器、容器镜像(3台)宿主机ECS(8台)网络设备管理交换机*2台GPU宿主机GACS
1台共享POD计算POD计算TOR*2台平台安全(5台)管理节点(5台)出口层IPMI接入*2台云硬盘EBS03
典型案例04
其他大模型目录01
行业发展分析02
方案设计自然语言处理视觉跨模态生物计算基于公有云技术底座能力,联合百度共同构建智算平台能力,充分发挥数据、算法、算力三要素价值构建从新型基础设施到高质量发展的完善AI公共服务。公有云技术底座行业大模型智算软件平台文
心大模型百度智算大模型方案总体架构语言理解与生成
ERNIEERNIE3.0Zeus
鹏城-百度文心ERNIE
3.5高速存储集群(并行文件存储)OCR图像表征学习VIMER-StrucTexT硬件基础设施文心一言ERNIE
Bot单序列蛋白质结构预测HelixFold-Single文图生成ERNIE-ViLG文档智能ERNIE-Layout化合物表征学习HelixGEM蛋白质结构分析HelixFold场景化工具高性能部署大模型压缩数据标注与处理大模型精调自监督视觉表征学习
VIMER-CAE视觉处理多任务学习VIMER-TCIR高速RDMA网络AI计算集群通用云计算集群语音-语言
ERNIE-SATHPC计算集群工具平台视觉-语言ERNIE-ViL搜索ERNIE-Search代码ERNIE-Code多任务视觉表征学习VIMER-UFO百度大模型架构跨语言ERNIE-M对话
PLATO-XL管理节点第
33
页文心
一
言教师:助力教师教学场景提高工作效率学生:学习、就业建议好帮手一站式教学、实训平台
,AICG实训室教学实训考核百度智算平台:
大模型的教育行业解决方案TO
C/TO
B新兴技术赋能,大模型驱动教育场景创新应用实训室应用助手智能创作在线学习教材资源项目实训智能备课智能出题AI对话综合实训考试/练习人才认证就业指导学习/作业第
34
页TO
B支持数据处理、算法开发、模型训练、模型部署的全流程业务
,提供Notebook、零代码可视化托拉拽
、AutoML等多种建模方式
,满足不同研发层次的需求。一站式
应用开发生产平台百度智算平台:科研服务中台提供可视化建模功能,能降低模型研发门槛,支持快速实现模型搭建自定义代码和参数修改百度第
35
页模型评估技术支撑中台基于百度智能云产品
、
技术和企业案例
,
提供人工智能领域实战环境和课程
,
围绕教学
、
认证
、
实践
、
比赛
、
就业等环节
,
构建产教融合的人才培养体系
,
为中国智能经济和智能社会的发展提供AI人才保障。教学管理平台教学管理课程管理学员画像直播互动考试模块才智中心基础资源依托行业人才培养标准,以课程为核心,提供线上线下相结合的一站式解决方案科研模块模型构建服务发布能力引擎通用模型专有模型实验模块课程资源容器引擎人工智能体系化课程百度智算平台:构建行业人才体系教学实训
|科学研究
|智能应用开发|认证考试|竞赛师资培训服务考试认证服务公有云资源智能硬件高性能服务器竞赛游学服务就业推荐服务第
36
页运营平台智能应用开发通用AI训练平台大模型训练平台工具链场景大模型行业大模型星火基础大模型数据处理平台 数据预处理
数据标注基于公有云技术底座能力,
联合科大讯飞共同构建超算智算平台
。
本方案架构主要包括底层算力集群
、星
火
智
算
平
台
等
。
是
面
向
运
营
商
、
高校
、
科
研
院
所
及
企
业
等
客
户
群
体,
提
供
通
用
AI
训练
、
行
业
大
模
型训练及推理
、
开发服务为一体的通用人工智能
“
AI
+
算力
”
的综合解决方案
。智管平台 异构计算多租户/资源隔离
令open
Euier
ca
Nhs星火版
操作系统
异构计算框架公有云技术底座软件平台讯飞智算大模型方案总体架构智运智训智管硬件基础设施高速存储集群(并行文件存储)推理服务运营管理高速RDMA网络AI计算集群讯飞大模型架构HPC计算集群通用云计算集群数据接入预制模型预制算法预制框架异构模型转换管理节点异构训练框架评测第
37
页资源调度异构芯片核心效果全面领先源头支持中英文多语种,在多项测评任务效果优秀,标准大模型通用性更强,行业大模型更专业面向业务开箱即用提供丰富的基础提示资源包,涵盖20余个专业场景,即开即用多个行业大模型
覆盖全行业多个行业大模型可选,针对不同场景使用你专属的行业助手讯飞星火大模型平台:为用户提供一站式服务多平台支持全信创配置支持多种平台切换,并面向信创平台做了深度优化政务大模型公文大模型
数学能力
多模态能力
知识问答
逻辑推理
文本生成
语言理解
星火大模型代码大模型
代码能力第
38
页大模型工作流编排插件
环境配置执行器
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金属饰面板安装施工方案
- 仓库正常考勤制度
- 土建队考勤制度
- 人事部门考勤制度
- 口腔诊所考勤制度
- 2文明办公与考勤制度
- 五金企业考勤制度
- 定制板材维修方案范本
- 策划实习生应聘问题全解
- 徐州证券面试题目及答案
- 大学英语语法重点总结
- 2026年大学物理力学知识点精讲与习题试卷及答案
- 守正创新担使命凝心聚力启新程-校长在2026年春季学期全体教师开学大会上的讲话
- 教师招聘考试公共基础知识试题及答案
- 2026 年离婚协议书 2026 版民政局专用模板
- 2026及未来5年中国电力工程总承包行业市场竞争态势及未来趋势研判报告
- GB/T 29086-2012钢丝绳安全使用和维护
- GB/T 17766-1999固体矿产资源/储量分类
- 船体结构介绍课件
- 中南大学城市工程系统规划课件
- 30第七章-农村社会治理课件
评论
0/150
提交评论