




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智算中心暨电力大模型创新平台解决方案智算•超算1行业发展分析4主流智算平台介绍2
方案架构设计3
典型案例CONTENTS智算中心是以GPU、
AI加速卡[1]
等智能算力为核心、
集约化建设的新型算力基础设施,提供软硬件全栈环境,主要承载模型训练以及适合中心推理、多媒体渲染等业务,支撑各行业数智化转型升级具有较强的普适性,可服务于toB/toC适合有智能化转型需求行业,如自动驾驶、智慧城市,toB为主专用性强,主要面向地球物理、分子力学等基础学科以及军工研究注[1]:行业中GPU是一个较为泛化的概念,从功能角度划分,GPU特指具备图形渲染能力的硬件,AI加速卡特指用于AI推理或训练的硬件。本材料主要针对AI加速卡进行分析
TaaS是指TensorFlow
asa
Service,深度学习平台及行业大数据解决方案智算中心定义建设目的应用领域主要特征•
专用ASIC芯片为主•
为大规模科学计算任务提供支撑服务带动政府治理及各行各业数智化转型升
级,促进产业AI化、AI产业化促进信息服务业云化转型,通过资源共享及弹性发放,供用户按需使用资源•CPU通用算力为主•
提供IaaS、PaaS、SaaS级服务3.算力、数据、算法的融合平台4.以产业创新升级为目标•GPU智能算力为主•
提供TaaS任务式服务1.算力公共基础设施2.计算架构技术领先算力的几种形态
超算中心
智算中心
云计算中心
提升国家及地方科研创新能力第
3
页美国:以保持国家竞争力为目的,最先发展智能超算中心,具备单体算力大、科研实验室居多国内:近两年已有30+城市建成或在建设智算中心,总体投资规模超千亿,旨在带动当地产业智能化升级参AI领域的竞争是未来世界领导权的竞争NSF基础科研520亿美元创新与技术局290亿美元关键技术研发169亿美元应对AI的机遇和挑战,争取主动权数字领域
人工智能领域计算基础设施1500亿欧元200亿欧元
96亿欧元 推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施国家新一代人工智能
创新发展试验区建设试验区国家人工智能
创新应用先导区夯实技术人工智能基础设施示范工程投资补贴全球:数据的高速增长带来AI算力需求激增,到2030年,AI算力需求增长约390倍来源:罗兰贝格国内:我国智算增长迅速,智算占比从2021年的51%跃升为2023年的70%来源:中国信通院《中国算力发展指数白皮书(2022)》政策加持国内外提前布局,智能算力需求激增各国政府布局AI领域全栈能力,并出资引导智能算力基础设施建设,
AI智能算力增速远超摩尔定律智算中心主要由国家政府总体牵头建设,同时基础设施提供商积极参与l
2022年11月30日,OpenAI的对话式AI大模型ChatGPT横空出世,月活破亿仅用时两月,成为史上增长最快的消费类应用
,展现出解放人类生产力的惊人潜质l
微软作为OpenAI第一批投资者,通过优先使用该技术赢得先机,并将ChagGPT与旗下所有产品(Bing、Office、Azure)进行整合
,加速了ChatGPT商业化路径智算增长趋势智算中心布局政策驱动行业发展情况第
4
页结合行业发展报告
,
12个重点场景有较大AI算力需求及发展空间,工业仿真
AR/VR高清视频/影视渲染数智人形象渲染市场成熟度
★★★★整体空间
★★★★根技术:渲染数字孪生3D交互/自然交互3D立体视频
数字虚拟人物理世界三维建模图像渲染市场成熟度★整体空间
★★★★★根技术:CV+NLP+语音+多模态+渲染...智能语音问答
智能网联汽车视觉感知决策分析
车路协同L4-L5级自动驾驶预测预警市场成熟度
★★整体空间
★★
★★
★根技术:CV+NLP+语音+决策智慧制造智慧安防
智慧交通智慧农林
智慧物流
智慧政务
自然灾害应急管理
资源环境治理市场成熟度
★★
★
★
★整体空间
★★
★
★
★根技术:CV+NLP+语音+决策药物研发气候预测石油勘探市场成熟度
整体空间分子动力学天气预报材料科学★
★★
★
★
★根技术:HPC+AI跨模态大模型药物模型自动驾驶大模型
金融模型网络智能化模型市场成熟度整体空间★
★
★
★★★★★★根技术:CV+NLP+语音+多模态...CT/MRI影像分析疾病辅助诊断与早期筛查蛋白质结构预测新药研发市场成熟度
★★整体空间
★★★★根技术:CV+NLP网络故障诊断及预测智能决策智慧业务办理市场成熟度
★★★★整体空间
★★★★根技术:NLP+语音+决策智算中心典型需求场景智慧电网智慧油田遥感测绘新闻、视频、购物
App内容推荐金融、通信、物流
客服风险分析精准营销AI主要应用场景多媒体渲染模型训练智慧医疗自动驾驶智慧运营科研应用AI+视频元宇宙智能客服推荐智慧金融智慧能源第
5
页l
场景:
利用无人机搭载高清摄像
头采集输电线路影像,
通过视觉大模型识别线路缺陷。l
应用价值:
实现缺陷自动识别
,准确率≥99%
,减少人工巡检工作
量,
提升巡检效率和安全性
。
国
产
化
适
配
:
采
用
昇
腾GPU+MindSpore
视觉框架
,
适配国产硬件和深度学习平台。l
场景:
基于历史负荷数据
、气象
数据和电网拓扑结构
,预测未来短期和中长期电力负荷。l
应用价值:
短期负荷预测误差<
3%,
中长期<
5%,
助力电网调
度优化,
降低运营成本
。
国产化
适配:
使用华为云盘古电力预训
练模型
,基于MindSpore框架开
发
,适配国产云服务。l
场景:通过自然语言处理技术理解用户咨询和报修工单
,实现自动回复和工单分类。l
应用价值:
自然语言理解工单,
响应效率提升50%
,改善用户体验
,
提高客服工作效率。
国产化适配:
采用寒武纪NPU推理+中文预训练
模型
,适配国产推理芯片和语言模型。
主流场景及需求
智能客服与工单处理电力负荷预测输电线路智能巡检电力行业核心场景与价值第
6
页数据孤岛问题模型泛化差问题新能源并网优化•
问题描述:电网
PMS
、GIS、
SCADA等系统数据
分散
,难以整合利用。•
解决方案:大模型整合多源数据
,打破数据孤岛,实现数据共享和协同分析。•
国产化适配:使用国产数
据接口和数据治理平台
,
如南瑞继保IEC61850协
议适配器。•
问题描述:光伏、风电出
力预测不准确,导致弃电
率高,影响新能源消纳。•解决方案:科学计算大模
型联合仿真,光伏/风电出
力预测精度提升,弃电率
降低8%。•
国产化适配:采用国产CAE软件与大模型联合仿
真,适配新能源并网优化
需求。•
问题描述:通用大模型在电力领域适配性差
,难以满足特定场景需求。•
解决方案:电力领域预训练模型(如华能“
电盘古
”)提升场景适配性
,优化模型性能。•国产化适配:基于国产深度学
习框架和预训练模型
,适配电力行业应用场景。电力行业核心场景与价值第
7
页超算中心融合管理子系统(包含统一门户)高速网络交换子系统通用CPU算力子系统GPU智算子系统
HPC超算子系统全闪存存储子系统高性能文件存储子系统
超算智算中心系统组成
第
8页
典型超算智算中心核心系统单元包含通用计算子系统、智能计算(AI)
子系统和高性能计算(HPC)
子系统。l
超算计算节点和智能计算节点分别通过IB/RoCE网络等高速网络交换子系统进行高速互连;l
集成多层次、
多协议、
多种数据保护模式的全闪存存储系统和高性能并行文件存储系统
,
以及配套的信
息安全子系统和超算中心融合管理子系统。典型超算数据中心架构信息安全子系统
1.
对外连接网络(网络出口层)分为CMNeT、云专网、
IP专网1.CMNeT:用于公众用户访问智算中心2.云专网:用于智算中心间互联、训推互联3.
IP专网:用于远程管理2.
内部互联网络分为业务/存储网络、管理网络、参数面网络、数据面网络1.业务/存储网络:业务网络用于互联网用户访问智算/通算等资源,存储网络用于调用共享存储资源2.管理网络:主要包括业务管理(K8S平台、安全管理系统
等)和
IPMI3.参数面网络:采用RoCE/IB实现集群内所有AI加速卡的高速互联4.数据面网络:采用RoCE实现智算集群与高性能文件存储
的高速互联智算中心组网分业务/存储、管理、参数面、数据面四个网络平面,与通算相比,智算组网新增参数面网络及数据面网络,采用RoCE全连接无损组网,充分发挥智算并行计算优势,同时组网整体无容灾设计,对运维工作带来新的挑战。
智算中心架构与通算有较大区别
l第
9
页2方案架构设计3典型案例4主流智算平台介绍5
项目优势1行业发展分析CONTENTS强电系统弱电系统不间断电源系统
制冷系统监控系统消防系统机房工程管理节点AI计算集群HPC计算集群通用云计算集群高速存储集群(并行文件存储)高速RDMA网络统一运营管理平台服务目录项目管理用户管理配额管理计费管理总览视图权限管理规格定价操作日志
总体方案架构
l人工智能平台数据处理
模型开发
模型训练
自动建模模型部署
模型推理
模型管理模型监控主要包括AI智算集群、超算集群、高速网络、通用计算集群、高性能存储集群、安全中心、云管平台、运维平台等。平台安全运
维监控
平
台云主机
裸金属镜像服务
对象存储硬件基
础设施基建基础设施应用中心自动化部署预置算法框架:PyTorch、Tensorflow、PaddlePaddle...集成开发环境:Jupyter
Lab、
VSCode作业管理编译器调度策略数据管理资源监控并行环境软件基础设施云硬盘VPC高性能计算平台方案架构通用算力平台第
11
页云技术底座基础模型:
华为云盘古电力大模型
(行业定制版)
,
基于MindSpore框架开发。模型类型:时
序Transformer+图
神经网络(GNN)
融合架构
,适配
电网拓扑结构。国产化适配:支持昇腾910B算子优
化
,
提升模型在国产硬件上的运行
效率。参数量:
130亿参数(含电力领域
知识注入)
,通过昇腾CANN工具
压缩至80亿参数(压缩率38%)
。优化策略:采用量化技术(FP32→
INT8)
结合知识蒸馏
,推
理延迟降低50%
,精度损失<
2%。
国产化适配:使用昇腾CANN工具
进行模型压缩
,适配国产硬件和开
发平台。输入特征:历史负荷数据(1440维
时序)
+气象数据(温度/湿度等20
维)
+电网拓扑特征(邻接矩阵)
。
输出结果:未来15分钟-7天负荷
预测值
,分时段精度要求:短期<
3%
,
中期<
5%。国产化适配:数据预处理组件采用
飞桨PaddlePaddle
,适配国产数
据处理框架。数据清洗与增强清洗规则:剔除异常值(3σ原则)
、填补
缺失值(线性插值)
、
归一化(Min-
Max缩放至[-
1,1])
。增强策略:时序数据采用时间窗口滑动
(窗口大小24*60分钟)
;影像数据采用
旋转/翻转/噪声注入。工具/平台:昇腾AI开发平台(ModelArts)
数据增强模块
,提升数据质量。数据采集与接口数据采集:从SCADA系统抽取分钟级负荷
数据
,分辨率1分钟;无人机影像分辨率
≥4K。技术细节:采用国产化数据接口(南瑞继
保IEC61850协议适配器)
,确保数据采集
的稳定性和兼容性。工具/平台:使用华为云DataArts数据治理
平台
,进行数据的清洗和预处理。基础模型与架构参数量与优化输入输出设计模型架构参数数据集划分划分比例:训练集:验证集:测试集
=7:2:1
,
按时间顺序划分
,避免未来信息泄露。技术细节:自主研发电力数据划分工具(Python实现),确保数据划分的合理性
和科学性。工具/平台:使用Python编程语言实现数
据集划分
,适配电力行业数据特点。数据预处理参数
基座模型选型及预训练参数
l第
12
页1.数据预处理•数据清洗、标准化及特征工程2.模型训练•输入:标准化后的数据集•昇腾集群分布式计算:•多节点并行计算梯度•参数服务器架构更新模型参数•节点间同步最新参数•验证评估:•定期计算预测误差•反馈调优信号指导模型优化3.模型压缩•将FP32转换为INT8量化推理模型•优化模型体积和计算效率4.边缘部署•推送INT8模型至变电站NPU节点•完成边缘侧模型部署学习率策略:初始学习率1e-4,余弦退火衰减(周期200epoch),动态调整学习率。训练时长:单卡训练约120小时,集群训练约15小时,线性加速比
8.5倍,显著提升训练效率。技术细节:采用梯度累积(累积4批次更新一次参数)
,优化训练
过程。硬件配置:昇腾910B
×8/节点,RoCE
v2网络(带宽200Gbps),构建高效分布式训练环境。框架优化:自动并行策略(数据并行+模型并行混合),
提升分布
式训练性能。优化器选择:分布式优化器(Horovod+昇腾通信库),
优化梯度
同步和参数更新。硬件配置:昇腾910B
×
1(640TOPS
,
32GB
HBM),
适配单机训练需求。框架选择:
MindSpore
2.2(静态图模式),
优化训练效率。批次大小:时序数据2048样本/批,
影像数据32样本/批,适配不同
数据类型。技术细节:
NPU
(寒武纪MLU370)专用于电力行业
AI推理,如设备缺陷识别、实时告警。架构描述:
构建异构计算架构,涵盖国产CPU、
GPU、
NPU及国际GPU
,满足不同计算需求。国产化适配:
优先采用国产计算设备,提升整体架构
的自主可控性。
预训练配置与训练流程
l典型训练流程时序图单机训练配置分布式训练配置训练效率提升训练配置参数模型部署数据收集
清洗标注模型训练模型压缩第
13
页监控
与
调
优
参
数Q网络时延监控监控指标:参数同步时延<
10ms
(分布式训练)。阈值范围:确保分布式训练的
高效同步。调优策略:检查RoCE网络拥
塞,调整交换机流控策略,优
化网络性能。训练监控指标监控指标:训练loss(负荷预
测Loss<0.05,巡检缺陷识别
mAP≥0.95)。阈值范围:设定明确的监控阈
值,确保模型训练质量。调优策略:调整学习率/批次
大小,必要时重启训练作业,
优化训练过程。算力利用率监控监控指标:昇腾GPU利用率>
85%
,
CPU利用率<40%。阈值范围:避免资源瓶颈,确
保高效计算资源利用。调优策略:优化分布式并行策
略,增加数据预处理节点,提
升整体性能。模型精度监控监控指标:验证集误差连续3
个epoch无下降,触发早停机
制。阈值范围:确保模型精度持续
提升。调优策略:加载历史最优模型,
启动超参数搜索(贝叶斯优化),
优化模型性能。技术点:量化技术(FP32→
INT8)结合知识蒸馏,优化模型推理性能。实现细节:采用Teacher模型(盘古大模型)进行知识蒸馏,确保压缩
后精度损失<2%。性能提升:
推理延迟降低50%,提升模型在边缘设
备上的实时性。技术点:飞腾CPU负责逻辑控制,
昇腾GPU负责计算,寒武纪NPU负
责边缘推理。实现细节:构建端-边-云协同架构,优化资源分配和任务调度。性能提升:协同效率提升30%,
实现高效计算资源利用。技术点:液冷系统+昇腾智能功耗控制,
优化数据中心能耗。实现细节:训练阶段功耗≤25kW/节点,推理阶段≤10kW/节点,确保
高效节能运行。性能提升:
PUE≤1.15
,显著降低数据中心运营成本。技术点:使用昇腾CANN
6.0自定义算子开发,优化GNN卷积操作。实现细节:针对昇腾硬件特性进行算子优化,提升计算效率。性能提升:算子执行效率提升40%
,显著提高模型训练和推理速度。
模型调参与国产技术介绍
l国产化优化技术第
14
页计算层分为训练与推理两个模块,训练模块负责模型训练与优化,推理模块实现模型实时推理与应用,两者协同工作,提升平台整体性能。存储层采用全闪存、分布式与归档存储相结合的方式,满足不同数据类型与访问需求,确保数据存储的高效性与可靠性。网络层分为参数面、数据面与管理面,参数面采用RoCEv2技术,数据面基于NVMeover
Fabrics,管理面实现集群监控与管理,保障网络通信的高效与稳定。提供模型训练、服务部署和在线推理的一站式服务提供资源管理、能力一键发布功能,及标准化AI接口服务
智算业务架构
l提供数据标注、数据集管
理等一体化服务Tensorflow/Pytorch/PaddlePaddle/MindSpore/oneflow...操作系统(国产化OS)网络(RDMA)智
算平台训练模块推理模块云原生CNP平台视频图像NLP语音OCRAI框架EKI并行存储数据管理CPU英伟达GPU昇腾寒武纪基
础设施AutoNLP单机训练可视化训练分布式训练训练作业AutoCV镜像管理模型封装在线推理压缩转换在线推理模型管理数据集管理数据标注智能标注人
脸
核
身语
音
合
成语
音
扩
展语
音
识
别图
像
审
核视
频
安
防人
脸
识
别视
频
解
析身
份
识
别票
据
识
别媒
体
转
码文
档
解
析舆
情监管文
本
审
核健康码识别第
15
页AI能力技术特点:支持-25℃~55℃宽温工作,适应户外变电站部署。应用场景:确保设备在极端环境下的稳定运行。国产化适配:采用国产散热技术,提升设备的环
境适应性。技术特点:训练节点双电源冗余,推理节点支持热插拔(MTTR<30分钟)。应用场景:保障设备的高可靠性和快速恢复能力。国产化适配:基于国产硬件设计,提升系统的整
体可靠性。分层算力配置
推理节点设备型号:寒武纪MLU370-X8数量:
100台单价:4万元算力指标:8000TOPS(INT8)应用场景:实时巡检推理
训练节点设备型号:昇腾910B-640TOPS数量:80台单价:
12万元算力指标:51200TOPS应用场景:大模型训练(负荷预测)
参数服务器设备型号:海光DCU3256数量:20台单价:6万元算力指标:64核/节点应用场景:模型参数同步
边缘节点设备型号:浪潮NE5260M(带NPU)数量:30台单价:4万元算力指标:200TOPS应用场景:变电站数据预处理计算架构图:采用飞腾CPU、昇腾GPU、寒武纪NPU与NVIDIA
H100构建异构计算架构,充分发挥各组件优势,满足训练与推理多样化需求。架构图使用Mermaid语法绘制,清晰标注国产化组件(红色标识),突出自主可控技术在整体架构中的应用与重要性。硬件选型与算力集群散热设计可靠性设计第
16
页性能指标:热层2000万IOPS,
温层500GB/s带宽,冷层10GB/s顺序读写,满足不同数据存储需求。存储层级:热层采用华为Dorado
8000
NVMe
SSD,温层采用曙光ParaStor
500K
HDD,冷层采用阿里云OSS冷存储。数据类型:热层存储训练数据集和模型Checkpoint,温层存储历史巡检影像和SCADA数据,冷层存储归档模型和十年期数据。热层存储产品:华为Dorado
8000。配置:1PB
NVMe
SSD。数据类型:训练数据集/模型Checkpoint。性能指标:
2000万IOPS。应用场景:满足高频访问和快速读写需求。温层存储产品:曙光ParaStor
500K。配置:5PB
HDD。数据类型:历史巡检影像/SCADA数据。性能指标:
500GB/s带宽。应用场景:存储中等访问频率的数据。冷层存储产品:阿里云OSS冷存储。配置:10PB对象存储。数据类型:归档模型/十年期数据。性能指标:
10GB/s顺序读写。应用场景:长期数据归档和备份。全闪存存储华为Dorado8000全闪存存储,满足高频读写需求
,为模型训练与推理提供高效存储支持。全闪存存储具备高可靠性和低延迟特性,结合智能缓存技术,进一步提升数据访问速度与存储性能。分布式存储曙光ParaStor500K分布式存储,满足大规模数据存储与并行访问需求,保障数据存储的可扩展性与灵活性。分布式存储采用多副本机制,确保数据可靠性与安全性,结合智能调度算法,优化存储资源利用率,降低存储成本。存储架构存储方案第
17
页数据策略分布式统一存储全闪池混闪池NFS全面存储协议支持NFS、SMB、
POSIX、S3、iSCSI智能化数据管理冷热数据流动、多中心数据同步、故障自动处理灵活配置和部署方式多协议共节点部署、独立节点部署可靠的安全保障部件→节点→集群→机柜冗余保护磁盘管理系统(OBS)WebUI管理高性能并行文件存储角色域管理协议管理应用协议数据处理基础
硬
件数据保护缓存管理网络通信数据管理HDFSiSCSIS3POSIXFTPCIFSHDFS第
18
页对象文件对象块文件GPU训练服务器GPU训练服务器基础大模型训&推理…Node-1Node-12Node-n数据并行热温冷智能分级
跨域数据灾备
智能分级容量层全域数据管理数据安全可信1全域数据管理2多协议融合互通3动态混合负载
向量存储加速4性能层
动态混合负载高性能全场景加速,
E2ETCO降15%
兼顾高带宽&高I/O数据全生命周期管理性能层&容量层配合,同兼顾高性能
和大容量诉求,实现高性价比运行安全稳定可靠系统稳定运行,数据安全可靠,高价值数据持久守护…NAS协议/S3协议小文件、高IO
高性能并行文件存储方案
lGPU推理服务器行业模型训推一体化CPU1CPU2GPU1GPU2GPU推理服务器GPU3GPU4预处理服务器l
格式标准化l
错误纠正l
异常数据清理l
重复数据清除流程阶段
计算处理流程
数据处理流程多协议融合互通全业务演进,生态前景无忧全流程协同,数据零拷贝模
型加
载向
量读
取向量库
训练集数据
索引数据业务数据向量库模型训练原始数据+训练+调优+评估-》模型三方收集、
、边缘汇聚…网络爬取数据获取原始数据推理应用输入数据+模型->Vector->应用边缘存储数据预处理原始数据->训练数据脱敏、合规、审批、汇聚NAS协议
HDFS协议第
19
页边缘存储高
性
能
层大
容
量层图POSIXPOSIX张
量并行l混
闪
并
行
文
件
存
储
采
用
2
*
100
G
R
DMA
高
速
无
损网
卡
上
联leaf;l全闪采
用
2
*
100
G
R
DMA
高
速无
损网
卡上联,
2
*
25
GE
上
联存储交换机并接入存储小核心供昇腾
910
B
使用
。l对
象
存
储
及
四
层
负
载
均
衡
设
备
均
采
用
4
*
10
GE
上
联
至
万
兆
业务交换机
。l并行文件存储管理
网采用两口千兆网
卡上联至管理交换
机
。l对象存储管理网采用千兆管理网
。...全闪并行文件存储...混闪并行文件存储SpineLeaf
...对象存储四层负载均衡并行文件存储及对象存储组网架构设计说明存储接入交
换机(10GE)存储接入交
换(25GE)......管理接入交换机存储核心第
20
页大模型网络架构网络平面:参数面采用RoCEv2,数据面采用NVMeover
Fabrics,边缘接入采用5G+工业WiFi。设备型号:参数面使用迈络思SN3700,数据面使用曙光RDMA网关,边缘接入使用华为AP7060。性能指标:参数面200G/<5μs,数据面100GB/s,边缘接入1Gbps,确保高效数据传输。技术:
RoCE
v2。设备型号:迈络思SN3700。性能指标:带宽200G,延迟<
5μs。核心功能:模型并行训练参数同步,确保高效分布式训练。技术:
NVMe
over
Fabrics。设备型号:曙光RDMA网关。性能指标:带宽100GB/s。核心功能:训练数据高速读取,提升数据传输效率。技术:
5G+工业WiFi。设备型号:华为AP7060。性能指标:带宽1Gbps。核心功能:无人机/传感器数据回传,满足边缘设备的数据传输需求。易扩展2层vs
3层全盒vs框盒零丢包包
包无收敛vs逐级收敛->无收敛大带宽vs2*25G->8*200/400G参数面优化数据面优化边缘接入优化智算中心高速网络特点可少量丢
0丢网络方案第
21
页/
AI计算服务器
Leaf
AI参数面网络AI计算区
Spine网络带宽200G400G样本面存储网络存储节点分布式存储区存储节点业务/存储面网络AI计算节点管理区通算业务面网络通用服务器通用计算区Core核心区ETH/IP网络架构
主要包括AI智算集群、RDMA无损网络、通用计算集群、高性能存储集群等。带内管
理管理接入TOR管理节点智算数据中心—高速无损网络架构带外管理雪雪各服务器BMC接入RoCE/IBRoCE/IB第
22
页Fat-Tree架构管理汇聚交换机方案设计说明:1、AI计算集群:AI计算集群间采用4*200GB
RDMA网
络
,满足高带宽低时延通信需求;各节点同时通过25G网卡接入上联裸金属TOR并接入业务核心交换机。2、
HPC计算节点:采用100GB
RDMA网络搭建超算集群
,各节点同时通过10G网卡接入上联业务TOR
,再上联
接入存储核心交换机。3、通用计算区:各服务器通过25G网卡接入上联计算
TOR
,为租户提供云主机、块存储等产品。4、高性能存储:
通过100G网络组成并行文件存储集群,提供给超算及智算集群使用。5、SDN网络区:提供SDN设备
,实现VxLAN封装/解封装
,完成Overlay与Underlay切换。6、网络互联区:
由管理核心、业务核心、存储核心及汇聚交换机组成
,用于南北向以及东西向流量。7、管理区:提供带外和带内管理
,带外通过1个GE网卡
接入IPMI交换机
,带内通过10GE接入管理TOR。8、
出口区:配置公网出口、专线接入以及运维专线等网络
,满足公网用户、校内用户以及运维人员接入需求。SDN防火墙AI计算集群
裸金属TOR计算TORSDN管控业务TOR...高性能存储节点
...RoCE交换机集群高速网络网络互联区
业务核心交换机业务汇聚交换机高性能防火墙存储核心交换机管理区带内管理带外管理管理接入TOR各服务器BMC接入SDN网络区SLBSDN网关图
例
200GE——100GE40GE25GE10GE
GEironic...管理节点
运维专网八智算网络拓扑专线接入公网接入通用计算节点第
23
页HPC节点专线接入
交换机*2管理汇聚交换机接入路由器*2并行文件存储Spine交换机leaf交换机leaf交换机存储TOR宿主机...……整套网络分为超高速计算网络和业务网络
、
管理网络三部分
。
超算节点
、
智算节点以及并行文件存储均采用超高速网络
。Fat-Tree(胖树)结构l成熟的
Infiniband拓扑结构l可灵活配置为非阻塞线速或
1/N线速l容易保障网络延迟和带宽性能l规模越大,网络成本增加越快管理汇聚交换机10GE管理接入交换
机/千兆IPMI交换机IB交换机:40端口非阻塞管理HDR
200Gb/s
InfiniBand智能交换机100Gb汇聚交换机25Gb接入交换机智算网络架构设计思路SpineLeaf网络架构超高速计算网络管理/监控网络业务网络第
24
页……设计说明l
通用宿主机通过4
*
25GE
(含计
算、
存
储网
)
上
联
至
计
算
TOR;l
SD
N
管控节点2
*
25
GE
上联至
计算TOR;l
ironic
(
裸
金
属
服
务
)
和DHCP节点2
*
25GE上联计算TOR
,2
*
25GE上
联至
裸
金
属TOR;l
块存储节点采用4
*
25GE
上联至
计算TOR;l块
存
储
采
用
千
兆
管
理
网
,
其余
管理网采用两口万兆网卡上联
至管理交换机。...
ironic&DHCP...
SDN管控
...块存储通算—组网架构管理接入交换机(10GE)裸金属TOR(25GE)计算TOR(25GE)通用宿主机计算核心第
25
页...业务节点底层基于裸金属
,
单独配置管理节
点
(管理域
)
用
于
部
署
智
算
管
理
平
台
,
另配
置超算裸金属管理节点
。
每台裸金属均支持V
PC+
高速无损网络
。
通过2
*
25
GE
上联至裸
金属TOR,
作为业务网络。
...
图形渲染集群...AI计算节点SpineLeaf裸金属管理节点*2台计算核心*2
设计说明智算—组网架构裸金属接入交换机(25GE)接入交换机(25GE)......第
26
页...以物理机形态提供
,
上层部署超
算平台
,由超算平台统一管理集群间
采
用
单口1
00G
R
DMA
高速
无损网络互联
,
业务采用万兆双
网口上联业务交换机
,
业务交换
机上联存储小核心。...SpineLeaf超算管理节点设计说明超算—组网架构管理和监控接入
交换机(10GE)......存储核心*2第
27
页
数据安全
模型安全
物理安全
MindSpore验证组件:
MindSpore。认证:模型迁移测试。测试结果:
TensorFlow模型迁移成功率95%
,适配国产深度学习框架。措施:国密SM4加密+数据分级(生产数据禁止出境)。标准符合:符合《电力监控系统安全防护规定》,确保数据安全。技术细节:对敏感数据进行加密处理,严格控制数据访问权限。措施:训练数据溯源+模型水印(防篡改)。标准符合:满足等保三级+电力行业信创要求。技术细节:对模型进行水印标记,防止模型被篡改和非法使用。措施:训练中心部署于电网自有园区。标准符合:符合GB50174-2017A级标准。技术细节:确保数据中心的物理环境安全,防止外部干扰和破坏。组件:昇腾910B。认证:电力工业环境适应性测试。测试结果:
-40℃~70℃稳定运行,满足电力行业恶劣环境需求。组件:麒麟OS。认证:电力业务系统兼容性测试。测试结果:适配SCADA/EMS系统,确
保操作系统与电力业务系统的兼容性。国密SM4加密等保三级认证电力监控系统防护昇腾/寒武纪工业环境测试
昇腾910B验证
麒麟OS适配SCADA系统
麒麟OS验证
注:优先启动POC测试,验证技术方案可行性与国产化适配性,为后续项目实施积累经验,降低项目风险。{合规性
国产化验证清单安全架构设计安全架构第
28
页
实施路径规划
l
第
29
页三阶段投资计划一期阶段目标:上线巡检/负荷预测模型。投资:
3500万元。国产化率:
75%。核心设备:昇腾910B×
50+全闪存存储。周期:
6个月。POC阶段目标:验证大模型可行性。投资:
800万元。国产化率:
60%。核心设备:昇腾910B×
10+MLU370
×20。周期:
3个月。二期阶段目标:全场景大模型覆盖。投资:
6000万元。国产化率:
90%。核心设备:寒武纪MLU590
×
100+液冷系
统。周期:
12个月。任务:数据与模型准备,搭建电力多源数据湖。技术细节:整合电力PMS、
GIS、
SCADA等
多源数据,构建数据湖基础架构。成果:完成数据湖搭建,为后续模型训练提供
数据支持。任务:核心应用上线,完成等保三级测评。技术细节:上线输电线路智能巡检和电力负荷
预测模型,确保系统安全合规。成果:核心应用上线运行,提升电网智能化水
平。任务:全场景扩展,实现国产算力主导。技术细节:扩展至智能客服、新能源并网优化
等全场景应用,提升系统整体性能。成果:实现全场景大模型覆盖,构建自主可控
的电力智算中心。理由:
POC测试可以快速验证项目的关键技术和应用场景,为后续大规模建设提供经验。建议:申请省级新基建专项债,优先启动POC测试,验证项目可行性和技术优势02
03012方案架构设计3典型案例4主流智算平台介绍5
项目优势1行业发展分析CONTENTS收集并整理数据:收集现有的客服对话数据、客户行为数据等,
用于训练AI模型;
对数据进行清洗、标注等预处理工作,确保数据的
质量和一致性;
模型构建:基于深度学习算法和大规模数据,
构建政务大模型,
包括自然语言处理模型、数据分析模型等;训练AI模
型:使用预处理后的数据训练AI模型,不断调整模型参数和算法,提高模型的识别率和准确率;
对模型进行多轮训练和验证,确保模
型能够满足企业的实际需求数据收集与预处理(数据增强与清
洗):①
从政务系统中收集相关的文本、
图像、时间序列等数据;②
使用Python(Pandas、
NumPy等库)进行数据清洗与增强(去噪、去重、
标注、格式化、数据随机
变换等)、预处理和特征工程。将处理后的数据存储在关系型数
据库(结构化MySQL/Oracle)
或非关系型(
MongoDB/Redis);③
根据任务需求提取特征,如文本
的词向量表示、图像的像素值等。政务信息化大模型模型选择与训练:①
使用TensorFlow/PyTorch等深度学习框架构建和训练自然语言处理模型、数据分析模型,如BERT用于文本处理,CNN或RNN用于图像或时间序列数据分析;②
使用预处理后的数据进行模型训练,调整模型参数以优化性能,
利用GPU加速,提高训练效率;③
对训练好的模型进行评估,如使用准确率、召回率等指标衡量模型性能。将训练好的模型保存到
模型仓库中,供后续推理使用。推理服务部署:①
优化算法(如Adam、Adagrad等)对模型的参数进行优化,设计易于使用应用程序接口(API)以调
用AIGC模型;②
将模型部署到服务器,用Web开
发框架(
Django、
Flask构建文本生成应用)或图形处理框架(OpenCV、
Pillow构建图像生成应用);③
对输入的数据进行预处理,然后
通过接口调用模型进行推理(训
练好的模型加载在内存中);④
推理结果格式化返回前端展示层前端界面开发:①
根据需求使用Vue.js、
React等
前端框架构建用户界面,如政务
服务查询页面、政策解读页面等;②
使用前端框架构建页面结构,通
过Ajax或Fetch等技术调用推理
服务接口,获取推理结果并展示
在前端页面上;③
调用推理服务接口提供用户交互功能获取推理结果,并在页面上
展示给用户(文本/图像)。
政务信息化大模型框架
l1.数据增强可以通过对现有数据进行随机变换(如文本数据的同义词替换、图像数据的旋转缩放等)来增加数据的多样性2.AIGC
主流的模型架构:Transformer
架构(用于自然语言处理和部分图像生成任务)
通过自注意力机制处理长序列数据、生成对抗网络(GAN,主要用于图像和视频生成)3.模型训练:无监督学习算法(无标签)
、半监督学习算法(辅以标注手段)
、监督学习(标签)、强化学习(智能体agent根据奖励信号来更新策略)数据处理层模型训练层推理服务层前端展示层采用Python作为主要编程语言,结合深度学习框架(如TensorFlow、
PyTorch等Python的库)和Web开发框架(如Django、
Flask等)来实现数据准备与模型
训练第
31
页
运维接入
\
外网接入
\接入路由器*2接入路由器*2n基于云技术底座进行建设
,为XX大学提供包含通用计算、超算节
点
,智算节点、并行文件存储
,安全及运维服务;n超算配置2路通用节点、4路胖节点
,智算配置A800、昇腾910B、
曙光Z100L等;n提供超700PFLOPS算力
,高速网络采用800Gbps带宽
,高性能文
件存储超过9PB。项目背景XX大学现有高性能计算集群为数十个中小型集群,各集群由科研团队自管,存在部分服务器裸硬件没有集群化,算力较为分散。缺乏校级平台统一管理全校资源,单项目无法一次性调用大批量资源,成果产出效率和速度低。为实现高效的科研及教学,计划建设一套高
效、安全、可靠的智算超算专属云平台。(1)实现算力统一门户。将超算能力与智算能力结合,实现数据模型训
练到模型推理及验证的无缝衔接。(2)AI智算集群、超算集群、高速网络
,组建高效科研环境。有效提升
XX大学科研水平
,助力双一流建设。某高校HPC&AI数据中心项目方案价值建设方案第
32
页
超强算存能力:GPU浮点运算能力达到每秒亿亿次级别
,通用算力超22000核
,百G
RoCE无损网络最大化提升AI调度能力,
全闪型存储NVME
SSD
,配备高阶安全产
品
,满足双智城市更高级别计算及安全需
求;
海量数据分析:提供上层应用所需的海量计算、存储资源
,满足车路协同场景海量数
据统一汇聚
,数据分析、应用与创新;
等保合规:
通过公安部等保三级认证
,满足客户数据本地存放的安全管控需求。云主机GPU容器云存储数据库云安全弹性扩缩容
渲染、训练、推理智算中心专属云基础设施(服务器、网络设备、安全设备)V2X车载设备OBUCPU算力:33000
vCPUGPU算力:训练算力约15PFLOPS
(FP16)
,推理算力约56.7PFLOPS(INT8)
,渲染算力约703TFLOPS
(
FP32)高性能存储:
15PBK8S调度高性能读写高并发大连接
自主可控云车路协同
车城网
全息路口路口智能管控
数据共享交换智能运维管理
……
某区智算中心项目日志管理
仿真管理存储管理
……
自动驾驶仿真评测辅助决策子系统车城协同精细感知上层
应
用路
侧
设
备云底
座第
33
页1行业发展分析
2方案架构设计
3典型案例
4主流智算平台介绍5
项目优势CONTENTS文档舆情文本身份票据健康码语音语音语音人脸人脸图像视频媒体视频解析监管审核识别识别识别
识别扩展合成识别核身审核解析转码安防NLP
OCR语音
图像
视频AI统一算法仓:行业汇聚、百花齐放单卡训练多卡训练数据标注基于公有云技术底座能力
,
联合九天共同构建智算平台,
提供从数据处理
、
模型训练到推理应用的
一
站
式
全
流
程
AI
开
发
服
务
,
为大模型
、
数
字
人
、
智能质检
、
智能客服等
AI
能
力
及
应
用
提
供
研
发
环
境
、
工具和平台,
助力人工智能技术与应用场景的深度融合。公有云技术底座智算软件平台九天智算大模型方案总体架构自动建模分布式训练数据探索硬件基础设施九天大模型
架构高速存储集群(并行文件存储)高速RDMA网络通用云计算集群模
型训练HPC计算集群推理平台第
35
页AI计算集群管理节点训练平台核心功能提供简单易用的多模态数据接入及
管理功能,预置多场景标注工具模
板提供开放灵活的交互式集成开发环
境,预置数据、基础模型、计算框
架及算法提供丰富多样的训练资源套餐,如
CPU、
GPU等,支持多机多卡分布
式训练面向各个行业智能化场景,提供全
自动建模服务。可完成AI流水线的
全自动执行九天训练平台
平台训练模块提供丰富的算力资源、训练数据、齐全的算法框架和研发工具,支持单机和分布式等多种训练模式。国产芯片适配实现对华为昇腾、寒武纪MLU等异构计算资源的算力资源调度和模型适配,集成国产AI芯片和算法框架,提升生态多样性系统性能优异通过多级系统缓存,大幅度提升小文件读取效率。通过GPU虚拟化,大幅度提升利用率,降低使用成本高可用架构保障基于云原生技术架构,平台具备容灾自愈、弹性伸缩、负载均衡、灰度发布等高可用特性多机多卡分布式训练针对大模型训练时间长、效率低的痛点,实现基于数据并行的多机多卡分布式训练九天智算平台:训练平台模型训练自动建模数据处理模型开发第
36
页平台架构支持AI模型云边协同部署和更新
,
纳管边缘资源
,提供云上应用延申
到边缘的能力支持模型实时、
边缘推理多场景的
服务部署
,支持通过上传镜像自定
义部署服务支持运行推理服务过程中的指标监
控、
弹性扩容等管理操作
,实现运
行数据可视化支持多框架模型的统一纳管
,支持
将本地已训练好的模型导入到平台
上进行模型纳管模型部署模型推理云边协同超高并发量弹性高可用,服务毫秒级响应;
超高并发量可达到4600次/秒超高吞吐量体系化AI标准化部署,使用TensorRT加速和动态Batch优化提升服务吞吐量高性能推理业界领先模型加速与压缩算法,适配多种硬件、多框架的高性能模型推理九天推理模块沉淀优秀共性的AI能力,研发测试双环境保障服务低成本迁移,可灵活组合形成复合AI能力,提升AI应用的开发和部署效率。
九天智算平台:
推理模块
l高效部署模式产研双轨自由部署切换,云边端协同部署,自有AI模型和成熟AI能力灵活组合部署核心功能模型管理第
37
页建模中心
数据探索数据处理特征工程模型训练智算平台基于大数据特征分析、业务智能算子、AutoML、AutoCV等核心能力,提供结构化数据一站式建模服务,降低AI技术门槛,实现模型治理和模型全生命周期管理。模型九天基础设施云原生算法框架CPU/GPU
ASIC
AI
分布式存储数据应用零代码全流程可视化面向广泛领域,提供低门槛、零代码的建模工具,实现流程化、可复用、可追溯高精度AI自动化开发将业界最新模型和技术固化形成CV、NLP算法库,沉淀行业典型场景预置模型端到端AI应用支持一键发布为API在线服务、或下载成为SDK,灵活适配各种运行环境九天智算平台:
自动可视化建模家宽推荐结果预测…采购优化财务稽核九天自动建模描述性分析预测性分析决策性分析诊断分析闭环服务探索性分析
模型应用推理部署特征编码特征相关性模型可视化超参自动调优时序/地域分析特征分析本地数据公有云数据空值处理数据转换权限管理日志监控实验分享特征衍生统计分析特征选择算法组件聚类分析模型验证应用任务调度计费管理数据中心异常处理类型定义平台架构第
38
页运营平台智能应用开发通用AI训练平台大模型训练平台工具链场景大模型行业大模型星火基础大模型数据处理平台 数据预处理
数据标注基于公有云技术底座能力,
联合科大讯飞共同构建超算智算平台
。
本方案架构主要包括底层算力集群
、
星
火
智
算
平
台
等
。
是
面
向
运
营
商
、
高校
、
科
研
院
所
及
企
业
等
客
户
群
体,
提
供
通
用
AI
训练
、
行
业
大
模
型
训练及推理
、
开发服务为一体的通用人工智能
“
AI
+
算力
”
的综合解决方案
。智管平台 异构计算多租户/资源隔离
令open
Euier
ca
NhN星火版
操作系统
异构计算框架公有云技术底座软件平台智运智训智管讯飞智算大模型方案总体架构硬件基础设施高速存储集群(并行文件存储)推理服务运营管理高速RDMA网络AI计算集群讯飞大模型
架构HPC计算集群通用云计算集群数据接入预制框架预制算法预制模型异构模型转换管理节点异构训练框架评测第
39
页资源调度异构芯片
讯飞星火大模型平台:为用户提供一站式服务
l核心效果全面领先源头支持中英文多语种,在多项测评任务效果优秀,标准大模型
通用性更强,行业大模型更专业面向业务开箱即用提供丰富的基础提示资源包,涵盖20余个专业场景,即开即用多个行业大模型
覆盖全行业多个行业大模型可选,针对不同场景使用你专属的行业助手多平台支持全信创配置支持多种平台切换,并面向信创平台做了深度优化政务大模型公文大模型
数学能力
多模态能力
知识问答
逻辑推理
文本生成
语言理解
星火大模型代码
大模型
代码能力第
40
页大模型认知大模型通用大模型行业大模型定制大模型大模型托管
服务治理资源监控配置管理资源调度日志管理
讯飞星火大模型平台:功能完备的开发平台 工作流编排组件管理节点配置
服务调试原生组件对话流对话流编辑Prompt节点话术配置变量和标签管理对话测试画布编辑自定义组件脚本组件接口组件知识搜索关键词召回知识发布增删改查word解析
pdf解析知识表达知识检索知识库管理知识采集知识问答向量召回知识树文档切片OCR识别
表格解析插件注册激活定义安全定义函数定义插件库计算插件知识插件工具插件输出组件文件存储邮件输出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030教育考试身份认证生物识别技术选型与防作弊效能研究
- 2025-2030教育智能硬件市场趋势预测及技术突破与应用场景研究报告
- 2025-2030抗菌药物耐药性应对策略与市场调整方向研究报告
- 2025-2030抗菌肽在饲料添加剂领域的应用扩展趋势与生产工艺优化方向研究
- 2025-2030户外露营时尚化对轻量化装备设计语言的改变研究
- 2025-2030户外活动与儿童认知能力提升的关联性研究
- 2025-2030感觉统合训练器械市场供需状况与技术创新方向
- 2025-2030微量元素指纹图谱在儿童智力发育评估中的医学应用探索
- 2025-2030律师行业社交媒体运营策略与效果评估
- 2025-2030律师行业客户满意度与服务质量提升研究
- 2019年保安值班记录表
- 《管理沟通实务(第四版)》课件第一章 沟通与管理沟通
- GA 36-2014中华人民共和国机动车号牌
- 人教七年级历史上第一单元 史前时期:中国境内人类的活动测试题word版含答案
- 2023年乐山新沐港航投资运营有限公司招聘笔试题库及答案解析
- 监理事故案例分析课件
- 我国大型基建工程材料供应的特点
- 【实验报告】教科版小学科学六年级下册实验报告
- 3.1.1 函数的概念(第二课时)课件-高一上学期数学人教A版(2019)必修第一册
- EPC项目投标文件承包人建议书及承包人实施计划
- 二类医疗器械经营管理制度
评论
0/150
提交评论