2026智能超算解决方案(三)_第1页
2026智能超算解决方案(三)_第2页
2026智能超算解决方案(三)_第3页
2026智能超算解决方案(三)_第4页
2026智能超算解决方案(三)_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能超算解决方案目录Part

1

市场趋势分析Part.2

超算解决方案Part3

智算解决方案Part4拓展建议&客户案例定义:随着5G、云、Al物联网等技术发展,数字世界进入“万物互联的智能时代”,算力作为数字世

界的基石,算力中心就是释放算力价值的现实体现,承载着算力、算法、数据这3大数字要素●26+个城市智算中心正在推动●

建设情况●'8个城市智算中心投入使用●个别企业级智算中心正在建设(阿里+小鹏)高性能计算,它是一个计算机集群系统,提供一种性能卓越.

稳定、安全、便捷的计算服务,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题,所以又通常被称为高性能计算集群。智算中心,是基于最新人工智能理论,采用领先的人

工智能计算架构,提拱人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过

算力的生产、聚台、调度和释放,支撑产业创新聚集。·10个国家级超算中心:天津中心、广州中心等●建设情况

N个省级超算中心●X个企业级、高校级超算中心不断增长的算力需求,以及赳来越复杂的业务场景,使得Al+HPC的算力融合成为不可避免的趋势算力中心在国内高速发展,不同算力需求催生不同形态算力中心●建设目的

主要面向产业,促进产业Al化、Al产业化、政府治理智能化●应用领域城市治理、智能制造、自动驾驶、搜索推荐、金融等●

建设目的

面向科研和科学计算进行计算密集型任务的处理●

应用领域

基础学科研究、模拟仿真、气象环境、天文地理等智算中心超算中心算力中心3勾垩亟哥

久邳酯鄙大数据

物联网

云西鬲基础算力

智能算力超算算力数据核心多元异构

泛在协同绿色节能

安全可信系统层通用服务器

存储服务器

Al服务器

边缘服务器

匾亟亟逐亟通用计算芯片;专用计算芯片存储芯片配套组件E亘可E匣可亘垂运可匹至丕可亘亘gIE亘?]

巨豆巫可E正丕亘]腔制憂元巨联单元供电单元材料设备设计制造

封测原理冯诺依曼唇农定闺

碌当画贰算法

匮通矶3

应用算法需求加速算力多样升级:多样化的智能场景需要多元化的算力,人工智能.科学研究以及元宇宙等新兴领域快速崛起都对算力提出更高要求异构计算成为主流模式:硬件架构突破以CPU为中心的体系,应用维疫从芯片内、节点内向系统级分布式+异构(CPU+GPU)

逐步深化泛在协同计算应用深化:在算力网络中,云、边、端共同构成了多层立体的泛在计算架构,通过与网络的深度融合,构成算力网络的新型基础设施Al+HPC加速融合,多元算力支持丰富复杂的业务场景基于先进计算技术体系,从技术能力、市场需求等方面,基础算力、智能算力、超算算力正在加速融合。先进计算技术产业体系框架

来源:

中国信息通信研究院应用场景算力层部件层器件层理论层123类

计算光子计算蚤子计算存

算一

体算力市场发展趋势-超算基数大,智算占比逐年提高党中央、国务院高度重视新型基础设施建设,对推进新型基础设施建设作出了战略部署,为经济社会高质量发展强基筑本。2020年4月20日,国家发展改革委首次明确新型基础设施范围,将智能计算中心

(以下简称“智算中心”)作为算力基础设施的重要代表纳入信息基础设施范畴。

智能算力基础设施发展趋势

市场发展观状与价值200

80%150

60%100

40%50

20%o

0%2016

2017

207S

2019

2020

2021基础算力

智能算力

—超斡算力

一算力增迷来源:中国算力发展指数白皮书

(

20?每*:

通佶

究院

IDC、

Gartner

TOP500、HPCTOP100我国算力规模持续扩大,智能算力成为增长动力从基础设施侧看,数据中心、智能计算中心、超算中心加快部署。●数据中心规模大幅提升

:截至2021

年底我国在用数据中心机架总规模超过520万标准机架,平均上架率超过55%;●智能计算中心加快布局:根据ICRA智算联盟统计,

截至2022年3

月,全国已投运的人工智能计算中心有近20个,在建设的人工智能计算中心超20个.●超算商业化进程不断是速:我国超算进入到以应用需求为导向的发展阶段

,国内很多超算中心为加强商业化运行改革,引入专业的超算商业化运营公司,以云服务的哩念和厅试输出超算资源;

700%社会价值智算中心作为公共算力基础设施,符合中国当前社会经济发展阶段和转型需求,是促进Al产业化、产业Al化和政府治理智能化的重要引侯挚.智算中心将在推动国家人工智能战略夹施,赋能实体经济实现新旧动能转换,提升社会治理水平,促进人工智能科研和工程技术人才培养等领域发挥重大支撑和推动作用,市场价值科学研究、工业仿真、Al质检、智慧安防等领域需求旺盛,华为

、阿里等厂商,持续落抛多个重点AI&HPC项目,浪潮、曙光、联想等传统硬件厂商,也在AI&HPC方向大力投入.8

鲸力

椐纽幂鲸

娑设情

况(

z0z1年i关

i白

=

乙022年2月15

)家

建成或

智算

心茌萧讴砬

区困逻迥虫竺京

津奖枳纽

至亘重画垂画迥丕惑迥亘噩避迈至运迥韭之三逻迮达延±伫题迤避苎之三鲤逛苎岖虫伫苎逛逻逛过匹虫竺长三角枳纽

垦业鲤匹虫竺亘远亟丞贮沔丞三鱼

±盒亟Σ逆远亟竺仓昵

先进计鲸

中心二苎△王竺匹兮丝匹卫虫伫丞迦匝仝≤逻迮避仓呸迮±伫皿部贺

算中

心坶

准谀

渺区

枳纽碰丽痕颈杭

智能计敛中心5》公共算力服务>

智慧政务>

智慧城市》工业设计仿真集群自动驾驶算法研发平台>

呈业V质检>

智慧金融应用>

金融A中台

(算法模型生产)

>

合规基础设施>

校级高性能计算云平台>

HPC+Al的集群调度管理软件主要扬景

主要扬景EDA仿真自动驾驶CAE/CAD工业CV质检

出行平台主要场景主要扬景科学研究数值计算环境仿真大数据处理

物理化学2022年市场空间340+亿

,CAGR

25%2022年市场空间204亿

,CAGR48%2022年市场空间375亿,CAGR

17.6唰全国高校2600+家,中科院12家分院及114家研究所主要建设内容主要建设内容主要建设内容主要建设内容泛政府

智能制道

金融Al

高校超算泛政府、制造、金融、高校等市场需求爆发,重点关注主要技术要求主要技术要求主要技术要求主要技术要求>.NLP和对话式语音等优化客服、营销等业务>

深度学习和知识图谱实现风控预警

>

基础设施建设合规>

超大参数大模型和分布式训练

>云-边-端一体化基础设施建设台规交通治理城市大脑

公共科研城市数字李生

一网通办智能客服精准营销

智能支付信货风控

安防预警>

轻量化异构算力计算集群

>

海量并行存储系统>

高性能算力基础设施

>

轻量化边-端推理能力万算力需求膨胀,急需算力升级我们的渲染业务发展很快,对计算资源的需求正在急剧膨胀—美国某媒体制作公司高管应用复杂,资源调度难生物基因测序的步骤狠复杂,分支很多,无统一调度管理,新计算任务的上线很耗时间,效率低下。——中国某生物基因公司研究员信息基础设施安全可控《关键信息基础设施安全保护条例》公共通信和信息服务、能源、交通、水利、金

融、公共服务.

电子政务国防科技工业等8个重点行业和领域,运营者需选择自主创新技术为关键信息基础设施提供安全保障…企业层面困难及挑战政策层面数据安全可控《网络安全审查办法》审查对关基安全有重要影响的网络产品和服务,

涉及网信办、工信部、公安部、国安部、财政部、商务部、人行、市场监管总局、广电总局、证监会、保密局、密码管理局等

…建设周期长,重复建设多我们的超算平台要分好几期建设,扩容很不方便

,且部署复杂,费时费力。——欧洲某高校超算中心主作运营运维管理低效网管、云管多平台多品牌共存,构建以算力为中心的网络,统一运营管理难度大;缺乏专业7*24团队化运营能力传统算力中心得主要挑战智能算力平台可视化建模分布式训练推理加速

云边端推理Tensorflow/Py

Torch/Padd!ePadd!e/Mindspore算力调度

Al任务调度

训推混部

弹性伸缩智算/超算集群算力池化

GPU虚拟化显存超分远程调用高性能计算云主机

弹性裸金属

英伟达GPU

国产化GPU定制服务器·

全面云化:EHPC、SCC、

云原生Al套件·

多样化算力:Al算力、

HPC算力、通用算力统一运营·

开放平台:支持第三

方算力平台接入·

国产化方案:异腾

GPU主机、框架适

配、算子调优统一底座

(智算超算集群)·

高性能存储·

高性能网络IB、RoCE·国产化适配HPC算力平台集群监控

行业应用集成第三云桌面

数据分层管理

方算力工作流

异构资源纳管

平台HPC平台

资源调度MPI性能优化数据加速

通信加速业务应用统一算力运营平台智慧城市计量计费自动驾驶多租户管理碰撞仿真OpenAP!高性能网络100GVPC网络IB/RoCE网络高性能存储海量/并行文件存储对象存储智能超算云整体架构气象仿真资源池管理算力赋能平台算力基础设施流体力学权限管理跳转测试环境1混合云管

权限管理

云管界面加载paas

可选组件iaasAI平台openAPI对接

统一计费10目录Part1

市场趋势分析Part:2

超算解决方案Part3

智算解决方案Part4

拓展建议&客户案例HPC典型应用场景八大行业应用场景可归结为三类HPC高性能计算模式,不同的场景对计算、存储:内存等硬件不同●

场景电磁仿真/流体动力学/气车碰撞模拟/Al训练●

资源需求高网络I0

,

采用IB网络高存储IO

,采用高性能存储∞oo松耦合高性能计算●

场景气象预报/基因测序/图形渲染/能源勘探●

资源需求特性高计算,采用主频CPU高存储IO,采用高性能存储●

场景金融风险评估/遥感与测绘/分子动力学●

资源需求网络需求适中,可采用以太网络

存储需求适中,可采用NAS存储X紧据合高性能计算基础科学研究动漫渲染气象科学能源勘探汽车电子生命科学卫星测绘航空航天12通过在计算机中进行碰撞汽车外流场分析,可以仿真模拟,可以模拟汽车模拟计算整车的流场分在不同速度、负载下,发

布,帮助设计人员优化生不同位置碰撞时的结构造型设计,降低整车的变化。帮助设计人员确认风阻系数、降低风噪和汽车结构设计、材料选型、油耗。焊接点位布置等能否符合设计要求.

提升整车的安全性。采矿掘进设备仿真,可以模拟钻头在特定材料、结构下可承受的最大载荷。辅助设计人员确定最佳的牙盘结构设计、评估材料强度,提高采掘效率、提升产品性能,电池散热仿真,可模拟电池的布局、标定是否存在过热风险,辅助设计人员评估最佳的电池排布。以上计算模拟过程,都需要消耗大量的计算和存储资源,需要HPC集群

提供支撑。汽车、通用机械行业HPC应用场景Solu

mme2oa1314紧耦合计算的特点:对于各计算节点间彼此工作的协调、计算的同步以及信息的高速传输有很强的依赖性。电磁仿真设计●

支持资源快速扩充、迭代●

支持弹性管理、灵活调整流体力学分析●

系统稳定要求高●

数据安全要求高汽车研发设计●

计算量大●

网络时延低紧耦合高性能计算场景(1):特点及需求分析行业应用行业需求15紧耦合高性能计算场景

(2):天翼云的方案框架采用Intel第三代CPU+IB网络+并行文件系统的方案满足紧耦合高性能计算对网络、10、算力的要求。监控告警操作系统调度器

并行环境资源管理硬佚/基础设施API

计算

存储

B网络

IP网络

安全口

高性能计算最新ntel第三代CPUPCIE4.0异构能力:CPU、GPU、FPGA

(智能网卡)□并行文件系统高带宽&高OPS性能密度业界领先POSIX/NFS/CIFS/HDFS/S3无损互通□高性能IB网络(HDR100Ghps)天生无损网络,支持原生RDMA

SDN技术、协议栈全部硬件实现最先进的流控机制和拥塞控制网络计算能力,解放CPU□

HPC定制优化硬件BIOS调优、OS调优

HPCX软件包(CentoS等)

(LSE/SGE/Slurm/PBS)(MPi、

HPCX等)分布式存储本地SSD存储专线云产品服务裸金属服务云平台管理服务统一门户Optistruct振动与噪声分析紧耦合HPC应用软件服务Star-CCM+流体力学分析LS-Dyna汽车碰撞模拟PowerFlow散热仿真系统软件服务16计算·

CPU:提供多种配置选型,适配不同场景·

内存:插拔方式、

内存配比调优·服务器:BIOS配置性能调优,精准适配应用软件需求·并行环境:并行环境调优,移

除冗余无关进程、绑核,进一

步降低系统损耗

,MPI部署调

优·业务软件:细致分析应用负载特点,针对IO密集型、CPU密集型调优网络·高带宽:提供100Gb

ps和200Gbps的高速IB网络,同时IB

交换机无阻塞交换,提供超高网

络带宽.低时延:IB交换机转发时延在

100纳秒级,可提供端到端小于1

微秒的最低转发时延·零丢包:RDMA技术保证端

到端不丢包,

消除传统TCP/IP网

络中重传包带来的性能降低.高度适配性:IB

Verbs接口对于HPC中大量采用的OpenMPI/1ntel

MPi等通信原语进行了优化,提升传输效率存储·存储选型:采用并行文件系

统,提供超大容量、

超高性

能、超低延时、超强扩展能

力·

兼容性:提供NFS、CIFS

对象等多种访问方式,支持

POSIX,

MPI协议,提升并

行访问能力·高密度:高密度大容量,冷

热数据智能分层·

高性能网络支持:支持IB网

络。紧耦合高性能计算场景

(3):天翼云方案优势针对紧耦合场景,提供计算、存储:网络的选型适配。17松耦合计算的特点:在淞耦冶场景中,计算节点之间对于彼此信息的相互依赖程度较低,网络性能要求相对较低.

一般金融风险评估、遥感与测绘、分子动力学等业务属于松耦合场景。该场景对于网络性能要求柜对较低。芯片设计仿真●

小文件多,对文件并发读写高●

数据安全要求高遥感测绘仿真●

支持资源快速扩充、迭代●

支持弹性管理、灵活调整金融风险仿真●计算节点独立运算●网络性能要求较低松耦合高性能计算场景

(1):特点及需求分析行业应用行业需求核心果用HPC存储汇聚备

份网

络接入器接

式在储衙份存衖

分郝哄移瓴布式存管部署模式可根据安全、采购模式等需求,选择公有云或私有云部署,专线与企业数据中心互联;任务调度管理可选择商用调度器,或云上调度器,计算以基于CPU的计算任务为主,计算实时性要求低,可选用更高性价比CPU,存储基于以太网的海量文件系统为主,高

IOPS满足海量小文件高并发读写,网络以10GE-25GE以太网络为主,可选双网口提高可靠性,整体网络带宽收敛比根据实际业务需求确定,松耦合高性能计算场景

(2):

天翼云的方案框架各份

专线至利

云业务

专线至私有云19数据密集型计算的特点:计算节点需要处理大量的数据,并在计算过程中产生大量的中间数据,所以该场景要求提供高吞吐的网络,同时对于网络时延也有一定要求。行业应用基因测序影视渲染深度学习地质勘测

气象预报数据密集型高性能计算场景

(1):特点及需求分析海量计算需要

高规格的

计算

能力

包括主频、核数、内存等高性能存储需要低时延、高IO、

高IOPS的存储空间场景丰富需要面对多种行业需求,使用场景复杂潮汐性特定场景,存在周期对资源要求的波动重资产基建投入成本巨大

日常运维要求高由于行业特殊性,对数据有保密协议不能外泄集群内网络带宽和时延的要求高优质网络数据保密行业需求清染任务调度Ⅱ管理员流染任务进程流染任务进程流染任务进程

灌染任务进程地缓存

(单任务数据村地缓存(单任务数据)本地瞪存(单任务数据地缓存(单任务数据)制作终双GPU集群+高性能、低时延网络高性能、大各量存储

线下存储管/算/存/网全面结合的整体解决方案。管:多种任务调度软件支持。算:基于英伟达GPU的高性能算力集群,存:高性能、大容量存储。网:高吞吐、低时延25GE/100GE网络。场景特点数据密集型计算场景中,计算节点需要对大量数据进行处理,且通常为非标量数据和算法,需要GPU算力加速,同时配合高性能、低时延网络和存储,技术特点

(以图像渲染为例)数据密集型高性能计算(2):天翼云的方案框架1.电影每秒24帧,每帧可以理解为一张图片2.

每帧又可以分为多层渣染1.制作团队制作模型,并提交渲染任务2.T团队批量调度全部渲染任务逐层渲染21随着数据量、信息量的倍增,数据密集型HPC进一步普及:●为满足大规模的计算普遍使用虚机/物理机集群算力;●

类型统一、相互无依赖的处理(如渲染)

,GPU可以提供更高的效率;数据类型复杂、或者精细画质的渲染,高主频CPU集群更好的满足要求;●

计算任务会占用较高GPU显存或者CPU二级缓存,需要在测试之后选择高性价比的虚机/物理机,并预留扩容能力数据密集型高性能计算(3):详细技术方案不同行业对数据密集型高性能计算需求有一定差异,共同的特点是普遍有高性能集群算力、高性能存储的需求使用计算集群,云平台管理需

满足一定要求:●

批量重装:除了一般的批量开关机重启能力,通过镜像和批量重装能力,可以满足客户业务机不定期软件定制化、系统清理的需求;●

批量重命名:客户集群调整需要不定期批量重命名;●

其他通用能力:除此之外,一些通用能力也是必须的,如监控告警

(业务机运行管理),主子账号(集群管理)数据密集型HPC一般包含控制机和业务机等2种以上的类型:●

对于承载上载数据、结果数据汇总等任务存储,并行文件存储满足使用需求,因为要与业务机交互

,因此要求超高的IOPS

(如闪存、磁阵等),

并提供大存储空间;●

过程数据可以存储在业务机本地,高IOPS存储一般满足要求,空间一般不大●归档数据:可以选择对象存储数据密集型HPC对网络要求如下:●

业务机需要与原始数据及归档数据交互,基于业务类型,一般1G-10G之间,如某渲染项目,业务机内网带宽200

-

300Mb●

共享存储

(承载原始数据和结果归档),

内网

带宽要求10G-100G

,如某渲染项目,单集群

控制服务器内网带宽15-

20Gb存i能力计算能力平台管理网络能力22

计算节点·可根据计算、内存的需求不同采用不同的高性能计算

ECS节点或裸金属服务器,针对流体、结构、电磁等

仿真类型及前后处理场景,划分不同的计算队列。存储节点只·并行文件系统采用元数据与数据分离架构、文件条带

化等技术,支持上万客户端并发访问、PB级容量、数

百GB的聚合带宽,百万级IOPS

,亚毫秒级时延。·文件存储服务SFS

,直接使用PoG

ix接口,Linux自带

NFS客户端

兼容Lustre的应用

宽为

100M+0.02M/G*文佚系统大小。

管理节点·

IMS提供公有/私有镜像功能·

CES提供HPC资源监控服务·

IAM提供用户的认证和权限服务23天翼云VPC提交作业度苕高企业用户镜像服务计算节点(ECS/物理机

)CES上载/下载数据归档数据lAM对象存储(OBS)EVS潜在客户群:国内车企的设计研发单位、核心零部件厂商

(如:发动机、电机、新能源电池等)天翼云案例:吉利研究院一汽集团云汽车CAE仿真解决方案(支持Lustre并行文件系统

满足高IO场景需求)存储节点(EC

S)文件服务(SFS)100G

IB网络监控服务权限服务弹性伸缩(AS)e

Cloud任务调IMS>

计算集群:全球最大的CAE

SaaS厂商Rescale、Ansys.AWS及上汽乘用车在阿里云E-HPC均使用以太网络(10Ge、20Ge或25Ge),用于单机并行或模型优化任务,大规模并行计算场景,如外流场分析、碰撞分析,采用裸金属服务器;>

计算集群规模:通常根据计算能力或核数来计算出所需的计算节点数量,并且需要根据客户的SLA要求考虑一定的冗余>

存储:汽车CAE仿真场景典型业务模型为大小文件混合读写,并发度高;对存储性能要求高;优先推荐高性能并行文件系统HPFS

,如需降低成本且对存储性能要求不高的场景可以采用文件存储SFS。说明通常50节点以内1台即可,大型项目4台足够小型项目规格可以更低

,如2Ⅵcpu4G内存S3

,建议在汽车业、需要混合调度的项目中引

入可提供PBS、SIurm、SGE等不同的调度器独享实例,性能稳定,网络为DPDK

,C3/MB/D3最高可到18Ge;主打对性能要求苛刻的场景,如碰撞模拟前后处理CAD

,若没有需求则不用大小文佚混合读写,存储性能要求高,优先推荐对存储性能要求适中的场景可采用,成本低数据归档场景采用规格建议1台8vcpu16G内存S3实例2台HA部署,4Vcpu8G内存S3实例汽车行业常用PBS调度软件C3、M3

D3序列,如32vcpu128G;

c3ne序列网络最高可到40Ge高性能物理机,100GIB网络G2、

G3序列按需配置容量,配置EC保障数据可靠性按需配置容量,推荐SFS

.Turbo性能型采用归档型,按需配置容量服务各称云主机(ECS)云主机(ECS)调度软件云主机(ECS)物理机

(BMS)GPU

ECS并行文件系统

(HPFS)文件系统

(SFS)对象存储

(ZOS)功能登录节点管理节点计算节点存储汽车CAE仿真解决方案云服务清单24BCL文件FastQ文件

SAM/BAMGOR文件云上业务流

数据上云基因拼接基因对比基因注释数据归档/下云原始数据单样本60~100GB全场景分析产生数据1500GB/样本数据上传样本采集DNA/RNA采集基酉测序

(测序仪)源数据存储基因拼接/对比/注释数据分类存储FTP、

OBS-Browser、obscmd、

s3fsTB级原始数据快速上云EⅡPNPN/专线Bd2fast

q、

AbysS

SOAPdenovo

Velvet、

CLC

Genomic、

Work-

bench需多核大内存物理服务器满足软件要求常用软件核心诉求匹配方案云服务应对生物基因测序业务挑战HPC解决方案高规格云主机+物理机弋对象存储

(归档)SGE、

PBS、

Slurm

BWA、

Samtools,

Picard、GATKFTP、

OBS-Browser

obsamd、

s3fs结果数据快速下云部分数据永久

保存业务全流程核心数据取回本地缩短计算耗时缩短计算耗时EIPΓVPN/专线GATK25说明通常50节点以内1台即可,大型项目4台足够部署集群计算调度引擎SGE或Slurm为开源调度引摩独享实例,性能稳定,适合于大批量常规任务计算BWA

,GATK等软件的测序流程做了加速

(视客户需求选用)海量小文件处理,对存储性能要求高,优先推荐数据归档场景采用规格建议1台8vcpu16G内存S3实例2台HA部署,4Vcpu8G内存S3实例基因测序常用SGE或Slurm调度软件

C3

,

如32vcpu128G;按需配置容量,配置EC保障数据可靠性采用归档型,按需配置容量服务名称云主机(ECS)云主机(ECS)调度软件云主机(ECS)FPGA

EC

S

(待上线)并行文件系统(HPFS)对象存储

(ZOS)潜在客户群:生物基因公司、制药企业、高校生物科学院等天翼云案例:XX基因测序云平台

(完成PoC测试)功能登录节点集群调度计算集群存储云生物基因测序解决方案云服务

清单26面临挑战·政策驱动:国务院《打赢蓝天保卫战三年行动计划》,

各省市积极响应:增强空气质量预报能力:国标6种大气污染物

(CO、

CO2

、SO₂、臭氧、PM2.5、PM10)

数据进行大规模复杂的数学运算实现空气质量预报,需要具备更强运算性能的计算环境提供支撑·促进空气污染治理:根据空气质量的计算结果解析污染来源,为污染防控提供决策指导依据,数据计算规模更大,运算周期更长,对计算平台的性能:网络数据吞吐能力、稳定性、可靠性提出了更高需求。·降低成本:提供兼具灵活性和扩展性的更高性价比的解决方案,以满足和支持不同运算规模的空气质量预报需求,空气质量预报以数值预报为主,成熟应用NAQPMS模式

(中科院)

、Models-3/CMAQ模式、CAMx、W

RF-Chem等应用典型特征:并行计算,MPl通讯、通讯密集

(100Ge网络带宽)

、10要求高

(2GB/s)业务量

(单个城市,以西安为例L:

300TB存储、

30TFLOPS(按国标6种大气污染物,预测3*3干米,常规预报1天1次,纯化加密预报1小时1次

);密度变化时计算量增长非线性,如从3*3千米到1*1千米,增长>9倍业务人员空气质量预警预测平台(子网)HPC集群管理

(~4台)集群调度

集群调度

登录节点高性能计算集群100G

IB●SFS文件服务潜在客户群:各地市环保局天翼云案例:XX市环保局指挥中心

(完成PoC测试)业务挑战云空气质量预测预警解决方案天εClou27备注2台集群HA部署,调度软件由客户采购提供或使用Batch服务

(预计9月份发布)C3、

M3、D3序列,如B2vcpu

128G;

c3ne序列网络最高可到40Ge单台性能近2TFLOPS大型业务场景,对存储性能要求高,优先推荐对存储性能要求适中的场景可采用,成本低规格建议S34vcpu8G

,

1台S38vcpu16G,2台HA部署独享实例,性能稳定,网络为DPDK,C3/M3/DB最高可到18Gbps;尽可能引导客户使用云主机交付高性能物理

(100G

IB网络)按需配置容量,配置EC保障数据可靠性按需配置容量,推荐SFSTurbo性能型服务名称云主机(EC习)云主机(ECS)云主机(EC习)物理机

(BMS)并行文件系统(HPFS)文件服务(SFS)分类登录节点集群调度计算集群存储注:空气质量预测预警软件通常开源免费,建议使用大规格ECS部署,可以把集群规模建大,避免采购BMS,降抵运营风险天翼云空气质量预测预警解决方案云服务清单28目录Part1

市场趋势分析Part2

超算解决方案Part:3

智算解决方案Part4

拓展建议&客户案例基于人工智能芯片构建智能计算系统,主要应用于人工智能模型开发,模型训练服务和推理服务场景;满

足自动驾驶、基础科研、新药砒发金融、元宇宙等行业应用需求

,以普惠的智能算力,加速科技创新和产业升级。科学计算与物理仿真号目HouditPH内置媒体/渲染/物理仿真引擎rectX

Var软数字李生领域电力中心三维数字请像真实物理世界、虚实数据连动XR扩展现实让物理世界与虚拟世界融合交互、信息触手可及讨算

现代图元宇电算力基础智算中心智算应用场景物理进界数字化,数字世界物哩化30我们能提供●低时延网络●A100GPU芯片●海量小文件存储大容量存储●低时延推理●可选择独占计算资源●●文件并发读写高数据安全保障●支持资源快速扩充、迭代支持弹性管理、灵活调整在视频监控场景中;视频采集数据量大,且文件个数较多,对存储容量要求高;实时分析场景下,对算力

、时延要求较高。实时视频分析,如直播场景,需要

直播画面第一时间出现在客户面前,对网络时延需求高;视频画面在呈现在用户端之前,需要做秩序审核,对该环节的推理时延要求高.秩序场景下cv领域的模型训练,需要周期性的截图,对截图进

行分析。生产出海量的小文件,涉及到海量小文件存储的需求

,行业应用场景需求大带宽是视频的特点,为降低cdn带宽,推荐进行视频超分A推理。超分对算力、推理时延需求高。智慧制造安全精检测

外观质量检测

安全巡检

工业质捡设备监控告警

设备预测性维护

…视频场景:特点及需求分析智慧交通自动驾驶

车型识别车辆违规停放

车辆禁行检测通道堵塞捡测

高速团雾布控因监管原因,需要长时间的存储视频文件,对存储容量要求高。智慧城市无人货柜垃圾识别违章建筑别加油站打电话、烟火检溉.智慧媒体视频点描

视濒直播实时音视频

视频创造分发.智慧园区离岗

、缺岗检测围墙翠爬、闯入捡测区域进规间入检测…特点32多种异构算力●

提供英伟达A100、A10支持视频分析,针对超分场景提供大规模

算力●

GPU容器化切分,在满足视频分

析场景下,最大化提升资源利用

率●

在裸金属资源池和云主机资源池

构建统一的容器引擎

,同时推理

类业务部署在云主机或容器资源

池,训练类应用部署在裸金属资

源池算力调度&加速●

推理加速,提拱模型压缩和编译

优化能力。优化模型的性能,提

升推理的延时和吞吐能力●

云边端全场景模型推送,以容器

为底座,模型可按需推送到边缘、端设备●

多种调度策略,在保证业务连续

性基础上,实现多地域、多集群

统一调度,提升视频处理效率多种存储结合使用●自研对象存储(ZOS)

,可横向

扩展至EB级,支持冷热数据分级降低成本;具备跨AZ、跨异地容灾等丰富的数据保护能力;支持

流直存、智能图片处理、高级视

频转码、CDN等丰富的视频处理特性。●自研海量文件存储OceanFS,容量可扩展至百PB级,文件数可达

40亿,单

目录文件数可达1亿,百万级IOPS

,

可满足海量文件存储,对IOPS有较高要求的场景视频场景:方案优势可以根据客户的业务软件,结合天翼云自身技术积累,为客户提供风险低、高性能、最佳性价比的实现方案:33在数字替身场景中,涉及海量文件的处理和多个模型训练;虚拟主播场景中,对音画同步和实时交互的要求较高;核心数字资产场景中,对高效率和安全性要求高。传媒:虚拟主播●

智能交互●

实时渲染●

高性能问答知识库,多模态●

音画同步、低时延、高带宽元宇宙:核心数字资产●

流转和交易●

数据安全●

低时延、高算力、高效率●

基础设施、平台安全影视动画:数字替身●

超写实数字人像●

表情、动作丰富●海量数据训练·

多个大模理并行训练行业应用行业需求我们能提供数字人场景:特点及需求分析特点34渣染+训练+推理

全场景支持●

分布式训练框架,支持数据并行、模型并行等多维度并行,提升大

横型训陈效率●

数据智能加速,明显减少训练数

据加载时间●

拓扑感知调度,多机多卡训练场

景下,最大程度保证算力聚合●多种GPU算力资源统一容器化调度满足渲染:推理等需求高性能存情众数据安全●

数据条带化,VO负载均衡,支持上万客户端并行访问●

基于全闪介质和RDMA高速网络,提供百GB吞吐、百万级IOPS、亚毫秒级时延●,VPC隔离、端到端加密,保障数据安全●

支持EC

,

数据高可靠高性能网络●

采用IB网卡,带宽高达EDR(100Gb

ps和HDR(200Gb

ps),提供高带宽和高吞吐量●

转发时延低至100纳秒级,提供端到端小于1微妙转发时延●

RDMA技术保证端到端不丢包

,消除传统TCP/1P网络中重传包带来的性能降低可以根据客户的业务软件,结合天翼云自身技术积累,为客户提供风险低、高性能、最佳性价比的实现方案:数字人场景:方案优势35智能引导RPA+OCR技术

RPA+NLP技术智能导办网止审批智能互联录入RPA+OCR技术审核慢审批智手段滞后审批数据踵复录入As-IsTo-Be智能预审RTC远程面审+RPA围绕政务服务场景打造智能数字助理

,支撑一网通办“

秒批秒办

”利用人工智能技术,构建RPA机器人和智能审批能力,实现表单/材料辅助录入,系统自动受理,自动比对通过的办件,秒批办结减轻工作人员审批工作量,缩短群众办事时长全类型知识问答支持图谱、表格、文档、图片等全类型知识问答预置政策:专项事项知识图谱多模态对话&语音交互升级用语音交互革新按键导航流程,实时理解语音对话内容,提升市民的热线体验RPA与Al能力深度融合集成OCR、语音识别

、图像识别等Al能力智能化处理部分人力作业政府场景:特点及需求分析引导乏线上政务业务引导薄弱,无法精准定位业务事项效率低业务办理填报繁琐填报项重复填报智能客服机器人+RPA智能填报

智能预审OCR证照识别+RPA智能引导

智能填报智能面审市民/企业智能录入数据共享智能填报结果送达网上受理智能面审36云留一体●

云管平台,提供标准化运营计费、租户管理、监控运维等能力●

预训练摸型,提供丰富得预训练模型,缩短Al业务上线周期,提升Al业务平台能力●

低代码模型开发平台,低门槛构建A业务●

多中心统一调度,属地多算力中心.云上云下可统一进行管理调度开放平台●

提供标淮OpenAP

,

可按需与各种SaaS业务集成●

多样化算力,可提拱云主机、裸金属、容器、Al任务、HPC任务等多种形态算力。用户可按需使用●适配Tensorflow、

PyTorch、MindSpore、

PaddlePaddle等众多主流框架国产化方案●适配昇腾、寒武纪等国内主流

GPU芯片●

适配海关、鲲鹏等各种国产服务

器●

适配国产化操作系统,包括

CTYunOS、麒麟、统信●全

自研的智算、HPC平台●全自研并行文件系统可以根据客户的业务软件,结合天翼云自身技术积累,为客户提供风险低、高性能、最佳性价比的实现方案:政府场景:方案优势37大模型成为迈向通用人工智能的重大技术突破,随着数据的井喷,算法的进步,算力的突破,效果好、泛化能力强、通用性强的预训练大模型成为人工智能发展的新方向。通用人工智能

(强人工智能)自适应地应对复杂外界环境的挑战智能对话智能问答智能抽取智能创作智能对话智能问答智能抽取智能创作模型a

模型b

模型c

模型n

大模型·灵活定制场景·通过举例子的方式,定制大模型海量的应用场景·模型效果更优·

大模型在各场景上的效果均优于普通模型·创造能力更强:大模型能够进行内容生成(AIGC),助力内容规模化生产·使用门槛更低·

高效支持N个不同场景的智能应用不依赖于大量算法专家模型GPT-3PanGu-α

Yuan

245B参数量175B200B245B数据集0.6TB1.1TB5.0TB交叉

熵1

.732.491.64专用人工智能

(弱人工智能)解决特定智能问题

优势

大模型已成为人工智能新主流方向大模型BERT、ERNIE精度更高,效果优于传统模型

■传统模型

■大模型BERT

■大模型ERNIE大模型训练场景7项典型语言理解任务效果为什么需要注:交叉熵越低,精度越高精度38单机单卡

多机多卡算力瓶颈

内存墙

通信瓶颈:

模型并行·

数据并行

·

通信并行具有大量参数的模型并行计算大规模数据集并行计算模型渗数越多对通信带宽的需求变高·

IB/RoCE网络·

100GVPC网络智算平台:为大模型训练提供保障随着数据集的增加以及模型参数量的提升,单机模型训练始终会陷入算力瓶颈。对于有大量生产业务的企业来说,多机多卡分布式训练已经是常规实践。粗略来说,多机多卡训练就是使用很多台机器每台机器上都有多张GPU卡,模型跑在所有机器的GPU上以加快训练速度.挑战需求我们能提供·

并行文件存储·

海量文件存储·

高性能集群·

分布式框架39提供数据管理、训练、推理的一站式平台,覆盖Al能力建设的全生命周期,为Al模型的研发、Al应用的落地降本提效1

.创

3

.

模型训练5

.

模型管理·

富的预

模型:站

在巨人

肩膀

上做

二次开

,帮助开

发者快速生成优质模

型可

视化

模:

需开

发代码

就可

模型

,降

习技术门槛·

互式

模:使

用原生代码进行

更加定

制化

的模

型构建,提升高

级开

者开

率·4.

模型评测·自动

测:

供模

型可视化解

释和

评估能

帮助

开发

精准

判断模

化和

应用策略模型分析:提供

数据

的多维可

化解

析能

力,大

大增

数据

知2

.

数据处理·

注:提供人机

交互

作标注,

注成本·

多人标

注:通

过团队协作完成标注

任务,

高标注效率模

版本

:通

过便捷

的版

管理

制,促

版本

迭代第

三方

模型

入:

用户可以

将本

已训

好的模

模型

,助力Al应

用快

速部

地6.

推理服务云

同智能推理:

提供

时延推理

能力,使模型

到最优

推理

性能,

助力Al应

用快

落地·

目管理

团队协作,提

高研发

率·共

与计算资

源,降低

本智算平台一为算法工程师提效40智能算力平台

HPC算力平台可视化建模

分布式训练推理加速资源调度异构资源纳管数据分层TeleCloudOS

4.0弹性云主机弹性裸金属容器引擎云硬盘

并行文件系统海量文件系统操作系统:CTYunOS2.0.1硬件基础服务器(X86、ARM)GPU(NVIDIA、寒武纪、燧原

、昆仑、异腾)存储(FCSAN、IP

SAN、分布式存储)网络《普通网卡、智能网卡

、IB网卡)操作系统·

适配国产化操作系统,包括CTYunOS、麒麟、统信云底座·

自研的TeleCloudOS4.0基础硬件·

适配国产化服务器,支持X86和ARM架构CPU·

支配国产GPU

,包括寒武纪昇腾等·

适配国产化集中式存储自主研发掌握云计算核心技术,打造国产化

信创能力体系,构建自主可控的智能超算中心智能超算平台·

全自研的智能算力平台·

全自研的HPC算力平台国产化方案41Al训练

气象科学影视渲染科学研究制造仿真并行文件系统HPFS元数据服务器

存储服务器目

-目·数据条带化

,1/O负载均衡,支持上万个客户端并行访问·基于全闪介质和RDMA高速网络,提供百GB吞吐、百万级IOPS、毫秒级时延·基于元数据/数据分离架构,容量可扩

展至PB级·

VPC隔离、端到端加密,保障数据安全·

支持EC

,数据高可靠高性能并行文件存储HPFS

,助力算力效能发挥

安全可靠

大容量高性能异构算力X86

|ARM多样网络IP|IB全闪介质SSDPOSIX/MPI42平台侧安全边界安全:抗DDOS

(流量

>

1G

)、下一代防火墙接入安全:SSL

VPN终端安全:主机安全系统

(EDR)合规审计:日志审计:运维堡垒机^

数据库审计风险评估:漏洞扫描威胁监测:安全态势感知系统

(安全监测预警)+流量探针合同条款约束安全天翼云提供安全:天翼云负责安全解决方案及三线运维客户(省市电信)

负责一二线运维和安全运营客户(省市电信)自采安全:由客户(省市电信)

负责全部安全责任物理和环境安全:省公司提供机房由省公司负责;客户自己机房由客户负责合规咨询:混合云合规主体责任在客户(省市电信)等保测评、

网信办评估:密评:客户根据自己业务需求选择测评服务租户侧安全部署形式:外挂安全资源池,与云平台解耦安全组件:云下一代防火墙(IPS、AV)

Web应用防护、行为管理、

日志审计、堡垒机、数据库审计、漏洞扫描、主机安全、VPN流量类组件:南北向流量防护,核心PBR引流审计类组件:通过专线POP交换机与用户VPC内网打通数据安全存储集群高可靠性与数据冗余策略:采用多副本或者纠删码的方式数据可靠性:快照、备份一体机数据隔离性:租户aksk认证机制,

VPC隔离能力,linux标准POSIXACL加密:支持底层存储加密,数据传输加密等端到端的加密能力安全方案43Node1

Node2

Node1

Node2MDSMDGVPC

Switch

LeafLeaf25Gleaf

oss

ossAl训练POD

并行文件存储25G

leaf

100G

leafLeaf

Leaf

Leaf

LeafTCP

25G25GIB与RoCE网络解决方案为智算与超算应用提供高速、低时延、大带宽的支撑平台,助力天翼云算力平台和应用系统建设通用建设方案-高性能网络架构设计Leaf

Leaf1006E!趸迂f

i巨af25G

VPC

Switch推理

POD100GleafLeaf

LeafRoC

ESpineLeafIB200GSpine

100GSpine

SpineSpineLeaf400Gleaf海量文件存储天翼云推理推理44简化组网:

多个网络承载在同一张物理网络上,逻辑隔离

,管理网单独组网,不受业务影响>灵活扩展:

SDN技术亲和方案,网络灵活调配

,租户侧支持VXLAN

,突破4096个VLAN限制能力组合:各类资源内网互通,形成组合能力,灵活组合,灵活调度去堆叠:

设备升级无需停止网络服务双接入单边可独立承载,快捷上线和下线无环设计:

通过端口聚合和M-ALG/维叠技术,完成整体的无环设计,结合BUM报文抑制,可支持达1000台以上服务器通用建设方案--.IDC-物理网络、硬件配置45通用建设方案--服务器选型>支持标准Al服务器规格>支持IB和RoCE两种网络方案>可适配英伟达、鼻腾、寒武纪等多种GPU卡Al训练

(国产-昇腾)Huawei

Kunpeng920-5250Processor48C2.6GHz

*4DDR4-3200

32G

RDIMM*16

(512G)SATA-SSD480G*1+NVMe-SSD

3.2T*2无硬件RAID卡HuaweiAscend

910B*8100G光口单口

(RoCEV2)*4

+25G

光口双口CX5(以太卡)*2+1G电

口双口*1Al训练

(IB)Intel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论