算网一体定义算力网络未来_第1页
算网一体定义算力网络未来_第2页
算网一体定义算力网络未来_第3页
算网一体定义算力网络未来_第4页
算网一体定义算力网络未来_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

算网一体定义算力网络未来段晓东中国移动通信网络正加速向新型信息通信网络演变通信网络新型信息通信网络算力为核心的信息数据处理网络为核心的信息交换提供语音、短信、移动宽带等通信服务提供计算、感知、智能、安全等一体化的新一代信息通信服务架构范式技术范式资源范式产业范式2中国移动算力网络发展历程中国移动深刻把握算力时代发展脉搏,发挥运营商网络领先优势,以网强算提出“算力网络”全新理念。两年来,继往开来、开拓创新,全力推进算力网络发展组建新战队构建新装置算力网络是以算为中心、打造新平台算力网络子链组建开创新方向发布《算力网络科技创新成果》,CFITI试验网与中国算力网、中科院信息高铁联合打造科学装置网为根基

,网、云、数、智

链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。融入新战略14支攻关战队联合攻关产业问题启动算力网络试验网CFITI1.0,发布算网服务体系1.0发布新理念发布《算力网络技术白皮书》,提出十大技术方向成为“5G+算力网络+能力中台”新型信息基础设施的关键一环提出新概念发布中国移动《算力网络白皮书》和发展倡议杨杰董事长提出“算力网络”概念与愿景5G算力网络智慧中台——中国移动《算力网络白皮书》3算力与网络跨学科交叉融合创新算为核心,网为根基,算力与网络的融合体现在“以算促网”和“以网强算”两个方面,二者“双向驱动”,算网交叉融合创新成为发展新范式算力发展需求网络演进需求Ø

从通信服务向新型信息通信服务转变Ø

性能代际提升对算力提出更高要求Ø

单一速率范式制约网络规模发展Ø

摩尔定律下单点算力面临性能瓶颈Ø

多样性算力需要异构融通、互补协同Ø

泛在算力闲散分布,需要高效集约利用研判:算和网已经呈现双向驱动趋势,为了进一步呈现整体的能效、性能和利用率优势,需要算网一体化的系统思维和多学科交叉创新能效算网一体=F(Computing,Network)必要条件:Network,Computing互相影响充分条件:F(Computing,Network)>=F(Computing)+F(Network)限制条件:有限的Computing资源,和有限的Network资源优化目标:

=G(能效、性能、利用率)网络算力利用率性能4算网一体是算力网络的发展目标走过算力网络“泛在协同”的重要阶段,迈入“融合统一”的发展新阶段跨越:一体内生发展:融合统一起步:泛在协同一体服务,模式创新融合服务、统一运营一站服务、协同运营智慧内生算网一体算网融合智能编排协同编排网随算动5算网一体主要特征算网一体原创技术深度赋能算网基础设施、编排管理、运营服务多层次一体化发展设备一体协议一体架构一体服务一体网络和计算服务统一入口,通过能力的相互补充和调用,面向用户提供无感知的网络和计算服务以外挂或内嵌/内生的方式,形成“算力感知”、“网络感知”或“转发即计算”的计算形态,构建异构融合的设备硬件支持算力、网络、应用等多维资源感知和调度的新协议,可通过网络协议扩展并携带计算信息,或者定义新型协议构建统一编程范式和异构算力抽象机制,形成一体编译链接、跨架构动态运行的基础软件架构,实现应用跨架构无感迁移6算网一体发展需要原创技术创新算力网络是算网交叉学科创新的重大契机。为构筑算力网络发展源动力,开创算网一体原创技术体系,已形成一批标志性的原创技术总线互联算力路由数据快递全调度以太新一代SD-WAN算力并网卡间高速通信Under与Overlay协同实现算力供给侧改革突破互联网架构协议突破广域传输性能瓶颈突破无损以太性能瓶颈算力智能内生移动算力算力原生存算一体算力度量在网计算计算要素创智能服务5G、6G新增计算面突破冯氏架构打破单维算力指标实现应用跨架构迁移打破算网边界隐私计算算力卸载400G/800GG-SRv6空芯光纤算力解构安全数据分析计算多算力形态统一底座统一IP承载协议新型光纤介质与系统应用模块化解构部署超高速大容量全光网络50GPON+FTTR云原生OTN光电联动全光接入应用感知空天地一体新型接入网架构敏捷高效体系新型全光网架构新型接入网架构应用类型识别突破异构算网融合算网一体“5颗珍珠”:算力原生、全调度以太、算力路由、在网计算、数据快递7算网一体需要解决的核心技术问题面向网络和计算的联合优化问题基于互联网协议体系,在路由中引入算力因子,开创算力路由协议,实现距离向量和计算向量在路由技术的叠加,满足新型业务网络和计算的时延需求。1①算力路由CATS突破互联网架构协议构筑新型智算中心的问题23②全调度以太GSE传统无损以太存在性能天花板,网络技术成为AI算力瓶颈,通过创新以太网转发机制,以网强算构建无阻塞、高带宽、低时延的新型智算中心网络。突破无损以太性能瓶颈大规模数据广域高效传输的问题针对传统协议吞吐随着传输距离、丢包率增加而急剧下降问题,设计新型可靠传输协议,实现长肥网络下超高吞吐数据传输。③数据快递GSN突破广域传输性能瓶颈81、算力路由CATS(1/3)算力路由将算力因子引入路由域,实现网络和计算的联合优化,克服面向边缘计算的“性能反转”问题,满足时延和计算敏感新型业务需求典型场景2:Computing-AwareV2X典型场景1:Computing-AwareAR/VRAR/VR时延需要低于20ms保障用户体验,包括:•

传感器采样延迟:<1.5ms(客户端)•

显示刷新延迟:≈7.9ms(客户端)•

GPU的帧渲染计算延迟≈5.5ms(服务器)•

网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络)•

观察1:计算延迟和网络时延在同量级•

通过算力路由在本地优先处理低时延业务(如辅助驾驶业务),保证其用户体验和可用性•

观察2:仅根据网络或计算负载选择服务节点,总时延无法满足•

观察3:根据两者选择边缘站点3,总延迟≈19.4ms•

将时延不敏感业务(如车载娱乐业务)从本地调度到远端结论:需要同时考虑网络和计算资源状态,进行路由协议层面的联合优化91、算力路由CATS(2/3)算力路由需要解决算力扩展、算力信息通告、多因子路由求解等多方面的问题,实现基于网络因子和计算因子的联合路由技术方向:简单高效的算力信息封装问题1:算力度量问题统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGPPathAttribution扩展封装计算时延信息算力信息维度较多,需要定义面向路由调度的高可用性计算信息,兼顾报文封装成本以及可用性技术方向:自适应的算力通告问题2:合理的算力信息通告问题提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告。通过仿真建模量化分析算力信息通告信令开销的影响通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点技术方向:新型算网多因子算路算法问题3:路由求解,多维因子路由优化问题构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost在距离矢量上叠加算力向量,改变选路方法,影响路由决策。简单叠加将导致路由不收敛EEE算力节点状态通告算力节点能力通告BBBAC连接算力的网络节点AC连接算力的网络节点AC网络节点网络节点网络节点算力网络节点拓扑算力网络状态拓扑网络拓扑101、算力路由CATS(3/3)历经4年,中国移动在IETF发起成立算力路由工作组(CATS,Computing-AwareTrafficSteering),中国移动担任主席,是IETF路由域近20年由中国高校/公司牵头成立的两个工作组之一2023年3月CATSWG成立暨首次会议,是路由域最受欢迎的工作组之一2019~2022年5次研讨会完成场景和需求立项完成实验系统,验证全局时延优化上约30%的性能提升推动面向AI大模型的算力路由场景写入CATSWG标准基于CATS的分布式推理基于CATS+AI的内容获取AI-basedMediaDistributionandTrafficSteering合力攻关算力路由技术,围绕IETFCATS构建标准体系,推动产业生态加速构筑领先优势112、全调度以太GSE(1/3)AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”智算中心建设进入快车道,网络技术发展已滞后于AI模型演进,新型AI网络方案成为业界创新焦点集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}网络设备能力决定GPU集群组网规模网络性能决定GPU集群算力加速比网络可用性决定GPU集群稳定性2%的丢包就会使RDMA吞吐率下降为0芯片容量提升2倍,组网规模提高4倍GPU集群性能≠

单GPU性能*N随着GPU单卡算力受限,获得同等算力的难度持续增加,以网强算成为提升大模型训练效率的关键122、全调度以太GSE(2/3)中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展创新以太网转发机制,实现三大核心机制转变从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制从“局部”决策到“全局”调度从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性Spine拥塞33322211133222111332211源leafSpineSpine目的leaf丢包当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞132、全调度以太GSE(3/3)中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系2023.52023.62023.82023.92023.11云网智联大会发布CCSA成功立项中国算力大会正式启动中国网络大会发布ODCC冬季全会GSE工作组成立及第一次工作组会议《全调度以太网技术架构》白皮书

《全调度以太网总体技术要求》

全调度以太网(GSE)推进计划业界首款GSE原型系统全调度以太网(GSE)特设组研究范畴全调度以太网(GSE)合作伙伴改进的RDMA、新型拥塞控制协议、网络多路径能力、乱序重排、选择性重传等运维和管理体系传输协议层中国移动,中国信息通信研究院,中国广电、华为、盛科、中兴、锐捷、新华三、浪潮信息、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普,星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等四十余家产学研机构及厂商网络层新型网络拓扑、新型路由协议、新型组播协议等端到端网络可视化、可调试能力、部署/运维/变更/故障恢复等多维自动化能力改进的PFC、GSE高级调度技术、链路级安全、链路级容错等数据链路层低延迟FEC、光交换、故障快速检测、400G/800G以及更高速率接口物理层扩展等物理层143、数据快递GSN(1/2)算力分布的不均衡以及智算、超算业务的蓬勃发展对广域数据传输提出更高要求,中国移动提出“数据快递”技术体系,充分利用高带宽网络实现高吞吐数据传输数据量大传输距离远网络复杂多样单次传输在TB级别天文观测:几十TB/次属于长肥网络(LFN)带宽时延积(BDP)大网络传输带宽:>10Gbps传输时延:20ms~50ms设备异构、拓扑复杂,难以无损链路层误码率不可避免基因测序:TB~100TB/次影视渲染:10TB~100TB/节目大象流负载不均,存在拥塞丢包多流竞争,存在微突发丢包传统TCP协议在数据快递中吞吐受限,有效吞吐与链路时延、丢包率成反比单流传输时,时延由1ms增加到10ms时,吞吐下降约10倍使用多流传输会使单流吞吐下降,且受主机CPU性能限制,同样存在吞吐瓶颈1.22*MSSTCP网络吞吐=

——————RTT*

Sqrt(L)RFC3649:HighSpeedTCPforLargeCongestionWindows8条流并发传输,单流吞吐下降7%153、数据快递GSN(2/2)基于新型传输协议,构建“数据快递”技术体系,实现超长距广域网环境下的超高吞吐数据传输基于UDP协议设计新型可靠传输协议贵州到北京“数据快递”测试应用层API编程接口广域长肥网络广域拥塞控制机制新型可靠传输协议丢包快速恢复丢包精确重传贵州FAST北京国家天文台多路径传输传输距离远

链路时延长

链路带宽大2200km

RTT≈4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论