版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
编制说明本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家,参编单位和参编人员。●顾问专家(排名不分先后)华为数据通信产品线数据中心网络领域总裁:王武伟中国信息通信研究院云计算与大数据研究所所长:何宝宏●参编单位(排名不分先后)华为技术有限公司、中国信息通信研究院云计算与大数据研究所●参编人员(排名不分先后)何宝宏、郭亮、王少鹏、李建高、赵笑可、郑晓龙、温华峰、李经、闫孩、于浩i进入数字经济时代以来,算力成为推动各行业数字化转型,赋能经济蓬勃发展的重要引擎,同时也成为衡量国家综合实力的重要指标之一。随着以ChatGPT、GPT4为代千亿参数的大模型,通过在海量数据上进行预训练,极大地推动了Al语言理解和多随着ChatGPT等Al应用场景的快速增长,业界对更大规模的Al模型训练需求殷切。这对支撑基础训练的数据中心网络的性能提出了新的要求。我们需要提供极致的通信性能、计算能力和稳定性,以支撑万亿级甚至更高规模参数的模型训练。如何通过网络技术突破来满足训练任务的规模、效率需求,已成为一个非常关键的研究方本白皮书旨在深入分析Al大模型训练对网络的新需求,探为构建面向Al大模型的高性能训练网络提供参考。我们将从大模型训练的发展历程和业务需求角度出发,分析网络与其应用之间的差距,并探索如何通过技术创新优化本白皮书的版权归华为和中国信息通信研究院云计算与大数据研究所所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。前言 1 2 4 7 9 2.3Al大模型训练周期长,需要高可用健壮网络降低MTBF 2.4Al大模型云化即AlCLOUD,需要面向多租户的云网一体化架构 第3章星河Al网络打造Al时代最强运力,以网强算,释放Al生产力 目录 3.5开放性:标准以太RoCE高效开放 第4章最佳实践 第5章展望 第7章参考文献 目录1AI发展全面加速,智能未来走可以看成是人工智能这艘巨舰的“舵”,而算力和数据则分别是推动人工智能发展的1.1算法:迈入万亿参数大模型时代,开启通用人工智能的大门模型结构逐渐收敛到以解码器结构模型为主(Encoder-only)的BERT模型,随后在2018年~2021年期间,Google、Meta、微软和百度等公司也在BERT基础上提出了改进的编码器模型[2]。然而在2021年之在2019年分BART,且Google在过去几年仍持续优化演场主要聚焦在解码器结构模型。随着模型结构发展至今,除了OpenAl公司的GPT系列模型(包括GPT1、GPT2、GPT3、InstructGPT、ChatGPT3.5和GPT4)外,Z)、百度的文心一言(ERNIE)等主流模型都采用解码器结构。通常,解码器结构的大模型扩展定律驱动模型规模持续增长过去6年里,Al大语言模型参数量从Transformer的6500万,增长到GPT4的1.8万亿,模型规模增长超2万倍,如图1-1所示。 23量变,即更大的参数规模、更多的训练样本以及更高的算力供给,引发的质变,使得Al大模型在解决通用问题上表现出非常优异的性能。正是扩展定律和涌现能力,驱OpenAl在GPT4模型中引入了多模态处理能力,能同时处理文本、图像、视频等多元化数据。多模态处理能力可以对不同呈现形式的信息进行融合理解,进一步提升Al大模型的学习能力,帮助Al从多维度更好的理解真实的物理世界,对于通用人工智能的实现有着重要的作用。目前文本、音频、图像等单模态大语言模型已经相对成熟,大模型正加速朝着多模态模型的方向发展。从VisionTransformer的提出,再到GPT4的图文处理能力,多模态模型取得了明显的进步,如图1-2所示。大模型阶段文字生成DALL-E为进一步提升多模态模型的效率,模型通常采用混合专家并行(MoE,MixtureofExperts)架构,可以简单的理解为用不同的专家去学习、理解和处理不同模态的信息,从而整体实现多模态信息的融合处理。但是研究表明,在多任务处理中,更多的专家模型存在难以泛化的问题,也更难收敛。因此,尽管GPT4模型的多模态能力有了长足的进步,但是多模态模型的发展仍处于起步阶段,面临着较大的挑战。1.2算力:单卡算力2-3年翻倍,算力集群Al模型参数量的持续增大带来算力需求的指数级增长,如图1-3所示。2012年至2019年Al训练算力平均每100天翻倍。而GPU的单卡算力则需要2-3年增长一倍,由此可见,单卡算力的发展速度远远落后于模型发展的算力需求。4迅猛。据IDC(InternationalDataCorporation)预测,到2023年中国的智能算力规模将达到427.0EFLOPS,超过通用算力规模,预计到2026年,智能算力规模 56以GPT3为例,模型参数量为1750亿,训练样本数为3000亿,如果GPU的峰值算力为312T,预期一个月完成模型训练,考虑到业界GPU的平均利用率为50%左右,则需要的GPU卡数为8×175B×300B/(30×24×3600×312T×50%)=1038卡,也就是一个月训练千亿参数的稠密模型需要千卡。随着Al模型进入万亿参25000张A100GPU训练1.8万亿参数的GPT4。1.3数据:数据需求持续增长,对高质量数据需求迫切随着Al大模型能力的持续优化,更大的模型需要基于更海量数据集训练。OpenAl的GPT1模型曾在110亿样本的BooksCorpus数据集上训练。发展到投入应为80%的数据投入和20%的模型算法投入。比如高质量人工标注数据,可以弥补模型规模的差距。受益于高质量数据训练,研究[11]显示,高质量的语言数据将在2026年耗尽,低质量的语言数据将在7时间数据集大小小说166种语言的网页CC-100100种语言的网页Github代码、法律等网页101种语言的网页46种语言的网页、13种语言的Github代码30种语言的Github代码网页、Github代码、网页8第2章AI大模型时代到来,网络面临随着Al模型参数的规模越来越大,从千亿增长到万亿、十万亿级,客户将面临首先,Al大模型并行计算模式需要以超大容量的网络为基础,从而催生了新的其次,Al处理器的成本高昂,为了充分发挥处理器性能,提高其利用率,需要最后,Al大模型训练周期长,训练过程中极易出现可靠性问题,导致网络频繁92.1Al大模型并行计算模式,催生超大容Al大模型训练相比通用计算需要更多的处理器参与并行计算,如何协作数万张处理器,保证计算“加速比”不随着算力规模的增大而大幅降低,避免出现1+1<2数据并行(DP,DataParallelism):通过把训练数据集分为多份,并行训练,●流水线并行(PP,PipelineParallelism):通过把模型的不同层部署到不同的GPU上,从而减少大模型计算对GPU内存的需求。以GTP-3为例,在每轮迭代中,如果使用数据并行方式,通信量可达到9.5GB/iter;如果使用流水线并行方式,通信量可达到13.5GB/iter;而使用张量并行方式,通信量可达到567GB/iter。VPCVPC/参数面融合承载网POD参数面大网参数面大网参数面小网这张网的特点是规模小(<1K),但容量超大,每个节点的接入带宽高达每秒数另外,实现数据并行(DP)模式和流水线并行(PP)模式,需要跨服务器通这张网的特点是规模超大(>100K),甚至达到百万规模,该网容量大,每个节点的接入带宽高达400G甚至达到800G。针对“参数面大网”,业界一般在以太网通过对Al系统成本的分析,得出计算部分占比超过70%,网络占比仅有8%,然而看似在成本上不起眼的网络,却在Al训练的端到到20%,但是针对某个万亿参数MoE(MixtureofExperts)模型建模发现,通信的端到端耗时占比急剧上升到约50%。由此可见,集群规模越大,通信量和复杂度若想降低通信时间,一方面需要优化计算平台,通过计算和网络通信时间的重超融合以太网络目前超融合以太网络,已经支持零丢包,支撑中大规模(<100K)的HPC/Al/短连接,每个服务器的流数量可达数千条;而Al服务器是长连接,每个GPU上传统的ECMP(Equal-CostMulti-Path)流量均衡机制,是为了应对通用计算的“多流”、“小流”的场景创建的,但是在“少流"、"大流”的Al场景流量模型下,就会因为ECMP哈希机制,造成链路上流量不均,即有的链路上满吞吐,甚至●技术路线1:网络级负载均衡技术而网络级负载均衡,通过绘制全局的流量矩阵,计算出最佳的流量分布,然后自技术路线2:包级负载均衡技术传统的ECMP,是基于流进行选路,即每条流走同一条路径。未来的包级负载均衡机制,将基于路径的状态信息2.3Al大模型训练周期长,需要高可用健Al大模型训练周期长,中断次数多,如何降低MTBF(平均无故障时间),是在据披露,某个千亿大模型总训练时长为65天,其间故障引起的重启达到50多次,而真正的训练时长只有33天,平均无故障时间(MTBF)仅为1.3天。在传统的运维方式中,整个网络被视为一个黑盒子,缺乏有效的运维手段,主要Al网络性能难观测Al网络故障排查慢网络故障域大,一个网络节点故障将影响数十个计算节点的连通性,当前依赖人工分析排查将耗时数小时。针对这两个关键问题,对于网络运维来讲,需要从如下几个方面进行创新:微秒级故障收敛传统的网络故障收敛时间是50毫秒级;其收敛时间受制于其工作机制。因为他依靠控制面发现和传递故障,然后进行路由重新计算。为了进一步缩短故障收敛实践,需重新定义数据面的故障传递和收敛协议,仅通过数据面,就支持全网微秒级路径切换,收敛时间仅为之前的千分之一。无损网络性能可观测传统运维平台基于SNMP数据采集技术,用于监控网络设备的性能指标数据,采集周期长(5分钟以上)、采集范围单一(覆盖CPU、内存、接口指标等基础网络指标),数据广度和精度均无法满足运维诉求。基于Telemetry的数据采集机制,最小数据采集精度可以达到毫秒级粒度。同时RoCE网络关键指标项。同时在采集的性能指标基础之上,提供PFC风暴、死锁故障检测、400G光模块异常检测、队列一致性检测等上层故障、风险识别能力,主动评估、预测网络健康情况。Al网络故障感知定界Al集群的通信是集合通信,即多个通信交互,才能拼接出一个完整的通信过程。并且,通信存在木桶短板效应,即最慢的流会拖慢整个通信过程。也就是说,在发现整个集群异常时,需要一种高效可视的手段来界定是计算还是网络的问题。万卡集群的流数规模约为10万条,快速高效地从中找到发生问题的流至关重2.4Al大模型云化即AlCLOUD,需要面向多租户的云网一体化架构Al大模型要想真正发挥价值,就要走入千行百业。为了降低各类复杂工业应用场景的大模型定制成本,目前“预训练+下游微调”(DeltaTuning)的工业化Al开发模式已成为主流趋势。即在保持基础模型的大部分参数不变的情况下,仅更新与行业特征相关的极少数参数,以适配下游任务。这些具有行业特征的数据,是各个企业的宝贵资产,有隐私性的需求。另外,企业数量众多,对成本敏感,有按需训练的需求。所以,百万级企业上云,微调定制模型,是在云上提供Al的驱动力,称之为AlAlCloud对未来的云网络架构发展有如下的挑战:●云架构和Al网络架构融合统一络,传统上两张网络的规模和流量模型有较大的差异。随着AlCloud趋势的出现,这两张网络的规模趋同,如何采用一张融合网络统网络级SLA(ServiceLevelAgreement),提供多租户环境下的性能保障Al训练的集合通信,如ALL2ALL、ALLREDUCE,存在消息同步过程,即短板另外,Al训练突发流量大,多租户,多任务之间存在抢占资源的情况,这种资源抢占将会拖慢训练时间。所以,调度系统要考虑租户的资源部署,网络也要提供SLA的保障能力,并可以提供API给调度系统用于统一资源调度。 第3章力,以网强算,释放AI生产力可靠性运维 星河Al网络打造Al时代最强运力,以网强算,释放Al生产力端口高吞吐非常好理解,从以前的100G到现在的200G/400G,甚至未来的传统的ECMP是基于5元组的逐流HASH,在流数少的时候极易出现HASH不除了上面的逐流HASH,还有以下2种技术:图3-2一般单任务场景这种场景要求设备的上下行是无收敛的。比如上面的leaf1,上行是4个端口,下行也是4个端口。在leaf1上把下行4个端口配置到一个组中,在spine1上把下行连接不同leaf的端口配置到不同组中。这样设备在进行转发的时候,会把流量均以下数据是在客户测试集合通信性能(allreduce)时的数据,测试结果接近满表3-1allreduce测试结果测试用例测试项目单向带宽:196.03Gbps双向带宽:392.04Gbps16节点:48.25GB/s32节点:48.27GB/s 19测试用例测试项目16节点:5.98GB/s32节点:5.74GB/s31打1196.03Gbps,每流平均6.35Gbps,偏差端口平均6.4516节点:40.59GB/s/备统一协同,支持多任务并行的同时,相比逐流HASH,网络性能最高提升了 星河Al网络打造Al时代最强运力,以网强算,释放Al生产力11网络控制器5、控制器下取网络拓扑发路径Al调度平台Al调度平台把任务信息通知给控制器,控制器结合已经建立的整网拓扑信息,进行整网路径计算,得到最优路径。 在典型的clos组网中,交换机之间都有多条路径,当一条链路出现故障的时候,通过感知端口状态、路由收敛、转发路径切换等操作,完成流量从故障链路到备用链路的收敛。但是这个时间一般在秒级。然而在Al场景里面,每次通信时间在毫秒级别,秒级时间内正常情况下已完成了多轮通信。如果依靠传统的路由收敛方式,将极大的影响Al计算效率。DPFR(DataPlaneFastRecovery)技术在此场景下,可以做到毫秒级收敛,提供基于数据面的本地快收敛或远程快收敛。特性包含故障快速感知,故障本地快速收敛,故障通告生成、接收和中继处理,故障远程快速收敛和表项老化处理。针对在线交易类关键应用场景,尽量做到应用无感知的故障快速收敛效果,即在链路故障发生时业务性能无明显下降。 星河Al网络打造Al时代最强运力,以网强算,释放Al生产力场景1:本地快速收敛①此场景的特征是有多个下一跳。比如上图中的GPU3访GPU场景2:远端快速收敛①③星河Al网络打造Al时代最强运力,以网强算,释放Al生产力3.3可运维:通信异常一键诊断Al大模型计算呈现出流量周期短的特点,比如一轮HD(Halvinganddoubling)算法包括多个phase,如果按照正常的Telemetry分钟级上报,根本无法发现网络字节,以400G端口为例,在设备内的转发时间约为100MB/400Gbps*8=2ms。此场景下,分钟级上报机制无法识别2ms左右转发时间中发生的网络故障,做不到●现有的netstream针对报文进行采样,采样比一般为8K:1。现有Al场景中的流将给网络带来巨大压力。以18KGPU规模的框盒两层组网进行allreduce操作为例,共需要576台TOR交换机,一个TOR交换机有448条流表,那么整个网络中会有20万条流表。针对如此巨大的流量,做到毫秒级展示将是一个重大 24针对Al网络场景,可采用三层两维全栈可视化运维方案,三层主要覆盖了基础基础网络运维主要检测物理网络的建康状态,例如网络中是否存在端口闪断、异基于Telemetry技术(Telemetry面向物理设备或虚拟设备提供实时高速的数据采集功能,引入订阅机制代替查询,订阅后设备可持续上报数据,减轻设备处理查询请求的压力),高精度高效率的采集设备、单板、接口、光模块、队列等网络性能指信息,全方位监控网络状态。同时基于这些采集到的数据,结合大数据分析处理,提●北向对接:提供Restful/Kafka/Syslog等多种北向对接接口,内容覆盖网络资RoCE网络运维在基础网络运维之上,新增了RoCE指标可视能力,所覆盖的监 接口接口CRC数队列队列已使用缓存已使用Headroom缓存已使用Guaranteed缓存收/发PFC反压帧数PFC死锁监控/恢复次数无损队列字节数无损队列丢包数在这些指标基础上,结合大数据分析、异常检测算法,可以提供针对无损网络特此外,在万卡集群参数面网络中,共有25K个光模块、10K条光链路,光链路异常频发,年故障率约为5%。,约平均每周发生1起链路闪断类故障。链路闪断主要由光链路异常导致,其中突变类故障占比30%,光纤弯折、光模块脏污占比较高;缓变类故障占比70%,其中激光器老化、连接松动、纤芯受损(如熔纤导致衰耗异常)三类故障最为突出。链路闪断将导致训练任务降速,严重时甚至会造成任务针对此类问题,业界厂商提供了10GE/25GE/40GE/100GE/200GE/400GE光主动预防主动预防快读故障分析格式转换专家标签户主描因预防措施专家知识库预测模型数据预处理多维度分析数据入库波动分析特性分析趋势分析通过采集监控光模块收发光功率、偏置电流、电压、温度、CRC误码率、状态等指标数据,基于时序、光链路、端口等多维数据特征挖掘,结合GCN、LSTM、VAE的多维时序异常分析Al预测算法,提取特征,结合专家标签,输出亚健康光链路,并给出问题根因,举证异常指标,提供预防措施,从而实现光链路故障实时检Al网络由于组网规模较大,设备、链路故障频率较高,导致训练任务无法长时间稳定运行。同时网络内部基本为黑盒状态,卡间通信网络路径无法感知,当发生任务异常时通常需要人工采集设备日志、告警逐台设备分析比对,定界定位耗时长,通常耗时需要10天以上,其间GPU等待将导致算力流失。针对此类排障场景,可通 星河Al网络打造Al时代最强运力,以网强算,释放Al生产力基于设备Rail-Group配置及路由表项信息,可以自动计算还原异常通信的NPU卡互访规划路径,并通过网络拓扑的方式进行路径还原,同时基于途径的设备及接口,逐跳进行网络路况关联分析,覆盖网络状态、光模块指标、设备异常日志、PFC/ECN反压计数、队列buffer利用率等指标/故障/风险信息,一键式故障诊断,快速问题定界,整体排障时间从1~2天缩短至分钟级。计算&网络协同随流逐包分析①①集合通信路径界网终侧信息根因走位故第发现、梨化预测集合通信性部监控特征报文插入特征报文解析集验环境故障定界知识库集合通信路径可视:基于特征报文的集合通信路径可视方案,识别集合通信库选择的GPU间真实传输路径,可支撑并行通信路径合理性分析。故障监控定界:Al业务路况与Al异常关联分析,路况图异常分析、推理应网性能关联定位:判断Al业务路径上的网络路况指标是否影响Al业务质量,高频监控PFC等Al业务路径上的网络指标。 搭建大规模参数面网络,要从芯片、网元、组网架构三层立体创新入手。可通过做大网元容量、采用多轨网络架构等方式实现技术创新,以提供千卡乃至万卡规模的大规模算力集群。做大网元容量:网元容量越大所需的网络层次越少,网络层次越少成本就越低。一般通过有效带宽率衡量成本,由以下公式可见:有效带宽率=接入带宽÷芯片总带宽1写号写导以上图为例,当只有一层组网的时候,全部带宽都可以用来做接入,因此有效带宽率为1,但是组网有三层的时候,假设一个网元带宽为4,三层网络共有10个网元,则总带宽为40,如果接入带宽为8,则有效带宽率可计算为:8÷由此可见,组网层次越少,效带宽率越大,建网成本越低。所以做大网元容量对搭建大规模参数面网络意义重大。采用多轨网络架构:为同号卡构建独立网络平面,实现整网规模成倍增长。当前服务器典型的配置是一机八卡,编号分别从1~8,划分8个轨道。轨道间的通信在机内完成,如上图的蓝色线所示。机外只在编号相同的轨道内通信,如上图的红色所示。这样就相当于有8个平面,每个平面内互联端口越多,支持的规模就越大。在这种模式下,框盒组网的二级组网具有明显的优势,可显著扩大网络规模。 图3-12二级框盒组网1681616816Spine1Spine64Spine1Spine64以上图为例:Spine层选用16816型号大带宽交换机,最大支持576*400G带宽;TOR交换机选用16804,支持128*400G带宽;这样整个规模可支持 3.5开放性:标准以太RoCE高效开放IB和RoCE都是标准组织定义的网络协议,对上层应用来讲,不感知两者差异。但是IB在应用中存在以下问题:首先,Al网络里面存在多个平面,包括参数面,存储面,业务面,管理面等。其中,IB只用在参数面里面,而其它网络需要使用以太协议,这样就需要两套运维系统;其次,IB不兼容以太,只支持独家供应,存在供应风险和运维困难问题。态,供应多厂家可选,保护现有投资;另外,其性能与IB持平,可同时支持百K+规 星河Al网络打造Al时代最强运力,以网强算,释放Al生产力第4章武汉人工智能计算中心是首个面向产业的人工智能计算中心。2020年10月,科技部中信所同样在武汉正式发布《人工智能计算中心发展白皮书》,提出以人工智能计算中心支撑试验区建设,打通政产学研用,以算力集群赋能产业集群。武汉率先启动建设国家新一代人工智能创新发展试验区,开创了“一中心、四平台”的“武汉模式":依托人工智能计算中心,配套建设昇腾人工智能生态创新中心,共同打造公共算力服务平台、行业应用创新孵化平台、产业聚合发展平台、科研创新和人才发展武汉人工智能计算中心项目,是首个选用网络、计算、云、存储端到端全栈解决方案的标杆项目,同时覆盖Al训练场景需求。项目一期建设了100PAlFLOPS算力的智算网络。为满足武汉持续蓬勃发展的人工智能产业,武汉市已启动武汉计算中心扩容计划,预计扩容100P-200PFLOPSAl算力资源。华为云华为云BMC管理区管理服务区网络服务区
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数据可视化技术应用与演示方案手册
- 项目管理成功责任书5篇范文
- 手术病人体温护理的跨学科合作
- 团队绩效考核系统框架
- 坚守诚信美德构筑班级和谐风尚小学主题班会课件
- 远离网络有害信息筑牢安全防线,小学主题班会课件
- 科技公司软件开发项目管理规范指引
- 教育事业贡献承诺函(8篇)
- 支原体患者皮肤护理
- 美食制作传统工艺指导书
- 26年宫颈癌靶向疗效评估规范
- 2026年高级会计师真题及答案解析
- 2025年三峡集团社会招聘考试笔试试题及答案
- 2026年气象局机关遴选公务员面试题
- 2026年全国电工(中级)职业技能考试题库(附答案)
- 2026年病理科技师面试常见问题与专业解答
- 2025年湖南长沙市初二学业水平地理生物会考真题试卷+解析及答案
- (二模)2026年广州市普通高中高三毕业班综合测试(二)数学试卷(含答案详解)
- 2026年市级科技馆电气维护岗招聘笔试电路故障排查题
- 孕产妇突发肺栓塞应急预案演练脚本
- 2026湖南衡阳石鼓区人力资源和社会保障局招聘见习人员1人农业考试参考题库及答案解析
评论
0/150
提交评论