版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE\*ROMANPAGE\*ROMANIV框式开放自研交换机技术实现与应用场景2023目录一、引言 1二、项目背景 2三、项目目标 3四、专用术语 3五、框式开放交换机方案论证 4(一)白盒交换机的行业现状 4(二)框式交换机迎接开放生态 5(三)厂商产品支持SONIC实现介绍 6Cisco框式交换机 6Nokia&Arista框式交换机 12(四)DCICLOS架构方案 161.组网场景用法举例 16(五)框式开放交换机的扩展–DDC方案 17组网基本分析 18DDC技术概要 19DDC芯片说明 20DDC组网结构 21DDCCell交换原理 22(六)DCICLOS与DDC方案对比 24(七)论证结论 24六、框式开放自研交换机产品研发 24(一)设备OS功能需求 24(二)SONiC社区对多芯片分布式转发架构的支持情况 28七、引用的文档和资料 31八、致谢 31PAGEPAGE27一、引言20153OCP(OpenComputeProject,开放计算项目)峰会上,OCPSAI(SwitchAbstractionInterface,交换机抽象接口)。7OCPSAI。201639OCP正式发布了SONiC(SoftwareforOpenNetworkingintheCloud)。SONiCOCP自此之后,SONiC逐渐成为了互联网行业超大规模数据中心网络首选的开源操作系统。交换机抽象接口(SAI)SONiC要作用。SAIASIC提供一致的接口,允许网络供应商在其平台上快速启用SONiC,同时通过供应商特定的扩展在硅和光学领域进行创新。这使云规模的提供商能够拥有一个通用的运营模式,同时从硬件创新中受益。下图说明了SONiC图1SONIC软件系统结构SONiCSONiCBGP、SwSS(机状态服务)NPUNPUBGP、SyncdNPUSONiCSONiC式大型设备上也进行了大量的探索和实现,其中包括Microsoft、Broadcom、Cisco、Nokia、Arista、Baidu软件系统在框式大型设备上的技术实现和部署场景,在本文的撰写过程中,Cisco、Nokia、Arista二、项目背景SONIC在全球数据中心场景中已经进行了广泛的、大规模的部署,也给用户带来了低成本、高效率、自主可控的使用体验和收益。随着接入服务器的技术演进和规模发展,数据中心内部的网络架构从单平25G50G、100G400G100G200G/400G数据中心内部的架构规模和速率的快速演进,也直接推动了城域网和骨干网的架构变革,数据中心内小型化盒式单芯片多平面的网络架构随着芯片技术的发展,对上级互联的城域网架构带来了很大的挑战:运维管理。架构简化,设备数量低,逻辑简单,这些都是运维管理希望的网络架构特点。扩展能力。DCI多速率端口支持。DCI以机房作为接入点,生命周期较长一般随着机房新建一直到下线,需要维护多代不同技术的数据中心架构,如果无缝扩展是一个非常重要的能力。自主可控,统一运维和自动化能力。随着开放系统在客户数据中心网络的大规模部署,开放操作系统例如Sonic已经广泛使用。DCI交换机也有很大的自主可控及通过统一网络操作系统进行运维和自动化的诉求。图2式开放自研交换机部署场景框式开放自研交换机的优势:组网灵活,架构设备数量少,拓扑简单;单设备端口密度大,按板卡灵活按需扩容,无缝演进;运维简单,统一操作系统。三、项目目标框式开放自研交换机项目的规划目标:降低DCIOpex代,无缝迁移,自主可控。四、专用术语如下是本文档涉及的专业术语说明:ASNAutonomoussystemnumber,BGP的自制系统号BGPBorderGatewayProtocolISISIntermediatesystemtoIntermediatesystemIGPRCRegionalCore区域核心RRRoutereflector路由反射器,用于IBGP环境SCsupercore,超核角色VOQvirtualoutputqueue五、框式开放交换机方案论证(一)白盒交换机的行业现状如前所述,SONiCSDN软件平台,实现了数据控制面与转发面的分离,用户可以采购白牌交换机搭载SONiC,SONiC通过改变软件策略和拓扑实现新的网络架构,让网络实践更为灵活。截止目前,SONIC软件系统已经被国内外大型互联网公司的生产网络上大规模部署运行,其中绝大多数场景在数据中心内部的单芯片盒式交换机上:图3SoniconSingleASIC与此同时,SONIC软件系统的扩展应用场景需求也陆续出现,其中一个是SONIC运行在多芯片的交换机设备上:图4SoniconMultipleASICs另一个扩展场景是SONIC运行在模块化的大型框式交换机设备上:图5SoniconModularChassisDCNDCI部署,SONiC(二)框式交换机迎接开放生态SONiC单芯片设备ASIC,ASIC的线卡,硬件组件之间没有相互通信,即ASICASICLCASICSFASIC图6SONIC单芯片设备SONiC机框设备机箱/设备管理器-用于管理硬件组件的软件–ASIC(低级别,即启动)线卡、风扇、psu、交换矩阵、内部通信总线、前面板管理接口。ASICSONiCASICASICSONiCFIB传播到线卡ASIC。系统ASICLCASICLCASIC,如下图所示:图7SONIC机框设备(三)厂商产品支持SONIC实现介绍Cisco图8CISCOSiliconONEBasedFamilyCisco8000上的SONiC作为OCP社区持续合作的一部分,思科现在已经在盒式和模块化Cisco8000SONiCSONiCSONiCSONiCCisco8000在介绍模块化的Cisco8000运行SONiC之前,我们先更深入地了解CiscoSiliconOne芯片族以及Cisco8000模块化系统。2211SiliconOne片,可以同时提供与路由器芯片相媲美的能力与灵活性,和与交换机芯片媲美的性能与能效比。SiliconOne3.2T25.6T多种容量的路由器和数据中心芯片家族,从第一天开始就充分考虑能够同时兼顾商业网络操作系统与各种P4SDKSAI图9CISCOSiliconONESiliconOneC8000系统。该系统充分考虑到未来网络发展对性能、可编程性、节能环保等需求,CLOSFabric种系统形态。特别值得指出的是该系统带来的超高能效比,大幅度地降低每比特的功耗,助力碳达峰碳中和的早日实现。图10CISCOSiliconONE框式交换机Cisco8000模块化系统架构Cisco8000的模块化系统具有以下关键组件:1)一个或两个路由器处理器多个板卡多个矩阵卡RP、LCFC以及它们的连接性。图11框式交换机逻辑结构(CISCO’sexample)NPUCLOS网络中。每个板卡上的NPUCPUFabricNPURPCPUNPU(LC、RP)都通过机箱内的以太网交换机网络连接到外部世界。这种矩阵在逻辑上表示单层叶脊网络,其中叶和脊NPU从转发的角度来看,Cisco8000模块化系统作为单个转发元件工作,在板卡和交换矩阵NPU之间具有以下功能:NPUECMPQoS、ACL、入站镜像等入口功能。然后使用代表传出接口的虚拟输出队列(VOQNPU,方法是将数据包封装在矩阵报头和NPUNPUFabricNPU。LCNPUNPUQoS、ACLNPUNPUNPUCisco8000模块化系统上的SONiCCLOSSONiCCisco8000SONiC图12框式交换机运行SONIC(CISCO’sexample)这个叶脊网络中的每个节点都运行一个独立的SONiC镜像、陷阱等标准监控和故障排除技术也可以在该网络的叶层和脊层中使用。如下图所示。图13框式交换机运行SONIC(CISCO’sexample)CPUSONiCNPU。SONiCRPCPUNPUSONiC叶节点,RPSONiC机箱内的带外以太网网络提供外部连接来管理每个SONiC实例。CiscoSiliconOneASIC/IP特能力,因为它可以配置为网络模式或矩阵模式。因此,我们在板卡和矩阵卡ASIC,通过在矩阵模式下配置板卡和矩阵之间的接口,而在网络模式下配置板卡上面向网络的接口。图14框式交换机转发模式(CISCO’sexample)ASICCisco8000箱内实施叶脊拓扑,如下图所示。图15框式交换机运行SONIC,叶脊拓扑(CISCO’sexample)SONiCNPUBGPSONiCNPUBGP实例,这通常是一个小数字(低个位数)。另一方面,RPSONiC管理大量的矩阵NPU。为了优化设计,FabricNPU被配置为点对点交叉连接模式,在每对板卡NPU之间提供虚拟管道连接。这种交叉连接可以使用VLAN或其他类似技术实现。跨矩阵的数据包仍以以太网帧的形式交换,从而在矩阵NPU上启用镜像、sFlow等监控工具,从而提供网络流量的端到端可见性,包括机箱内流。对于需要在机箱内进行基于矩阵的数据包转发的用例,可以将板卡-矩阵链路重新配置为在矩阵模式下运行,从而允许相同的硬件满足各种用例的需求。CiscoSiliconOneASIC的独特功能和系统设计,Cisco8000SONiCNokia&AristaSONICCISCO之外,还有另外两家厂商,NOKIASONICOCPNOKIAARISTASONICCISCO相同,只是在设备板卡到交换板卡之间的数据格式上存在差异,他们的设备设BROADCOMDNXCISCO上述转发细节差异和产品硬件设计芯片选择的差异,对于支持SONIC的能力上并无区别,可以参考上一章节的描述,本章节不再重复描述。NOKIA7250产品系列介绍7250IXR-6e/10e400GE、200GE、100GE、50GE、40GE、25GE10GE接口提供硬件支持,以实现结构内和服务器连接。7250IXR-6e是一款四线卡插槽平台,支持高达115.2Tb/s的系统容量和最新一代线卡。7250IXR-10e是一款八线卡插槽平台,采用最新一代线卡时,支持高达230.4Tb/s的系统容量。这些系统旨在通过利用真正的正交直接交叉连接(无需中间背板连接器)完全升级到从50G发展到100GSERDES的下一代芯片。7250IXR-6e/10eBroadcomJericho2c+全系列板卡原生支持MACsec。并创新性的采用了8Fabric矩阵卡设计,单块Fabric2Ramon6FabricFabric3RamonFabric16RamonFabric7250IXR-6e/10eJ2C+芯片进行优化设计,Jericho3J37250IXR-6e/10eG0.09W。7250IXR-10e400G10610W90%以上,远远大于传统采用矩形散热孔设计的散热网。同时业务板卡采用了更高螺距设计,可以容纳下更大面积的散热网,并且更高螺距使得业务板卡内部主板上可以放置更大体积的散热片,使得7250IXR-6e/10e36400G20W以上的供电能力,可以让每一个QSPF-DD接口都能支持并插满400GZR/ZR+模块,依然能提供良好的散热效率。同时更高的螺距也使得7250IXR-6e/10e100G60相对于传统的业务板卡通过板卡侧后端卡住机箱内部成型金属板方式来固定住业务板卡的方式,诺基亚进一步改进了机加工工艺,通过卡片导轨方式来固定业务板卡。使得业务板卡与机箱之间可以提供±0.03的位置精度的系统公107250IXR-6e/10eGR-633304FedEx7214200震动测试,依然保证业务板卡与机箱紧密结合,系统稳定运行。7250IXR-6e/10eCPUx868CPUNPU。通过分布式控制平面的硬件设计,大大加速了整机启动速度,使得整机启动时间在10-15CPUBGALGA15W。图16Nokia7250IXR-6e/10eNOKIA7250框式SONiC项目介绍诺基亚积极参与OCPSONiC工作组计划,为框式SONiC项目提供了7250IXRPMON;SONiC7250IXROCSONiC7250IXR列交换机上进行功能和性能等的综合测试;并修复已发现的7250IXRPMONbug,SONiCARISTA7800R3产品系列介绍Arista7800R3100G400G为大型虚拟化数据中心、互联网对等互连、云网络和任务关键型环境而设计。VoQArista7800R3FlexRouteArista7800R3FlexRoute™引擎,提供可扩展性,以支持部署为具有互联网规模的路由平台。7800R3sFlow具有采样功能,并以线速处理流式样品。7800R3K500IPACLArista7800R3、7800R3A、7800R3K7800R3AK该系统具有从前到后的气流、冗余和热插拔监控器、电源、结构和冷却模块,专为高可用性和连续运行而设计。图17Arista800R3SeriesARISTA7800R3框式SONiC项目介绍ARISATOCPSONiC工作组计划,为框式SONiC项目提供了77800R3PMON;SONiC7800R3OCPSONICSONiC7800R3测试。ARISTASONiC(四)DCICLOS架构方案1.组网场景用法举例DCICLOSBGPAS,作为对有管理域需求时的部署方案。图18DCICLOS架构组网分析转发层和fabric层之间的路由设计分析:T0和T1配置BGPconfederation,T1层一个AS,每台T0一个AS;EBGPAS64600,EBGPDC1DC2T0-3,T0-1、T0-5as-pathBGPCLOS组网结构分析:1CLOSFabricforwarder之间采用三层路由方Jericho2cfabric端口,芯片有一半的转发端口用于互FabricDDCDDC加一倍的设备,成本上分析比机框式设备组网成本高一倍以上;12FabricTomahawkTomahawkbufferVOQ1fabric23CLOS架构分布式控制平面具备了组网灵活的优势,同时控制平面和转发平面均为分布式,分散故障域,避免全局故障;3(五)框式开放交换机的扩展–DDC方案DistributedDisaggregatedChassis(DDC)分布式机框方案是Broadcom公司基于DNX芯片系列提供的解决方案。DDC方案实现了传统机框设备的硬件组件和软件的全面解耦,一台逻辑的交换机,可以由物理独立的控制器、物理独立的业务板卡和物理独立的转发板卡组成,这些独立的物理组件之间通过高速的光纤实现互联。DriveNetsNetworkCloud产品是业界第一个也是唯一一个商用的DDC,DriveNetsDDCDDC2019AT&TDDCOCP,2020AT&TIPDrivenetsDDC图19DriveNetsDDC组网基本分析采用DCICLOS架构组建集群,可以实现超大规模的转发能力和组网能力。Fabric层和转发层都采用框式开放自研设备组网结构。DCICLOS集群:设备名称角色芯片端口形态T1FabricJericho2/Jericho2c+48*100G端口/卡T0Forwarder2*Jericho2插卡式:2*48*100G或12*400G+48*100G图20Jercho2/2c+/3DCICLOS集群设备名称角色芯片端口形态T1FabricSiliconOneQ20048*100G端口/卡T0ForwarderSiliconOneQ200插卡式:32*100G或16*400G线卡图21SiliconOneDCICLOS集群DDC图22DDC原理DDC顾名思义是一种分布式解耦机框设备的解决方案。首先它解耦了硬件和软件:采用标准的白盒交换机做转发和Fabric,组件独立,通过光纤互联;标准的X86服务器做控制引擎,集中控制平面,管控所有的转发交换机、fabric交换机;OSfabricOS第二DDC解耦了路由交换机的架构:控制平面和数据平面分离。控制平面由X86的控制器集中管控,白盒交换机左右分布式的数据转发平面做数据转发;数据平面灵活伸缩。能够根据转发容量的需求,灵活扩缩容转发交换机和fabric。FabricfabriccelldistributedVOQ,fabricDDC7.2T前端I/O9.6TFabricI/O8GBHBM(Highbandwidthmemory)64MBOnchipbuffer(OCB)芯片功耗350W图23Jericho2c+芯片结构Ramon9.6TbpsFabricI/O图24Ramon芯片结构DDCDDC集群的结构如下:图25DDC集群结构结构说明:12LC2Jericho2c+14.4TRamonfabric9.6T123192*50GSerdes,219.2TfabricLCFabric400GFabricFabric3N+1冗余能力;4集群配备至少2台互备冗余的管理交换机,管理交换机互联所有fabricLC452X86ServerLC、FAB;5DDCCellDDCCELLCELLfabric图26Cell转发原理数据转发过程原理:1数据包从一个LC白盒的接口进入cluster;12LCIPFIBLPM2VoQsLCfabriccells,cellsLCfabric3Fabric从流量入口LC白盒收到cells,基于对在reachabilitytablecelldestinationFabricreachabilitytable,fabricportLC。Reachabilitytable基于内部的reachabilityprotocolFabriccontrolcells34EgressLC收到cell包后,重新组装数据包,处理数据包从egressport转发;4VOQ机制保证数据在集群内转发不丢包,cell转发能够保证数据流在集群内的转发负载更加均衡。FabriccellDCI转发延迟相比很微小,DCIVOQ原理说明:inputbufferoutput的虚拟队列,outputqueueinputbuffer11的,因此每个outputqueueinputpipelinebufferVOQinputbuffer在转发芯片上是专门给outputqueue,避免任何两个端口的通信不影响其它端口。VOQ是基于credit机制,cell转发机制说明如下:Inputoutputcredit,outputoutput接口有带宽转发数据时,出接口给input端口分配credit,只有output端口有足够带宽资源时,才会给input端口分配credit,input端口收到credit后,开始转发数据包到output端口,output端口没有资源转发时,不给input端口credit,input端口没有credit不能转发数据到output端口,从而避免fabric内丢包。(六)DCICLOS与DDC方案对比DDC方案和CLOS架构方案对比如下:对比项DCICLOS架构方案DDC方案故障域故障域小,单白盒设备故障不影响全局转发故障域大,控制面故障将导致整集群不可用拥塞避免fabricpacket1景,fabric转发与fabric层之间信元交换方式,VOQfabriccell硬件成本有一半转发容量用于上联fabric,单设备转发能力降低一半,同等转发能力比机框交换机高100%以上25%左右,Fabricfabric运维风险分布式控制面,升级维护简单集中控制平面,控制面升级、故障诊断复杂管理风险分布式控制面,转发层配置不对称,管理维护相对复杂集中控制管理配置简单(七)论证结论从上述方案对比分析:采用DCICLOS架构方案,标准化实现方式,运维简单;采用DDC方案,研发难度较高,运维相对复杂,控制面集中故障域相对较大;结论:采用框式开放自研交换机方案较优,SONICDCIDDC六、框式开放自研交换机产品研发(一)设备OS功能需求DCIISIS、BGP、SRDCI(1)路由快速收敛BGPFIB表收敛速度>20k/s支持linkdelayup/down,传输设备出现故障或抖动,减少对路由层面的收敛影响BGPISIS/BGPBFDTE隧道BFD联动SRv6支持灵活的路径计算方法(flexiblealgorithm);支持对数据流的染色功能;BGPLSSIDNQA控制器能够根据网络的时延、带宽、color等信息计算业务的最优路径;SRv6L3VPNIPv6IPv4、IPv6VPNSRv6SIDlocatorFunction两部分,LocatorSRv6节点的地址,functionL3VPN举例说明如下:SRv6PE节点,配置locator2021:abcd:0:a1::/64/24End.DX4SID2021:abcd:0:a1:1::/64END.DX4BGPEND.DX4BGPSIDvpnv4addressfamilyIPv4CE。END.DX4PEIPv6SIDSIDEND.DX6SRv6IPv6VPN,END.DX6是BGPSID在vpnv6addressfamily下。MP-BGP编码SRv6SID到L3VPNNLRIIPv6Peer。SRv6SIDPE。具体功能需求如下表:功能要求子功能功能参数优先级Staticroutenull0route/defaultroute中Policybasedroutingload-balancenext-hop支持重定向下一跳负载均衡中NQA联动支持与NQA联动中BGPECMP128paths,supportecmpas-path-relax,高Peergroup支持配置对等体组高importroutes支持引入其它路由协议路由(静态、OSPF)高4bytesAS支持4字节ASN高RR(routereflector)支持路由反射器功能高pathselectattributesBGP选路属性支持:weight、localpreference、MED、community高routeaggregation支持路由聚合,支持抑制明细,并支持聚合路由的路由策略(attribute-policy,suppress-policy)高timerssetting支持BGPhello和holdtime调整中Addpath8paths高BGPLS(linkstate)getISIStopoloyinfo,computeTEpath中routepolicy支持灵活的收、发路由策略(基于acl/prefix-list/community操作等)高IPv6supportIPv6address-familyBGP高NSFNonstopforwarding/routing高BFD联动中ISISECMP128paths高ISISTEsegment-routingmpls高Peerauthentication中IPv6支持IPv6的路由高NSFnonstopforwarding/routing高Fastreroute中costadjustment支持wide-metric,支持接口开销调整配置高routingmanipulation支持路由过滤、引入外部路由、发布缺省路由中routeaggregation支持路由聚合高BFD联动高SRTEMPLSSR高SRv6中SRTI-LFA支持TE隧道热备份高directtraffictotunnel支持静态路由、策略路由、IGP自动路由方式引流到隧道高diff-servicegroupTEtag,将流量引导到对应服务等级隧道中BFDforSR-TELSP支持BFD与TELSP联动高QoSWRR/WFQ高ECNsupportfastECN/CNP中DSCP/IPPremarkingDSCPtodot1pmapping高MQC支持MQC(moduleqoscommand-line)方式配置(流分类、流行为、流策略)高CARpolicies中ManagementSSHv2高telnet高loginsourceIPfilter高netstream/sflow高Samplertrafficsampler.支持1:1024采样比高ZTP中TACACS+AAA高Netconf/YANG高gRPC中SNMPv2/v3高Inbandtelemetry中InterfacesLACP100AGGports,eachAGGportsupport48memberportsmax高link-delay/carrier-delay高MTUmax10000bytes高LLDPdiscoverneighborhostname/interface/IP,supportmanagementIPdiscovery高flowinterval接口统计信息采集频率设置中LoadbalancingIPloadbalancingper-flow,src/dstIP,source/dstport,protocol;perport高linkaggregationsrc/dstIP,src/dstport,protocol,perport高SecurityL3/L4ACL高Prefix-list高community-filter高Routepolicy高as-pathfilter中(二)SONiC社区对多芯片分布式转发架构的支持情况自研OS基于SONiC,依赖于SONiC社区的支持。百度将持续关注跟踪Sonic社区的支持情况。Sonic社
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外租车辆月度使用记录单
- 泰山版(新教材)五年级下册信息科技第三单元教学设计
- 消防设施及器材台账
- 石材护理抛光未来发展趋势
- 2026年四川省甘孜藏族自治州高三压轴卷语文试卷含解析
- 26年老年方案知情同意步骤课件
- 26年银发用电安全问题解决方案课件
- 【2026年】(自然科学专技类C类)事业单位考试综合应用能力山西省复习要点精析
- 【浙江省温州市事业单位考试职业能力倾向测验(自然科学专技类C类)梳理难点解析】
- 外汇经纪人职业规划
- 道路交通事故现场勘查规范
- 大气污染防治专项资金项目申请报告撰写要点与2025年申报指南
- 2025年专利审查协作中心招聘考试面试常见问题解答
- 后勤管理内控知识培训课件
- 洛阳二外小升初数学试卷
- 2025-2030中国儿童营养早餐行业销售动态与竞争策略分析报告
- 结构稳定理论(第2版)课件 第7、8章 钢架的稳定、拱的平面内屈曲
- 2025年德勤秋招测试题及答案大全
- 转诊考核管理办法
- 体育类特长班宣传课件
- 2025年高考真题-生物(四川卷) 含答案
评论
0/150
提交评论