智能时代数据中心网络实践与趋势_第1页
智能时代数据中心网络实践与趋势_第2页
智能时代数据中心网络实践与趋势_第3页
智能时代数据中心网络实践与趋势_第4页
智能时代数据中心网络实践与趋势_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能时代数据中心网络实践与趋势锐捷网络权熙哲22主要工作经历:2007年-2010年:中国软件,系统集成ü首都机场T3航站楼(安防、办公、商业、无线......);ü国家统计局第二次经济普查(办公、全国专线骨干);ü售后技术服务(2年):国家某中心、各部委;百度世界大会:无人驾驶罚单已经来了,量产还会远吗百度世界大会:无人驾驶罚单已经来了,量产还会远吗?百度世界大会:2018无人车实现量产3无人驾驶汽车小故事百度百度AI开发者大会:李彦宏乘坐无人驾驶车赶到会场灵感 (Inspiration)智慧 (Wisdom)规律 (灵感 (Inspiration)智慧 (Wisdom)规律 (RegularPattern)环境 (Context)@丁秋林教授4灵魂灵魂 (Soul) (IntelligentProduct)升华 升华 (Sublimation) (Integration)智能模块 (IntelligentModule)封装 (Capsulation)突发 (封装 (Capsulation)智能 (Intelligence)逻辑推理 (LogicalReasoning)形象思维逻辑推理 (LogicalReasoning)知识 (Knowledge)信信息 (Information)数据数据 (Data) (Detachment)超越 (Transcendence) (Development) (Survival)人工智能高性能高性能计算低时延实时大数据分析无丢包深度学习分布式计算分布式存储计算、存储分离5大数据、人工智能应用对数据中心网络提出新挑战人工智能高性能高性能计算低时延实时大数据分析无丢包深度学习分布式计算分布式存储计算、存储分离5主机处理时延设备转发时延重点突破靠升级芯片来降低时延效果有限光电传输时延是固定www.ruijie主机处理时延设备转发时延重点突破靠升级芯片来降低时延效果有限光电传输时延是固定数据串行时延取决于芯片技术,依重点分析光电传输时延6高性能主机处理时延网络转发时延无丢包7高性能主机处理时延网络转发时延无丢包7低收敛比方案(10G/25G网络)量、带宽总需求设计本、技术成熟度务丢包SpineLeafü每台TOR4*40GE/100SpineLeafü每台TOR4*40GE/100GE上联2核心ü适用集群规模200~500台;2~5Tbps。40GE/100GESpineLeafü每台TOR4*40GE/100GE上联2核心ü适用集群规模1000~10000台;10~100Tbps。40GE/100GE884040GE/100GESpineü每台TOR4*40GE/100GE上联4核心ü适用集群规模8000~20000台;80~200Tbps。LeafPOD1Spine40GELPODnSpinePOD1Spine40GELPODnSpine40GELeafCoren*40GE/100GE99ü单POD集群规模300~1000台,数据中心集群规模20000+,BGPüPOD内收敛比1:1,单POD集群带宽3~10Tbps;ü上联带宽根据集群规模灵活配置。Spine8*100GELeafü每台TOR8*100GE上联8台32口100GSpine8*100GELeafü每台TOR8*100GE上联8台32口100GBOX,OSPF/BGP组网;ü适用集群规模1000台;ü每台TOR下联32台Servers,IDC内收敛比1:1,集群带宽25Tbps。Spine8*100GELeafü每台TOR8*100GE上联8台64口100GBOX,OSPF/BGP组网;ü适用集群规模2000台;ü每台TOR下联32台Servers,IDC内收敛比1:1,集群带宽50Tbps。Spine8*100GELeafü每台TOR8*100GE上联4~8核心(机框式),BGP组网;ü适用集群规模2000~18000台;ü每台TOR下联32台Servers,IDC内收敛比1:1,集群带宽50~450Tbps。1010POD1Spine100GELPODnPOD1Spine100GELPODnSpine100GELeafCoren*100GEn1111ü单POD集群规模1000~2000台,数据中心集群规模20000+,BGP组网;üPOD内收敛比1:1,单POD集群带宽25Tbps,总集群带宽500Tbps+;üPOD内收敛比和上联带宽根据集群带宽需求灵活配置。12主机处理时延——RDMA&RoCE12优势:相对于pause帧而言,PFC可以将链路虚拟出几条不同等级的虚拟通道。这样当某条通道出现拥塞。13PFC机制将以太链路上的流量区分为不同的等级下:1)如果本设备所有优先级的流量都没有拥塞,则不发送任何信息给对端发送,对端可以正常发送流量;2)如果本设备的某一优先级的流量出现了拥塞,则向对端设备发送信息;正常发送流量,避免了丢包的发生;4)对于二层报文,其优先级来源为802.1p优先先级映射成8个优先级来获取。劣势:1)只在两台设备的端口之间作用;2)PFC属于逐级反压,会有较大的延迟。ECN(ExplicitCongestion-Notification,显式拥塞通告)主要在TCP报文流的场景中应用,利用IP报文头部中的ECN标志位,在设备中出现拥塞时,对于支持ECN标记的报文,将ECN标志位设置为CE状态。TCP报文的接受方检测到报文中存在CE标志状态时,会在随后的ACK报文的TCP头中设置ECN-Echo标志ACKECNEcho志位来判断出网络链路上发生了拥1)该功能基于IP协议及TCP协议,在TCP连接的两端发送方和接受方上发生作用,从而达到流控的目的;流控,在丢包发生前就主动进行拥塞控制,避免了由于丢包导致的TCP流的慢启动,维劣势:当服务器A发现通路有拥塞的时候,会减少发包,但是实际上这个通路上的拥塞并不是由服务器A的业务造成的。14POD1线15低时延无损网络应用架构在线POD1线15低时延无损网络应用架构在线PODPOD216PFC&16•统计功能加强(每个port的所有queue)1.ingress和egress方向的dropcount;2.发送/接收的PFC个数;3.PGpeakheadroom值;4.egressbuffer超过水位和门限的次数;5.报文被MarkECN标记个数;6.ingress和egress方向的buffer监控。•异常情况可以告警:1.Incast:a)网卡侧持续发送大量CNP报文(网2.burst丢包:网卡侧没有持续的发送或收到CNP报文,但交换机ingress或egress方向的RDMA流量有丢包(说明PFC或ECN门限设置不合理);3.slowreceiversymptom:网卡主动发送PFCpause(正常情况下网卡应该发送CNP来通知需要报警);4.PFCstorm:整个pod下的交换机都有收发PFCpause(PFCstorm会引发严重故障,需要严格监控);5.PFCdeadlock:网卡持续收到PFCpause,或交换机持续发送PFC18在报文传输节点添加INT信息,从而可以:•确定报文去向、传输耗时•确定报文在每台交换机的选路信息•确定报文在交换机内部的状态•对添加了INT信息的报文镜像并封装(可考虑结合ERSPAN把报文发到分析服务器)19智能运维技术——运用AI技术的网络运维•流量特征自分析•流量模型自学习•流量转发自调度•故障自诊断•故障自恢复基于AI技术的网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论