1.2、基于网络设备的Vxlan技术实现0807--含elearning_第1页
1.2、基于网络设备的Vxlan技术实现0807--含elearning_第2页
1.2、基于网络设备的Vxlan技术实现0807--含elearning_第3页
1.2、基于网络设备的Vxlan技术实现0807--含elearning_第4页
1.2、基于网络设备的Vxlan技术实现0807--含elearning_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,基于网络设备的VxLan技术实现 从OVS OffLoad Swtich 支撑大规模云数据中心扩展,云计算虚拟化网络的挑战,VM动态迁移的需求成常态,VM在线迁移机制使VM和应用在不同硬件资源之间移动,使数据中心具有资源共享、资源调度、容灾备份、动态整合能力,提高资源利用率和安全性。,VM在线动态迁移需求大范围的二层域,VM动态在线迁移要求IP、MAC及网关的一致性 真正动态在线迁移,需要VM迁移前后的IP和MAC地址不变,同时也需求网关IP及MAC(ARP信息)的一致性 要求业务网络是一个二层网络 要求网络本身具备多路径、多链路的冗余和可靠性 最终可以实现跨越不同地域、不同机房之间的迁移,

2、传统网络虚拟化技术无法支撑大二层网络,VLAN+STP:无法满足大规模基于VM的数据中心部署要求 VLAN也是网络分片的虚拟化,小规模部署可以应对多租户的网络隔离 VLAN可用数量无法满足更多租户的隔离 TOR的MAC地址表项大小限制了VM的规模 基于STP的防环路协议不能充分利用链路带宽 STP的收敛性能也限制了网络规模(100台交换机以下) 广播、未知单播的整网泛洪,导致网络的可用性,网络设备虚拟化(N:1):只适合小规模网络构建 解决传统STP技术的缺点,简化网络拓扑,提高可靠性 强制的拓扑形状限制网络规模,灵活性差,适合小规模网络,TRILL/SPB/FabricPath/VPLS等技

3、术:也有先天不足 非标准化、厂家私有化及对硬件的升级,都限制其只适合小规模网络,基于Overlay的大二层网络适应大规模网络发展,Overlay,在一种网络架构上叠加的虚拟化技术隧道 基础网络采用三层网络,规避环路发生,基于ECMP的多链路,提高可靠性及整体性能 Overlay的本质是L2 Over IP的隧道技术 将以太网报文承载到某种隧道层面,不同技术差异在于选择和构造隧道的不同,底层均为普通三层IP转发,Overlay & Underlay,Underlay网络: 传统的三层路由,可信、可靠及可扩展 ECMP,充分利用所有可用的网络链路,广泛使用 Overlay网络: Overlay技术

4、标准化 实现二层跨三层的任意扩展,具备移动性 二层网络规模可灵活扩展 实现多租户的隔离,Overlay技术分析,Overlay技术分析,VxLan 将二层以太网报文封装在UDP传输层上的隧道转发模式隐性隧道 目的UDP端口号为4798 为了充分利用承载网络路由的均衡性,将原始以太网数据头(MAC、IP、四层端口等)的HASH作为UDP的源端口号 采用24bit标识二层网络分段,称为VNI 未知单播、广播、组播等封装为组播转发,NVGRE 将以太网封装在GRE内的隧道转发模式-显性隧道 用24bit标识二层网络分段(VSI) 为了充分利用承载网络路由的均衡性,在GRE扩展字段flow ID,要求

5、物理网络能够识别到GRE隧道的扩展性,并以Flow ID进行流量分担 未知单播、广播、组播等封装为组播转发,Overlay技术分析,STT 利用了TCP的数据封装形式,但是改造了TCP的传输机制,数据传输不遵循TCP状态机 无状态TCP:TCP各字段重新定义,无需三次握手建立TCP连接 以太网封装在无状态TCP中,用64bit Context ID表示二层网络分段 为发挥网络路由均衡性,通过将原始以太网数据头(MAC、IP、四层端口号等)的HASH作为无状态TCP的源端口号 未知目的、广播、组网等BUM流量封装为组播转发,Overlay技术分析,VxLan技术优势 VxLan和STT对现网设备

6、的流量均衡性要求低,适用性好,如ECMP、LACP等 NVGRE要求网络设备感知GRE扩展的Flow ID,需要硬件升级; NVGRE对TCP改动大,革新性,复杂度高,VxLan利用现有UDP传输,成熟性好,Overlay技术分析,Overlay解决的具体技术问题 VLAN的数量限制 从4094到1600万个租户标识,满足大规模云计算中心的要求 物理网络基础设施的限制 基于传统三层IP子网的划分,限制了需要二层跨三层的连通性问题,满足应用负载的灵活部署 TOR交换机MAC表耗尽 随着服务器性能提升,高密度虚拟化会导致更多的MAC表项 多链路均衡性的限制 传统的STP会导致链路性能的浪费、收敛性

7、能差,VxLan技术简介,Over在物理IP网络上的虚拟以太网 使用UDP封装完整内层以太网报文 共50字节的报文头(新增开销) 24位VxLan标识 最大支持1600万个逻辑隔离网络 可穿越三层网路 实现跨网络、跨区域 利用IP多播封装广播和多播报文 限制广播域规模 支持ECMP 对不同流使用不同源UDP端口,VxLan的实现方式,主机实现-1/2 虚拟化主机软件在vSwitch内实现VxLan,使用VTEP封装和终结VxLan的隧道 不同VxLan网络或VxLan网络与传统以太网的通信,需要借助VxLan的Router VxLan Router的形态可以是vSwitch,也可以是物理交换机

8、。,非虚拟化,overlay,Not-overlay,VxLan的实现方式,主机实现-2/2,优点: 所有OVS流标在服务器的内存中,理论支持巨大的流表 根本不控制物理交换机,只需在服务器上安装一个软件 可编程,灵活性性高,缺点: 性能(也需要区分业务类型及业务规模) 成本高(包括商业产品采购或自行开发投入),VxLan的实现方式,物理实现-2/2 通过BCM的商业交换机芯片,把OVS上的VTEP工作OffLoad到硬件交换机,包含VxLan的Bridge和Router,BCM支持硬件VxLan的芯片情况: TOR: Trident2:支持VxLan Bridge;量产,48口全万兆接入,支持

9、6个40G上行 Trident2+:同时支持VxLan Bridge和Router;新片,48口全万兆接入,支持6个40G上行 核心: Arad+:支持VxLan Bridge或Router;量产,单板24个40G,单片200G线速(64Byte) Jericho:同时支持VxLan Bridge和Router;新片,单板36个40G或36个100G,单片480G线速(64Byte),从OVS OffLoad Switch时机成熟,VxLan的软件实现需要OffLoad硬件,软件方式实现遇到性能瓶颈 案例 “做VPC网络性能对比测试的,发现单向打包测试的时候,1G情况下,软硬件方案性能差异也就

10、10的差距,而一旦测试双向打包,发现性能对比一下子明显了,差不多有40的差距。另外一个明显的对比是10G下的时延测试,软件是毫秒级,硬件方案是微秒级”盛科 张卫峰 99Cloud的实验,先用iPerf进行大流量的测试,使用vSwitch带宽大概到了800多MB,后来iPerf发包的同时,用迅雷模拟实际网络流量,带宽马上降到500多MB,300MB被损耗掉了 腾讯的优化:,VxLan的软件实现需要OffLoad硬件,关于性能的理论分析 OVS做了Tunnel的封装和解封装时,报文在内存中的移动和拷贝影响CPU性能 网卡中的TSO本来是可以对TCP报文进行分片加速的,但一旦OVS给报文加了VxLa

11、n的Tunnel封装,网卡看不到TCP报文,就不会分片加速,导致性能损失 软件中流标的查找、匹配会消耗很大,特别是TCP短连接比较多的时候。,VxLan的软件实现需要OffLoad硬件,虚拟交换机切换物理交换机的优势: VxLan转发性能提升 基于硬件芯片实现数据的线速转发,匹配服务器与网络的性能 省去服务器封装和解封装的开销 网卡仍然可以通过TSO进行TCP报文分片加速 减轻flow学习的压力 租户VM相关的信息都可以预先配置到交换机,不需要传统二层的动态学习和Flooding 解决L3 Gateway的瓶颈 硬件替代类OpenStack中的网络节点(Server) 网络可视化 如果Hype

12、rvisor做了Tunnel的封装,报文到了TOR交换机,交换机看不到原始的报文,无法做统计,也不方便异常流的排查(比对报文收发数量),基于交换机硬件的VxLan实现,两种硬件的解决方案,集中式的VxLan Router方案 OVS(Bridge)+pGW(Router) TOR(Bridge)+pGW(Router),分布式的VxLan Router方案 TOR(Bridge+Router),集中式的VxLan Router方案,OVS(Bridge)+pGW(Router) 升级核心SW采用Arad+或Jericho芯片,作为VxLan的Router,替代传统方案的vRouter(vGW)

13、 核心SW承担VM的网关,负责VNI之间及VxLan与传统网络互通的网关 多核心之间通过VRPP改进实现可靠性及多链路分担 OVS保持原有的VTEP功能,改动很小,集中式的VxLan Router方案,OVS(Bridge)+pGW(Router) 多租户的隔离 在OVS侧,基于当前现有的标准实现,如基于流表、ACL的隔离。 在核心VxLan侧,通过VRF划分进行 VM的ARP信息同步实现 核心VxLan网关通过ARP、泛洪学习 核心VxLan网关上有所有的VM的相关信息 网关的一致性 多核心通过AnyCast方式,拥有相同的表项全集。 关于与平台的对接 OVS上的VTEP控制基于现有的控制器

14、方式 需要增加关于针对网关中VRF相关配置的对接(NetConf),集中式的VxLan Router方案,OVS(Bridge)+pGW(Router) 优点: 用交换机替代现有vRouter,改善网关性能 对现有部署的基于OVS的VxLan改动小,与控制器的对接都不需要改动 支持Arad+芯片的核心交换机成本与传统核心交换机相差不大 缺点: VxLan网关的从软件到硬件,需要对现有的配置流程改动,包括与业务平台的自动化配置流程,集中式的VxLan Router方案,TOR(Bridge)+pGW(Router) OVS去VTEP功能,支持普通的内部二层交换 更换采用BCM TD2或TD2+的

15、TOR交换机,启用VxLan的Bridge功能,实现OVS普通VLAN到VNI的映射,同时受控制器控制,进行流表的下发 升级核心SW采用Arad+或Jericho芯片,作为VxLan的Router,替代传统方案的vRouter(vGW) 核心SW承担VM的网关,负责VNI之间及VxLan与传统网络互通的网关 多核心之间通过Anycast方式改进实现可靠性及多链路分担,集中式的VxLan Router方案,TOR(Bridge)+pGW(Router) 多租户的隔离 在核心VxLan网关侧,通过VRF隔离,每租户1个VRF TOR上配置Bridge,不同VNI之间二层自然隔离 每租户划分配多VN

16、I,VNI之间通过VxLan网关互通。 VM的ARP信息同步实现 TOR与核心都需要通过泛洪进行MAC和ARP的学习 核心VxLan网关上有所有的VM的相关信息,集中式的VxLan Router方案,TOR(Bridge)+pGW(Router) 网关的一致性 多核心通过AnyCast方式,拥有相同的表项全集。 关于与平台的对接 SDN控制器南向通过Netconf控制TOR及核心交换机,实现租户VRF、VNI等相关配置的自动下发 SDN控制器北向对接云管理平台,提供交换机VRF、VNI等配置的API接口,实现与业务层面的对接。,集中式的VxLan Router方案,TOR(Bridge)+pG

17、W(Router) 核心芯片关键指标能力分析:,Arad+芯片能力,Jericho芯片能力,集中式的VxLan Router方案,TOR(Bridge)+pGW(Router) 优点: 整体性能提升明显,解决了最大的性能瓶颈 Offload硬件,扩展性好,缺点: 集中式VxLan Router,所有的VM的网关在核心,会遇到类传统大二层的问题(虽然BUM报文是封装为组播) 适合3K台物理服务器的IDC(核心采用Arad+芯片),标准VxLan的缺点,没有独立的控制面 数据转发基于Flood-&-Learn 针对BUM流量用组播传输 VTEP成员无安全认证,分布式VxLan Router实现优化

18、,分布式的VxLan Router方案,TOR(Bridge+Router) 升级TOR采用TD2+芯片,作为VxLan的Bridge和Router,替代传统方案的OVS中的VTEP和独立的vRouter(vGW) TOR扩展BGP功能,通过MP-BGP路由在TOR之间交换VM的IP及MAC信息,从而形成作为VxLan的独立控制面(利用成熟协议替代SDN) TOR与核心之间通过BGP形成ECMP进行普通三层转发(简化核心部署) OVS去VTEP功能,支持普通的内部二层交换,分布式的VxLan Router方案,TOR(Bridge+Router) 多租户的隔离 通过VRF进行多租户的隔离,每个

19、租户划分1个VRF。 在每个租户VRF内,分配给用户多个VNI作为租户内部业务隔离。,VM的ARP信息同步实现 MP-BGP利用EVPN NLRI来进行扩展,携带VM的IP、MAC、VTEP、VNI等信息 通过MP-BGP,TOR把在本地TOR上VM的相关信息通过MP-BGP同步到所有TOR。 MAC:MAC Table IP: VRF IP Host table,分布式的VxLan Router方案,TOR(Bridge+Router) 网关的一致性 利用网关的AnyCast技术,所有TOR上针对相同VNI配置相同的IP和MAC地址。 虚机迁移时,VM的ARP信息不需要更新。 关于与平台的对

20、接 厂家的SDN控制器南向通过Netconf控制交换机,实现租户VRF、VNI等相关配置的自动下发 厂家的SDN控制器北向对接云管理平台,提供交换机VRF、VNI等配置的API接口,实现与业务层面的对接。,分布式的VxLan Router方案,TOR(Bridge+Router) TOR芯片关键指标能力分析: MAC表:最大可以达到544K,通过芯片可以调整数量,充足 ARP表:与VxLan隧道容量共享48K的表项,因为一台TOR只存本地相关VNI的表项及其它目标VTEP的ARP表项,考虑VxLan最大化,那么可以支持的ARP数量为31K=(48K-17K)假设500台TOR(2万台)及10租

21、户,Trident2+芯片能力,按照ARP计算,全局可以支持的虚机数量:1550万。 路由表:最大支持240K的路由表(112K(HOST表)和128K(算法LPM模式) 核心交换机只做Reflecter,不存租户VRF内隧道相关路由,所以没有瓶颈。,分布式的VxLan Router方案,TOR(Bridge+Router) 优点: 真正支撑2万台Server的大规模IDC,支持大虚拟比的云计算IDC环境 独立的VxLan控制面,基于MP-BGP标准协议,稳定、可靠 二层边缘化,规避集中VxLan方案存在的大二层VNI的情况,提高网络可靠性,同时提高带宽利用率 通过SDN+Netconf方式对网络设备配置实现自动化,缺点: 对TOR交换机要求较高,需要对传统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论