中国联通DPU网络域场景应用白皮书 2023_第1页
中国联通DPU网络域场景应用白皮书 2023_第2页
中国联通DPU网络域场景应用白皮书 2023_第3页
中国联通DPU网络域场景应用白皮书 2023_第4页
中国联通DPU网络域场景应用白皮书 2023_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CUBE-Net新网络新服务新生态中国联通DPU网络域场景应用白皮书中国联合网络通信有限公司研究院下一代互联网宽带业务应用国家工程研究中心2023年08月中国联通DPU网络域场景应用白皮书NFV技术在5G网络建设中已普及应用,NFV云资源池是运营商云基础设施整体规划和建设中的网络域部分。随着5G的规模商用和6G的提出,网络业务对网络域云基础设施提出了新的需求和挑战。DPU作为一种新型计算技术,具备灵活可编程、算力卸载、安全可信和统一资源管控等特性,为NFV技术的演进提供了新思路。本白皮书阐述了DPU技术优势和当前网络域云基础设施面临的几点问题,给出了DPU在几种典型网络域业务场景中的应用方案,分析了引入DPU面临的挑战和建议。希望通过本白皮书的发布能引起行业的共同深入思考,为业界开展DPU和NFV演进研究提供参考,加速推进DPU和通信产业发展,助力灵活安全绿色高效的5G网络建设和万物智联的6G愿景实现。本白皮书的版权归中国联通解释,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。联合编写单位:(排序不分先后)中国联通集团网络部,中国联通研究院,下一代互联网宽带业务应用国家工程研究中心,联通数字科技有限公司,中兴通讯股份有限公司,深圳云豹智能有限公司指导专家:唐雄燕,丁鼎,曹畅,王友祥,童俊杰,高功应编写组成员:(排序不分先后)杨文聪,王立文,杨文强,张雪贝,朱威,岳毅,隋腾飞,过晓春,刘宇龙,朱堃,郑怀林,阎松明,岳文卿,陈文斌,王雪强,孙传明,吴杨,王紫程中国联通DPU网络域场景应用白皮书1.背景 12.DPU技术分析 32.1.DPU发展历程 2.2.DPU技术特性 6 7 2.3.DPU产业生态 3.1.资源统一管控需求 3.2.通用算力损耗问题 3.3.转发性能问题 3.4.潜在安全风险 3.5.绿色节能要求 4.DPU在网络域中的应用方案 4.1.虚层卸载的虚机方案 4.2.云化裸金属方案 4.3.DPU的扩展应用方案 5.引入DPU的挑战与建议 6.总结与展望 7.缩略语列表 中国联通DPU网络域场景应用白皮书1.背景云计算通过虚拟化技术和集群管控技术实现资源共享、弹性伸缩、高可用、简化管理等特性,得到了广泛关注和应用,取得了巨大成功。通信网络也借鉴云的架构设计中引入了网络功能虚拟化(NetworkFunctionVirtualization,NFV),将传统的软硬一体的网络设备转换为软件网元形态,可以在基于通用设备的云资源池上部署运行,从而实现网络功能的快速部署、灵活调度和资源优化。这种用于网元部署的云平台是云计算在网络领域的落地应用,这些用于网元部署的云资源池是运营商云基础设施整体规划和建设中的网络域部分,用于支撑5G核心网等通信网络的部署和运行。相对于公有云业务,网络域承载的通信网络业务可靠性要求高,需要在性能、稳定性等方面进行增强加固;业务种类繁多,如5GC、IMS、炫铃、新通话等不同的通信服务和网元实现信令处理、报文转发、媒体流量处理等不同功能,在业务特征、产业生态等方面差异跨度大,对云资源池的资源要求也差别大。在5G建设进程的推进中,算力与网络不断融合,NFV及SDN技术在移动通信网络、家庭宽带网络的应用持续深入,云化网络技术成为这些业务网络保持弹性敏捷的基础。但是随着5G在垂直行业的应用和AI大模型、短视频类业务的发展,网络需要更大带宽更低时延,这就导致网络域云基础设施必须不断扩容和迭代。长期以来在摩尔定律和登纳德缩放定律的共同作用下,引领了芯片行业30年的飞速发展。但随着摩尔定律放缓、登纳德缩放定律失效,后摩尔时代通用CPU的算力提升已经无法满足当前网络域NFV业务对转发性能的增长需求。同时,随着6G愿景的提出,各种新型通信服务如VR/AR、车联网、数字孪生、智能内生、安全内生等也在逐渐崛起,这些多样化个性化的应用场景对通信网络提出了更高的要求,也将对网元功能对云资源池的安全稳定、资源利用率、运维管控等各方面能力提出了挑战。DPU(DataProcessingUnit)是源于智能网卡的新兴计算技术,也是一种IO密集型的专用处理器,采用SoC/CPU+可编程硬件方案为数据处理提供灵活高效的硬件加速服务,可支持网络、存储、安全、管理等数据中心基础设施层功能卸载(因此也被称为IPU,即基础设施处理单元),也可支持根据应用层业务需求定制加速能力。业界已经将其定位为继数据中心CPU、中国联通DPU网络域场景应用白皮书GPU之后的"第三颗主力芯片",以应对算力规模快速增长带来的挑战。在公有云领域,DPU被用于卸载和加速云数据中心的存储访问、数据转发、安全卸载等方面,释放更多可售卖的算力资源。在网络域,DPU由于其更高的转发效率,可以进行网络报文处理降低对CPU计算资源的依赖,以更少的CPU核和服务器节点提供更高的转发性能,以此降低云资源池的能耗,推动网络域NFV的绿色节能。中国联通DPU网络域场景应用白皮书2.DPU技术分析2.1.DPU发展历程随着云计算、物联网、大数据和人工智能等产业的飞速发展,数据中心中针对计算资源、网络资源和存储资源池化和虚拟化的需求不断增强。尤其数据中心应用中的网络正在向高带宽和新型传输体系发展,网络带宽增加的速度与CPU算力增长的速度之间的差距逐渐增大,网络数据处理占用的CPU资源也不断地增加,数据中心税的问题愈发突出。在这种背景下,DPU从传统NIC网卡逐步衍生而来,基本可以分为三个发展阶段:1.传统基础网卡NIC:负责数据报文的收发,具有较少的硬件卸载能力;2.智能网卡SmartNIC:具备一定的数据平面硬件卸载能力;3.DPU卡:兼具智能网卡功能的同时,可以支持数据面和控制面的卸载,以及一定的控制平面与数据平面的可编程能力。HOSTHOSTHOST高速以太网口高速以太网口以太网口图1.DPU演进历程DPU经历了从NIC到DPU卡的发展历程,实现了功能定位的转变。而DPU的愿景是希望改变现有以CPU为中心的计算架构,通过其灵活可编程和高效的数据处理能力完成资源按需调度、网络与部件及部件之间的互联互通和数据处理,实现以DPU为中心的新型计算架构,以提高数据中心计算效率。传统基础网卡NIC,又称网络适配器,是构成计算机网络系统中最基本和最中国联通DPU网络域场景应用白皮书重要的连接设备,它的主要工作是将用户需要传输的数据转换为网络设备能够识别的格式。在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力,如CRC校验、TSO/UFO、LSO/LRO、VLAN等,支持SR-IOV和流量管理QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到10G、25G乃至100G。在云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分1.网卡接收流量经操作系统内核协议栈转发至虚拟机;2.由DPDK用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚拟机内存;3.使用SR-IOV技术,将物理网卡PF虚拟化成多个具有网卡功能的虚拟VF,再将VF直通到虚拟机中。随着VxLAN等隧道协议以及OpenFlow、OVS等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的CPU资源,因此智能网卡SmartNIC诞生了。智能网卡SmartNIC除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机CPU计算资源。智能网卡SmartNIC主要卸载加速对象是数据平面,如虚拟交换机OVS/vRouter等数据面FastPath卸载、RDMA网络卸载等,通常需要主机CPU进行控制面管理。但是随着云计算应用中网络速率的不断提高,主机仍会消耗大量宝贵的CPU资源对流量进行分类、跟踪和控制。因此,如何实现主机CPU的“零消耗”成了云厂商下一步的研究方向。相比智能网卡SmartNIC,DPU卡基于“软件定义、硬件加速”的理念,在硬件加速架构上增加了更加灵活可编程的通用处理单元,实现对网络、存储、安全和管控等通用基础设施的加速和卸载。中国联通DPU网络域场景应用白皮书DPU通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能,从而达到了性能与通用性的平衡。DPU专用处理单元用来解决通用基础设施虚拟化的性能瓶颈,通用处理单元则保证DPU的通用性,使得DPU能够广泛适用于云基础设施的各种场景中,实现虚拟化软件框架向DPU平台的平滑迁移。DPU的产品形态有多种。从结构上看还主要为PCIe外设卡形态,受性能规格、功耗散热等影响,有单卡、多卡等不同的产品方案;从硬件架构上看,主要有NP/MP+CPU、FPGA+CPU、ASIC+CPU以及高度集成的DPUSoC等方案,不同方案具有不同特点,如:

基于FPGA+CPU硬件架构的DPU有良好的软硬件可编程性,具有开发时间相对较短且迭代快速的优点,能够迅速完成定制化功能开发。但是也有功耗等方面限制,且FPGA芯片价格相对较高,在产品规模商用后也不利于控制成本。

集成度更高的DPUSoC在前期设计阶段对技术和资金投入要求较高、研制和迭代周期长,但是在产品定型规模商用后,单片成本相对更低,具备高性能、低功耗和低成本等优势。并且其通用可编程等特性同样能够满足更复杂、更广泛的应用需求,也是当前国内外头部DPU厂商和云服务提供商选择的主流技术路线之一。>以DPU为中心的愿景目标在当前以CPU为中心的计算架构中,CPU负责调度管理、业务计算、虚拟化层网络及存储计算,存在资源损耗大、数据吞吐受限、管理复杂等问题。未来以DPU为中心进行计算,DPU将编排管理、虚拟化网络、虚拟化存储、安全加密等功能卸载到DPU,实现外部网络数据和服务器内部CPU、GPU等各算力芯片间的数据分转,并具有按需完成各类芯片任务调度编排的功能,发挥枢纽作用。该阶段中DPU与服务器的集成方式也将不再局限于传统物理服务器的PCIe外设形态和集成方式,服务器的板级管理、上电时序、部件间级联总线设计等方面都可能会产生改变,以适应以DPU为中心的计算架构的需求。2.2.DPU技术特性DPU实现基础设施(IaaS)层的全面卸载,提供各种应用领域的硬件加速,协同实现多租户的数据和计算安全。有助于网络域NFV基础设施在资源管理、算力、转发性能、安全可信、绿色节能等方面的能力提升。随着网络、算力需求的持续增加,DPU不仅需要提供数据面的加速能力,还需要针对控制面的操作进行解耦和卸载。因此,DPU需要通用的多核处理器提供基础设施软件组件的卸载,以及可编程的网络处理引擎提供对网络数据处理的硬卸载能力和多种特定领域的数据面加速引擎来实现DPU的可编程特性。依据DPU所具备的功能组件的功能不同,DPU可提供通用可编程、网络可编程和专用可编程三类计算资源实现灵活开放的可编程能力。通用可编程计算资源DPU的多核处理器主要对用户提供完全可编程能力和向前兼容性,把主机上的基础设施服务完全从主机侧下沉到DPU,降低主机侧CPU的算力资源开销。另外,在云计算控制平面中的部分组件,例如虚拟化管理、裸金属管理、监控脚本、系统日志等,也可以无缝地移植到DPU的多核处理器中。网络可编程计算资源DPU作为一款软硬一体化设计的DSA硬件,也面临着如何持续跟进并满足软件侧持续迭代开发带来的新需求的挑战。传统的依赖厂商结合硬件侧能力及资源规格,通过驱动以API形式向用户开放芯片能力的方式已难以满足需求。一方面厂商侧了解硬件实现,但不清楚用户场景与需求,API完全由厂商侧定义实现,无法完全开放硬件能力,同时也不能保证可以持续满足用户的需求,另一方面当用户有新需求需要DPU支持时,整个开发流程将引入厂商来共同完成,需要厂商与用户协同设计开发,难以做到实时跟进,整个开发周期将更长。DPU的可编程网络处理引擎可以提供软硬一体化的设计能力,硬件侧提供更高的灵活可扩展性,软件侧通过如P4语言等方式将芯片上资源及硬件的可编程能力开放给终端用户。用户通过编程来定义DPU硬件转发pipeline,实现将网络的数据面处理功能卸载到DPU中进行快速处理,例如针对流表规则/Action配置、字段匹配、诸如VxLAN和GRE等隧道协议的封装解封装、报文头编辑、流量统计、连接跟踪与QoS等功能的处理。另外,DPU在网络数据处理上的可编程性也体现在对自定义私有协议报文的处理上,通过micro-engine的方式结合定制化的专用加速指令以及流水线的设计实现针对大量自定义私有协议的快速处理。专用可编程计算资源DPU的数据平面加速器包含多个领域的加速引擎,例如针对IPSec的加解密引擎,针对数据压缩解压缩引擎,RDMA/RoCEv2硬件加速引擎等。DPU提供对用户开放的编程接口实现对加速器的编程配置。DPU在云计算应用中将扮演重要角色,是衔接算力(包括CPU+GPU)和网络两大领域的重要枢纽,也是应用驱动下出现的异构计算设计的必然结果和实践。DPU的体系架构解决了在云计算应用中CPU、GPU很难或者不能完成的技术难点,在整体上提升了运行效率的同时也有效降低了云计算基础设施的投资和运维成本。DPU的体系架构真正实现了对计算资源、网络资源、存储资源的统一运维和管理,并且可以轻松地支持网络、存储和管控的卸载;支持裸金属应用模式下的宕机迁移;支持虚拟机应用模式下的虚拟机热迁移。如下图所示,从资源的角度来看,DPU作为统一的节点,可以实现统一的智能化资源管理。中国联通DPU网络域场景应用白皮书从上图可知,DPU作为资源调配的中心,简化了运维和资源管理的复杂度。DPU统一资源管控的特性和能力发挥了巨大作用,解决了云计算中面临的运维/资源调配复杂、上线速度缓慢、开发成本难以控制等三大问题。针对上述三个问题,可从计算资源管控、网络资源管控、存储资源管控三方面分别进行分析,阐述DPU在统一资源管控的特性和优势。随着数据中心业务的发展,云计算技术逐渐演进,不同的虚拟化技术和资源形态被提出。在云计算资源的管理上,无论从“虚拟机”、“裸金属”还是“容器”的角度出发,传统的依托CPU作为中心算力的管控系统都面临挑战:虚拟机:需要在宿主机中部署、运行、维护大量且复杂的虚拟化软件系统来完成IaaS功能,以提供针对虚拟机这种计算资源的管控,保证多租户共享物理资源。上述部署在HostOS中的IaaS功能存在消耗宿主机算力资源、不易解耦等问题,使建设成本和运维复杂度增加,尤其是虚拟机热迁移这类基本功能的实现变得异常复杂。裸金属:与虚拟机共享宿主机物理资源不同,裸金属的资源归用户独享。对租户而言具有强劲稳定的计算能力和安全可靠的运行环境。但由于宿主机完全被用户独享,HOSTOS中无法部署虚层组件,无法直接沿用虚拟机/云主机的管控架构和部署方式,需要额外的管理和组网方案。容器:容器技术是通过命名空间等方式实现的一种轻量级虚拟化技术,可以在宿主机操作系统中共享内核空间并提供用户空间的资源隔离。容器技术的普及和发展促进了微服务的发展,深刻影响了云计算的应用架构和部署方式。通过微服务,将复杂系统拆分为易于开发和维护的服务单元,实现敏捷性开发的同时也中国联通DPU网络域场景应用白皮书增加了分布式系统的复杂性。每个服务需要进行管理、调度、监控,进而服务网络(ServiceMesh)的概念被提出,如Kubernetes、Istio等框架和方案已经实践应用。但上述管理组件的引入,无疑带来了额外的资源管理开销。随着容器和微服务部署规模的扩大,各类平台型组件消耗的主机HOST算力资源的比重将会逐渐增大,最终将导致云计算平台无法提供有效的算力资源给容器和微服务应用。为了满足用户灵活动态的算力服务需求、降低数据中心的建设运维难度,需要统一的资源管控技术来管理计算资源。DPU的体系架构在面对上述计算资源管理问题时可以提供有效的解决方案。如下图4中所示,基于灵活可编程架构DPU可以实现对“虚拟机”、“裸金属”和“容器”各种计算资源的统一管控,利用DPU的通用可编程计算资源将IaaS功能组件归一化下沉到DPU中进行统一管理,可以获得下述优化:

释放宿主机CPU算力,提高单位服务器可售卖算力比例;

简化IaaS功能组件部署的复杂度,针对IaaS组件实现单点(DPU)的维护

实现统一的API接口,实现不同计算资源的统一管理;服务器HOSTVMVM服务器服务器HOST服务器服务器HOST服务器HOST储储储MACInterfaceMACInterface中国联通DPU网络域场景应用白皮书当前云计算应用的网络架构中同时并存着传统的三层结构“接入层-汇聚层-核心层”和叶脊网络拓扑结构(spine-leaf)两种网络架构,相对而言spine-leaf网络拓扑结构有逐渐取代前者的趋势。三层网络架构对支撑南北向流量业务效果优异,但也存在着带宽浪费、数据路径长、高延时,扩展性差和成本高等诸多问题;spine-leaf不仅优化了传统三层架构中面临的上述问题,而且spine-leaf在支撑东西向流量上具有明显的优势。随着云和容器化应用的部署,各种应用程序组件分布在不同的服务器和虚机之中,使得东西向流量业务激增。激增的东西向流量主要来自不同虚拟机之间以及不同容器应用之间的通信流量。DPU作为云计算中服务器的网络资源管理枢纽,将承担针对东西向流量在主机HOST与Leaf之间的管理作用,实现对网络资源的统一管控,如图5所当前的网络资源管理技术主要依托虚拟化技术实现。从图5可知,主机内部网络虚拟化资源的管理可以迁移到DPU中,同样的可以依托DPU的通用可编程计算资源实现对网络资源控制面的卸载和统一控制。此外,依托DPU的网络可编程计算资源、专用可编程计算资源的可编程和加速能力可以实现诸如OVS的中国联通DPU网络域场景应用白皮书数据面硬件卸载,提高数据面处理性能。未来,随着DPU的能力发展和网络架构的演进,DPU可以代替TOR作为TEP点,在缩短数据路径的同时,进一步提升对网络资源的管控能力。同计算、网络资源一样,在云计算的发展过程中,为了满足不同业务对存储功能的需求,存储技术也在不断地完善和加速演进中。DPU的架构和特性优化提升了针对存储资源的管理能力和效率,促进了存储技术在云计算应用中的发展。当前在存储技术中,存储协议和相应的文件系统变得越来越复杂,同时,随着集群规模的增大,服务器上存储IO负载负担越来越重。在传统的存储技术实现中,针对存储协议处理、存储数据IO操作都是基于CPU的通用算力资源来完成,使得存储系统占用了大量的服务器CPU算力资源。DPU可以解决上述矛盾其不但可以利用通用可编程计算资源实现存储协议的卸载释放服务器CPU的算力资源,还可以利用可编程的存储加速器组件等专用可编程计算资源增加存储IO的吞吐能力等。图6.存储资源统一管控DPU的统一存储资源管控能力促进了存储和计算分离技术的发展,提高了对存储资源的服务和管控能力。对于终端用户,DPU的统一存储能力提供归一中国联通DPU网络域场景应用白皮书化的存储访问API接口,无论后端的存储资源是对应的本地存储、云端存储都可以实现简洁透明的存储访问能力。另外,DPU的可编程加速计算资源可以实现对数据处理逻辑的卸载,如安全加密、压缩、负载均衡等。因此,DPU的架构不仅实现了从控制面和数据面的卸载,也实现了将存储资源的管理功能从主机侧CPU向DPU的卸载和迁移。虚拟化和容器化是云计算的核心技术之一,通过虚拟化技术和容器化技术提供的计算资源是云计算基础设施的核心组成部分。但是网络、存储、安全等基础设施管理工作需要占用额外的CPU资源,最终导致20%-30%的CPU资源无法提供给业务使用。这部分算力都不直接产生效益,但又必不可少,云计算巨头亚马逊云服务(AWS)形象地称之为“数据中心税”——还未运行业务程序,接入网络数据就要占去许多计算资源。同时,新兴的应用场景也带来更多用户接入并使用互联网,迫使数据中心的网络带宽从10G、40G增长到100G、200G并向更高带宽迈进。在数据中心内部由于长期以来数据转发工作都依赖于节点上的CPU,其性能受生产工艺的物理极限限制,导致其性能提升远落后于网络带宽的发展。为此,在云数据中心内部越来越多的CPU资源不得不被分配给数据转发负载。当Host工作在100G网络环境中时,处理IO需要消耗大量的计算资源,严重挤占用于处理业务的CPU资源,真正可被用于业务处理和计算的“有效”资源越来越少,造成巨大成本负担。在以DPU为中心的数据中心架构中,所有IO由DPU来处理和加速。一方面由于DPU针对网络报文和典型功能/算法实现的网络可编程/专用可编程计算资源具有高性能、低功耗的特点,数据中心IO的能耗可以大幅降低;另一方面DPU作为数据处理的核心,可以将虚拟化层全部卸载到DPU上,充分释放服务器的CPU资源,计算资源可以100%用于计算,提升了单台服务器的计算密度。与同等规模的数据中心相比,该架构可以提供更多的计算资源,提高数据中心的计算资源利用率。2.2.4.低时延网络无论云计算的发展如何演进,使用的技术如何复杂,网络数据包最终都是在中国联通DPU网络域场景应用白皮书物理的网络中进行传输。DPU作为云计算中的核心部件之一,承担着物理网络传输的重要责任,是衔接算力(包括CPU+GPU)和网络两大领域的重要枢纽。因此,DPU的网络特性,例如带宽、时延等直接或者间接决定了云计算中网络发展的上限。带宽的发展相对平稳,从当前的10G、25G网络逐步演进到未来的100G、200G、400G网络。然而,随着带宽、数据吞吐需求的增长,物理网络时延极大地制约着云计算上层应用的发展,例如虚机,裸金属的应用部署。在整体的云计算网络中,网络包时延由链路传输时延、数据串行时延、设备转发时延、排队时延、节点处理时延等5部分组成。构建和优化低时延网络时,就要分析和改善这些影响网络包传输时延的各个组成部分。链路传输时延是指由传输介质带来的时延,例如电缆、光纤等介质的时延是固定值不可改变,因此可不考虑其影响,而其他几项则都是DPU需要聚焦的技术点。数据串行时延和设备转发时延在DPU中主要依赖芯片的硬件逻辑性能。随着网络流量的指数增长,基于硬件的数据面转发技术在交换机和路由器中得到了发展和应用。该技术(例如:NP的RTC架构和Pipeline架构)在新型云计算网络架构中也可被应用于DPU。当前,经过实践检验的最佳数据面转发技术——可编程的Pipeline技术在DPU中被采纳。可编程的Pipeline技术保留了硬化的ASIC实现的Pipeline在高业务吞吐和低时延的优势,同时可编程性兼顾了灵活性和可拓展性,支持未来新业务的兼容性。DPU可编程的Pipeline技术有效地降低了数据串行操作和设备操作时延。另外,在排队时延和节点处理时延方面,DPU的灵活可编程特性可以发挥软硬协同的方式优化排队时延和节点处理时延的性能。在实践中,直接在DPU中以软硬协同的方式实现对RDMA和RoCEv2的支持是实现低延时网络的最佳技术选择之一。通用DPU为了实现低时延网络,可以将RDMA和RoCEv2卸载到DPU上,通过硬件逻辑加速来降低报文的排队和处理时延。这样,一方面释放了CPU算力资源,另一方面将数据的处理转发操作尽量靠近网络侧。通用DPU可以利用网络可编程计算资源,实现对各类特征的数据流的的动态感知和动态拥塞控制,以软硬协同的方式保证低时延网络的实现。随着网络技术的不断发展,对于网络安全的要求越来越强烈。面向完全零信任的网络环境实现安全运营是云计算持续良性发展的重要保障。DPU的体系架构可以提供物理隔离的基础设施与业务应用、基于信任根的安全启动、数据安全传输、数据安全存储以及可编程的分布式防火墙等从硬件到软件各个层次的安全保障。基础设施与业务应用间物理隔离在云架构下,无论是裸金属应用,还是虚拟化应用都面临着无法完全实现安全域隔离的问题。在裸金属应用中,需要侵入用户操作系统进行对应插件的安装和修改;在虚拟化应用中,需要经过Hypervisor/ContainerRuntime才能进入VM或者Container,无法进行物理隔离。DPU作为虚拟化层的承载实体,可以实现基础设施与业务应用间的物理隔离,提高安全性。对于虚拟化场景,将原来的软件形态虚拟化层改变为硬件形态的虚拟化层,服务器主CPU中运行的软件系统与DPU中的虚拟化层功能软件之间物理隔离;对于云化裸金属场景,在裸金属服务器中新增了能够承载虚拟化层功能组件的计算资源,可以将裸金属服务器的管理、网络存储等终结在DPU,实现集群管理系统、资源池硬件资源等与裸金属服务器中的业务应用之间的物理隔离。面对裸金属和虚拟化的安全问题,DPU的安全启动特性确保了系统的安全运行。DPU采用基于数字签名的可信根方式确保启动固件的安全性、完整性。DPU中的一次性非易失存储区中存放公钥,该区域一次烧结后,不能再被更改该公钥作为DPU安全启动的可信根计算基础。在DPU固件发布时,将采用数字签名系统的私钥进行加密。私钥为签名系统保留,不被外泄。当DPU安全启动时,将采用逐级验签的方式,确保系统固件的安全性、可靠性。APP图7.安全启动流程中国联通DPU网络域场景应用白皮书安全启动采用逐级验证的方式,由上一级验证下一级的安全性,一旦下一级发生篡改或破坏,则启动过程终止。在实现方案中,默认第一级启动是可信的(被称为可信根);当设备上电时,可信根启动,并验证BOOT的安全性;BOOT验证通过后,BOOT开始启动,并验证操作系统OS的安全性;OS验证通过后,OS开始启动,并验证APP(应用程序)的安全性,最终整个系统实现安全启动。基于云的应用部署中强调应用程序的可移植性、可扩展性和弹性。因此,发展了诸如容器、微服务、自动化部署工具等基于云的虚拟化组件和服务来满足计算和网络资源池化的需求。具体包含了数据传输安全和数据存储安全两方面安全需求。■数据传输安全一方面,随着云平台规模的不断扩展,大量基于虚拟机技术的应用部署在云平台中,导致东西向数据流量激增,使得虚机与虚机之间有大量的数据传输交互。为了避免在数据传输时被监听和窃取,需要采用加密技术对传输数据进行安全防护。云平台提供了多种数据加密传输技术,比较常见的有IPSecVPN,该传输方式采用了非对称加密方式,非对称方式规定了密钥需要有一对公钥(PublicKey)对的私钥才能解密,反之亦然。非对称方式的特点是数据传输的可靠性和完整性都得到了保证。同时IPSECVPN还支持数字证书认证,支持传输双方完成身份认证,极大地提升了数据传输的安全性。此外,跟随云原生概念的深入发展,越来越多的应用开始使用容器、微服务进行部署。微服务通过对复杂系统进行拆分,使其变成多个易于开发和维护的小服务单元。每个服务保持自身的开发和部署节奏,从而实现业务的敏捷性。然而,从安全角度看,对于包含敏感数据的容器化业务,如包含个人信息的电子银行应用,需要考虑如何安全地与集群内其他服务进行通信。容器业务之间的通讯往往采用远程过程调用的方式(RPC)进行通讯。容器业务若通过HTTP或者其他不安全的协议进行通信,则会导致传输数据极易被拦截和窃取,因此通常选择基于TLS协议的HTTP,HTTP2协议进行传输。TLS协议的优势是与高层的应用层协议(如HTTP、FTP、Telnet等)无耦合。应用层协议能透明地运行在TLS协议之上,由TLS协议进行创建加密通道需要的协商和认证。应用层协议传送的数据在通过TLS协议时都会被加密,从而保证通信的私密性。无论是IPSECVPN还是TLS技术,除了需要消耗额外的HOSTCPU算力资源之外,还存在管理不统一、部署位置不一致等问题。DPU作为云平台中数据处理的核心点,可以实现针对IPSEC、TLS加密技术的统一管理,并且可以利用DPU提供的硬件加解密引擎做到数据加解密操作的卸载和加速,提升对数据安全防护的能力。■数据存储安全针对数据的存储,云平台不仅需要确保数据的完整性和可用性,还需要确保数据的机密性。机密性是指即使攻击者成功获取了相关数据,但是由于数据被加密具有机密性,攻击者依然无法破解数据。另一方面,对于数据授权的用户需要保证用户对数据的高速访问能力,避免因为加解密导致数据读写性能严重下降。同样的,在数据存储安全方面,DPU具有硬件级别的存储加解密引擎,可以将卸载和加速数据在存储过程中进行加解密操作。DPU不仅可以处理本地数据存储的加解密,也可以通过网络处理引擎直接处理来自远端云盘的加解密操作。因此DPU可以封装本地和远端存储资源为主机侧提供统一存储资源,不仅简化了主机对存储资源的管理,也简化了数据存储安全的配置和管理接口。防火墙在云基础设施中起到了对云内部资产的监控和保护功能。随着分布式网络的发展,存在大量不同的用户,业务流量交互复杂多变。防火墙不仅需要对南北的数据流量监控和保护,也需要对云内部的东西向数据流量进行监控和保护,因此需要控制粒度更加精细的分布式防火墙技术。基于DPU的分布式防火墙部署方式,可以实现灵活且精细的防火墙功能。DPU支持租户定义自身的防火墙过滤规则,并通过编程方式下发给DPU,从而实现灵活的防火墙过滤规则和策略,以及对具有特殊特征的报文进行过滤。DPU中的可编程计算资源可以提高网络报文与防火墙过滤规则的匹配查询和动作处理效率。DPU3v-Switchv-swchDPU2DPU1图8.基于DPU的分布式防火墙基于DPU的防火墙具有以下优势:

能够定义防火墙规则来帮助保护网络上面向Internet的工作负载和内部工作负载;

能够定义防火墙规则来帮助保护同一子网上的VM之间的流量,以及不同子网上的VM之间的流量;

能够定义防火墙规则来帮助保护和隔离租户本地网络与服务提供商的虚拟网络之间的网络流量。综上,借助DPU的编程能力和加解密引擎,可以实现基于信任根的安全启动、分布式防火墙、数据传输安全、数据安全存储等功能。DPU技术是由需求驱动并快速发展起来的新技术形态。近年来,国内外互联网公司在不同应用场景下的尝试和验证,取得了不错的成本收益。例如,国外AWS使用NitroDPU系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,并将服务器上几乎所有资源都提供给服务实例,降低了数据中中国联通DPU网络域场景应用白皮书心总体的运行成本;国内阿里云发布了云基础设施处理器CIPU,实现了网络、存储、虚拟化全硬件卸载。随着DPU技术的不断完善和功能定位的逐步明晰,DPU的生态建设也在积极推进,在行业内取得了很大的进展。在国外,首先NVIDIA推动DOCA软件栈的发展,降低了终端用户对DPU的使用门槛。从CUDA软件生态之于NVIDIAGPU的作用,可以看到DPU软件生态对DPU技术发展的重要性,因此DOCA广泛收到了业界的持续关注。其次,在2022年6月由Linux基金会发布,旨在为基于DPU/IPU等可编程硬件承载的软件开发框架培育一个由社区驱动的开放生态,简化应用程序中的网络、存储和安全API,从而在开发运维、安全运维以及网络运维之间的云和数据中心中实现更具可移植性和高性能的应用程序。国内也在积极推进DPU产业的软件生态建设。例如,2023年6月ODPU作为算网云开源操作系统(CNCOS)项目1.0的子项进行了发布,在DPU管理、计算卸载、存储卸载、网络卸载、安全卸载和RDMA支持等方面提供通用软件开发框架和兼容性接口。与此同时,中国信息通信研究院、中国通信标准化协会等部门和组织也在积极制定相应的标准,从多个维度(例如兼容性规范、硬件编程规范、应用生态接口规范等)来实现DPU的软硬件解耦和互联互通的互操作能力。国内外都在围绕着DPU技术积极推进相关软硬件生态的开发和迭代。国内,无论从行业本身还是来自政策的引导,产业链上下游都在积极推动着DPU的生态建设和标准化进程。不过目前DPU的生态发展还处在早期,软硬件都还面临诸多挑战。例如在硬件层面,服务器中的电源管理、BMC带外管控逻辑与DPU的需求并不完全匹配;在软件层面还没有形成统一的软件栈(包括SDK和运行时环境),也没有完善且定义清晰的API接口实现与云平台软件系统的兼容性对接;在操作系统层面,例如Linux、windows、VMware以及各类国产操作系统也面临适配的需求。长期来看,DPU生态建设是一个不断迭代长期完善的过程。3.网络域云基础设施面临的问题3.1.资源统一管控需求在创新业务应用中,存在裸金属、虚机、容器等不同算力资源的部署需求。但是目前业内对多样性算力需求的管理不统一,比如在SDN主机Overlay方案下,虚机和容器的VTEP点都在虚拟交换vSwitch上,裸金属的VTEP点在TOR交换机上,资源管理存在差异性。为了提升资源利用效率,降低综合成本,简化运维,运营商需要统一资源管控和并池管理。OpenStack控制节点OpenStackStorageAgentOpenStackAgentsVxLANVtep虚拟化hostSDN管控节点vSwitch图9.传统资源管控模式如图9所示,使用传统网卡和智能网卡时,虚拟化(虚机、容器)场景的网络配置只需要配置宿主机上的软件虚拟交换机即可;而在裸金属场景中,裸金属管控平台还需要管理多种SDN交换机,并将管控软件在不同的主机、不同的OS上运行,增加运维复杂度。此外,对于裸金属场景,传统网卡和智能网卡在宿主机操作系统启动前不支持远端云盘挂接,因此不支持无盘启动,每台裸金属服务器需要有本地系统盘;裸金属使用PXE装机时,裸金属的BMCIP、用户名密码等信息需要预先注册;裸金属与外置交换机对接端口及网络需要预先规划。,导致裸金属服务器和虚机服务器在弹性部署时,不能互换,无法做到裸金属、虚机容器并池管理。中国联通DPU网络域场景应用白皮书因此,使用传统网卡和智能网卡时,运营商在网络域NFV场景面临资源管控方面的挑战。当在云资源池中引入DPU后,裸金属用DPU卡做云化裸金属管理面,将存储、计算和网络功能卸载到DPU卡上,实现裸金属和云主机、云存储、云数据库打通,使得裸金属具有虚拟机同样功能,实现裸金属和虚拟机统一管理和一致服务体验。通过DPU卡的部署,可将传统裸金属转变为安全、弹性的云化裸金属,实现裸金属极致性能与虚拟机弹性灵活完美结合。当前在云资源池的网络域场景中,ETSI定义的NFV架构已被广泛采纳。深度吸收云计算领域技术发展成果,通信基础设施已经大范围地利用虚拟化技术及容器技术。上述技术在实现网元的动态扩缩容及灵活迁移部署的同时,也带来了“数据中心税”的困扰。在网络域NFV中的虚层损耗根据服务器网卡规格不同型号也有所不同,目前实际建设中约占10%。随着承载网络向400G技术演进,5G用户对大带宽及低时延的需求也不断升级。以5G核心网为例,UPF网元随着5G网络的建设和推广需要不断扩容,但由于网络域NFV虚拟化层存在性能开销问题,云资源池的算力浪费也越来越严重。具体来说,当前虚拟化的基本原理决定了CPU必须要在vCPU环境与物理CPU环境下来回切换(VM-Exit)。而频繁的切换就会导致虚拟机的性能损耗,这在以频繁IO为特征的用户面网元中尤其明显。为此当前普遍通过SR-IOV技术来降低该损耗。但随着核心网对单节点的带宽要求逐步提升至百GB级时,其性能损耗同样变得难以接受。引入DPU后,通过将Hypervisor和OVS+DPDK卸载到DPU后,主机CPU资源可以更多的提供给上层应用,在主机侧基本无算力损耗。3.3.1.低时延网络传输问题在互联网业务及云计算业务领域,随着AR/VR、超高清视频、在线游戏、自动驾驶、工业自动化、大连接物联网等应用的兴起,数据中心的网络带宽和处中国联通DPU网络域场景应用白皮书理时延面临着更严峻的挑战。在云资源池的网络域中,存在大量专用于处理用户面数据报文转发的工作节点。与互联网业务场景下的云计算不同,数据报文转发工作节点不仅需要对数据报文进行简单的转发处理,还需要处理深度包检测、网络地址转换、电信协议报文的负载均衡等,并且对于报文的时延也有较高的要求,对CPU的性能提出了更高要求。随着网络转发性能的需求从单节点的数十GB逐步演进到数百GB,依赖于节点上的通用处理器来执行这些工作负载变得难以为继,即使使用节点上的全部CPU资源,也难以实现线速转发。以一台采用DPDK技术对网络进行加速的24核服务器为例:单服务器带宽需求为10Gbps时,需要消耗4个核作为网络转发、20核作为业务,计算资源利用率为83%;单服务器带宽需求为25Gbps时,需要消10个核作为网络转发、14核作为业务,计算资源利用率为58%;单服务器带宽需求为100Gbps时,理论上需要所有的CPU核作为网络转发,无法为业务分配资源,如图10所示。vSwitchhataplaneasicNC图10.基于CPU转发的CPU利用率基于HOST转发的CPU利用率随着IO的增大,传统的软件实现的IO加速方案无法适用。如果不引入新的解决方案,则只能靠更多、更强的服务器来满足业务的IO需求,将降低云数据中心的真实计算资源利用率,且会大幅提升数据中心的能耗和运维成本。中国联通DPU网络域场景应用白皮书另外,在边缘计算中,5G边缘计算作为一体式设备部署在靠近终端用户侧的边缘位置,需要提供大带宽、低时延的网络连接能力,AI、图像渲染等计算能力,以及面向行业的安全能力。但是目前通过纯软DPDK进行网络转发时,时延过大,基本在80~100us,无法满足边缘视频直播、视频监控等实时性要求高的应用的需求。因此,亟待引入性能更高、可编程能力更强的新型加速硬件来提升网络域云资源池的转发性能。3.3.2.云资源池网络域的大流表需求在用于网络域的大规模云资源池中,时刻在进行大量的数据的传输。主机在收发数据时,需要进行海量的网络协议处理。根据传统的计算架构,网络协议处理全部由CPU完成,CPU完成网络协议处理所需的开销很大,并且通过软件能支持的流表数量有限。尤其在SDN主机Overlay方案下,流表处理全部在计算节点虚机交换机vSwitch中。当前主流vSwitch的实现架构分为控制面和数据面,如OVS。原生的OVS数据面数据处理性能较差,因此出现了DPDK数据转发面用户态加速的技术方案,OVS-DPDK依赖绑CPU核轮询的方式完成基于流表match-action的转发处理动作。但是随着带宽的提升,需要预留更多的CPU资源才能保证转发性能,无法有效保证网络域业务的网络时延和抖动。以25G网卡为例,虚拟交换机vSwitch需要占用多个CPU物理核,但是软件查表方式的流表处理能力提升有限,在性能影响程度可接受的情况下,一般只能够达到几十万条。但是对于大规模网络域云资源池中部署的IMS网元以及SBC等用户面网元来说,单服务器节点的流表需求通常会出现超过vSwitch处理能力的现象。因此,迫切地需要通过硬件的方式来实现虚拟网络的转发,从而支持更高数量级的流表需求。DPU是一个新型的可编程多核处理器,具有很高的算力,还具有高性能的网络接口,能够高速解析、处理数据,并高效的将数据传到主机CPU,DPU和CPU的最大不同是,CPU比较擅长通用性的计算任务,而DPU内置硬件加速模块,擅长基础层的网络数据处理任务,例如网络协议处理、交换路由计算等,因此网络域云资源池通过引入DPU能够较好的提升业务系统的网络转发性能,降低网络时延和提升流表处理能力。对于大区网络域云资源池,通常有业务应用存在裸金属部署需求,如5G新通信业务中的媒体服务器等,但是传统裸金属存储网络存在安全隐患,裸金属可以直接访问存储网络,恶意代码可直接攻击到存储面。裸金属裸金属服务器在图11中所示裸金属配置框架图中可知,传统标卡的网卡自身不带CPU,不能直接接管远端存储,只能作为通道将远端存储挂接到裸金属的操作系统上。此时,远端云盘的网络配置需要对租户进行暴露。如果租户本身部署在DMZ非可信域,攻击者获取了租户远端云盘到本地映射的网络信息,则会威胁整个资源池存储网络的安全,从而影响DMZ非可信域和可信域的其他租户。引入DPU卡后,可以在卡上实现存储协议终结,存储网络对业务不可见,即使裸金属被攻破后,也可抑制安全威胁不扩散。在云计算场景安全领域中,主流虚拟化技术(KVM、XEN、VMware)中虚拟化漏洞难以避免。一旦虚拟机运行底座的Hypervisor存在漏洞,将危及运行其上的所有虚拟机,甚至影响宿主机的安全。尤其是大规模网络域NFV数据中心,单资源池部署多个分属于不同厂家的业务平台。当个别应用的虚机被恶意程中国联通DPU网络域场景应用白皮书序利用漏洞进行攻击时,可以通过管理面扩散到整个DC内的所有应用,降低整体系统的安全性。常见有如下几种典型安全问题:☆VM逃逸:VM被攻破,可攻击宿主机OS;

恶意程序:可直接攻击管理系统;☆拒绝服务:系统资源被强制占用,所有虚拟机拒绝服务。通过将管理功能卸载到DPU卡,并且实现PCle单向控制,避免当有个别应用的虚机被恶意程序利用漏洞进行攻击时,不能通过管理面扩散到整个DC内的所有应用,提升整体系统的安全性。万物互联时代,云平台已在在电信、政企、金融、交通、能源等各大行业得到广泛部署和应用,助力千行百业数字化转型。在“碳达峰碳中和”战略目标的驱动下,节能降耗、高效部署、精准赋能的绿色云平台,已成为现代化低碳智能数据中心的主流底层基础设施,如何降低功耗成了云平台的重要任务。为此,需要不断探索新型计算技术,通过引入新材料、新架构、新算法提升资源能效,以期在整个网络绿色转型过程中发挥基础设施的重要作用。4.DPU在网络域中的应用方案4.1.虚层卸载的虚机方案>业务场景得益于中国政府对云计算发展和基础设施建设的大力推进,云计算在IT领域发展日趋成熟,配套基础建设逐步完善,为通信设备云化发展奠定了良好的基础。移动互联网技术的发展,促进了信息通信技术与传统产业加速融合,加速了驱动传统产业向数字化转型,使得网络域云化应用场景迅速扩大。当前在国内外主流运营商的核心业务(包括5G核心网、IMS业务、短信中心、5G消息、炫铃、vCDN等)应用都基本实现云化,需要云资源池能够为网络域业务提供虚机资源。典型场景如下:■场景一:大规模数据中心NFV资源池当前5GC、IMS,以及业务平台多以大区方式部署,主要满足核心网业务和创新业务平台/系统(视频彩铃、短信网关、5G消息等)云化部署需求。如图12所示,云平台和上层业务系统逻辑上独立,主要以虚机的形式提供云资源,满足云化系统部署要求。MS云平台大区资源池DC1大区资源池DC2互通网关炫铃数字短信短信网关新彩信56C图12.网络域NFV平台与上层业务部署的逻辑关系主要有以下特点:中国联通DPU网络域场景应用白皮书特点1:网络域云资源池规模大,基本都达到上千节点,且服务于上层多个厂家的应用平台,资源隔离要求和安全要求高;特点2:在数据中心里,时刻都有大量的数据在进行传输,主机在收发数据时,需要处理海量的网络协议报文,目前主要是通用服务器CPU资源用于虚拟网络转发。当多个业务的接口板落在同一节点时,对于转发性能要求高;特点3:网络域云资源池资源利用率提升空间比较大。当前虚拟化Hypervisor和虚拟交换vSwitch占用计算节点10~20%的CPU资源,随着网卡逐步从10G发展到25G甚至100G,资源消耗会越来越多。基础资源管理云化管理平台OMC/VNFM业务NFVOVM图13.5G消息业务功能系统架构不同业务根据其功能不同,在部署环境的要求上也有所不同。如图13中所示的5G消息业务架构:

消息AS:5G消息业务平台,为用户提供5G消息发送和接收功能;

短信模块:主要提供5G消息回落短信、SMSC功能、用户短信回复chatbot消息转发到5GMC;

配置管理模块(DM):用户终端获取业务配置,用户5G消息业务自动开通;

SIP接入:5G消息终端接入模块,为用户终端提供SIP接入功能;

文件服务器:HTTP内容服务器,为用户提供文件上传/下载。其中,消息AS和短信模块部署在可信域,配置管理模块、SIP接入和文件服务器有被公网访问的可能,部署在非可信域。非可信域的网元和可信域的应用共用云平台管理面,安全要求高。中国联通DPU网络域场景应用白皮书场景二:边缘计算场景桌面虚机1VIM接入网关视频直播云游戏5G网络的链接密度和流量密度较4G提升数十倍乃至百倍,时延降低到几毫秒,网络的质量得到大幅的提升。不仅升级了已有的业务,提高了个人数字化体验,也快速催生了新的业务,包括智能移动视频加速、监控视频流分析、AR (增强现实)、密集计算辅助、在企业专网之中的应用、车联网、IoT(物联网)网关服务等。通过在移动网络边缘增加计算、存储、数据处理等能力,来承载不同的行业应用,比如CDN、视频监控、人脸识别等。但是由于边缘应用的特点,对基础设施层带来了新的挑战:特点1:边缘计算通常属于CT和IT融合节点,多存在UPF、MEP等通信类网元,同时边缘平台还可以满足IT类应用(如云桌面、云游戏等)的资源需求,以及提供标准的开放接口与不同合作伙伴的行业应用系统开放对接,因此对于安全性要求较高。特点2:对于云桌面、云游戏等2C类应用,对于网络转发性能要求比较高,并且网络质量会直接影响用户体验。综上,当前包括大规模数据中心和边缘计算场景的网络域云平台和业务系统存在三层解耦难、应用间安全性挑战较高、虚拟化损耗大、网络和存储性能不高等问题。一方面,同一计算节点上的云主机实例与虚拟化软件共享计算资源,存在资源争抢、无法保障稳定的SLA体验的问题;另一方面,KVM等主流虚拟化技术在为客户提供灵活的虚拟机资源的同时,虚拟化技术占用CPU资源,造成性能损失。为提高服务器CPU算力密度,提升系统安全稳定性,硬件加速产品成为优选方案。在满足虚拟机资源需求的前提下,DPU卡将Hypervisor后端卸载,减少主机CPU资源消耗;将管理功能卸载,通过PCle单向控制,避免VM内恶意程序利用漏洞进行攻击,提升整体系统的安全性。将网络、存储、安全服务卸载,通过专用硬件加速技术,实现虚拟化计算节点的网络性能和存储性能增强,比如利用硬件加速引擎将网络I/O及虚拟交换机等网络功能卸载,通过专用硬件来加速网络数据的转发。在SDN场景下,DPU可以配合OVS与SDN控制器对接,提供SDNVTEP功能。DPU卡适用于网络带宽需求大、转发流表表项规模大、稳定性要求高的大规模通信云、边缘云等场景。主机主机VM4virtio-blk/NNMe3制面2图15.虚层卸载的虚机方案利用DPU实现虚层卸载的虚机方案如图15所示,主要包括:1、控制与管理:包含DPU卡及Hypervisor的加载与安全启动、监控等;2、Hypervisor卸载:包含Hypervisor前后端。其中,前端包括极简OS和支持CPU、内存虚拟化的Hypervisor;后端包括存储、网络等虚拟化设备的管理与3、网络卸载和加速:把网络I/O及vSwitch等网络功能卸载,通过专用硬件引擎来加速网络数据的转发;4、存储卸载和加速:将存储I/O包括NVMe、Virtio以及NVMe-oF、iSCSI/RBD等协议卸载,并通过专用硬件引擎加速,直接通过NVMe/Virtio-blk接口提供给服务器访问。网络域云资源池中引入DPU卡后,预期达到以下目标:

资源池的安全性提高:每个DC部署多个厂家的上层业务应用,分别属于不同厂家。通过将管理功能卸载到DPU卡,并且实现PCIe单向控制,避免当个别应用的虚机被恶意程序利用漏洞攻击时会通过管理面扩散到整个DC内的所有应用,提升整体系统的安全性;

网络存储性能提升:DPU卡网络加速引擎可实现单节点数十Mpps网络转发能力,上百Gbps网络吞吐量,时延可降到几十μs;通过存储加速引擎,实现兆级IOPS存储性能;利用DPU卡网络加速引擎,可以为云游戏、内容分发等提供加速渲染能力,大幅降低时延,提升用户体验。

资源利用率提升:目前大区单DC规模上千,通过Hypervisor和OVS+DPDK的卸载,主机CPU资源可以更多将资源提供给上层应用,提高10%左右的资源利用率。由于裸金属资源完全独占,完全没有性能损耗,能够胜任高IO应用、高性能计算等业务,例如海量数据采集和挖掘、高性能数据库、大型在线游戏等。与虚机相比,裸金属体现出了物理机的特性;与物理服务器相比,裸金属又能体现虚拟机的弹性特点。因此在大规模数据中心和边缘计算的网络域业务场景都有裸金属的资源需求。典型场景如下:■大规模数据中心场景出于极致性能的要求,大规模数据中心某些应用需要裸金属资源,比如大区网络域云资源池中部署的5G新通信业务,其系统架构如图16所示:中国联通DPU网络域场景应用白皮书管理层新通话数据同步管理口数据同步彩铃数据同步裸机节点虚拟机节点(软件形态虚层)管理层新通话数据同步管理口数据同步彩铃数据同步裸机节点虚拟机节点(软件形态虚层)运维层新通话上报彩铃接口处理层管理口数据处理新通话数据处理新通话数据处理彩铃数据处理存储层彩铃DB新通话DB统计DB媒体文件存储服务器Dcache缓存新通话AS新通话媒体增强彩铃媒体服务器新通话外部对接新通话媒体服务器图16.5G新通信业务功能系统架构其中,由于5G新通信的媒体服务器要实现视频叠加功能,需要对视频进行处理,对计算能力要求较高,因此采用独占GPU服务器的方式部署。实验室对比测试,如果采用虚拟机方式部署,需要用多个大规格虚机才能跟GPU裸机算力性能持平。另外,由于云化程度不同,也会要求资源池能够同时提供虚机、虚机容器、裸金属容器三种资源供上层网管类、创新业务类APP灵活选择使用。业务虚机VMVMCIMHypervisorN*服务器标卡DPU卡N*服务器标卡DPU卡图17.混合资源共池统管需求边缘计算场景场景中国联通DPU网络域场景应用白皮书在边缘计算中,5G边缘计算部署在靠近终端用户侧的边缘位置,提供大带宽、低时延的网络连接能力,AI、图像渲染等计算能力,以及面向行业的安全能力。对于行业应用来说,特定应用要求边缘云提供裸金属服务,以达到资源独占和性能无损。CDN就是一个比较典型的应用,CDN的主要作用是保障内容访问速度,提供高速、安全、稳定的内容加速服务,通过内容缓存或主动分发至网络边缘,规避网络瓶颈,尤其是热点内容在网络边缘存储,无需通过骨干网及内容接入侧省网进行传送,有效均衡承载网络流量。各CDN厂家由于云原生容器化进度不同,对裸金属容器需求不同,一般来说,视频分发、视频编码类内容处理模块随着业务压力峰谷变化会有资源弹缩要求,更关注敏捷和性能,适合裸金属容器化部署。在上述业务场景中,裸金属服务器存在以下问题:特点1:裸金属服务器灵活性待提升,无法迁移。当有硬件故障时,也不具备重生功能;特点2:裸金属管理面和业务面无隔离,共享同一物理网络,带宽相互影响;特点3:存在安全隐患,从裸金属服务器可以攻破整个基础设施层;特点4:裸金属与虚拟机管理方式存在很大差异,运维管理难度大。>应用方案当网络存在裸金属需求时,可以用DPU卡做云化裸金属管理面,将存储、计算和网络功能卸载到DPU卡上,打通裸金属和云主机、云存储、云数据库,使得裸金属具有虚拟机同样功能,实现裸金属和虚拟机统一管理和一致服务体验。云化裸金属兼具虚拟机的弹性和物理机的性能及功能特征,同时拥有物理机资源隔离优势,此外还支持嵌套虚拟化技术。中国联通DPU网络域场景应用白皮书virtio-blk/NVMevirtio-net3virtio-blk/NVMeNVMe-ofiSCSI/RBD加解密根信任virtiobackend网络控制面制面业务存储2图18.云化裸金属方案云化裸金属方案如图18所示,主要包含以下部分:1、控制与管理:包含DPU卡及Hypervisor的加载与安全启动、监控等;2、网络卸载和加速:把网络I/O及vSwitch等网络功能卸载,通过专用硬件引擎来加速网络数据的转发;等协议卸载,并通过专用硬件引擎加速,直接通过NVMe/Virtio-blk接口提供给服务器访问。通过DPU卡的部署,可将传统裸金属转变为安全、弹性的云化裸金属,实现裸金属极致性能与虚拟机弹性灵活完美结合。部署DPU卡后,可以实现以下

云化裸金属管理:支持弹性发放服务,降低业务部署难度;支持裸金属的迁移和重生,提升业务灵活性。对于汇聚节点和接入节点的专享型边缘MEC来说,节点下沉后,专享型节点成千上万,给运维带来了极大挑战。这种情况下通过DPU卡实现裸金属资源的弹性发放服务,可以降低业务部署难度;通过云化裸金属的迁移和重生功能,可以应对边缘节点硬件的突发故障。

资源灵活调整:支持一键互转,云化裸金属与虚拟化节点按需灵活调整,避免资源浪费。在边缘云,尤其是共享型边缘云中,待部署的业务规划通常滞中国联通DPU网络域场景应用白皮书后于边缘云的建设。在规划初期对于虚机还是裸金属需求并不明确的情况下,通过DPU卡支持一键互转,云化裸金属与虚拟化节点按需灵活调整,可避免资源浪费。

资源池安全性提升:采用DPU卡可以实现存储协议终结,存储网络对业务不可见,即使裸金属被攻破后安全威胁不扩散。

组网统一,简化运维:DPU卡应用于虚机与裸金属共存场景,可提供SDNVTEP功能,实现裸金属服务器与虚拟化服务器统一组网,简化网络规划和运维。4.3.DPU的扩展应用方案在传统的以CPU为中心的云平台架构中,管理系统主要由CPU完成相关处理,控制节点往往独占多台服务器,所产生的开销很大。而在边缘计算接入节点,经常会有小型化部署需求,由于机房等条件限制,通常整个硬件控制在一个机柜范围内。DPU卡应用于边缘云场景下,可在规模较小,资源受限的情况下,将云平台管理节点卸载到计算节点内置的DPU卡,减少三台管理服务器。同时管理面下沉到DPU卡,由硬件提供管理功能,可实现超融合管理。传统方案DPU控制节点下沉方案虚拟机裸金属图19.控制节点部署方案云平台管理节点卸载在DPU卡上,实现管理节点与计算节点共服务器部署,节省服务器物理资源。同时,云平台管理节点集群部署,确保高可靠性。中国联通DPU网络域场景应用白皮书图20.基于控制节点下沉的超融合集群方案DPU出现后,将云平台控制节点从主机CPU上卸载到DPU上运行。云平台管理模块本身对CPU的计算性能要求不高,DPU上的CPU核的计算性能足以满足该部分需求。此外,管理组件卸载之后能够将全部主机CPU资源提供给上层业务使用,同时也减小了管理软件对上层业务应用程序的干扰,降低了在极限场景下应用的性能抖动,从而提升整体数据中心算力密度和安全性。在5G边缘计算场景下,通常需要部署多台NFV服务器,以提供用户面网元UPF功能及边缘计算功能;在面向垂直行业网络连接场景下,也需要在客户的接入位置部署SD-WAN设备以提供多分支机构组网及入云网络。在部分用户的部署环境中,存在空间受限、功率受限的问题,需要进一步集成整合网络数据转发及计算处理的能力。随着DPU性能及可编程处理能力的逐步增强,通过单一盒式设备解决网络接入及业务处理将成为可能。在5G边缘计算场景中,DPU可以通过集成更强性能的SoC直接卸载UPF网元的全部功能,使其不依赖于宿主机独立工作,以低成本的方式构筑边缘5G网络及行业组网,实现园区内5G边缘计算业务的流量卸载及SLA保障。传统方案主机1:OMC容器主机2:UPF盒式设备主机3:MEC在企业上云及分支机构互联场景中,DPU还可以直接承载SD-WANCPE应用,支撑大带宽低时延业务数据的隧道传输和加解密,并透明地选择和聚合多个转发链路,提供高性能行业网络能力。此外,通过将DPU及其外围硬件直接封装在盒式设备中,还可提供面向垂直行业客户开封即用的敏捷部署能力,提升部署效率。在电信行业的城域网络中,部署边缘CDN、分布式NAS及其他边缘计算业务逐渐成为趋势,其业务节点当前通常采用边缘云数据中心的部署模式,网络出口位置较为集中,对出口带宽有较高要求。受制于电信机房机架设计、能耗设计及运维管理机制,部分通过电信机房部署分布式云的方案难以大范围推广。随着DPU的灵活性不断提高,DPU不仅可以处理卸载数据报文流程及加解密等业务,还可以依靠其高性能的处理核心,承担更加复杂的计算、存储功能,并集成在承载网路由转发设备中,使能网内计算。采用高性能、低功耗通用处理器构建的DPU可执行复杂的业务逻辑。DPU支持容器化及虚拟化技术,可灵活调度部署各类业务应用。图22.基于DPU的算力板卡如图22所示,通过将DPU芯片集成在PE设备的业务单板上,并利用算力网络提供的泛在算力调度能力,就能基于传统通信基础设施构建分布式云计算平台,以较低功耗及成本,对外提供网内计算及分布式计算服务,如NAS服务、AI推理服务、CDN服务等。未来,随着技术成熟和产业发展,DPU将在更多应用场景中创新应用以满足差异化的需求,为算网融合的基础设施带来更多可能性。中国联通DPU网络域场景应用白皮书DPU是一种新型计算技术,而网络域NFV体系严谨,DPU在网络域NFV场景中的引入和应用将面临着一系列的挑战,需要从架构演进、标准推进、生态构建等多方面展开研究。推动NFV体系演进网络域云资源池引入DPU可将数据转发及存储访问等IO开销卸载到DPU,因此在面向相同的业务规模需求下,能减少对CPU核心数量的需求。以5G核心网资源池为例,直接可减少约10%的服务器部署数量。由于DPU通常采用针对IO优化的流水线设计,其在处理网络报文数据时更加高效,相比采用通用性CPU可在一定程度上降低网络域云资源数据中心的总体能耗。此外,由于服务器数量的减少,数据中心的连接成本、占地面积成本、冷却能耗成本、供电成本及管理成本都会对应地减少,有助于通信网络的节能降耗。目前NFV技术体系采用了通用物理设备提供硬件资源池、软件形态虚拟化层实现虚拟化资源池、虚拟化网元实现业务功能的三层架构方案,但是在实际建设中采用的主要还是硬件资源池和上层软件间解耦的部署方式。DPU支持laaS层的网络、存储、安全和管理卸载,在NFV技术体系中引入DPU,将NFVI中的虚拟化层软件卸载到DPU,硬件基础设施层、虚拟化层、VNF层之间相对更加独立可有助于推动三层解耦的落地实践,并可实现虚拟机、云化裸金属、容器等资源的共存统管。这种基于DPU的虚拟化层卸载是对NFV技术体系的创新,需要NFV技术体系积极接纳新型计算技术,推动技术体系的迭代演进,为后续的标准化工作和试点验证提供总体参考。相较于传统的标准网卡,部署DPU增加了前期的服务器与DPU集成和后期DPU卡BMC的管理等流程,也对网络建设和运维管理在硬件资源池建设和网元部署、升级、割接等环节提出了挑战。因此,还需要考虑配套的网络建设、运维管理等体系的升级演进。构建DPU统一标准由于当前通信网元及网络域平台主要针对标准网卡适配,网元功能及管理功能更多地依赖通用CPU环境进行部署。因此引入DPU将不可避免地带来网元功中国联通DPU网络域场景应用白皮书能及云平台的移植及适配成本,且DPU标准化程度越低,移植难度和适配成本在引入初期,VNF提供方、网络域平台提供方、服务器提供方都需要与多家DPU提供方联调,假设有M家DPU产品,每个DPU产品需要适配N个硬件平台,DPU上运行K家云平台,则整个适配工作量需要达到M×N×K,再考虑到种类繁多的VNF的适配需求,工作量极大。当前DPU处于发展阶段,各DPU厂家技术积累侧重不同,开发的DPU产品各有特色而又不完全统一。因此,在网络域云资源池引入DPU过程中,首先面临的问题是DPU的软硬件标准化及DPU与服务器/资源池/业务应用集成所产生的耦合界面接口标准化,主要有:

服务器与DPU之间的硬件结构和电气接口;

服务器BMC/CPU与DPU之间的上电时序和不同的管理方案带来的硬件互联接口;

DPU通用可编程、网络可编程、专用可编程计算能力API接口;

如存储、安全等典型功能加速能力组件软件接口;

DPU与CPU之间的管理控制接口、虚拟设备接口(虚拟设备驱动)等;

DPU的带外管理接口(包括人机交互接口、DPU与集群系统之间的统管接为推动DPU实际落地进度,提升产业对接效率,减少重复性适配工作,中国联通将与业界共同探索DPU标准化方案,促进产业的良性健康发展。完善DPU软件开发框架CPU与GPU能成为目前数据中心的主力芯片,除了因为其各自的灵活通用和高性能并行计算特点外,还与其软件开发框架的成功密不可分。CPU因生态更灵活开放,软件开发框架没有统一的“实例”,逻辑上可以分为四部分。第一部分是指令集,指令集是CPU能够执行的操作和命令集合,是软件和硬件的桥梁,也是CPU硬件能力向软件开放的“标准化接口”,如X86、ARM、RISC-V等指令集。第二部分是操作系统,操作系统对CPU及其外设资源进行了统一管理,并在一定程度上屏蔽了CPU微架构和服务器板级层面上的差异,为APP软件提供统一的运行环境;第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论