中国联通高通量数据网架构及关键技术白皮书 2023_第1页
中国联通高通量数据网架构及关键技术白皮书 2023_第2页
中国联通高通量数据网架构及关键技术白皮书 2023_第3页
中国联通高通量数据网架构及关键技术白皮书 2023_第4页
中国联通高通量数据网架构及关键技术白皮书 2023_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CUBE-Net新网络新服务新生态高通量数据网架构及关键技术白皮书中国联合网络通信有限公司研究院下一代互联网宽带业务应用国家工程研究中心2023年08月算力网络的愿景,是让用户像使用水电一样实现对算力资源的随取随用。2020年5月,中国科学院计算所启动实施“信息高铁”计划。2022年2月,国家全面启动了“东数西算”工程。2022年5月,鹏城实验室推出中国算力网计划。2023年4月,科技部发起成立国家超算互联网联合体。一系列的产业动作均旨在推动算力资源、业务和数据高效流动,助力算力网络发展。算力网络与水网、电网的不同之处在于,算力网络运输的不是算力资源,而是把数据资源运输到算力资源节点。在算力大发展的背景下,需要运输的数据资源体量也在高速增长,根据IDC预测,到2025年全球数据规模将突破175ZB,如何实现海量数据的高效传输是算力网络需要解决的重要问题,亟待能够最大化提升网络有效传输能力的高通量解决方案。本白皮书从网络承载、智能管控、端侧优化三个方面提出了高通量网络的演进方向,提升网络的承载质量,增强管控层调度能力,优化端侧传输层软件平台,实现算力数据任务式调度、高效率传输,赋能东数西算,助力超智算业务发展。高通量数据网架构及关键技术白皮书中国联合网络通信有限公司研究院,下一代互联网宽带业务应用国家中国联合网络通信有限公司山东省分公司,中国联合网络通信有限公司广东省分公司曹畅,庞冉,刘莹,李建飞,何涛,王南,李壮志,翟锐,郑维通,曾楚轩,杨振东,方遒铿,丁鼎,房秉毅,杜军,易昕昕,高星,佟恬,张帅,杨建军高通量数据网架构及关键技术白皮书1.背景 1.1.算存运三力协同助力数字经济蓬勃发展 1.2.算力时代海量数据迁移新需求 3.高通量数据网架构 3.1.基础设施层 3.1.1.应用终端 3.1.2.承载网 3.1.3.算力中心 3.2.高通量协议层 3.2.1.高通量网络协议 3.2.2.高通量传输协议 3.2.3.高通量应用算法 3.3.高通量管控层 3.3.1.端侧管控 3.3.2.网侧管控 3.3.3.云侧管控 3.4.服务运营层 3.4.1.用户服务订阅 3.4.2.用户操作平台 3.4.3.云网信息资源库 4.1.广域流量调度技术 4.1.1.SRv6网络编程技术 4.1.2.流量识别与引流 4.1.3.广域拥塞感知与控制 4.2.智能管控技术 4.2.1.可用带宽资源实时感知 4.2.2.流量智能调度 4.3.传输协议优化技术 高通量数据网架构及关键技术白皮书4.3.1.基于TCP的传输协议优化 4.3.2.其他传输协议的优化 4.4.1.数据压缩技术概述 4.4.2.压缩算法选择策略 4.5.1.流量按需安全隔离 4.5.2.网络层安全防护 5.高通量数据网应用场景 5.3.科技项目数据汇交 6.总结与展望 7.缩略语列表 8.参考文献 高通量数据网架构及关键技术白皮书1.背景1.1.算存运三力协同助力数字经济蓬勃发展《“十四五”数字经济发展规划》提出到2025年,数字经济迈向全面扩展期,数字经济核心产业增加值占GDP比重达到10%。加快新型基础设施建设,推动数字经济和实体经济融合发展,推进重点领域数字产业发展,是数字经济的重要组成部分。数字经济的飞速发展带来的海量数据需要先进的算力、存力和运力服务来发挥数据的高效价值,进一步助力数字经济发展。根据国家互联网信息办公室《数字中国发展报告(2022年)》统计显示,我国数据资源规模快速增长,2022年数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%,位居世界第二[2];截至2022年底,我国数据存储量达724.5EB,同比增长21.1%,全球占比达14.4%。数字经济带来的海量数据需要先进的数据存力服务、算力服务和运力服务数据"存得好"、算力"算得快"、网络"传得稳",数字基础设施才能充分发挥大数据的要素价值[4][5]。海量数据是互联网世界的“石油”和“金矿”,也是算力时代最具价值的资源,其价值转化需要算力、存力和运力的一体化协同,实现大数据从“可用”走向“实用”。为了满足千行百业数字化转型、数字技术与生活场景加速融合所带来的海量存储和计算需求,国家提出东数西算工程,将数据中心选址在可再生能源丰富、气候适宜、绿色发展潜力大、综合能效优势明显的西部,把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈,最大化实现数据中心产业绿色集约发展,推动资源统筹利用和西部数字经济建设发展。“东数西存”、“东数西渲”、“东数西算”通过优化数据中心布局,实现东西部存力、算力等资源供需关系的合理匹配,支撑千行百业的高质量发展。高通量数据网架构及关键技术白皮书运力上联算力/存力(供给端),下联企业家庭(需求端),需要综合考虑各地的算力、存储等资源,针对不同用户对算力的不同诉求,提供最优的资源服务与网络连接,为所有用户提供严格保障的业务质量。三者协同发展,数字基础设施才能充分发挥大数据的要素价值。算力算力供给侧需求侧政府图1算力、存力、运力协同发展1.2.算力时代海量数据迁移新需求信息和数据的产生、传输和处理成为数字经济时代推动经济增长和创新的重要要素。算力作为数字经济时代核心生产力,已经成为衡量地方数字经济发展程 度的代表性指标。传统的计算能力有限,面临着存储、运算和处理大规模数据的挑战。算力经济充分利用云计算、大数据、人工智能等技术,将计算能力从传统 的个体或机器的局限中释放出来。通过云计算平台和算力资源的共享,实现按需获取和灵活使用计算资源,从而提高效率和降低成本。在算力迁移的过程中,同步伴随着用户侧海量数据的迁移需求。如何将用户侧海量的大数据以合理的成本、合理的时效传输到存力/算力基础设施成为算力经济发展的新需求。(一)东数西算按照数据处理对实时性的要求,可分为热数据、冷数据以及介于二者之间的温数据。对于工业互联网、自动驾驶、远程医疗、灾害预警等需要被计算节点频繁访问、实时性要求较高的“热数据”,不适合远距离进行“西算”。而对于后台存储、批量备份等对存力要求高,但对网络时延要求不高的“冷数据”以及介于两者之间的"温数据”,则非常适合进行“西存”。那么如何将这些“冷数高通量数据网架构及关键技术白皮书据”或“温数据”以合理的成本、合理的时效传输到西部存储节点是目前急需解决的问题7。图2东数西算冷温数据传输(二)超智算承载随着网络游戏、影视媒体等业务的快速发展,云游戏XR、视频媒体制作等视频渲染需求日益旺盛,需要通过传输网络数据实时传送到远端算力节点进行演算,再将结果返回到用户侧,进行调取使用。此类业务对存力、算力要求高,传输数据量大。此外,随着人工智能的发展,需要将海量的数据资源与各领域的知识模型、机理模型相结合,形成基于人工智能的新应用、新场景,如智能制造、无人驾驶、数字孪生等。为降低算力资源的使用成本,需要将训练数据和训练任务通过网络调度到智算中心进行处理。在超算与智算服务场景下,数据传输通常包括两种需求:1)智算中心之间、超算中心之间、智算中心与超算中心之间的训练数据传输,由于带宽需求大、连接稳定性高,通常采用光网络承载。2)用户到智算中心/超算中心之间的训练数据传输和结果回传,由于突发性强,成本敏感,因此可以适合通过IP网络进行承载。高通量数据网架构及关键技术白皮书超智算互联网络超智算接入网海量数据的迁移可以有效整合数据资源和算力资源,但是同时也对传输网络提出的新的挑战。目前海量大数据迁移主要有两种方式:1)通过快递存储介质线下迁移通过线下快递硬盘等存储介质,是目前解决大数据迁移问题主要途径,也即是目前“卡车比光纤快”的真实解决方案。2017年业界已上线了基于硬盘邮寄的数据快递服务阅,凭借完善的物流体系,硬盘快递的方式可在一定程度上缓解成本和效率的两难问题。但是仍然存在着运输成本高、时效性不足、拷入拷出复杂繁琐等问题,同时因为硬盘等存储介质离线搬运,通过航空、铁路、公路等途径搬运,面临数据损毁、数据泄露等安全风险。2)通过运营商网络线上迁移通过三千兆接入(千兆宽带、5G、WiFi6)及高速骨干网络,中国联通构建了立体泛在的新型ICT基础设施。但是在TB~EB级大数据迁移面前,传统网络技术存在以下问题:问题1:用户通过互联网传输或租用低带宽专线方式,传输成本企业可承担。但是在应对周期性、临时性大规模数据迁移任务时,通常所需时长又无法满足企业需求。同时现有数据传输方案在长距离、大带宽传输场景下,存在传输效率受限等问题。问题2:用户通过租用大带宽(如1G以上)专线,能在一定程度上提升数据传输速率,但对大部分企业而言,数据传输通常为任务制需求,即周期性、临时性的大数据量迁移需求,而非全天候、规律性的,租用大带宽专线成本过高而无法承担。带宽1G带宽10G带宽12天29小时3小时29小时125天12天高通量数据网架构及关键技术白皮书2.高通量数据网基本概念任务突发的特点。但现有的网络在承载该类型业务时,存在网络承载能力、传输协议、现有业务影响等多方面的挑战。解决算力时代的大数据迁移问题,需要基于现有网络进行技术和商业模式创新,全面挖掘网络潜力,全面提升网络资源利用率,全面增强网络传输能力,基于不同用户对传输时间、传输成本的综合考量,提供任务式大数据迁移服务,解决算力时代的瓶颈问题,助力数字经济飞跃发展。本白皮书提出高通量数据网的概念。为了满足对大规模数据进行快速处理和传输的需求,高通量数据网能够同时处理和传输大量的数据,用于科学研究、云计算、大数据处理等领域。通量一词最早出现在物理学中,是指单位时间内通过某个面积的物质或能量的总量。通量的概念可以应用于不同领域,如物理学、工程学、生物学等,主要用于描述能量传递的速度和量度。中国科学院计算所于2022年提出高通量低熵算力网的概念9,高通量计算的性能指标是通量,即保质任务吞吐率,也就是单位时间完成的保质任务数。同理,在数据网络中,可以将数据流量看做是一种特殊的流量,数据流量所通过的面积也即是分配给该数据业务的可用有效带宽,单位时间、单位带宽内完成的数据流量总量受到数据传输实际效率的影响。高通量数据网的核心理念,为通过增大有效带宽,提高单位带宽下的数据传输体量,以增大数据通量。高通量数据网面向算存运高效协同,从网络承载、智能管控、端侧优化三方面提升数据承载效率,有如下主要目标:1.有效带宽最大化:高通量数据网面向东数西存、超算/与下载等典型场景,大部分业务属于时效性要求业务,而不一定是实时性要求业高通量数据网架构及关键技术白皮书务。因此在满足时效性要求的前提下,高通量数据网可以通过充分利用网络带宽潮汐特征,以及网络多路径能力提升网络总吞吐,实现有效带宽最大化。2.传输效率最大化:在网络有效带宽一定的前提下,传输效率越高,单位数据量完成传输的时间越短,为用户提供的传输服务质量越高。高通量数据网通过在网络层最小化网络丢包、在传输层优化TCP/UDP协议、在应用层压缩任务数据量,全面提升端到端传输效率。以端侧传输层优化为例,在几百到几千公里的长距传输情况下,BDP(带宽时延乘积)增大,端侧TCPsocketbuffer可能会成为发送速率的限制因素。如图4所示,在1000km的远距离现网测试场景下,接口可用带宽8Gbps,叠加30%背景业务流,受限于服务器socketbuffer,叠加数据迁移任务时,速率仅能达到3.3Gbps,无法充分发挥网络带宽潜力。图4中国联通现网长距大数据迁移(1000km)带宽利用率测试3.网络丢包最小化:以大数据传输为承载目标的高通量数据网络对时延的要求并不苛刻,但由于TCP传输特性的存在,承载网络侧丢包会造成传输速率的下降。该问题一方面通过端侧传输机制的优化解决,另一方面需要通过承载网络侧传输路径调优、负载均衡等技术实现最小化网络丢包。4.现网影响最小化:运营商网络中承载的业务除了超算、智算、东数西算类型业务以外,还有运营商传统业务。面向新兴业务发展演进的需求,对网络的改造需要一定的影响范围内。同时新型算力业务带宽大的特性很可能对现网业务产生影响。高通量数据网架构及关键技术白皮书仅背景流量叠加数据迁移流量仅背景流量叠加数据迁移流量现网测试验证显示,在背景流基础上叠加大数据迁移任务,大数据流可以获取剩余带宽,背景流对数据迁移流无特殊影响,但背景流自身完成时间明显增大。如图5所示:数据迁移流导致背景流中小流的平均流完成时间增长41%~79%,导致大流的平均流完成时间平均增长14~27倍。如何避免数据迁移任务对背景流量的影响,保证业务公平性是面临的重要挑战。由于数据迁移业务非固定的特点并不完全适合通过刚性管道的方式来保障公平性,因此如何最小化对现网现有业务的影响,需要从技术、网络配置等多维度综合考虑。图5中国联通现网大数据迁移对背景流影响测试高通量数据网架构及关键技术白皮书3.高通量数据网架构高通量数据网通过构建服务运营、高通量管控、高通量协议和基础设施四层架构,提供高通量大数据传输能力,满足算力时代各种应用场景下的数据迁移、同步、协作等需求,实现效率与成本的最佳匹配,其主要的技术框架图6所示。算力中心算力/存力云承载网网图6高通量数据网架构基础设施层提供支撑高通量数据传输所需的端侧、网络侧、云侧等软硬件资源,是运力的物理载体。基础设施层在用户和算力、存力间构建起一张随需互联、弹性敏捷的运力网络,支撑算力/存力的灵活调度,针对不同用户对算力、存力的需求,提供并匹配最佳的资源和服务。通常情况下,高通量数据网中的数据业务流量走向有三种主要形式:端-云数据业务:由云数据中心负责提供存力/算力,末端企业侧作为需求方和使用者,发起从端侧向云侧的数据迁移(如:数据备份、数据导入等),或者发起从云侧向端侧的数据迁移(如:备份恢复、共享下载、数据导出等);端-端数据业务:末端企业侧作为需求方和使用者,向企业内部另一末端企业或合作伙伴侧发起P2P的数据迁移(如:数据拷贝、数据共享等);云-云数据业务:末端企业作为需求方和使用者,发起云与云间的数据迁移(如:本地数据中心向公有云的混合云灾备流量、公有云的跨region算力/存力DCGW/vGW承载网DCGW/vGW应用/终端2应用终端是指发起数据迁移的个人电脑、服务器等硬件设备和与数据迁移相关的软件、工具、容器等软件资源,用于实现企业内部或与外部合作伙伴间的可控、可靠的大数据迁移。数据迁移软件应具备如下功能:高效可控的大文件、海量小文件的传输功能;本地与服务器存储的上传下载、点到点传输、单双向同步传输、断点续传等传输功能;文件校验、加密传输等安全功能,传输层协议优化、压缩算法执行等均在应用终端侧实现。3.1.2.承载网承载网是为大数据迁移提供高效率的灵活连接、高通量的数据传输、高可靠的网络保护、高灵活的弹性伸缩能力的基础网络,为不同用户匹配并提供最佳的运力资源和服务。承载网包含网络中的CPE、PE等。其中CPE是大数据迁移业务的用户入网接入点,用户数据通过此接入点接入数据迁移服务。PE设备对接云算力/存力资源,配合协同控制器的调度,快速实现业务开通及后续调整。算力中心包括超算中心、智算中心、数据中心等,可提供集中式存储、分布式存储等供给形态的存力服务,以及裸金属、虚拟机、容器等供给形态的算力服通过部署DC-GW或vGW可实现承载网与存力/算力服务的有效协同,存力/算力服务调用NaaS服务实现最优运力匹配,运力服务通过云网信息资源库推荐算法匹配最佳的算力、存力资源,算力、存力、运力三者协同,共同发挥大数据的要素价值。高通量数据迁移服务依托网络层基础设施,构建随需互联、高效传输、弹性敏捷的高吞吐运力网络,针对不同用户需求匹配并提供最佳的资源和服务。构建高通量数据迁移服务,需要网络层具备以下能力:(一)增强网络精准感知能力,包括网络资源实时感知、网络状态实时感知等,实现网络带宽资源充分利用;(二)增强流量动态调整能力,包括网络多路径编排、网络动态调优、网络拥塞控制等,实现网络高吞吐。(三)构建基于任务的智能管控调度能力,包括基于不同用户对传输时间、传输成本的综合考量,实现任务按需拆分、任务与资源自适应匹配、任务分发。在构建高品质运力网络层的基础上,还需要在传输协议控制层采取优化措施,以确保数据的可靠和高效传输。高通量数据传输控制协议需要具备以下能力:高通量数据网架构及关键技术白皮书(一)通过多路径并发、精细化控制、高效纠错等技术实现数据传输机制优(二)通过智能管控和跨层协同机制,实现网络拥塞状态实时感知。3.2.3.高通量应用算法降低信息熵,借助应用层网关技术,保证数据归一化和数据兼容性。流量均衡、弹性带宽供给,为用户提供高效、优质的高通量数据传输服务。断点续传等传输功能以及文件校验、加密传输等安全功能。据传输。高通量数据网架构及关键技术白皮书力、可视化管理及应用服务。服务运营层提供面向最终用户的服务订阅和自助操作能力。3.4.1.用户服务订阅使用大数据迁移服务的用户,通过运营商提供的服务平台自助订阅线上服务。用户可以指定目的服务器或者目的云资源地址,实现“当日达”、“次日达”等TB~PB级数据在限定时间的数据搬迁。借助云网信息资源库的融合感知能力,对于初次迁移上云的用户,可以用户为中心推荐最优云池;对于指定目的地址的用户,可借助Al的流量预测能力为用户提供数据搬迁的最佳时长、最佳套餐的选择建议。用户操作平台可以对待传输数据,以及待传输数据的时间计划进行管理配置,查看数据传输进度。3.4.3.云网信息资源库云网信息资源库包含网络带宽、网络负载、链路质量、终端位置等网资源因子,以及云池位置、云成本、负载率等云资源因子。用户在进行服务订阅时,运营商服务层可根据企业分支位置、云池资源找到最匹配的网络路径,也可以根据租户的SLA要求,推荐最优路径或最优套餐,实现一体化服务订购。4.高通量数据网关键技术SRv6技术结合了源路由优势和NativeIPv6简洁易扩展的优点,具备强大的可编程能力和可扩展性,与SDN等技术结合,可很好的满足业务快速开通、路径确定性编排、高通量数据传输的需求。存算力服务的云化趋势,驱动用户从自建自用,转向购买灵活的存算力服务,带来了用户随时随地访问服务的需求。集约化、绿色低碳的要求带来超大规模算力中心建设,以及算力中心之间灵活互联、资源统一管理、统一调度、弹性分配等需求。传统网络采用MPLS技术,其涉及的网络协议繁多,尤其是在跨域网络中,业务开通流程繁琐、周期长、自动化程度低等问题,导致难以匹配业务敏捷开通的诉求。通过SRv6结合SDN技术,可以实现快速灵活的跨域业务开通,简化了跨域业务的部署。网络控制器仅需在PE上分别下发SRv6隧道和业务VPN实例,实现业务的快速配置,业务开通的时间由几天减少到分钟级,实现用户动态、敏捷、按需的业务开通。实现高通量数据传输的关键挑战之一是精准规划流量路径,准确感知网络状态并灵活控制转发路径以避开拥塞,最大程度利用空闲路径,从而提升整网带宽利用率。编程空间,具备强大的可扩展性。通过源路由机制携带指定转发路径和行为,可实现整网流量路径的统一规划,从而建立满足全局视角的的最佳转发路径,最大程度释放网络的价值。图8SRv6三层编程空间在成本可控的前提下增加带宽资源供给,是实现高通量传输的核心问题。充分利用网络闲置资源,理论上可成倍提升数据传输通量。SRv6的分段路由和源路由特质,使其天然具备流量工程能力。利用SRv6Policy多List技术,基于整网网络拓扑结构可编排出不重叠的多条路径。基于SRv6的流量工程能力,引导流量从多路径并发传输,从而实现闲置资源的最大化利用。进行路径规划时,网络控制器可基于业务SLA要求以及网络拓扑结构,以端到端聚合带宽最大化为目标进行多路径编排。数据迁移业务运行时,基于多路径的并行传输可以提升流量传输速率,降低任务完成时间。图9基于SRv6Policy多List的端到端带宽聚合●基于任务的灵活引流依托当前立体泛在的算力基础设施提供高通量数据迁移服务,需要网络根据不同任务的优先级,提供差异化弹性服务。当前阶段,可以通过IP五元组等策略方式进行专属流识别,将任务流量引入指定传输通道,进行优先级、带宽等控制,并完成流量实时监测、计费等功能。随着应用感知APN6等技术的发展,可按照不同的网络带宽、时延等SLA需求对任务式高通量数据迁移业务流量进行标识。通过在端侧携带APN扩展头到网络侧,网络侧自动完成业务拆分识别、引流,实现数据迁移业务与普通业务的差异化任务拆分。●动态网络负载均衡数据迁移业务具备显著的大象流特征,流数少但是单流占用带宽大,按照传统的基于五元组的哈希算法,容易出现路径负载不均问题。通过采用动态网络负载均衡技术,可基于五元组识别出大象流或流组,结合可用资源实时感知技术,分析不同分担路径的实时负载利用情况,进行资源匹配,将高负载路径上的特定大象流调整到低负载路径上,从而避免了传统哈希算法的缺陷,避免路径拥塞导致业务时效性等要求不能满足,或利用率低导致带宽浪费,实现全网各路径带宽资源的充分利用,提供精准负载调节能力。目前网络侧的拥塞状态无法被端侧的传输协议层实时感知,为了保障广域大数据高吞吐传输,需要充分利用网络侧设备的能力,形成新型广域拥塞控制技术,在网络侧直接获取准确的拥塞状态,并根据全局流量信息进行统一速率调控,同时利用反向通告实现Sub-RTT控制回路,从而达到及时、准确拥塞控制的效果。高通量数据网架构及关键技术白皮书图10广域传输拥塞感知与控制在网拥塞控制技术主要实现方式包括网络状态感知和在网流量控制:前者通过利用包括本地队列缓存使用状态和远端RTT变化等信息,使网络设备对拥塞状态进行在网实时感知,作为精细化准确速率控制的基础;后者通过设备感知全局流量状态,并基于此调节反向ACK报文,进行低开销差异化控速,最终实现公平快速收敛。4.2.1.可用带宽资源实时感知现网中的网络流量呈现明显的时空特征,从空间上看,西部与东部、城区与乡镇、热点区域与稀疏区域之间,在网络流量峰值和均值上都存在较大的差异性;从时间上看,网络资源利用率呈现明显的波峰波谷特征。此外,网络中的不确定性突发也会加剧网络负载的时空不均衡。图11本地承载网络潮汐流量特征统计因此,通过网络可用资源感知技术,实时感知网络资源变化并实时调整,通过全网流量均衡消除空间不均衡,通过消峰填谷消除时域不均衡,是提升网络利用率的可行途径。传统集中式的网络感知受限于设备采样上报能力及控制器数据处理能力,感知过程一般耗时5分钟或更长,无法满足任务式传输对网络带宽的实时感知需求。通过实时感知技术,可实时采集网络中各条路径的带宽变化、流量变化趋势、异常事件及可用资源情况,用以支撑网络资源调度。●网络状态智能预测分析智能管控系统支持根据历史带宽数据、分时采样数据等信息,预测未来背景流量峰值和持续时间、潜在拥塞点等信息,计算出最佳流量路径,使所计算出来的路径结果能够应对较长时间范围内的背景流量波动,降低路径优化频率,提升传输的稳定性。智能管控系统支持基于用户需求和算力全局信息的最优路径推荐和最优套餐推荐,通过网络多路径编排、网络动态负载均衡、端网协同高吞吐等技术实现高通量数据传输,满足业务多样化体验要求。1)最优路径控制:以用户接入位置和云池位置为输入,结合不同的时效性要求、网络带宽、可靠性等约束因素,快速找到满足要求的运力资源,为企业客户提供不同SLA等级的服务;2)最优套餐推荐:以用户位置为输入,结合用户对成本、时效性的要求,快速匹配云网信息资源库中的云池位置、云池负载、云池成本等云因子信息,以及网络链路质量、带宽、可靠性等网因子信息,给出符合要求的最佳云池及最佳运力资源套餐推荐。可靠的网络传输协议需要确保数据在传输过程中不丢失、不损坏、不重复并按正确的顺序到达目的地,TCP是当前广泛使用和成熟的可靠传输协议,虽然当前主流操作系统的内核内置TCP协议栈,并且客户端对外可靠通信也依赖TCP,但是TCP的一些缺陷也限制其在大数据传输场景下的使用效果。广域数据传输时,为了应对网络拥塞,TCP协议使用拥塞控制算法对发送速率进行控制,以避免丢包。当前拥塞控制方案的控制点主要在发送端,影响网络传输吞吐的主要挑战如下:1)TCP采用相对保守的拥塞控制机制,在高延迟或丢包较多的网络环境中,传输性能可能会受限;2)默认TCP配置下,一个数据包的丢失或损坏会导致后续多个数据包的等待和重传,影响整个数据流的传输速度和效率;3)拥塞控制回路长,拥塞感知不及时。端侧仅通过ACK携带的信息进行拥塞判断,产生动作距离发生拥塞时至少延迟一个RTT,在广域RTT较长条件下,问题更加严重。4)拥塞感知信息少。ACK携带的有限不准确信息无法完全反映瓶颈链路的拥塞状态和可用带宽,端侧仅能试探性降低发送速率,导致速率震荡,甚至由于过量调节导致欠吞吐。5)端侧拥塞控制动作无差异,端侧局部视角无法感知其他流量状态,无视自身速率,统一速率调整,可能导致不公平、收敛慢。基于以上挑战,业界开展了大量基于TCP的传输协议优化研究,主要聚焦TCP机制的局部调整、参数调整,以及创新的拥塞控制算法。例如通过多路径TCP实现单流多路径数据传输,充分利用网络资源,实现更高速率的数据传输;采用BBR拥塞控制算法,实现数据发送速率控制,即使在轻微丢包的传输链路上也能维持较大的发送窗口,以此提高数据传输的稳定性和效率。通过TCP代理解决终端侧TCP协议栈修改困难问题,通过分段式传输来提升数据穿越广域网的传输效率。除TCP外,UDP等其他传输协议也可用于文件传输服务。UDP作为无状态的传输协议,在传递数据时具有较快的传输速度,但不具备TCP的确认机制、重传机制、拥塞控制等特性,因此存在不可靠、不稳定等问题。业界基于UDP的协议提出了多种优化方案,如RBUDP协议,通过发送端用TCP发送DONE信号表明数据包传送完毕,来实现对所有数据的接收;Tsunami协议,通过周期性地对未收到的数据分组发送NegativeACK,同时通过基于丢包率的拥塞控制机制,保证网络传输性能;UDT协议,设计和实现了功能和效率满足需求的传输协议,同时具备可应用于Internet的拥塞控制算法,保证效率、公平性和稳定性。此外,以iQUIC/gQUIC/hQUIC等为典型代表的新型传输协议,在文件传输场景具备以下独特优势:●快速连接机制:通过减少握手延迟和连接建立时间,实现快速建联,从而提供低延迟和高性能的传输;●多路复用机制:支持在单个连接上同时进行多个数据流的并发传输,提升链路利用率,避免流间干扰,从而提高传输效率和性能;●新的序号和确认机制:支持乱序确认和选择性重传,降低重传报文数量;●纠错机制:使用前向纠错码来纠正一定程度的数据错误,减少错误重传的需求。APPWAN1xQUIC协议可以作为客户端APP与传输优化设备,以及独立传输优化设备之间的通信协议。基于xQUIC协议框架和待传输内容的特点,针对性地进行扩展和增强,以满足不同应用场景对传输性能的需求。数据压缩可以减少网络内数据传输量,尤其在需要穿越广域网络且出口带宽有限的情况下,数据压缩可以显著提升传输速度,缩短传输时间,以实现低传输成本的目标。数据压缩的原理是通过消除或减少数据中的冗余信息来减小数据的表示大小,根据信息恢复完整度可以分为无损压缩和有损压缩两种类型。在文件数据传输场景中通常使用无损压缩,而消费级视频类一般可采用有损压缩。常见的无损压缩算法有:1)字典压缩算法:如LZ77、LZW等,通过构建字典来存储重复的数据片段,并用较短的编码表示这些重复片段,仅传输字典索引来达到压缩数据的目的;2)熵编码算法,例如霍夫曼编码,通过将出现频率高的字符用较短的编码表示,出现频率低的字符用较长的编码表示,从而降低编码后字符串的平均长度,实现数据压缩;3)预测编码算法:例如Delta编码,利用统计模型对数据的下一个字符进行预测,如果预测比较准确,误差就会很小。在同等精度要求的条件下,就可以用比较少的比特进行编码,达到压缩数据的目的;这些压缩机制可以组合使用,例如字典压缩+霍夫曼编码,或者预测编码+霍夫曼编码等;数据压缩可采用开放压缩算法或者私有压缩算法,要求发送和接收端使用相同的算法和参数,算法和参数可以静态指定或者通过控制面协议协商。对于不同的数据传输类型,例如文本,音频和视频,特定的结构化数据可采用不同的策略,也可采用在线学习的方式,根据当前的传输环境和整体的传输要求,动态地选择最适合的压缩算法,以适应不同数据传输类型的需求;在软件定义框架下,压缩算法的定义和编排由管控系统来完成。管控系统根据传输任务的要求和网络环境的实时情况,选择合适的压缩算法,并将其应用于相应的数据传输节点。这种灵活性和自动化的决策过程使得数据传输系统能够根据实际需求和情况进行优化,提升整体数据传输的效率。4.5.数据传输安全保障技术高安全是高通量数据传输的基石。存算力服务面向千行百业,从家庭的云盘存储到企业的核心数据备份,从离线的数据分析渲染到超算中心的密码分析计算,均涉及到敏感机密信息。在保障传输质量的同时,需重点保障对此类敏感数据的安全防护。为了实现数据传输安全,数据传输网络应具备的关键能力如下:不同企业、不同类型的业务数据,例如:气象预测、石油勘探等科研类机密数据,企业财务、设计图纸等企业核心敏感类数据,个人相册备份等个人隐私类数据,都会通过网络进行传输,与网络中的普通办公业务、普通下载、常规文件传输等业务混跑。为了保障此类敏感业务的传输安全,可以通过网络切片技术实现专属资源转发。转发面使用FlexE灵活以太技术实现细粒度带宽资源硬隔离,控制面采用分布式网络切片控制协议标识设备硬件预留资源,实现安全隔离,保障传输全程可信安全。但此类隔离能力成本较高,用户可按需选择。传统安全防御机制有两个特点:一是重在强调对边界的防护,每个边界隔离出独立的区域,防御主要任务就是确保边界牢不可破;其次是基于策略的防护机制,即基于已知特征,在事前通过预置的策略进行流量控制。传统安全防御机制无法彻底抵御基于网络内生安全问题的攻击,因此,构建以缩小设备攻击面,防止攻击横向渗透、提升设备攻击难度、增强设备韧性为基础的网络内生安全已成为整个安全体系建设的重要一环。以强化网络内生安全为目标,防止网络传输数据窃取、终端设备仿冒、路由劫持和DDoS攻击等安全风险,承载网络路由器目前从以下方面加强安全防护:1)通过管道加密、管理协议强认证和加密算法等措施,保护用户数据和认证数据安全,例如IPSEC通道进行认证及加密传输等技术。2)路由器支持路由安全措施,在建立路由协议邻居关系时对身份进行认证,支持HMAC-SHA256高强度认证算法,以及通过keychain动态更改密码链;同时在学习、发布路由时进行校验,确保对等体可信,保障路由路径信息不被篡3)构筑协议秒级防攻击能力,保证网络对短时强DDoS攻击的防护能力。高通量数据网架构及关键技术白皮书5.高通量数据网应用场景5.1.东数西算业务目前东数西算的典型应用场景包括东数西存、东数西渲等,均需要实现海量数据的长距离传输。在东数西存场景下,将东部的数据按照不同的等级存储于西部的数据中心。统计数据分析显示,在社会运行所产生的数据中,冷、温、热数据的占比分别为80%、15%、5%。对冷数据来说,计算不是常态,主要侧重于存储。海量的冷、温数据需要通过运营商网络实现“东数西存”。以企业或机构使用云上数据备份/云灾备为例,企业根据数据使用频率的不同,可以将数据划分为关键数据、低频数据以及归档数据。企业在考虑成本和风险的时候,通常会将关键数据进行异地容灾,以实现可靠的冗余离站存储,而将低频和归档数据备份至云端,在有效控制运营风险的同时降低存储成本。在东数西渲场景下,将东部的渲染需求与西部低价算力进行有效平衡,将离线渲染和闲时算力充分匹配,实现东西部资源的平衡优化。通过运力将东部的视频数据传送到西部进行渲染,再将结果返回到东部,进行调取使用。以电影制作为例,一部90分钟的电影,数据资产总量可达250TB,以前渲染周期长达六个月,而当前通过大规模云渲染算力,实现“万核渲一图”,可以将周期缩短为两周,大大提升影视行业的制作效率。通过离线渲染与闲时算力的充分匹配,实现东部渲染需求与西部低价算力的有效平衡,为影视行业提供有力的数字内容生产支撑。5.2.超智算海量数据传输超算中心面向千行百业提供高性能计算服务和智能信息处理服务。超算中心在天气预报、生命科学研究、地球科学、运算化学、分子模型、天体物理模拟、汽车设计模拟、密码分析等高科技领域大展身手,是数据存力在基础设施建设领域的最佳落地实践。超算中心为不同的计算集群构建了不同的存储集群,而超算进行海量数据处理的前提必然是海量数据的输入。某用户租用超算中心HPC算力,通过100M互联网专线向超算中心导入10TB数据文件,需要12天,难以满足超算对数据的时效性要求,因此当前用户的主流选择是采用硬盘快递方式,从数据拷出到硬盘物流,再到数据导入,前后花费8天时间,可在一定程度上缓解时效性问题。5.3.科技项目数据汇交按照《科学数据管理办法》、《国家科技资源共享服务平台管理办法》等相关要求,科技计划产生的科学数据必须向科学数据中心汇交[10][11]。以气象及地球科学相关领域研究为例,由国家气象科学数据中心提供科学数据汇交服务,通过数字对象标识管理,实现对数据资源的长期保存。大科学与大数据相伴,科学数据量体量庞大。以平方公里阵列射电望远镜(SquareKilometreArray,简称SKA)国际合作大科学工程项目为例,仅仅在SKA1阶段,SKA1低频阵的原始数据输出约157TB/s,中频阵的原始数据输出为2TB/s。每年需要长期存档的数据多达50~300PB[12]。面向SKA海量数据传输需求,中国科学院相关单位也开展了一系列相关研究,进行了洲际间的网络传输测试。5.4.企业数据上云备份与灾备数据是企业最宝贵的财富,是企业生存的基础。一旦丢失,有可能造成灾难性后果。容灾备份作为企业信息化建设的重要环节,可以使企业在服务器故障或数据中心停机的情况下快速恢复数据,在有效控制运营风险的同时降低存储成本。在初次进行关键数据上云灾备时,通过高通量数据迁移服务,可以帮助企业在节省迁移成本的同时,快速有效地完成海量数据的备份归档。用户到云:以电商行业为例,其数据涉及商品信息、订单信息、用户信息、渠道信息等,由于数据量大,可以在云端构建灾备系统,提供应用层、虚拟化层、数据库层、存储层多种复制技术,帮助企业备份和恢复重要数据,保障业务连续性和数据安全性。云到云(混合云):《2022年混合云趋势报告中》指出,有超过70%的受访企业通过混合多云架构来解决业务备份、灾难恢复问题[13]。以高校为例,混合云数据容灾涉及到学生信息、课程信息、教学资源、科研数据等,数据备份上云可以帮助学校备份和恢复重要的教育数据,保障教育教学的连续性和学生信息的安全性。云到云(公有云):云上跨Region容灾与两地三中心容灾服务,满足企业对跨地域容灾场景的诉求,有效预防由于地震、台风、海啸等自然灾害造成的事故。适用于各类企业将新建IT系统和容灾系统同时部署在云上,或已有IT系统部署在云上的情况,为保证可靠性,需要在同一公有云上部署容灾系统的场景。企业按照规模大小,需要备份/灾备的数据量分布在TB~PB级别间,在初次进行关键数据上云备份/灾备时,如何快速有效地(天级)完成海量数据的备份归档是运力需要考虑的重要问题。高通量数据网架构及关键技术白皮书6.总结与展望数字经济飞速发展,带来了数据的爆发式增长。截至2022年底,我国数据存储量达724.5EB,同比增长21.1%,全球占比达14.4%。数据存储、数据备份等业务需要先进的存力服务,海量的非结构化和半结构化数据的处理,需要超算、智算等先进算力服务,末端企业侧作为需求方和使用者,地理位置相对分散需要先进的运力服务打通用户与算力/存力之间的连接并提供可保证的服务质量。算力、存力和运力,三者协同配合,方能最大程度发挥智算价值。先进运力是支撑存力、算力发展的关键因素,数据"存得好"、算力"算得快"、网络"传得稳",数字基础设施才能充分发挥大数据的要素价值。高通量数据网是面向算力时代的运力增强需求,提出的网络承载、智能管控、端侧优化协同演进方向。通过广域流量调度、智能管控、传输协议优化等关键技术,实现网络有效带宽最大化、传输效率最大化、网络丢包最小化、现网影响最小化。面向未来,高通量数据网需要以现有网络为基础,以支撑算网产品化创新为目标,充分挖掘网络潜力,提升网络资源利用率,增强网络传输能力,助力数字经济发展。高通量数据网架构及关键技术白皮书缩略语英文名称中文释义ACKAcknowledgeCharacter确认字符AlArtificialIntelligence人工智能APN6Application-awareIPv6Networking基于IPv6的应用感知网络APPApplication应用程序BBRBottleneckBandwidthandRound-tripTime瓶颈带宽和往返时间BDPBandwidth-DelayProduct带宽时延乘积CPECustomerPremise(s)Equipment客户驻地设备DC-GWDataCent

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论