




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
编委会成员:王长江聂丽琴编写组成员:王妍娟赵春华王妍娟葛金磊吴仲阳余学山李书建黄志鹏徐旭马庆杰马庆杰郭江波吴战立王伟锋李俊奎杨海悌郑鹏飞杨海悌郑鹏飞黎世勇程归鹏王云凤李鸿鹏玄凌博黄本涛周豫齐黄本涛王妍娟参编单位:北京金融科技产业联盟秘书处北京国家金融科技认证中心有限公司中国工商银行股份有限公司华为技术有限公司浙江网商银行股份有限公司中国信息通信研究院腾讯云计算(北京)有限责任公司新华三技术有限公司蚂蚁科技集团股份有限公司中科寒武纪科技股份有限公司超聚变数字技术有限公司北京百度网讯科技有限公司人工智能基础设施作为“新基建”的重要组成部分,是数字化走向智能化的核心力量,是金融机构智慧再造的关键载体。近对人工智能算力建设指出方向。2021年底,中国人民银行发布发展新机遇,以人为本全面推进智能技术在金融领域深化应用,着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化。人工智能算力数据中心是以数据中心为基础的人工智能基础设施。具体来说,人工智能数据中心是在超算中心和云计算数据中心大规模并行计算和数据处理的技术架构基础之上,通过大数据和深度学习技术保障其高效、安全运营,以人工智能专用芯片为计算算力底座,融合公共算力服务、数据开放共享、智能生态建设、产业创新聚集“四位一体”的综合平台,可提供算力、数据和算法等人工智能全栈能力,是当前人工智能快速发展和应用所依托的新型算力基础设施。“数据、算法、算力是人工智能基础设施的核心内容,其中算力包括AI芯片、AI平台、智能计算中心等产品,提供高性能、低成本、绿色的计算能力是算力建设的关键目标。本报告阐述了国内外人工智能算力建设情况,梳理了当前金V中心算力与边缘算力、算力与网络等关键技术的协同建设问题,探索了人工智能算力数据中心绿色低碳运维模式,最后通过成功案例展望未来,以期为金融机构数据中心建设人工智能算力基础设施提供指引与参考。VI 1 1 1(二)金融科技发展的基础支撑 4 4 9 10 10 10 10 10 11 11 11 12 12 13 14 14(一)总体架构 14(二)分层布局 15 20 20 20 21 22 22VII 22 23(三)使能软件 23 30 30 30 30 32 37 39(一)广域算力网络架构 40 43(三)数据中心算力网络关键技术 44 46(五)算力网络数字化能力 47 49 49(一)人员组织 49 50 50 53 53(一)工商银行基于高性能网络的中高算力集群探索 53 54 56 57 57 58 601人工智能基础设施是“新基建”的重要组成部分,是数字化人工智能基础设施是“新基建”的重要组成部分,是数字化据、算法、算力、开放平台”是人工智能基础设施的核心内容,性能、低成本、绿色的计算能力是算力建设的关键目标。相关部委发布的人工智能及算力相关政策。第一章发展背景和研究目标一、发展背景(一)国家政策及“十四五”规划要求月工业和信息化部印发《促进新一代人工智能产业发展三智能在推动战略性新兴产业总体突破、推进供给侧结构2国务院总理李克强在十三届全国人大一次会议作政府工作报告时表示,要加强新一代人工智能研发应用,在医同实体经济深度融合,做大做强数字经济。”月中央政治局会议,强调要加快推进信息网络等新型基础中共中央政治局常务委员会召开会议再次强调“新基月科技部印发《国家新一代人工智能创新发展试验区建设月3国务院发布《中华人民共和国国民经济和社会发展第十工智能作为重要的科技攻关领域,重点投入前沿基础理源局联合印发《全国一体化大数据中心协同创新体系算在金融行业,银保监会于2019年发布《关于推动银行业和保险业高质量发展的指导意见》,提出既要充分利用人工智能强击非法集资、反洗钱、反欺诈等方面的积极作用。在相关宏观政策的指导下,各地结合自身区域特点和行业发展状况因地制宜出台相关政策推动智能金融的特色化发展,相关行业标准规范逐步规范》(JR/T0221—2021),规定了人工智能算法在金融领域应用的基本要求、评价方法、判定准则。金融行业以智能化为目标,提升金融数字化水平,通过业务流程自动化降低人力成本,4通过解决信息不对称问题弥合数据信息差,通过个性化的千人千面提供普惠金融服务,从而实现业务的增长、风险成本的降低、运营成本的改善。金融科技发展提出人工智能、大数据分析等场景,响应金融监管政策的要求。2021年12月,中国人民银行印发《金融科技推动金融科技在实体经济的沃土中落地生根。大数据、云计算、人工智能、区块链等技术金融应用成效显著。金融服务覆盖面逐升。”人工智能作为金融机构数字化转型的重要手段,助力金融行业在产品设计、市场营销、风险控制、客户服务以及其他支撑性业务领域和场景中实现整体升级。《金融科技发展规划(2022—2025年)》在“智慧为民”基本原则中,提出“抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,强化科技伦理治理,着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化,切实增强人民群众获得感、安全感和幸福感”,加快金融服务智慧再造,提升数字绿色的服务体系中的智能应用水平。1.国内外算力规模发展52020年全球算力总规模达到429EFlops1,增速达到39%,其中基础算力规模为313EFlops,AI算力规模为107EFlops,超算算力规模(换算为FP32)为9EFlops。预估未来五年全球算力规模将以超过50%的速度增长,到2025年整体规模将达到3300EFlops。全球算力竞争激烈,基础算力方面以中国和美国为第一梯队,其中美国占43%份额,中国占26%份额。智能算力方面,中国智能算力占算力的比重由2016年的3%提升至2020年41%,以人工智能算力数据中心为代表的AI算力基础设施发展迅猛。《2020全球计算力指数评估报告》显示“全球计算力水平top5行业分别是互联网、制造、金融、政府和电信”,金融行业综合排名进入前三。2.金融业务应用系统需求在新一轮科技革命和产业变革的背景下,金融科技蓬勃发展,人工智能、大数据、云计算、物联网等信息技术与金融业务深度算力指数评估报告》显示“金融行业信息化和数字化起步较早,金融行业因对算力的稳定性、可靠性、实时性、安全性等方面要数据,全球AI算力支出的24.9%来自金融行业,金融行业数字化转型过程的关键部分,被广泛用于反欺诈、风险6管控、合规管理、运营流程、自动化客服、智能CRM和量化交易等领域,辅助金融企业降低成本、提升效率和提高客户体验”。人工智能应用对算力最大的挑战来自数据中心的模型训练。具有海量参数的模型训练几乎完全依赖于核心数据中心的算力支撑。比如2020年微软发布的智能感知计算模型Turing-NLG,到1750亿,是GPT-2的100余倍。由于其庞大的参数体量,在给人工智能应用提供便利的同时,对AI算力提出了更高的要求。尤其是在金融行业数字化转型的浪潮中,人工智能的算法越来越依赖于算力的发展。3.国内金融业AI典型业务场景人工智能与金融行业深度融合,金融行业数字化、智革已经初见成效,金融人工智能整体呈现业务智能价值创造,全面覆盖产品设计、市场营销、风险控制、客户服务等主流业务场景。从技术价值来看,人工智能技术正逐步解决行业痛点问题,在实现业务流程自动化、弥合信息差、构建普惠金融方面发挥着器学习、机器视觉、生物特征识别、知识图谱等技术赋能的金融行业,衍生出智慧网点、量化交易、智能投顾、智典型场景。表2列举了AI算力金融行业应用的十大典型业务场7场景:模拟人工完成图像识别、关键信息提取、数据录量化交易有很多种,包括跨平台搬砖、趋势交易、对冲8技术:智能投研依赖知识图谱和深度学习技术的进一步场景:通过一系列智能算法综合评估用户的风投资目标、财务状况等基本信息,并结合现代投资组合理论为用户提供自动化、个性化的理财方案。其实质是知识图谱和自然语言处理等技术建立客户画像,实现精技术:依托机器学习和知识图谱等技术,通过数据驱动9二、研究目标本课题的研究目标分为两方面。一是基于当前金融机构积极探索和建设新型人工智能业务系统及人工智能算力数据中心的情况,广泛吸取金融行业目前较中心建设人工智能算力基础设施提供指引与参考。二是在完成研究报告的基础上,进一步编制相关标准,以规范金融数据中心人工智能算力基础设施建设。第二章面临的挑战和难点一、整体看(一)数据中心AI算力发展不均衡在当今金融业庞大的数据处理量面前,数据中心规模总量和能耗总量不断增长,而且AI算力业务天然存在波动,存在部分能耗闲置现象。数据中心特别是西部地区一些数据中心算力资源未能充分利用的问题也常被业内专家提及。我国东部算力资源紧张与西部算力需求不足的问题并存,区域数字基础设施和应用空间布局亟待优化。数字化时代的今天,“东数西算”备受瞩目,他与“南水北调、西电东送、西气东输”一样,成为国家级的超伴随数据的激增和算法的日益复杂,算力将成为决定人工智能发展上限的重要因素。人工智能算力数据中心能耗总量较大,且保持不断增长。以人工智能专用芯片为计算算力电力的潜能已经全被释放,算力的潜能随着数据的产生和数字化能应用的多元化需求。在全产业数字化转型的大形势下,新兴技术应用成为算力提服务器成本居高不下,尤其AI算力服务器。如果建成人工智能制度和行业优势。如何实现人工智能算力数据中心间部署、算力对接等都是本课题研究的重点。在国家碳达峰、碳中和的目标下,实现在不同数据中心间算力协同调度、削峰填谷、精细化能耗控制的要求。算力的灵活调度尤为重要。数据每丢失千分之一,吞吐量就会下降50%,浪费方面,通过自动混合并行、全局内存管理、工智能算力数据中心的调度协同水平。二、分层看2(一)数据中心选址问题(L0层)新建或改扩建的人工智能算力数据中心位置,一方面受地方政府规划局限,另一方面还要考虑当地政府对PUE3等的绿色环保要求。当前人工智能算力数据中心的建设现状主要为政府主导建设和头部企业自行建设。为加快推动数据中心绿色高质量发展,国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等,建议人工智能算力数据中心在国家枢纽节点布局建发展。国家枢纽节点之间进一步打通网络传输通道,提升跨区域人工智能算力数据中心远远高于一般数据中心对于电力能力不足以支撑能耗巨大的AI算力服务器,需要液冷等更高能效的设备,在提升算力的同时降低对电力能耗的需求。对已传统业务设施改扩建过程,为确保金融业务的平稳过渡和无缝衔接,需要经验丰富的公司执行。(三)AI算力底座与周边设备及网络的问题(L2层)元宇宙等新兴应用需要大量数据吞吐和运算能力,GPU(GraphicsProcessingUnit,图形处理单元)随着性能的提升,功耗也在势(AI服务器单台能耗甚至要突破10kW),数据中心面临能耗络资源,把连接和计算整合在一起,从而提升AI克“数据上不来,算力下不去”的难题。(四)支持不同业务场景的AI应用问题(L3层)AI框架及主流框架纷繁多样,金融机构需要时间提升对框计具体场景的AI业务软件系统时,由于开发人员缺少相关标准系统的可靠性、可服务性以及对整体软硬件系统性能影响的考虑,这就加大了AI算力业务落地的成本。第三章建设指引高性能计算能力、存储能力、网络能力。数据中心AI算力的建是数据中心AI算力软硬件技术要求,包括核心AI处理器架构、AI训练产品性能、集群互联系统能力、AI主流软件软件平台和工具的完备性、主流机器学习和深度学习网络支撑能力等。三是AI算力和通用算力协同建设及改造指引,包括以AI算力建设作为主算力的AI计算集群软硬件建设要求,与通用计算集群、网络及存储集群的软硬件协同建设的要求。一、人工智能算力数据中心架构计算是人类能力的延伸,算力的建设与社会的发展需求紧密结合,在不同历史阶段出现了超级计算中心、云计算数据中心、人工智能算力数据中心等不同形态的算力基础设施。人工智能算力数据中心是当前人工智能快速发展和应用所依托的新型算力基础设施。(一)总体架构人工智能算力数据中心借鉴了超级计算中心和云计算数据中心大规模并行计算和数据处理的技术架构,但以人工智能专用芯片为计算算力底座。人工智能算力数据中心由基建基础设施、硬件基础设施、软件基础设施及行业应用等组成。为了能高效、清晰地对人工智能算力数据中心建设展开研究,把人工智能算力数据中心建设划分成5层,总体架构如图1所土建层(L0),包括地基和建筑体。基础设施层(L1),包括IT运行环境、风火水电及运维管硬件基础设施层(L2包括AI芯片及服务器等硬件设备。软件基础设施层(L3包括应用软件、开发框架、软件平行业应用层(L4包括智能识别、智能投顾、智能客服等L0和L1相关度较大,统称为基建基础设施层。人工智能算力数据中心分层布局如图2所示,其中与人工智能算力建设相关的部分包括基建、硬件及软件基础设施3层。金融行业应用智能识别智能投顾智能客服智能营销量化交易软件基础设施行业算法:AI与金融业务融合金融市场:AI与数据要素流动L3人工智能算力数金融行业应用智能识别智能投顾智能客服智能营销量化交易软件基础设施行业算法:AI与金融业务融合金融市场:AI与数据要素流动L3人工智能算力数据中心L3L3存储子系统硬件基础设施网络子系统L2基建基础设施运维管理L1机房土建L0GPUTPUASICFPGAAI计算子系统NPU规划设计智能风控智能风控L4数据管理智能诊断模型开发自动学习数据标注大规模AI模型开发自动学习数据标注大规模AI训练预置算法云边端部署AI系统软件AI开发框架AI开发框架芯片使能资源云化算力调度弹性共享多租户隔离云平台资源云化算力调度弹性共享多租户隔离云平台云边端协同IT运行环境风火水电1.基建基础设施层(L0-L1)基建基础设施层包括人工智能算力数据中心规划设计和为风水火电、IT运行环境及运维管理建设等底层设施。2.硬件基础设施层(L2)硬件基础设施层是人工智能算力数据中心的核心基础,由AI计算子系统、存储子系统、网络互联子系统组成,如图3所示。(1)AI芯片。依据承担的功能,AI芯片可划分为训练和推理芯片。训练芯片涉及海量数据和大规模计算,对算法、精度、处理能力要求非常高,当前仅适合在中心端视觉、视频处理、自然语言处理和搜索推荐等推理应用场景,可部署在中心端、边缘或终端侧。目前GPU、NPU(NeuralnetworkProcessingUnit)、FPGA(FieldProgrammableGateArray)、ASIC(ApplicationSpecificIntergratedCircuits)等是AI芯片行业的主流技术路线。(2)AI计算子系统。AI计算子系统一般由高密度、集成化机柜式设计的集群基础单元组成,每个集群基础单元包括若干AI互联网络传递人工智能网络模型的梯度参数更新等数据。各集群基础单元可支持约40kW的散热功耗,实现低PUE数据中心能源效AI开发框架AI开发框架(3)存储子系统。存储子系统提供高性能、高可靠、高扩展性和易备份的分布式存储。存储子系统部署存储节点,提供对象存储、块存储等存储服务,为人工智能训练平台提供高吞吐,大带宽的样本原始数据。(4)网络互联子系统。网络互联子系统为整个AI硬件基础设施层各子系统间提供互联互通支撑。3.软件基础设施层(L3)软件基础设施层包含基础软件、AI使能4软件、行业算法和AI市场,如图4所示。(1)基础软件(a)芯片使能软件。芯片使能软件构建于AI可少的计算优化功能。各大芯片厂商都推出了针对自身芯片进行芯片使能软件的代表分别是CUDA(ComputeUnifiedDeviceArchitecture,计算统一设备架构)和CANN(Compute(b)AI开发框架。AI开发框架封装卷积运算、激活函数、开发环境。主流AI开发框架包括MindSpore、TensorFlow、PyTorch和PaddlePaddle等。(c)云平台。基础软件中还包括云平台,对计算、存储及(2)使能软件人工智能算力数据中心面向大规模分布式模型训练、全流程人工智能应用支撑,需要对大规模算力资源进行管理和调度。使能软件基于硬件基础设施的组网特点实现对算力资源的任务的智能自动调度、任务管理、数据加载和预处模人工智能计算场景,并能够提供丰富的人工智能场景应用和API服务,使用户能够在该平台上进行一站式人工智能开发和应软件API服务主要包括提供智能语音语言类和计算机视觉服务。智能语音语言类服务主要提供语音识别、语音合成、声纹识别、语音听转写等在线服务,计算机视觉类服务主要提供物体检测、人脸识别、人脸检测、图像识别、光学字符识别等服务。产业侧使能软件包括华为的modelArts、百度的AIstudio、第四范式的sageEE、寒武纪的CAIP算力平台、新华三的傲飞AMPHA、亚马逊的AWSsageMaker等。(3)行业算法和AI市场行业算法通过行业知识的积累,预置各样经验,从而更快、更高效地为行业赋能。AI市场则支持数据和AI模型的有效流动二、基建基础设施层(L0-L1)4.1.2和附录A中选址相关技术要求和使用需求外,还应符合符合国家标准GB50174第5章至第13章及附录A相关技术要求外,还应符合JR/T0265中第7.3章节至7.11章节的(一)AI芯片1.AI芯片架构(1)应采用适合的AI芯片架构,提供高AI算力和能效(2)应支持高速互联技术。(3)应支持高度集成化、模块化和冗余设计。2.AI加速芯片(1)应支持专用的矩阵乘法运算加速单元和向量乘加运算加速单元。(2)应支持片上配备高速缓存,加速数据存取与多核通信。(3)应提供FP32、FP16、TF32浮点运算精度。对于推理FP32不小于64TFLOPS或FP16不小于280TFLOPS,TF32宜不小(4)推理卡应具备INT8定点运算能力,宜不小于250TOPS。(5)应支持内存、算力等资源的切分和良好的隔离。(7)包含专用加解密运算单元,应提供可信的AI运算环境。AI服务器根据形态可分为通用型AI服务器和模组型AI服务器,根据功能又可分为AI训练服务器和AI推理服务器。1.通用型AI服务器通用型AI服务器需要支持承载不同形态的加速卡的算力需求,主要采用CPU+AI加速卡为主体的服务器架构。在自主可控背景的影响下,服务器需要支持AI加速卡,如寒武纪MLU加速中心训练型AI服务器机型一般建议支持8张双宽GPU卡。推理张及以上双宽或单宽GPU卡的4U机型,边缘数据中心可选择支持4张及以上的双宽或单宽GPU卡的2U机型。2.模组型AI服务器模组型AI服务器主要目的是为支持多加速卡间互联,从而获得更高的卡间带宽,提升训练性能。模组型AI服务器主要用于数据中心的AI训练场景。1.可以实现同一服务器的卡间、跨服务器间的高速数据通信能力,并进行横向和纵向扩展。2.有专用的卡间互联高速接口,满足训练和推理过程中卡间大数据量交换传输的需求。3.具备常见的分布式集合通信原语实现,支持主流分布式框4.支持集群通过高速通信协议进行横向和纵向扩展。5.存储子系统应满足高效AI算力子系统的要求。6.网卡配置应满足AI算力子系统对带宽、ROCE5及TCP网络等(一)芯片使能软件1.提供基于C和Python语言的算子开发接口,使用户具有自5ROCE(RDMAoverConvergedEthe定义算子开发的能力,如英伟达CUDA、寒武纪bangC/bangPython、华为CANN等。2.具备容器镜像部署能力,方便开发生产环境的快速部署。3.AI产品可以使用k8s进行算力资源的运维管理,并提供AI产品主要指标的监测能力。工具,加速深度学习模型的开发流程。1.开发框架兼容能力(1)提供AI主流软件适配能力,支持国内外主流深度学习(2)宜支持MindSpore、TensorFlow、PyTorch、PaddlePaddle、Horvod等至少1种深度学习或分布式框架。2.主流机器学习和深度学习支撑能力支持常见的视觉分析、NLP和语音识别功能。视觉分析宜支等神经网络,语音识别宜支持tacotron2、waveRNN、FlySpeech1.数据接入数据接入是人工智能开发平台的基础环节,根据项目需求,平台按照不同方式接入不同类型的数据,并在此基础上开展后续环节。主要功能包括:(1)支持接入不同类型的数据,包括结构化数据(如数据库表)和非结构化数据(如文本、图像、视频及音频等格式)。(2)支持本地数据接入、各类接口协议接入等数据接入方(3)支持接入数据的参数配置。2.数据预处理存在的质量问题(如不一致、无效、缺失、重复等将数据加工为模型开发能够直接使用的形式,并在此基础上开展后续环节。数据转换、数据增强。3.数据标注数据标注是认知数据特征的重要过程,标注质量与模型效果息息相关,平台应提供面向不同类型数据(如文本、图像、视频及音频等)的人工标注及自动标注工具,并提供队标注和智能标注模式。4.数据管理数据管理是人工智能开发平台的支撑环节,平台应支持用户对其权限内的数据进行统一管理,并以数据集的形式服务于后续环节。主要功能包括:(1)支持创建、删除、修改、查看及导出等数据集操作。(2)支持数据集信息展示和查询,如名称、原始数据、标注信息、标签等。(3)提供权限与版本管理、拆分与合并等数据集管理功能。5.数据分析数据分析支持使用统计方法分析数据并提取有效信息,及时功能包括:(1)不同类型的数据预览,如结构化、半结构化、非结构化的数据。(2)数据集分析,如结构化数据的质量分析、特征分析,非结构化数据的特征分析。6.特征工程特征工程是从原始数据或者预处理后的数据中提取、变换为更易解决问题的特征数据的过程,旨在去除数据中杂质和冗余量。特征工程是传统机器学习中尤为重要的一个环节,直接影响到最7.模型开发模型开发为开发者提供一个便捷的开发环境,使用户更加聚焦在模型本身的设计上。本模块中集成AI框架,免去繁琐的安及深度学习预训练模型。(2)针对不同层次用户提供多种建模方式,如交互式编码、8.模型训练模型训练是按照既定的训练规则,通过训练数据集来完成算法实例化的过程。训练过程中,根据业务需求提供不同的训练模式,包括单机训练和分布式训练。平台对用户屏蔽算力设施的底层复杂组网和配置,通过简易的设置即可实现不同的训练模式。平台支持多种训练加速手段。整个训练过程有可视化指标形式呈现。主要功能包括:(1)支持单机、分布式训练。(2)支持GPU、国产化等多种异构计算加速芯片。(3)训练过程中计算、内存等资源使用情况的可视化呈现。(4)训练过程中模型精度等关键指标可视化跟踪。9.模型评估模型评估是通过既定的各类AI任务评估指标,对训练生成模型用于后续环节。模型评估提供可视化的图表形式呈现不同模评估对于分析模型对数据特征的偏好、模型的可解释性等方面也(1)针对待评估模型生成评估报告。(2)常用模型如图像分类、目标检测等的评估指标。(3)模型指标的历史版本评估结果比较。10.模型管理模型管理是针对已有的模型,提供模型的导入导出、查询检于一些资源紧张的部署环境,提供模型压缩功能来降低模型的资源消耗。主要功能包括:(1)导入、查询、修改及删除等与模型文件存储相关的基(2)支持ONNX、TensorFlow、PyTorch等业界主流模型格(3)支持不同模型格式的转化。11.模型部署模型部署是按照一定的编排规则,将模型部署到生产环境中,对外提供智能服务。根据具体业务需求,可将模型部署在云端、边缘侧或终端侧等不同位置。利用云计算平台提供的基础功能,可实现AI模型的平滑升级、灰度测试、根据业务流量弹性伸缩模型实例等功能。主要功能包括:(1)支持容器镜像部署方式。(3)支持部署为批量推理服务。(4)支持模型灰度发布及AB测试。12.模型推理模型推理是对用户调用模型服务接口返回执行结果的过程,是发挥模型价值的环节。平台应分配相应的计算资源,运行模型并输出结果。主要功能包括:(1)宜支持TensorFlow、PyTorch、MindSpore、PaddlePaddle中两种以上框架训练所得模型的高性能推理部署。(3)推理服务的接口信息查询和展示,如版本、实例数、(4)推理服务的使用情况统计,如运行状态、调用量、成13.资源管理AI平台底层对基础设施如计算、存储、网络等资源进行管理(1)支持异构加速资源的调度,如GPU、国产加速卡等。(2)支持多种类型存储资源,如对象存储、块存储、文件(3)支持CPU和GPU资源的虚拟化。存数量等。(5)支持各类资源的使用情况展示、监控和告警。(6)支持各类资源的使用计量计费。第四章建设协同一、整体原则建设金融人工智能算力数据中心是一个演进迭代的过程,一是需考虑原有的金融IT基础设施传统算力与新型算力之间的关系,二是需考虑人工智能算力数据中心建设与边缘计算的协同关安全稳定。金融数据中心业务保持稳定运行是在建设协同中要考虑的首要因素。应采用灰度、增量、平滑迁移等方式,逐步实现金融人工智能算力数据中心建设。施架构的多样性,构建异构兼容生态,实现一体化的调度能力。结合实际场景寻求最佳架构实践,发挥异构作共同支撑业务发展。端边云协同。边缘计算发展驱动算力去中心化,释放云数据智能算力数据中心与边缘计算协同的端边云体系,赋能金融业务应用在边缘场景创新。二、传统算力与新型算力协同(一)算力产品特征1.算力分类(1)推理算力(a)推理加速模块。推理加速模块是一款高性能、低功耗终端上摄像头、无人机和机器人等设备上。(b)AI推理卡。AI推理卡提供多种数据精度,可广泛应用于数据中心和智能边缘。(c)AI推理服务器。AI推理服务器是面向边缘应用的产品,具有超强计算性能、高环境适应性、易于部署维护和支持云边协同等特点,可在边缘场景中广泛部署,通常以传统X86或ARM服务器加配AI算力卡的形式存在。(2)训练算力(a)AI训练卡。AI训练卡为数据中心提供强劲算力,可加快深度学习训练进程。具有高计算密度、大内存、高带宽等优点,适用于通用服务器。适应各种视频图像分析场景。主要应用于视频分析、深度学习训练等训练场景中。规模、高性能AI训练业务。2.算力密度算力性能的高低通过算力密度进行衡量。算力密度指单位时算力密度NPU算力形态ASIC算力密度NPU算力形态ASIC3.算力形态常见的AI芯片根据形态分为GPU、NPU、FPGA、ASIC等。算力协同建设的目的是在实现异构算力一体化调度的基础上,实现不同类型算力计算效率的最大化。不同算力协同合作,共同支撑业务发展,其关系如图5所示。1.AI算力设备可直接部署的建议用于推理和训练的芯片和加速卡通常可直接部署在通用服部署,可在传统数据中心直接使用。2.AI算力对数据中心的改造或新建建议目前机房多采用风冷散热方式。在使用AI集群时,所承载AI训练作业的计算复杂度和计算量较大,对应的制冷系统应满足其散热需求,可进一步采用液冷或其他更高效率制冷技术对散热进行改造。液冷场景分为风液混合液冷(简称混合液冷)和全液冷两种场景。混合液冷场景中,计算节点上的CPU、NPU、GPU处理器等大功耗部件通过液冷冷板散热,其余通过机房空调散热。通过无源液冷背门实现液冷散热。一次侧二次侧冷塔/冷机一次管道CDU二次侧管路液冷机柜液冷服务器工质液冷新技术与普通空调管路的区别如表3所示。《数据中心温水冷板式间接液冷设备通用技术要求》(T/CIE 质量要求如杂质容忍度等建议参考相关团体规范,尽量减少排他性。管路中材料与服务器散热材料不兼容会导致金属材料发生电化学腐蚀,非金属材料产生老化腐蚀,长期作用下管路系统的杂质,材料兼容性只影响空调系统务器,不会导致高价值质量管理需要细化到原材艺参数、装制程的端到端过原材料和部件需要和液冷系统进行长期材料兼容性测质液冷系统管路的制作能力和检测能力,尤其是工厂化的不要求工厂化的制程能一般无专业的焊接、表面处理及检测设备要度焊接质量,冲洗质量由工厂稳定则加工质量稳定,可追现场有工程督导进行管路可靠性和洁净度质量验收,可无工厂交付,严重依赖人力保障质量,焊接质量依赖人工技术水平和责任心,冲洗环节依赖现场交付环节一般只关注打压泄露测试,可追各改造流程说明、责任主体等相关信息见表4。1组织一线服务进行工2造组织整机工勘报告评审,给出是否可以进整机工勘是否可评审结论3组织评审,确认承接可改造结论4造标准流按能基改造标准流程确认承接能基本完成机5总集采购组织总集沟通机房改确认承接主体是总集总集确认采购CDU+二次侧管路6总集确认7采购推荐推荐第三方二次侧管路供应商的方案,供应商协助总集采购二总集确认确定采购二次8第三方二次侧管路供应商对机房管路部署进行工勘、设计和报确定采购二次侧管给总集输出工勘、设计和报价9二次侧管工第三方二次侧管路供应商启动二次侧管路给总集输厂验是否在预制加工过程,开展质量督导,发现不合格及时要求供应返工厂完成二次侧管路预制加工后运到现场完成预制完成现场安装在现场安装过程,对现场安装完成质量督导,发现不合格及时要求供应返工返修,三、数据中心算力与边缘算力协同对物联网领域海量数据增长、服务实时响应、数据隐私安全等挑战。金融行业加强金融创新,加快边缘计算布局,推动端边云协云非结构化数据(海量)边非结构化数据(海量)边结构化数据端端打造端边云协同体系(见图8),提供资源、数据、技术等景创新。边缘计算应包含资源协同、数据协同、技术协同能力。协同计算框架示意见图9。场景客户要客识别远程服务客户要客识别远程服务客户直播电商智能广告信贷客户行为检测边缘智能边缘智能云计算大数据云计算大数据物联网物联网边缘计算边缘计算生物识别生物识别人工智能音视频应用管理整体原则,边缘算力将数据预处理结果上传数据中心算力进行AI模型训练和推理的闭环。资源协同。边缘侧对边缘终端设备进行本地管理,数据中心应建设集中管理平台,对边缘节点和终端实现统一管理和调度。边缘资源管理应具备根据业务场景需要进行资源编排调度部署进行数据分析、数据价值挖掘等进一步利用。协同安全。应根据金融业网络系统安全管理规范,结合端边在端侧,采用端侧物联网安全体系满足对终端安全的要求。四、算力与网络协同约化、规模化发展水平显著提高,形成数网协同、数云协同、云边协同、绿色智能的多层次算力设施体系。提出了“东数西算”边边端国家枢纽节点建设布局。实现东数西算和数据流动的关键支撑。如何建设AI算力环境,在数据中心内部,以及广域网互联的多个数据中心之间形成新型的一体化算力网络,为当下及未来金融AI算力提供高体验、高价值的网络服务,成为金融机构网络建设的关键考量因素。(一)广域算力网络架构支边缘、第三方机构、物联终端之间的互联枢纽,主要场景及架构建设示意见图10。数据存储设备认证边缘计数据存储设备认证边缘计算前置设备接入边缘计算服务群组边缘计算服务群组全局数据分析数据可视化业务对接边缘应用部署边缘配置管理设备生命周期管理数据认证隐私保护业务编排用户管理决策指令下发监控运维算法框架数据标注模型训练模型运营算法框架数据标注模型训练模型运营算法构建机器学习平台数据湖大数据分析大数据平台人脸人脸识别边缘引擎虹膜识别边缘引擎生物特征识别平台镜像仓库云计算平台资源隔离轻量AI推理终端管理边缘存储资源隔离轻量AI推理终端管理边缘存储数据处理边缘计算边缘分析处理端侧采集一体机侧端节能传感器采算一体一体机侧端节能传感器采算一体音视频摄像头1.人工智能算力数据中心间互联(1)广域网络建议采用分层架构,核心层负责数据高速转发、接入层提供算力数据中心接入POP6网关。(2)核心层根据业务诉求建议采用全互联拓扑,保证任意数据中心间的数据及算力平台的互访跳数一致性。(3)POP接入点建议采用双设备高可用接入,数据中心通(4)整网建议采用IPv6地址,优选SRv6作为广域路由协(5)数据中心间需具备带宽弹性扩缩能力,根据算力需求的潮汐规律、业务节假日突发等场景,提供弹性带宽调整。(6)数据中心间带宽需考虑链路冗余及带宽冗余,极端情况下,可保障最高业务等级相关算力传输的带宽。(7)广域线路选择需要满足AI算力数据传输的要求,需要线路供应商提前确认高可用性、线路时延、丢包率及MTU等相关参数需求。(8)广域网应具备智能链路负载分担能力,提供基于网络路径服务质量的动态负载均衡,可实现不同AI算力模型下数据流并发的均匀哈希模式。2.分支边缘算力互联(1)广域网针对边缘分支应提供就近接入能力,包括5G等(2)广域网针对分支边缘算力节点应提供到数据中心的冗(3)在边缘节点所在区域基础设施条件满足的情况下,尽量采用扁平化架构,减少数据回传,算力协同的转发跳数。3.第三方算力协同互联(1)广域网针对第三方接入应提供专用的互联接入网关,不建议与机构自有的互联接入网关共同部署,以提供差分服务、(2)第三方互联应定制统一、标准化的对接模型,包括但不限于地址规范、路由规划、转发策略规划、QoS规划、安全防护策略等。(3)第三方接入建议根据地域进行多点POP就近接入能力。(4)第三方接入建议通过单独的VPN在广域网进行数据转发,与企业自有业务数据进行安全隔离。(5)第三方接入边界可部署安全防控设备,对数据安全访问、合规策略、异常行为、恶意攻击进行防护。(6)第三方接入的隐私计算建议采取联邦学习等技术实现(7)第三方算力协同互联实现业务开放、数据开放,典型业务场景包括第三方支付、授信、对账和查询等。4.AI算力物联终端连接(1)AI算力需要针对物联网相关数据进行分析、训练和计算,应提供海量物联终端接入能力,支持广域数据回传。(2)物联网关应支持企业内部所需物联近场通信协议的互(3)应支持IPv6数据回传能力,提供千万级物联终端接入(4)建议金融业建设统一的专用物联网络,可以是物理专用物联网络,也可以通过VPNOverlay提供虚拟化物联专用网络,避免因建设多张网络带来的管理复杂及成本高的问题。(5)支持点对多点互联、任意多点互联和full-mesh全互广域算力网络用于提供远距离算力数据传输,需具备确定性时延、算力感知和优先级调度、流量路径动态调优、网络智能运维等能力,对应的网络关键技术要求如下。1.支持基于SRv6TEPolicy技术和SDN架构的流量路径编排、的快速路径编程能力,实现流量动态调优的目标。2.支持基于SDN、iFIT和Telemetry的智能运维能力(1)网络设备通过iFIT技术实现对业务随流检测统计,通息计算出逐跳或者端到端的时延、丢包等参数。(2)Telemetry上送算力网络所有状态和统计信息。定位和闭环、算力数据流量预测等能力。3.支持基于APN6、网络切片、QoS的算力感知和调度能力(1)网络支持对算力业务标识APN6字段的识别,并基于APN6的SLA需求分配对应的网络服务,实现算力应用、算力数据与算力网络的协同映射。(2)支持网络切片、SRv6切片,实现基于应用的确定带宽供给和差异化调度。4.业务标识协同能力广域网络边界支持数据中心、分支边缘算力节点、第三方机5.广域网加密能力加密等能力,可集成商用密钥、国密和量子密钥,网络加密能力要支持未来3至5年的数据转发能力要求。应考虑加密对传输性能的影响,结合应用层二次加密等因素综合评估广域网加密能力的应用场景。数据中心算力网络传输协议分为基于TCP/IP的以太网传输协议和基于信任和流控制的InfiniBand协议。从数据中心局域网传输协议发展趋势看,以太网关注不同系统之间流畅的信息交换,具有兼容性优势。InfiniBand在传输带宽和延时方面具备明显性能优势,但是其传输距离受限且与以太网络基础设施不兼容,一直以来其应用范围关注于如何实现系统内部不同部件之间的 局域网技术领域的热点。数据中心算力网络关键技术演进如图1140/100Gbps以太网25/100Gbps40/100Gbps以太网25/100Gbps25/100Gbps习往往还需要更多的数据来训练更为复杂的模型,这些复杂的模7RDMA(远程直接数据存取)就是为了解决网络传输中服务器端数据处理型对算力的要求更高,需要整合多节点分布式训练和并行运算来提升训练效率。业界典型的分布式训练框架通过分布式并行训练间分布式训练框架对节点间高带宽、低延时的高速通信有非常高巨大发展将引领数据中心基础设施的变革,如以太网带宽从10Gbps走向400Gbps,未来RoCEv2网络会成为人工智能、大规模分布式训练通信的优选技术。金融业算力数据中心应用依托RoCEv2等高性能网络技术,构建规模化“高速网络”,通过其高带宽、低延时的特性在分布式计算领域、人工智能领域为金融业务赋能。网络是影响AI算力的重要环节之一。云网协同技术可实现数据中心内部网络、骨干网络和数据中心云资源的协同管理运营,随时随地发放并按需部署计算、存储和网络资源,实现算力资源SLA稳定的网络承载确保算力能效。云网协同方案通过对数据中心网络(DCN)算力业务进行区分筛选,并将标识映射到骨干网(DCI),再利用骨干网调优能力,以实现跨数据中心算力业务的无损传输。云网协同方案的关键能力包括以下两部分。2.DCN与DCI网络。实现算力业务的识别及保障需求的相互传递。从现有技术体系能力及网络演进趋势来看,可通过DSCP(1)DSCP标记。DCI边缘设备需支持基于ACL/策略路由识别算力业务,对该业务进行DSCP的remark标识,再根据DSCP入SRv6隧道。该方式需要在DCN和DCI进行静态配置,即依赖人工方式实现DCN和DCI网络能力的协同,有一定复杂度。(2)VXLAN与SRv6转化。DCI边缘设备需支持VXLAN与SRv6路由转换技术,重新生成SRv6VPN和VXLANVPN路由。该方式不依赖人工配置,可自动完成DCN和D接,实现DCN内租户级信息与DCI的VPN级信息的自动传递感(3)APN6协同。DCI边缘设备需支持算力业务APN6的识别求动态调整最优的路径进行转发保障。该方式可实现DCN和DCI算力业务的自动衔接,且粒度更细。算力网络的数字化是以数据和模型为基础,融合AI、大数据对传统网络运维方式进行创新和重塑,提升算力网络的自动化和智能化水平。主要功能包括:2.支持对AI应用的感知,实现对数据中心集群算力数据交互,以及AI系统组件路径的可视追踪。3.支持对AI应用的网络SLA监测,感知应用质量。4.支持针对不同类型的AI应用提供差异化的网络SLA保障。5.支持网络故障快速定位溯源、故障根因推导。6.支持基于AI算力因子的网络调优,实现算力网络的智能调度,保障AI算力的高效使用。第五章运维和节能管理一、运维管理为满足数据中心的运营管理需要,应对数据中心的运维提出规范化管理以及精细化运营的要求和目标。数据中心运维管理需对管理范畴进行界定,并对运营管理架构进行定义,从人、事、物及各种场景的管理应对上进行说明,并按数据中心的层级建立分级的运营体系。在IT运营、基础设施运营以及物业安保3个资产管理与业务交付管理等重要板块,运维管理中要定义各板块相关的部门和职责。(一)人员组织数据中心在企业IT信息基础设施中居于基础和核心地位,数据中心建立合理的组织架构形式和清晰明确的职能定位,对于企业达成业务目标,实现高效能、高效率、高安全的数据中心运维,具有巨大的牵引和指导作用。在人员的组织架构设计上,数据中心分可为3大块,每个部分再细分,建设完善的运维系统,如表5所示。数据中心的日常运行管理涵盖值班管理、巡检管理、清洁管理、应急预案及演练管理(EOP)、操作指导书(SOP)、配置程数据中心巡检管理和应急预案及演练(EOP)等内容。运行管理的目的主要包括制定数据中心基础设施运行方案、延长设备使用寿命、安排数据中心巡检计划以及提升人员应急能力等。数据中心的日常维护管理涵盖预防性及预测性维护、应急演练、系统可用性检查、生命周期管理和风险管理等内容。维护管理的目的主要包括降低设备发生重大故障的可能性、及早发现潜在风险、提高数据中心可用性以及延长数据中心的使用寿命等。容量管理、配置管理、数据中心服务门户等功能,支持对数据中心的电力系统、制冷环境、安防环境等进行监控和智能化分析,并为数据中心外部客户提供透明化的服务体验。我国数据中心年用电量已占全社会用电的2%左右,且数据量仍在快速增长。全国在用的大型数据中心平均PUE为1.55,超大型数据中心平均PUE为1.46。为确保实现碳达峰碳中和目标,需要在数据中心建设模式、技术、标准、可再生能源利用等方面进一步挖掘节能减排潜力,处理好发展和节能的国家枢纽节点和数据中心集群建设,扩大绿色能源对数据中心供给,提升数据中心建设的能效标准,推动数据中心绿展。根据《贯彻落实碳达峰碳中和目标要求推动数据中心和5G心运行电能利用效率和可再生能源利用率明显提升,全国新建大节点进一步降到1.25以下,绿色低碳等级达到4A级以上。绿色计算的主要载体是终端设备、计算机、服务器和相关子包括了资源管理、空间利用、二氧化碳、噪声、辐射等。绿色计源和资源的节约,能源和资源的高效利用与循环利用,对人和环境的友好,即低碳与无害。计算可理解为终端设备、计算机、服务器和相关子系统。绿色计算的目的是优化计算资源的设计、建设、使用及回收约的目的。绿色计算的手段主要为计算机软件优化,计算机硬件优化制冷方案优化,空间布局优化及回收与循环利用。当前,发展AI算力能耗管理在评价考核、效果评估等方面还存在一些问题,包括数据中心使用绿电仍面临能耗双控考核、绿色算法衡量标准体系尚未建立、缺少健全的碳排放统计核算体系等。探索数据中心碳排放双控,对数据中心使用绿电部分的额推动全国加快开放绿电跨省市交易。同时建立兼顾性能和能耗的绿色算法度量标准,倡导人工智能领军企业构建能效高、性能优的预训练大模型,并向行业开放,引导企业研发、采购低能耗的开启国家核证自愿减排量签发,并加快建立科技减排的方法库和第六章成功案例和未来展望一、成功案例(一)工商银行基于高性能网络的中高算力集群探索在金融行业数字化转型的趋势下,为满足大规模智能化应用践,对传统金融模式进行数字化重构,致力于AI技术与金融业务场景深度融合及关键IT基础设施技术创新。2021年底,中国工商银行落地基于100GRoCE高性能网络的中高算力GPU服务云并在典型金融业务场景进行实践,如在金融凭证识别场景中,大规模图片数量训练周期由1周压缩为1个工作日,模型训练效率显著提升,进一步赋能AI业务创新。在技术创新方面,一是应用高算力高能效GPU专用服务器技术,创新采用中高密度算力节点,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江西吉安吉水县城控人力资源服务有限公司面向社会招聘1名项目管理专员及3名见习生补充考试参考试题及答案解析
- 焊工国考题库带答案详解(a卷)
- 基于过渡金属基多孔氧化铝催化剂的甲醇蒸汽重整制氢研究
- 忻州市人民医院复杂脊柱畸形多学科协作考核
- 2025黑龙江哈尔滨启航劳务派遣有限公司派遣到哈工大航天学院智能控制与系统研究所招聘备考考试题库附答案解析
- 税务局国考行测题库附答案详解(综合卷)
- 绥化市中医院基因检测在感染病中应用考核
- 辽宁省国考行测题库附答案详解(基础题)
- 哈尔滨市人民医院认知行为治疗专项考核
- 工业品环保检测合同(GF-2000-0101)新规
- 2022年张掖市粮食和物资储备局事业单位人员招聘笔试试题及答案
- 2023年生态环境综合行政执法考试备考题库(含答案)
- GB/T 6682-2008分析实验室用水规格和试验方法
- 阿法拉伐中文说明书
- 新人教版三年级下册数学(新插图)搭配问题 教学课件
- 第六章设计心理的宏观分析
- GB/T 26335-2010工业企业信息化集成系统规范
- 海洋课-2、活跃的海岸
- GB/T 1.1-2009标准化工作导则 第1部分:标准的结构和编写
- 预防医学考试题+答案
- 二年级上册数学北师大版课件第5课时 小熊开店
评论
0/150
提交评论