《金融业AI基础设施发展报告(2024-2025年)》_第1页
《金融业AI基础设施发展报告(2024-2025年)》_第2页
《金融业AI基础设施发展报告(2024-2025年)》_第3页
《金融业AI基础设施发展报告(2024-2025年)》_第4页
《金融业AI基础设施发展报告(2024-2025年)》_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融业AI基础设施发展报告V近年来,人工智能与各行业各领域广泛融合,工信部、网信办等部门陆续出台多项关于算力等信息基础设施的文件,提出优化算力布局、提升智能算力占比、推动绿色低碳发展,鼓励算网协同与普惠性算力服务等。2025年,国务院《关于深入实施“人工智能+”行动的意见》进一步强调构建全国一体化算力网与智算资源协同。这些政策共同形成顶层设计,为金融业AI基础设施建设指明方向。当前,人工智能技术与金融业务深度融合,金融机构已广泛开展AI基础设施建设。为及时总结金融业AI基础设施建设的发展经验和创新思路,推动AI基础设施向高效、绿色、安全、协同的方向发展,特编制此报告,以期为金融机构AI基础设施建设提供前瞻性、可操作性参考。本报告第一部分从政策、行业和技术3方面阐述了金融业AI基础设施的发展背景,分析了国内外AI芯片产业格局与金融业应用情况,提出“助力绿色数据中心建设”与“优化AI算力平台能系统论述绿色环保、存网算协同、云数智融合及安全可靠4个关键方向,并提供了具体技术路径与实施方案。第三部分选取中国工商银行、中国光大银行、中国人保三家机构,展示其在千卡规模AI算力云、GPU资源池化与弹性调度、液冷实验室建设等方面的创新实践。第四部分直面当前存在问题,指出AI芯片选型难、VI异构芯片兼容性不足、传统机房改造挑战等现实困境。第五部分“发展展望”提出应围绕能效提升、供应链稳定与安全可控持续发力,并建议开展量子计算等前沿技术探索,为行业长远发展储备能力。关键词:算力基础设施、绿色环保、存网算协同、云数智融合、安全可靠VII 1 7 9 11 17 21 23 1一、总述作为人工智能三大关键要素之一的算力是其中核心要素,是推动人工智能发展的基石。IDC最新预测结果显示,2025年中国智能2,781.9EFLOPS,2023—2028年中国智能算力规模五年年复合增长率达46.2%。中国人工智能算力基础设施发展呈现出多元化、服务化、场景化、绿色化等特征。如何绿色、便捷、高效地使用智能算力资源,将成为AI基础设施建设的一项重要任务。1.政策背景2024年8月,工信部等十一部门联合印发《关于推动新型信息基础设施协调发展有关事项的通知》。其中算力基础设施作为新型信息基础设施的重要组成部分,被重点提及。文件中具体强调,要优化布局算力基础设施、鼓励网络与算力设施协同发展、推进数据中心等重点设施绿色低碳发展等。国家在优化算力布局、推动算网融合发展、构建绿色低碳算力基础设施等方面进行了充分全面的战略顶层设计,以加速我国构建覆盖广泛、安全可靠、绿色高效的算力基础设施体系。从2018年至今,工信部、发改委、中国科学院等多部门相我国在政策层面对算力基础设施的发展持续加码,如2023年102月发布的《算力基础设施高质量发展行动计划》提出,到2025年,我国智能算力占比达到35%,东西部算力平衡协调发展。密集的政策表明国家层面正在不断加大投入力度,促进算力基础设院《关于深入实+”行动的意提出强化智能算力统筹基础支超大规模智算集群技术突破和类3关事项的通括各类算力基础设施向枢纽节点部署、逐步提升智能算力占类门展的实施意网、量子信息等技术产业化应类4门结合算力基础设施产业现状和应用、促进绿色低碳算力发展、加强安全保障能力建设等六方类院建设数字中国是数字时代推进中华民族伟大复兴具有重要意类部大数据等新型基础设施建设力类5门场景创新成为人工智能技术升类部推动新型数据中心与人工智能类部加快我国人工智能产业与实体类2.行业背景随着AI技术的飞速发展,AI应用已经渗透到金融行业的方方面面。OCR、指纹识别、语音识别等传统识别类AI技术早已和金融业务深度融合。近几年,新兴的生成式AI技术也如雨后春笋般在金融行业落地,广泛应用到营销、风控、运营等多种关键业务中,极大提升了金融行业的服务水平。业界普遍认为,高质量的数据是AI发挥6价值的关键,而先进的数据基础设施则是汇聚高质量数据的先决条件。因此,构建可价值变现、可持续演进、具有业务韧性的金融数据基础设施,是金融行业在AI时代的必然选择,专业存储汇聚海量、高质量的数据,助力AI应用价值释放。在AI大模型掀起的浪潮之下,巨大的算力需求应运而生。因此,支撑算力能力提升的基础设施建设也备受行业关注。2025年,金融应用创新工作步入深水区,依托开源技术展开数字基础设施自主创新为金融行业新型数字基础设施建设提供了重要技术途径。当前,以芯片、一般业务系统和办公软件为代表的核心品类正加速释放,并逐步深入到核心关键业务系统。部分金融机构也实现了核心系统等关键应用从专有机型到通用服务器集群的迁移,部分大型金融机构基于开源技术开展自主研发,基本实现可以支撑自身要求的新型数字基础设施。但是金融领域AI基础设施建设不是简单的替换,在打造金融行业新型数字基础设施的过程中,除了投研及人才不足,还存在技术路线分散、关键技术难度大、技术体系标准缺失和安全基础不牢靠等缺陷。因此需要积极探索新技术、新领域,不断推进金融行业信息化、数字化、智能化的改造。通过制定金融业AI基础设施建设的标准,一方面规范AI芯片厂商的设计标准,满足金融业对AI芯片的便捷性使用和灵活部署的需求;另一方面为广大金融企业提供参考建议,未来的AI基础设施建设既能满足金融企业7的实际应用需求、又能满足绿色环保低碳要求。1.国内外发展现状英伟达是人工智能主力芯片供应商,是GPGPU领域的龙头企每代产品性能始终能够保持稳定的提升和强大的产品竞争力。目前,英伟达的产品矩阵已覆盖数据中心、专业图形图像、消费级游戏和汽车等多业务场景。其中,面向数据中心场景,英伟达先后发布了V100、A100、H100,以及基于最新的Blackwell架构的B200和B300芯片,依托成熟的CUDA软件生态体系,并结合持续迭代升级的NVLink高速互连技术与NVSwitch高性能交换架构,英伟达构筑了坚实的技术壁垒,奠定了其在全球市场的领导地位。公司最新推出的基于B300GPU打造的NVL72智算超级节点,旨在为万亿参数级超大模型训练提供足够的算力支撑,其创新的超节点架构已成为引领智能计算领域的行业标杆。AMD是高性能计算(HighPerformanceComputing,HPC)主力芯片供应商,全球领先的半导体技术提供商,产品覆盖GPU、APU(AcceleratedProcessingUnit)及FPGA等多个领域。AMDEPYC(霄龙)处理器面向云计算、HPC等高性能计算工作场景,凭借多核优势以及优异性能,在服务器领域始终保持着较高的市场份额。同时,AMD也是少数可以和英伟达可以在全球范围内8GPGPU领域展开竞争的企业,AMDInstinct系列加速器结合ROCm生态,可以满足Exascale级(百亿亿次级)工作负载需求,加速大规模HPC和AI训练任务。目前,国内AI加速卡主要采用GPGPU和DSA架构路线,国内主其中,海光、天数智芯等采用的是GPGPU技术架构,而华为昇腾、昆仑芯、寒武纪等则是采用了DSA类芯片架构。GPGPU是通用架构设计,拥有大量的计算核心和并行处理单元,擅长处理大规模的并行计算。其架构相对较为通用,具有较高的可编程性,开发者可以使用通用的编程语言进行编程,方便将现有的通用计算代码迁移到GPGPU平台上。DSA架构则通常是针对特定领域的需求进行定制化设计,其目的是针对特定任务或领域进行高度优化,具有高度的专用性。它可能会采用特定的计算单元、存储结构和数据通路等,以更好地适应目标领域的计算特点。作为国内AI芯片领域的领军企业,华为依托自主研发的昇腾AI处理器及灵衢网络高性能互联架构,率先推出业界领先的384液冷智算超级节点。该节点不仅是国内首个实现商用的智算超节点解决方案,其峰值INT8算力性能更超越国际同类标杆产品(如NVL72),为万亿参数级超大模型的训练任务提供了坚实的算力底座。2.金融业应用情况9目前,各大金融机构主要采用英伟达GPU为主的技术路线,初步完成AI基础设施的建设,为AI服务提供算力保障,赋能各种业务场景,在业务上实现降本增效。随着政策的不断变化和技术的不断迭代更新,目前金融机构已建成的AI基础设施正不断地遇到新的挑战:首先,在政策方面要求优化布局算力基础设施、满足绿色低碳发展要求,因此要求机房需支持高密服务器、液冷服务器的部署策略,降低基础设施的PUE,提升基础设施的能效比和能算比。其次,随着芯片工艺技术的不断更迭,未来基础设施的发展将趋向于高密算力的部署方式。由于已建成的AI基础设施与传统的以CPU为主的基础设施共用一个机房,因此机房将无法满足用于AI大模型训练的高密算力基础设施的高能耗和高散热需求。最后,随着AI芯片技术的不断发展,目前市场上已涌现出不同厂商的AI芯片,未来AI基础设施的部署策略将从以英伟达GPU为主的技术路线向多个AI芯片组合部署的技术路线转移。如何简单、高效地完成各种AI芯片的组合部署,也是AI基础设施建设面临的一大挑战。智算中心是中国经济发展的重要新型基础设施,是提升国际竞争力的关键基础设施,是数字经济高质量发展的重要支撑。德勤在其《2024AI智算产业趋势展望分析报告》中指出“当前中国将采取‘基础设施+生态参与方+应用场景’三位一体的智算中心统筹布局思路,引导技术升级、角色升级和应用场景同步升级”,“各行业数字化转型升级进度逐步加快,全社会数据总量爆发式增长,进而激发超大规模数据资源计算,围绕智算中心建设,将实现AI产业化发展,并推动产业AI化赋能”。算力发展是技术变革的关键推动力量,智能算力水平是数字化应用建设及发展的底层基础。1.助力金融业绿色数据中心建设。在“双碳”目标全面推进与可持续发展迫切需求的双重驱动下,建设绿色数据中心已然成为金融业发展的重要方向。采用高效节能的服务器设备、存储设备和网络设备,降低设备运行过程中的能耗。采用先进的冷却技术和散热方式,确保设备在良好的环境中运行,降低散热成本。同时,优化数据中心的结构,通过存网算协同提升资源利用率,加强智能化管理对数据中心的设备运行状态、能源消耗情况、业务负载等进行实时监测和分析,合理调整资源分配,提高数据中心的运行效率和可靠性。2.优化金融业AI算力平台能力。大力优化金融业人工智能算力平台的综合能力,使其在金融领域发挥出更为强大的作用。通过不断引入先进的技术和理念,对金融业AI算力平台进行全方位升级与改进。从硬件设施的更新换代到软件算法的持续优化,确保平台具备更高效的计算速度、更强大的数据处理能力以及更稳定的运行性能,为风险评估、投资决策、客户画像等关键业务提供坚实的技术支撑。同时,积极探索创新的架构设计和资源分配策略,以提升平台的可扩展性和灵活性,应对金融市场的动态变化和不断涌现的新需求。二、推进AI基础设施建设优化通过高效利用能源、冷却技术优化等方式,提升AI基础设高密AI服务器是指单个节点配置4块及以上AI芯片的服务器,相比于普通AI服务器(单节点配置1~2块AI芯片的服务器高密AI服务器聚合更多的AI芯片,提供更大的AI算力。高密AI服务器分为传统模型高密服务器和大模型高密服务器。传统模型高密AI服务器通常用于OCR、NLP、卫星遥感等模型的训练和推理任务部署,与普通AI服务器相比,在提供相同AI算力的情况下,高密AI服务器使用更少的非AI芯片器件(包括CPU、主板等),减少非AI芯片器件产生的能耗开销,提升AI服务器的能算比。大模型高密AI服务器主要用于大模型的训练和推理任务,与传统模型高密AI服务器相比,大模型高密AI服务器不仅聚合8块及以上支持大算力、拥有大容量和适配高带宽的AI芯片,同时采用AI芯片专用的高速总线模组连接AI芯片,减少大模型任务执行过程中大量数据交换的时延,提升分布式任务执行过程中的算力资源利用率(即MFU:ModelFLOPSUtilization,MFU=模型实际使用的AI芯片算力/AI芯片的规格算力),充分发挥每单位能耗的算力供给,进一步提升能算比。但是,高密AI服务器尤其是大模型高密AI服务器,单节点功耗高达10kW+,为解决散热问题,该类型服务器配置更多的散热设备,因此产生额外的能耗用于服务器散热,导致AI服务器能效比下降。2.液冷服务器/机房随着大模型不断演进、参数规模不断膨胀,模型对高密AI服务器的算力规模不断增加,因此高密AI服务器的能耗还会不断增加。在现有架构下,采用风冷方式解决高密AI服务器的散热问题已趋于极限,随着芯片的制程工艺不断发展带来的AI芯片的功耗增加、单节点支持更多AI芯片数量带来的功耗增加,未来高密AI服务器采用风冷方式进行散热设计将面临巨大挑战。同时,采用风冷散热方式导致高密AI服务器的能效比下降问题,与国家“双碳”政策下工信部、地方政府、运营商、互联网企业设定的碳达峰、碳中和的绿色环保目标不符。若使用液态冷却剂来代替空气,通过循环流动将服务器内部的热量带走,液态冷却剂的导热性能远高于空气,因此可以实现更高效的散热,解决高密AI服务器的散热问题。同时,由于液冷可以更有效地移除热量,因而可以减少冷却系统的能耗,提升高密AI服务器的能耗比。此外,液冷还可以利用水的比热容较大这一特性,实现更稳定的温度控制,提高高密AI服务器的稳定性。液冷散热技术主要有间接式(冷板)液冷、浸没式液冷、喷淋式液冷技术,其技术特点如图1所示。经过调研对比,冷板式液冷技术散热功率密度高,机房空间利用率提升2~5倍;快接头实现自动泄压,双向密封无泄漏,整体安全可靠;实现超低噪音,噪声比普通机房至少低6dB。浸没式液冷也具有长期技术积累,采用新材料,冷却工质无毒无腐蚀,机箱密封不泄漏,实现安全可靠。现阶段冷板式液冷行业成熟度最高,供应链最完善,市场应用最广,可延续当前服务器架构,兼容风冷散热,同时适用于新旧机房,PUE达1.2~1.3。浸没式液冷采用全新架构,更适用于新建机房,PUE相对冷板式液冷更低,可达1.01~1.09,是未来很多数据中心液冷规模化部署应用中,主要推进冷板式液冷、浸没式液冷两大技术方向。具体方案、建议使用应用场景、方案优点、存在问题如表2所示。冷1.电子器件不接2.可兼容现有服2.液冷系统设计需要考虑现冷房PUE相比于冷板2.所有器件均浸液冷结构设计相1.光缆接口浸入介质流体中2.浸入流体时电路或系统的信号完整性、信号耗损等问4.需要配置单独的专用维护设备进行单板清洗、废液处冷1.加强了芯片表面与冷却液之间2.冷却液集中收却液需求量较浸1.光缆接口浸入介质流体中2.浸入流体时电路或系统的信号完整性、信号耗损等问4.需要配置单独的专用维护设备进行单板清洗、废液处6.喷淋过程中冷却液会出现能源供应为智算中心基础设施提供能源和供配电服务,主要涉及大模型训练、小模型训练、推理、训推合一等4种主要业务场景。智算芯片的负载特性和智算模型算法与通算差异很大,其新的动态特性使训练集群内呈现微秒和毫秒级的瞬时功率脉冲、极大功率阶跃幅值、功率波动相似性、类周期性。面对智算中心目前出现的上述挑战,万卡规模容量对本地电网影响,以及智算芯片后续产品更严苛的动态特性,目前行业趋向采取三个阶段的优化方式应对智算训练的挑战,其一为基于通算数据中心设计、产品和方案的智算工程优化过渡阶段方式,其二为智算数据中心打造适配的新设计、产品和方案的小革新阶段方式,其三为智算数据中心打造全新的完全革新阶段方式,但革新方式也需逐步完从解决方案和建设难度上看,保障万卡及以上规模的大模型训练长期安全运行,是能源供应和供配电的最大挑战。基于安全可靠和经济性的全链路创新,是目前业内在研究、试验模拟和优化的重点。智算训练下,能源供应和供配电的方案,从全链路的系统角度看,主要涉及智算服务器和整机柜PSU电源、不间断电源UPS/HVDC/电力模块和电池、油机、配电架构、数据中心园区微网和储能等,以及未来的电压制式提升、能源路由、长时储能、小型核电SMR等。具体到三个阶段的优化方式,简要优劣对比如表3所示。算工程优化过渡阶段千卡为主,等,机柜功级1.能快速满足智算基本建设和训2.工程设计和设1.更考验能源供应和供配电关键设备2.供电异常有可能案卡为主,少等,机柜功1.在能平抑一定的智算训练负载特性冲击下,实现对能源供应和供配电长期可靠2.降低运维故障1.可选设备供应商2.工程设计需要匹3.运维人员需要培全革新阶段万卡为主,少量百万卡等,机柜功1.数据中心微网与本地配电网协同支撑,微网内2.供电容量、性3.支持智算芯片长期演进的可靠智算能源供应和供配电整体解决案存网算协同是指在数据处理和分析过程中,存储、网络和计算资源通过高效协同工作,优化数据处理流程,提升系统的整体性能,包括存储协同、网络协同、计算协同。1.存储协同存储协同是指通过多种技术和策略,将不同存储资源、存储系统或存储设备进行整合和协同工作,以提高数据存储的效率、可靠性和可用性,实现数据的高效共享、管理和调度。存储协同主要包括分布式存储协同、存储虚拟化协同、存储与计算协同。(a)数据冗余与备份:通过在多个节点上存储相同的数据副本,提高数据的可靠性和可用性。(b)负载均衡:根据节点的性能和负载情况,合理分配数据存储任务,避免单点过载。(c)故障转移与恢复:在节点故障时,自动将数据请求转移到其他正常节点,并在故障节点恢复后进行数据同步。(d)数据压缩与去重:通过数据压缩和去重技术,减少存储空间需求,提高存储效率。(a)存储资源池化:将不同存储设备的资源抽象成一个统一的存储池,实现资源的灵活分配和管理。(b)动态资源调度:根据应用需求和存储资源的使用情况,动态调整存储资源的分配。(a)存算一体:将存储和计算功能集成在同一芯片或系统中,减少数据传输延迟,提高系统整体性能。(b)智能缓存与预取:通过智能缓存和数据预取技术,将热点数据缓存在靠近计算节点的位置,提高数据访问速度。2.网络协同网络协同是指通过深度融合AI技术与通信网络,实现计算资源、通信资源和网络资源的高效协同与优化配置,从而提升AI模型的训练和推理效率,同时优化通信网络的性能和服务质量。通过采用智能网络进行调度,确保关键环节获得足够的网络满足日益增长的智能化应用需求。网络协同主要包括智能网络管理、云边协同架构、模型分割与协同推理。(a)智能网络优化:通过机器学习算法实时监测网络状态,自动调整网络配置,优化流量分配。(b)故障预测与自愈:利用AI模型预测网络故障,实现自动化的故障检测和修复,提高网络的可靠性和可用性。(a)边缘端:部署轻量级的AI模型,负责实时数据处理和初步推理,满足低延迟需求。(b)云端:部署完整的AI大模型,处理复杂的全局任务,提供更强大的计算能力和存储资源。(c)协同机制:边缘端将预处理后的数据或请求发送到云端,云端返回处理结果,减少数据传输量和延迟。(3)模型分割与协同推理(a)模型分割:根据设备的计算能力和网络带宽,动态划分神经网络的层次结构,将部分推理任务分配到边缘设备。(b)协同推理:仅传输少量中间结果,减少带宽消耗和传输时延,同时提高系统的整体吞吐量。通过采用云计算、边缘计算等技术为分布式计算提供弹性资20源,以提升计算资源利用效率、加速计算过程。通过采用融合不同类型的计算资源(如CPU、GPGPU、NPU、ASIC等发挥各自的优势,进一步提升计算资源利用效率、加速计算过程。计算协同主要包括端边云计算协同、计算卸载和资源分配、算法与模型协同。(a)端边计算协同:终端设备与边缘服务器协同工作,将部分计算任务从终端设备迁移到边缘服务器,减轻终端设备的计算负载,提高响应速度。(b)云边计算协同:边缘计算与云计算协同,边缘设备处理实时性要求高的任务,云计算处理复杂或大规模计算任务。(c)端边云计算协同:结合终端设备、边缘服务器和云计算中心,实现多层次的计算协同,满足不同场景下的需求。(2)计算卸载和资源分配(a)任务卸载:将计算密集型任务从资源受限的设备卸载到计算能力更强的边缘服务器或云端。(b)资源动态分配:根据任务需求和设备状态,动态分配计算、存储和网络资源,提高资源利用率。(a)模型拆分与部署:将深度学习模型拆分为边缘端和云端两部分,边缘端负责实时推理,云端负责复杂计算。(b)算法更新与同步:云端构建和优化算法模型后,将其21下放到边缘端,确保边缘端执行计算的准确性。云数智融合是一种将云计算、大数据和AI相结合的技术概念,旨在实现数据的高效处理、分析和利用,通过充分发挥云计算的弹性、可扩展性和灵活性,结合大数据的处理、分析能力和人工智能的智能决策、自学习的能力,为企业提供实时、高效、智能的数据服务,包括一云多算、云智融合、云数融合。由于本报告主要涉及人工智能,因此仅针对一云多算、云智融合开展进一步分析。1.一云多算一云多算是指通过云的弹性按需能力,凭借集约化的服务模式和基于高性能“裸金属+容器”算力核心引擎,建设云原生统一算力调度层,打造统一调度、资源池化、异构纳管能力,将通用的基础能力下沉到编排引擎,实现通用、大数据、机器学习、大模型场景等各类异构资源池协同调度。为实现通用计算、大数据计算、人工智能计算提供统一的资源调度服务,首先需要将CPU、AI芯片、存储、网络等各种资源池化后进行统一的资源管理,其次在资源调度时根据不同的调度策略实施资源分配,再次在计算服务结束后对分配的资源统一进行回收。在服务过程中,需要对各种资源进行监控,根据监控结果实施资源的弹性伸缩,以确保充分利用各种计算资源。一云多算架构如图2所示。222.云智融合云智融合是指云计算和AI技术的深度融合,利用云计算的弹性、可伸缩性,结合人工智能的计算能力和智能决策,以提供更加智能、高效、可靠的服务和应用。云智融合可通过采用AI解决智算领域存在云原生场景下AI算力资源使用粗放、算力资源利用率不高等痛点问题。AI算力资源虚拟化是指通过软件或硬件的方式,将物理AI芯片的算力资源划分为多个虚拟的AI算力资源,以供多个虚拟机或容器使用。这种技术提高了AI芯片的资源利用率,降低了硬件成本,并提供了更加灵活和高效的计算环境。其主要实现方式包括AI芯片分区、AI芯片时分复用,其简介和特点参见表4。23将AI芯片的计算资源根据固定的比例划分为多拟机可以分配到一个或余的AI芯片算力资源未被利用。与直接使用AI芯片相比,将AI芯片的计算资源通可以灵活调度使用AI芯片资源,充分挖掘AI芯片的资源。与直接使用AI芯片相比,存在自动弹性伸缩是一种云计算服务特性,可以根据实际需求自动调整AI芯片资源的使用量,以最小的AI芯片资源使用开销,确保应用场景性能和稳定性。其工作原理如下:当应用监控发现应用场景的AI算力资源大幅提升或趋于饱和时,系统会自动拉起更多的容器,提供应用更充足的AI算力资源;当发现应用场景的AI算力资源使用率严重下滑时,系统释放一定数量的容器,回收部分AI算力资源。通过动态调整AI算力资源,一是确保应用始终有足够数量的AI算力资源可用;二是提升算力资源的利用率,赋能更多的应用场景。1.基础设施安全芯片在进行AI计算过程中,若未对数据进行有效的保护,24容易造成数据泄露或数据完整性被破坏,因此对于AI芯片尤为重要。首先,通过采用内存加密技术,防止AI芯片的内存数据因受到物理攻击,导致数据泄露或数据完整性被破坏。其次,在分布式计算过程中,除了硬件层面的加密外,通过采用跨节点数据加密和访问认证机制,防止非授信服务器对数据的非法访问,增加数据安全性。最后,AI芯片可以集成硬件加密加速器,提高加密和解密操作的性能,确保加密处理不显著影响系统运行的整体效率。为降低AI芯片使用门槛,AI芯片厂商都会提供相应的固件和底层硬件库函数,但是固件或库函数可能存在安全风险和漏洞,建议通过引入并及时更新安全扫描软件,对固件或库函数进行安全扫描,防止因固件或第三方库函数的漏洞引入安全问题。同时,需要及时更新已修复漏洞的固件或库函数,防止因更新不及时引入安全问题。在云计算环境中,AI模型训练常常使用共享的AI集群资源。使用虚拟化技术,即使不同租户在共享同一个AI芯片资源,也能保持使用的硬件资源相对独立性,确保硬件资源相互隔离,防止某个租户非法获取或篡改其他租户的数据,解决云用户的数据安全问题。同时,硬件支持的AI芯片虚拟化技术也可将自研各算法库运行在虚拟化环境中,确保各个算法库的运行互不干扰。252.模型安全对于传统模型,防止数据投毒、对抗样本攻击、模型窃取,满足模型可解释需求;对于生成式人工智能模型,满足价值对齐的需要,确保AI以对人类和社会有益的方式行事。当前,AI算法模型内部逻辑复杂,而且模型复杂度越高,越难以实现模型的可解释性,这会导致推理结果难以解释和预测,用户难以对AI技术建立信任,也有可能带来潜在的安全隐患和伦理、偏见等问题。通过敏感性分析、局部近似、样本原型的方法可以提高模型的局部可解释性,即通过分析输入样本的每一维特征对模型最终决策结果的贡献,来判断对于一个样本,哪些部分对决策结果是重要的。也可以通过特征分析、概念分析、规则提取的方法,从整体上解释模型背后的复杂逻辑以及内部的工作机制。此外,通过知识蒸馏的方法,如模型压缩、树的正则化或者降维等方式,可以将一个复杂模型转化为简单的可解释性模型,从而提高复杂模型的可解释性。攻击者加入设计的对抗样本数据,或者无意间怀有偏见的样本数据引入,则会扰动、误导AI模型出错,输出置信度很高的错误推理结果,甚至可能造成模型的运行瘫痪。针对带有扰动设计的对抗样本攻击,采用鲁棒训练方法进行26防御最可靠,即通过在训练数据中引入对抗样本,或在训练过程中加入正则化项等方法对模型进行特殊训练,使模型对于对抗样本的鲁棒性得到较大的提升;采用输入增强方法进行防御最简单、最通用,即通过对输入数据进行检测和过滤,排除潜在的对抗样本,但是检测规则对于对抗样本的识别有效性有较大的影响。此外,还有以下方法可以提升对抗样本攻击的防御能力:对输入数据进行随机化处理;对训练后的模型进行压缩、微调等。攻击者可以通过发送轮询数据并查看对方的响应结果,来推测AI模型的参数、结构、功能等算法核心信息,导致模型机密信息泄露,甚至存在被修改、嵌入后门的风险。目前,检测潜在的攻击并对其拒绝服务,是一种对目标模型影响最小的防御方式。通过构建输入数据的分布、特征、预测结果等不同的样本,并对不同测试数据上的行为差异进行建模,识别攻击者和普通用户的服务请求之间存在的数据差异、行为差异、目标差异,限制潜在攻击者周期性地大量查询请求,防止恶意查询,阻止其通过多次联合查询来窃取数据或隐私信息。AI模型不具备人类的价值判断能力以及政治意识,仅以完成用户任务以及提升效率为导向,因此攻击者可以通过加入存在伦理等社会公德;攻击者也可以通过提示词,诱导LLM大模型泄27露隐私数据,甚至输出对社会产生危害的回答,对社会的安全稳定带来不利影响。事后应急等措施,将生成式风险的社会影响度降到最低。首先,在模型训练的时候,构造正向安全的数据集,并通过强化学习、价值对齐器,确保模型输出与人类价值、真实意图、伦理原则相一致。其次,在模型服务阶段,需要自动审核提示词内容,识别违规提示词,确保输出内容安全合规。最后,在输出内容已经产生社会影响的情况下,及时给出问题解决策略,降低事件对企业声誉的影响;同时追溯风险源,避免同类风险事件再次发生。防止有毒信息和违法不良信息进入模型和个人隐私信息泄攻击者在训练数据中注入特定的“毒化”数据以污染训练数据,影响甚至干预模型的正常训练结果,使整个模型或者模型的某个方面失去功能。对于该种类型的攻击,在模型训练前,应对训练数据进行检测、清洗和修复,移除异常或不准确的数据点,得到一个减毒,甚至是无毒的训练数据集,在这个基础上训练模型就能有效降低数据投毒的不良影响,恢复模型的正常功能。在训练集不够的情况下可增加训练数据集,可以对原有数据集进行一定形式的转变28来扩大数据集,在增强的、多样化的训练集上训练模型,会得到较高的准确率。攻击者通过与模型交互,依据模型的预测结果尝试恢复该预测结果对应的输入数据,数据窃取攻击可能会导致大量用户隐私信息的泄露。为了防止数据在训练过程和训练结果中被窃取,应采取一系列措施确保数据在收集和存储中的安全性,首先,对敏感数据进行加密和脱敏处理;其次,使用可靠的数据存储和传输方式,如加密存储和传输,以确保数据的安全性;最后,建立数据访问控制和审计机制,以监测和防止未经授权的访问和数据泄露。大模型训练都需要大量的数据作为输入,在训练过程中,如果未对数据进行适当的脱敏处理,或者使用不可靠的存储和传输方式,攻击者从模型的预测以及计算的中间信息就可以恢复输入数据的部分敏感属性,导致关键隐私信息泄露。对于该种类型的攻击,需要在模型训练过程中,合规地使用个人隐私数据,加强隐私保护和数据治理、建立数据管理制度、提高数据处理效率、遵守数据透明度义务等方面的具体要求,严格落实关于用户控制权、知情权、选择权等合法权益,促进数据的可管控、可监督、可追溯和可信赖。三、金融业AI基础设施建设优秀案例分析29(一)中国工商银行千卡规模AI算力云建设工商银行在同业率先建成千卡规模自主可控AI算力云,算力资源的分配时效、稳定性均达国际领先水平,为实现高水平科技自立自强贡献力量。首先,通过打造智算云原生架构,实现算力分钟级弹性分配。在云智融合方面,运用算力池化、虚拟化等技术,整体算力资源使用率提升超50%。针对大模型服务启动慢的痛点,大镜像创新采用p2p镜像传输,大模型文件通过预热缓存技术缩短时长,大模型服务启动整体提速一倍以上,分钟级伸缩。在异构管理方面,通过建设独立云底座,GPU、NPU、MLU等异构千卡规模算力混合部署,分用户资源隔离,训练推理集群隔离,资源弹性调度、统一监控、统一运维。其次,AI算力集群规模最大,30天+连续训练不中断。在稳定性方面,目前已建成的集群千卡规模达到总算力1.5EFLOPS,为解决大规模集群下的计算任务分发夯死、卡顿等问题,采用算力多级编组调度策略,具备TB级数17天内完成千亿大模型全参稳定训练的能力,同时兼容小模型训练。在高效协同方面,通过建立流量感知模型,自动修正网络偏离参数,控制存储读写速度,优化算力资源调度,实现0丢包、超10000I/O吞吐的算网存高效融合协同。最后,同业率先打造绿色低碳基础设施,能耗达到绿色数据中心领先水平,获得绿色数据中心评定。(二)中国光大银行云平台AI算力创新实践光大银行2021年启动全栈云平台建设,是“123+N”数字化30银行发展体系中的两大技术平台之一,也是业务拓展核心生产力的基础平台,其中AI算力云是该平台的一个重要组成部分。该平台已完成如下建设:一是实现GPU资源池化,支持原生容器、K8S、虚拟机、裸金属服务器和物理机等多元化部署场景;二是支持GPU资源聚合(适用于训练场景),即通过将多机多卡快速聚合到一个任务,可免去复杂的调度过程与模型拆分过程,实现快速交付;三是支持GPU细粒度切分(适用于推理场景),即通过将GPU按需切分给多个推理任务,实现多个任务同时并发、相互隔离,进而提高资源利用率、增加业务规模。四是支持资源动态伸缩,即所有虚拟GPU资源的分配与回收都保持动态运转,并可以按需调整、无需重启。五是支持调用内存补充显存(适用于长尾应用叠加场景),即当GPU面临显存不足时,可以调用系统内存补充显存。六是支持资源动态分配和释放(适用于AI算法开发场景),即仅当有AI编译程序需要运行时,才会占用物理GPU资源,并在程序执行完毕后,执行资源动态释放,从而实现GPU动态共享。(三)中国人保大模型智算液冷实验室建设2024年5月中旬,中国人保在北方信息中心建立的大模型智算液冷实验室正式投产。液冷实验室部署的双冷源单机柜功率达20kW、峰值测试功率达30KW,是目前行业内标准机柜功率(2.5kW)的8~12倍。采用可动态调整、弹性适配业界主流液冷服务器的模块化、松耦合架构,应用最高容错等级2N架构液31冷CDU拓扑,分别从冷却塔、双路冷冻水等三路冷源引入冷水,大幅度提升机柜供冷可靠性。智能小母线系统自低压配电系统引至机柜,有效消除单点故障,保障系统架构的业务连续性及稳定大幅降低能耗,预计每年可节约近百万KWH用电,向绿色低碳算力基础设施建设迈出坚实的第一步。四、存在问题(一)AI芯片采购选型难度高。AI是人工智能赋能业务场景的关键基础设施,但是AI芯片选型与传统的硬件(如CPU和磁盘)选型不尽相同,除了规格参差不齐之外,AI芯片种类繁多且不同的AI芯片对人工智能模型、算法和框架的兼容性也存在差异,金融机构难以直接通过产品的参数规格选择合适的芯片产品,业界也没有AI芯片统一的评估标准。因此,大部分金融机构在采购前,都会与芯片厂商沟通,协调测评样机进场开展芯片原型验证工作,开展AI芯片规格验证、业界热点模型验证、企业自身特色模型验证。由于前两者是一个重复工作,并且大部分金融机构对AI芯片均会开展业界热点模型的验证工作,目前各家金融机构单独对AI芯片进行选型测评的方式,不仅耗费大量的人力和物力,还增加了不必要的时间成本。同时,由于样机数量有限,基本在大型金融机构流转,中小金融机构很难取得实测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论