版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国家慢性肾病临床医学研究中心数智平台项目需求1.项目概述1.1.项目名称项目名称:国家慢性肾病临床医学研究中心数智平台项目;1.2.项目建设单位项目建设单位:;1.3.建设目标、内容与建设期1.3.1.建设目标基于临床科室与肾脏病医学中心五年“AI+医疗”应用与科研应用发展进行算力与节点的规划配置,以人工智能计算为基础,规划安全可控的数智平台;数智平台搭建基础的IT设备,包括超算算力节点、显卡算力节点、存储节点、网络等设备;实现核心硬件(服务器、存储、网络)及基础软件(操作系统、AI框架),满足医疗数据安全合规要求;集成临床诊疗数据(EMR、LIS、PACS)、基因组学、蛋白质组学、影像组学等多源数据,建立数据处理能力;支持医学大模型训练、多组学联合分析、实时影像处理,缩短科研周期;1.3.2.建设内容建设一套具备高性能、可扩展、高可靠、易管理,以支持今后不断更新和升级的需要的数智平台,包含基础的人工智能算力、高性能科学计算算能力、存储、网络等资源设备部署;整体提供共35P@FLOPSFP16人工智能算力资源、1024物理核超算算力资源、535TiB可用容量存储资源,提供高速网络用于数据交互通信,提供操作系统、存储软件等基础软件平台;1.3.3.建设工期国家慢性肾病临床医学研究中心数智平台项目建设工期为12月;硬件设备需在完成合同签订后30日到货;完成安装、调试、整体项目上线并稳定运行60日后,可申请项目进行验收;2.项目建设单位概况医院已经发展成为综合实力雄厚、学科特色突出、管理水平先进、文化底蕴深厚、在全国乃至国际享有崇高声誉影响的高水平研究型医院;3.必要性及需求分析3.1.项目背景说明在新一轮科技革命与健康医疗产业变革交织的背景下,肾脏病研究正面临从单一疾病治疗向全生命周期管理、从经验医学向数据驱动医学转型的关键机遇期;随着高通量测序技术、医学影像AI、生物信息学的快速发展,当前研究所既有的计算资源与数据处理平台,在算力规模、存储容量、算法开发效率等方面已难以支撑新型研究范式,这些瓶颈制约了从“数据富集”到“知识发现”的转化效率,亟需通过超算平台、AI智算平台、智能体系统与AI中台的一体化建设,构建支撑学科未来发展的数字基础设施集群;3.2.项目建设的必要性肾脏生理机制涉及分子、细胞、器官多尺度耦合模拟,传统算力仅能支持单维度分析,无法满足疾病发生机制解析、药物虚拟筛选及流行病传播建模的复杂计算需求;数智平台的高性能并行计算能力,为揭示疾病病理机制、加速药物研发迭代、构建区域性防控模型提供底层算力支撑,是突破肾脏疾病基础研究瓶颈的核心基础设施;依托肾脏病大数据协作网,慢性肾脏病临床研究中心有大量肾病相关数据,全国最大的肾病样本中心,需要算力支持肾脏病专病大模型研发与应用;3.3.系统建设需求分析肾脏病是全球高发的慢性疾病,其发病机制复杂、诊疗方案个体化需求高;肾脏病医学中心作为国家临床重点专科,需通过技术创新突破传统研究范式局限;建设数智平台,旨在整合医疗大数据(电子病历、影像、检验等)与多模态组学数据(基因组、转录组、蛋白质组等),构建AI驱动的精准医学研究体系,推动肾脏病早期诊断、分子分型及靶向治疗的发展,同时响应国家“信息技术应用创新”战略,确保医疗数据安全与技术自主可控;3.3.1.使用范围(使用科室、使用人)依托肾病研究所等向临床科室科研人员及业务系统提供支持;3.3.2.业务需求分析解决临床业务痛点,提升研究效率作为华南地区重要的医疗中心,临床业务呈现出高度复杂化和数据密集型特点,需要数智平台支撑临床业务高速发展;临床业务支撑以辅助决策支持与运营优化为主,亟需高性能计算算力平台对临床业务的数据处理,模型或算法构建等工作提供支持;如肾脏病医学中心积累了大量电子病历临床数据,需要NLP技术、大规模深度学习框架解析非结构化病历文本,提取关键医疗信息,需要具备分布式训练和高性能推理能力的算力平台支持;ICU、急诊科等部门的患者监测系统产生连续高频生理数据,如ECG、EEG、呼吸波形等需进行实时流处理和分析;此类场景需要高并发处理能力,能够同时处理上千个数据流,并在毫秒级内完成特征提取和异常检测,要求具备低延迟响应和高吞吐量特性的算力平台支持;门诊调度、床位管理、药品库存优化等运营决策类应用需要大规模数学规划和约束优化计算能力,对CPU算力和内存容量同样有较高要求;满足肾脏病科研业务需求肾脏病医学中心的科研业务正处于数字化转型的关键阶段,多学科交叉研究项目对计算资源提出了多样化需求;肾脏病发病涉及遗传、环境、免疫等多因素交互,需联合临床表型、组学特征及影像数据,挖掘关键致病通路,推动肾脏病早期诊断、分子分型及靶向治疗;其中,全基因组测序、转录组分析等计算密集型任务需要大规模并行超算平台支撑;计算机辅助药物设计(CADD)需要分子动力学模拟和虚拟筛选,这类应用对AI算力需求极为突出;多模态医学数据(影像、病理、基因组、临床记录)整合分析需要异构计算架构,需要超算算力与AI智算算力同时支持;大规模流行病学研究和真实世界证据生成需要处理海量患者数据,涉及复杂统计建模和纵向数据分析;这类场景则需要大内存计算节点;3.3.3.功能需求分析基于肾脏病医学中心临床和科研业务的多样化算力需求,数智平台建设需要采用分层架构和异构计算策略,同时满足高性能、高可靠性和可扩展性要求;总体架构设计应遵循"资源池化、弹性分配、统一管理"的原则;数智平台需具备性能与效率平衡能力:针对临床与科研场景的多样化需求,平台需采用异构计算架构,整合CPU、超算算力、AI并行计算等多种计算单元,为不同应用提供最适合的计算环境;数智平台需满足数据安全与合规性:针对临床与科研数据的敏感性和隐私保护要求,数智平台需具备端到端安全能力;可采用算力平台和多重加密技术,确保所有数据处理遵循“数据不出院、信息零泄露”原则;同时需建立数据分级管理和安全审计机制,保障敏感信息仅在授权范围内安全流转;数智平台需具备弹性扩展与可持续发展能力:数智平台应具备水平扩展能力,支持从小规模部署逐步扩展为大型计算集群;采用模块化设计,支持计算、存储、网络资源的独立扩展,避免烟囱式架构造成的资源孤岛和浪费;3.3.4.安全需求分析安全要求(软件系统安全检测,如符合网络安全等级保护的级别等)本期工程按照《网络安全法》要求来规划系统建设和产品采购的网络安全要求,遵循“同步规划、同步建设、同步运行”的原则,具体要求如下:1.按照国家网络安全等级保护(三)级保护要求,结合自身系统情况来进行网络安全建设,根据信息系统网络安全等级划分的情况制定网络安全设计方案(包含总体规划、基本安全措施、安全建设工作计划);2.配合医院开展等级保护测评工作,系统程序漏洞导致的网络安全风险、整改要求,中标人应承诺终身升级修补,在系统验收前完成等保测评;(费用包含在报价中)3.为防止供应链安全风险,网络安全等级保护第三级及以上信息系统依照《网络安全法》等法律法规规定,加强安全评估,谨慎采购使用未通过网络安全审查的软硬件产品;4.系统测试及正式使用期间,相关软件管理员账号不得使用弱口令,系统具备强口令配置功能及界面;5.禁止使用移动介质,凡是涉及到数据的导入导出均由信息中心专人进行操作,所有数据不出内网,原则上建议项目实施人员不使用远程实施方式,项目实施人员均到现场实施;系统的搭建必须在信息中心的严格监管下进行,对可能涉及到的针对HIS与大数据平台的所有接口(包括数据总线的接口)传输的数据进行严格监管;6.涉及到数据安全法律层面的问题由双方签订的保密协议保障;7.系统正式上线前需在医院信息中心完成系统备案,并提交合格的系统漏洞扫描报告、系统渗透测试报告;3.3.5.系统对接需求满足与医院公共平台对接;包括:支持多院区管理;3.3.6.集成需求分析数智平台算力集成建设将遵循“平台化、服务化、一体化”的核心思想,实现对异构算力资源的统一纳管、智能调度和一体化服务;整体智算平台建设需满足以下集成需求:统一接入与管理:通过统一门户和API网关,屏蔽底层超算、AI算力、存储资源的复杂性,提供标准化的访问接口;安全合规贯穿始终:集成设计必须符合医疗行业信息安全三级等保、数据隐私保护(如《个人信息保护法》)和医疗数据出域审计等要求;弹性可扩展:集成架构必须支持水平扩展,能够平滑地接入新的算力节点和存储资源,满足未来业务增长需求;满足临床与科研部门多场景对接需求:数智平台需满足多种场景处理、多样接口对接等工作;3.3.7.验收及维保需求分析按项目需求书完成整体验收(50万以上的项目需提供第三方测评报告,第三方测评费用由中标方承担)项目通过最终验收合格之日起6年为免费维保期;明确维保条款(如:响应7*24*4维保,每周7天,每天24小时,4小时内响应并修复等要求细则)免费维保期满后,若仍需向采购人购买维保服务,软件维保费不得超过合同金额中软件部分的8%;4.总体建设方案4.1.建设原则(1)安全可靠性保证系统的安全性,必须具有切实有效的手段保障系统的数据准确性、安全可靠性及运行稳定性;系统应考虑硬件和软件的容错能力;系统具有自检功能,能监视系统各功能模块的运行情况,能随时发现系统自身的问题;(2)实用性由于系统的实用性是关系到系统能否发挥其作用的一个很重要的方面,所以必须以系统需求为目标、以方便使用为原则,尽量在统一的界面下提供各种实用功能,尽可能降低培训投入和维护投入;(3)开放性遵循国际、国内的技术标准及规范,采用规范的接口和协议,保证系统各组成部分的协同一致,构成可兼容、易移植的系统平台,保证与其它系统互联、数据交换方便且代价较小;(4)高效性在正常的工作负荷下,系统具备良好的运行效率,操作响应迅速快捷;总之,系统设计与建设应充分考虑整合和利用现有各种资源,既要考虑系统的有效性,又要考虑其实现的可行性和经济性;系统的设计与建设要符合业务需求,系统结构、数据接口应可灵活扩展,为将来系统提供空间;4.2.遵循的标准规范(1)《信息技术软件生存周期过程》(GB/T8566-2007);(2)《计算机软件文档编制规范》(GB/T8567-2006);(3)《信息安全技术信息系统安全等级保护定级指南》(GB/T22240-2008);(4)《信息安全技术网络安全等级保护基本要求》(GB/T22239-2019);(5)《计算机信息系统安全保护等级划分准则》(GB17859-1999);(6)《信息安全技术信息系统通用安全技术要求》(GB/T20271-2006);(7)《信息安全技术网络基础安全技术要求》(GB/T20270-2006);(8)《全国一体化算力网安全保护要求》(TC609-6-2025-10);4.3.总体建设方案规划4.3.1.总体建设内容国家慢性肾病临床医学研究中心数智平台采用混合云架构,采用分层架构和异构计算策略,同时满足高性能、高可靠性和可扩展性要求;总体架构设计应遵循"资源池化、弹性分配、统一管理"的原则;本项目建设内容包含高性能计算资源池、AI智算资源池、存储资源池、RoCE高速网络与专业服务;采用模块化设计,支持计算、存储、网络资源的独立扩展,避免烟囱式架构造成的资源孤岛和浪费;超算资源池:基于高性能CPU服务器构建,配备高速RoCE网络和并行文件系统,支持MPI、OpenMP等并行计算框架;共规划8台胖节点;该平台主要支持基因组学、分子动力学模拟、流行病学统计等计算密集型科研任务;AI智算资源池:基于显卡算力服务器构建,配备AI计算框架等基础软件平台和高速互联技术,支持大规模深度学习训练和推理;每台显卡算力节点配置8颗显卡处理器,共提供不少于35P的FP16计算性能;AI智算资源池支持主流深度学习框架的适配和分布式训练技术,主要支持医学大模型、算法研究等业务;存储资源池:采用分级存储架构,本项目建设AI全闪高速存储,提供535TiB闪存存储资源,与医学中心前期规划的大容量存储协同;整合高速NVMeSSD、通用SSD和大容量HDD,满足不同应用的I/O需求;AI全闪高速存储为整个AI工作流,特别是大模型训练与推理的过程提供“性能加速器”和“效率引擎”,并行文件系统(如Lustre)提供高吞吐量数据访问能力,支持大规模数据处理;RoCE高速网络:RoCE高速网络可解决传统TCP/IP网络在在高性能计算(HPC)和人工智能(AI)场景下存在的高延迟、高CPU开销、低有效带宽瓶颈,支撑数智平台在AI大模型训练、多模态科研分析、精准医疗应用等领域的快速发展;专业服务:提供项目交付实施服务,提供数智平台的工程勘探、规划设计、工程安装、部署实施、集群测试和验收测试服务;提供数据治理(含清理、标化、质控)服务2年,其中相关专家现场服务共45人天;提供AI开发支持服务:提供2年AI开发支持服务,其中AI专家现场服务共60人天,主要服务内容包含开发环境构建支持、开发技术栈支持、模型开发调测支持、样例演示服务内容;提供数智平台的售后服务,包含6年7*24小时售后维保服务,包含远程支持服务、软件更新服务、硬件支持服务、现场硬件更换服务、现场问题处理服务、设备健康检查服务;针对本项目提供的AI服务器,提供3年5*8小时的驻场服务;以上建设内容需与医院前期规划的集群调度平台对接,实现对本次数智平台建设的统一监控(资源利用率、任务队列状态、系统健康度的可视化监控和告警)和多租户管理和配额分配,确保临床关键业务和重点科研项目的资源保障,简化管理工作;4.3.2.总体网络架构整体网络规划采用多平面物理隔离的设计方案,根据不同业务的性能、安全与可靠性要求,规划了四个独立的逻辑网络平面:样本面网络、业务面网络、带内管理面网络与带外管理面网络,以确保核心计算、存储与业务流量互不干扰,为临床科研一体化、AI智算、大数据分析等应用提供稳定可靠的网络承载;网络规划采用Spine-Leaf架构,实现所有接入设备间的任意端口无阻塞高速转发;四个网络平面逻辑隔离,业务面网络可采用独立交换机或通过VLAN在共享硬件上虚拟化方式部署,样本面采用独立物理网络,以保障其极致性能与稳定性;样本面网络承载AI训练、科学计算、存储访问等服务器间东西向高速数据交换流量,采用100G带宽组网设计;业务面网络承载平台对外提供业务服务的南北向和东西向的流量,是应用与用户交互的通道,采用25G带宽组网设计;带外管理网络用于对网络设备、服务器、存储等硬件基础设施的带外管理,采用千兆带宽组网设计;带内管理网络用于对运行在业务系统上的软件组件、操作系统、容器平台进行管理,采用千兆带宽网络设计;4.3.3.安全建设规划数智平台面向医学中心、部分业务科室、院外协同科研机构提供服务,接入人员复杂,需充分保障平台的使用安全;规划数智平台独立建设在安全可信局域网内,与医院内网之间通过防火墙隔离,与医院校园网之间通过网闸隔离;业务科室与医学中心通过内网访问数智平台,采用防火墙实现访问控制;通过零信任访问数智平台,上传/下载数据数智平台需经过堡垒机审计;协同科研机构通过零信任访问云桌面,在云桌面内访问算力平台;同时,协同科研机构有上传原始数据,下载结果数据的需求;规划通过零信任访问网闸,上传原始数据,提交管理员审批,管理员审批通过后,网闸将数据上传到数智平台;数智平台将结果数据上传到网闸,提交管理员审批,管理员审批后,协同科研机构通过零信任访问网闸,下载结果数据;5.详细建设方案5.1.整体建设内容清单表1项目建设需求清单序号名称配置参数数量单位1AI集群1、在非稀疏模式下,整集群提供半精度浮点运算总理论算力不低于35PFLOPS@FP16,提供单精度浮点运算总理论算力不低于9.0PFLOPS@FP32;2、整集群配置AI处理器的总片上内存不低于8TB,为提升内存访存效率,集群内支持基于总线的内存统一编址;3、整集群配置不少于14个网络设备,单设备高度不高于2U,单设备支持不少于40个400GE端口;4、整集群配置不少于32颗CPU,单CPU物理核不少于78核,主频不低于2.9GHz;5、整集群配置内存容量不少于16TB,配置不少于32个3.84TBNVMeSSD硬盘,不少于16个480GBSSD硬盘,配置磁盘阵列卡;6、集群内任意两颗AI处理器间(包括同一节点上的多卡之间、以及不同节点上的多卡之间)的高速总线双向理论带宽不低于500GB/s;7、单AI计算服务器提供≥4PFLOPS@FP16稠密算力,提供≥1.2PFLOPS@FP32算力;8、单AI计算服务器配置不少于56个400GE光口,配置不少于1张2*100GE网卡,配置不少于1张2*25GE网卡;9、单AI计算服务器的理论出口带宽不少于3TB/s;10、单AI计算服务器支持不低于60个DDR通道,每个通道传输速率不低于5000MT/s;11、维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务;1套2胖节点维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);8台3AI配套存储1、本次存储产品配置≥2个存储节点,单个存储节点配置:CPU处理器≥2颗,内存大小≥1TB;2、容量配置:整系统配置主存盘≥48块*15.36TBNVMeSSD,可用容量≥535TiB;3、本次存储产品要求配置:网口≥16个25GE,网口≥16个200GERoCE,CPU总物理核心数≥500核;4、所投存储产品使用成熟稳定的自主研发CPU,提供投标产品使用CPU型号、主频证明材料;5、采用全对称分布式架构,无独立元数据节点,性能、容量随节点数增加而线性增加,扩容过程中对业务无影响;不接受IO节点+扩展柜或JBOD的模式;6、为了方便多用户使用,单个集群支持配置多个独立的文件系统,每个文件系统支持1000亿以上文件;7、支持数据完整性校验功能,解决数据静默错误问题,提升数据可靠性;8、保障SSD硬盘可靠性,支持盘级磨损均衡策策略和反磨损均衡策略;9、支持存储与本次配套的AI服务器的芯片数据直通能力,消除数据拷贝,提升计算访存效率;10、提供KVCache多级缓存能力,在推理任务中减少重复计算,加速推理过程,降低首token响应时延(TTFT),提升推理吞吐性能;11、提供存储中英文GUI图形界面管理系统,支持查询每个节点CPU利用率、每块硬盘的负载情况、查看文件系统读写带宽情况以及存储端口流量情况;12、1MB块大小,实测任意连续10分钟,单个节点读带宽≥95GB/s,写带宽35GB≥/s;13、8KB块大小,实测任意连续10分钟,单个节点读IOPS≥330万,写IOPS≥50万;14、维保:承诺提供设备制造商不少于6年(含7x24保修及上门服务)的原厂无条件上门维保服务(投标报价应包括制造商对设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);1套4管理节点1、处理器:配置≥2颗精简指令集架构处理器,单颗CPU核心数≥32,主频≥2.5GHz;
2、内存:配置≥6条32GB内存;
3、硬盘:配置≥2块480GBSSD,≥2块2TBHDD;
4、阵列卡:配置≥1块raid卡2GBCache,可支持RAID0/1/10/5/50/6/60,支持Cache超级电容保护;
5、网络:配置≥2个100Gb光口,≥2个10Gb光口,≥2个千兆电口;
6、电源:≥2个900W白金电源,1+1冗余配置;
7、维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);1台5防火墙1、吞吐量≥25Gbps,最大并发连接数≥1000万,每秒新建连接数≥25万;2、IPS吞吐量≥10Gbps;IPSecVPN吞吐量≥25Gbps,SSLVPN吞吐量≥1.5Gbps;
3、IPSecVPN隧道数≥15000,SSLVPN并发在线用户数≥8000,设备默认SSLVPN用户数≥100个;
4、采用关键自主研发芯片(CPU芯片);5、配置接口:千兆Combo接口≥8,千兆电口≥4,千兆光口≥4,万兆光口≥6;
6、设备高度≤1U,支持USB3.0接口≥1;
7、严格前后风道;配置4个风扇,形成3+1冗余备份,当风扇模块出现故障时,可以在防火墙不断电的情况下,对风扇模块进行更换;
8、支持SRv6协议,支持SRv6TEpolicy,支持EVPNL3VPNoverSRv6TEPolicy;
9、支持全面NAT功能,对多种应用层协议支持ALG功能,包括DNS、FTP、H323、MSN、Netbios、PPTP、RSH、RTSP、SIP、SQLnet等;
10、支持DES、3DES、AES、SHA、SM2/SM3/SM4等多种加密算法;
11、可识别应用层协议数量≥6000种;
12、系统预定义IPS签名数量≥20000,CVE编号的签名条目数不得少于11000;
13、支持最大100层的病毒压缩文件检测和阻断;
14、病毒库覆盖不少于亿级变种病毒;15.实配:可插拔交流电源≥2个,固态硬盘≥1920G;威胁防护IPS、AV等特征库升级≥3;16、承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);2台6高性能存储网络交换机(样本面leaf交换机)1.交换容量≥25.6Tbps,包转发率≥8000Mpps
2.高度≤4U,业务插卡数量≥4,整机最大支持100GEQSFP28接口数≥128或400GEQSFP-DD接口数≥32;
3.实配100G光接口≥64个,400G光接口≥16个,配置100G多模光模块≥42个(含线缆),400G多模光模块≥16个(含线缆);
4.支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术;
5.支持N:1镜像、流镜像、远程端口镜像;
6.支持RIP、OSPF、ISIS、BGP等IPv4动态路由协议;支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6动态路由协议;
7.整机缓存>128MB;8.支持RDMA、PFC、ECN等无损以太网特性;
9.支持MAC漂移联动端口error-down;10.支持MacSec国密算法;
11.支持Telemetry功能,支持ERSPAN增强;
12.支持SNMPV1/V2/V3、Telnet、RMON、SSH;
13.设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭,便于现场定位;
14、承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);2台7千兆管理接入交换机1.交换容量≥672Gbps,包转发率≥200Mpps;
2.BASE-T接口≥48个,SFP+接口≥4个,配置10G多模光模块≥2个;
3.支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6动态路由协议;
4.支持集群或堆叠多虚一技术,实现单一界面管理多台设备
5.支持配置回滚不重启;7.支持MAC漂移联动端口error-down;8.设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭,便于现场定位;
9.维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);3台8千兆管理汇聚交换机1、交换容量≥4.8Tbps,包转发率≥2000Mpps;
2、10GEGE光接口≥48个,40GE/100GE光接口≥8个(含8个100G多模光模块);
3、支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术;
4、支持N:1镜像、流镜像、远程端口镜像;
5、支持IPv4和IPv6静态路由、RIPng、OSPFv3、BGP4+等路由协议;
6、支持数据面故障快速自愈,收敛时间小于1ms;
7、支持RDMA、PFC、ECN等无损以太网特性;
8、支持MAC漂移联动端口error-down;
9、支持BFD,实现各协议的快速故障检测机制,探测间隔为不超过3.3ms;
10、支持Telemetry功能,支持ERSPAN增强;
11、支持SNMPV1/V2/V3、Telnet、RMON、SSH;
12、设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭,便于现场定位;
13、维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);2台9业务接入交换机1.交换容量≥8Tbps,包转发率≥2400Mpps;
2.固定接口交换机,25GESFP28光口≥48(支持升级为48个50GESFP56接口),100GEQSFP28接口≥8(支持升级为8个200GEQSFP56接口,配置25G多模光模块≥48,100G多模光模块≥4;
3.支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术;
4.支持N:1镜像、流镜像、远程端口镜像;
5.支持IPv4和IPv6静态路由、RIPng、OSPFv3、BGP4+等路由协议;
6.支持数据面故障快速自愈;7.支持RDMA、PFC、ECN等无损以太网特性;
8.Netstream满足10GE1:1采样;
9.支持BFD,实现各协议的快速故障检测机制,探测间隔为不超过3.3ms;
10.支持IFIT随流检测功能;
11.支持PacketEvent丢包可视、超长时延可视;
12.支持SNMPV1/V2/V3、Telnet、RMON、SSH;
13.设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭,便于现场定位;
14.维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);2台10汇聚交换机1.交换容量≥25.6Tbps,包转发率≥8000Mpps;
2.高度≤4U,业务插卡数量≥4,整机最大支持100GEQSFP28接口数≥128或400GEQSFP-DD接口数≥32;
3.实配100G光接口≥64个,400G光接口≥16个,配置100G多模光模块≥42个(含线缆),400G多模光模块≥16个(含线缆);
4.支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术;
5.支持N:1镜像、流镜像、远程端口镜像;
6.支持RIP、OSPF、ISIS、BGP等IPv4动态路由协议;支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6动态路由协议;
7.整机缓存>128MB;8.支持RDMA、PFC、ECN等无损以太网特性;
9.支持MAC漂移联动端口error-down;10.支持MacSec国密算法;11.支持Telemetry功能,支持ERSPAN增强;
12.支持SNMPV1/V2/V3、Telnet、RMON、SSH;
13.设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭,便于现场定位;
14、维保:承诺提供设备制造商不少于6年的原厂无条件上门维保服务(投标报价应包括设备所有主件配件的更换、人工服务等所有费用),并在供货前向采购人提供对应的设备制造商售后服务承诺函(不提供采购人可以不予验收);2台11高性能软件及服务1、提供拥有软件著作权的商业版本管理软件,不接受开源产品;提供不少于60颗CPU和64块GPU软件license授权;1.1、提供拥有软件著作权的商业版本管理软件,不接受开源产品;额外提供10颗CPU和8块GPU软件license授权;1.2、提供拥有软件著作权的商业版本管理软件,不接受开源产品;再额外提供10颗CPU和8块GPU软件license授权;
2、提供6年售后运维服务,包含以下服务内容:
(1)管家式实时运维服务;
(2)需求调研:统计应用的类型、收集使用模式和习惯;
(3)基础环境:操作系统部署、GPU/IB驱动部署;
(4)系统平台:统一身份认证对接,平台LOGO、风格定制;
(5)集群环境:集群部署、linpack测试、网络测试、IO测试等;
(6)应用集成:商业软件部署、开源软件编译、应用模板封装;
(7)用户培训:高性能基础培训、用户培训、管理员培训;
(8)持续交付:应用软件升级、GPU驱动升级、平台组件升级;
(9)在线运维:硬件环境监控、软件资源监控、微信群实时问题处理;
2、提供产品应用于大规模CPU集群(单一系统节点数>150台)和GPU集群(单一系统内GPU数量>400块)生产环境的成功案例及用户证明;
3、统一平台,统一资源池,统一资源调度;支持调度多种任务类型,包括单节点容器、虚拟机、多节点HPC集群、Hadoop集群、AI训练集群、支持各种常见的操作系统发行版(Windows各版本、Linux各版本)等;
4、支持Intel、AMD、ARM等架构服务器,支持NVIDIAGPU、HuaweiAtlas等异构服务器,支持Infiniband和Roce网络,支持至少3个硬件厂家设备,以上硬件设备均有落地案例;
5、支持与现有统一身份认证系统对接;提供不少于三种角色,包括系统管理员、项目组管理员和普通用户;支持普通用户创建群组并邀请其他用户加入;
6、支持设置用户虚拟机实例、容器实例的使用周期,到期自动回收资源并提前自动通知用户,支持到期前用户申请延长使用周期;
7、支持通过软件仓库一键创建完整独立的环境,包括桌面可视化环境、Slurm集群环境、Torque集群环境、hadoop环境、Jupyter在线web交互环境、完整的linux操作系统环境、Windows桌面环境等;用户有管理员权限,可自行安装和配置环境等;
8、平台支持通过WEB页面对GUI类应用进行访问和操作,支持远程桌面交互、字符界面交互、网页界面在线交互式编程等模式;
9、平台提供用户目录,项目组目录,项目组共享目录等数据管理的功能,在项目组中,用户可以通过共享目录进行数据共享,也可以在项目组中有自己私有的数据目录;
10、平台提供通过浏览器上传计算配置文件和下载计算结果以及断点续传等功能,支持用户本地挂载平台数据目录,实现用户本地、平台和实例环境的数据同步,支持Windows系统的数据挂载;
11、在平台上提供知识库和用户论坛功能,论坛用户与平台用户对接,无需单独注册即可直接使用;知识库可以发布平台的资源信息、平台功能操作指南和应用软件使用指南等,方便普通用户使用;
12、支持帖子发布者在回复的帖子中选择最佳答案和删除帖子,支持论坛内主题和内容搜索;每个用户都有自己的主页,查看发布的主题,回复的内容,上次的信息等;
科研计算平台场景功能要求:
13、平台支持多套环境资源之间灵活调度,不需要重启物理机器,即可实现HPC集群的资源调度到AI集群中进行使用,支持多套HPC集群共存,如x86HPC集群,ARMHPC集群等,支持普通用户在平台上创建自己项目组内的私有HPC集群,HPC集群的性能多节点并行Linpack值与物理机的比相差1%以内;
14、支持GPU共享,支持在1块GPU卡上,同时运行多个GPU容器环境,分配GPU可以按照0.1块、0.2块分配;
15、支持通过网页界面生成和恢复虚拟机快照;支持windows系统的远程桌面可视化操作,以及对系统实现硬盘扩容等功能;
16、系统支持同时运行和管理多个集群环境,每个集群可采用独立的调度器,集群之间互相隔离,不受影响;支持同一用户在不同独立集群中进行任务提交,并可以查看自己提交的任务在不同集群中的状态;支持普通用户创建自己的独立集群,该用户在独立集群中有root权限,可直接在系统层面安装程序,并可根据实际的资源需求调整自己集群的规模,进行扩容和缩容;
17、支持通过作业模板方式在Web页面提交作业;支持用户创建个人作业模板;支持管理员创建全局作业模板;支持查看每个作业的运行资源使用情况;
18、支持通过Web可视化的形式管理Hadoop组件,支持在线直接安装、管理和运维Hadoop集群;
19、支持用户充值和透支额度设置,支持项目透支额度设置,支持用户转账自己剩余点数到任意一个自己的项目中,在项目中的其他用户可以使用该项目的点数进行扣费,支持对项目中用户使用点数查看和设定限额;
20、客户提供的商业软件的安装及调度集成,客户所需开源软件的安装、编译及优化,应用软件作业模板的定制及优化,应用软件的容器模板制作,应用软件的虚拟机模板制作;平台硬件环境的运维监控,系统报警、平台故障的实施处理平台资源使用情况的监控及使用报告,调度策略的持续优化和调整,用户配额和QOS的持续优化,用户微信群进行实时问题解答和使用帮助;
21、提供GNUC/C++/F77/F90编译器、Java、IntelC/C++/Fortran编译器;IntelMKL、BLAS、LAPACK、FFTW等数学库;并行编程消息库如IntelMPI、OpenMPI等;预置常见的操作系统镜像和常用开源计算应用镜像;支持容器化数据分析工具,支持Python,Anaconda,R等,并支持用户自定义软件包安装;1套12项目交付实施服务1.提供AI智算设备、存储设备、网络设备的规划设计、硬件安装、部署实施、对接联调(包含存储系统及集群网络对接调测、算力调度平台对接调测、运维运营平台对接调测等,如文件系统对接支持、网络调度的验证优化等)、验收测试和集成项目管理(面向计算、存储、网络、安全等硬件基础设施建设,提供整合管理、沟通管理、进度与质量管理、变更与风险管理等项目管理服务);2.搬迁肾内科15台2U服务器上架到院内新机房并协助组网上线;3.交付实施内容包括:第一次不少于4台AI服务器的指定安装、部署、调试、拆卸;第二次本项目全部内容交付实施;4、供应商应安排的具有对应的软件开发管理经验和专业能力的项目经理、不少于2人的团队成员(除项目经理外,不少于2个人)、不少于4人的项目交付后驻场团队人员(不少于4人),确保项目的顺利实施;1次13AI开发支持服务1、服务1.提供数据治理(含清理、标化、质控)服务2年,其中相关专家现场服务共45人天;服务团队成员均为资深工程师,拥有统计学、医学信息学相关专业研究生及以上学历,对前沿技术有深入理解;2、在大数据治理领域积累了至少3年的实战经验,涵盖各种类型医疗数据清理、标化、质控等多个关键环节;支撑医学中心开展数据治理工作,包括但不限于各类医疗数据的清理、标化、质控等工作;3、服务2:提供人工智能及模型开发支持服务2年,其中AI专家现场服务共60人天;服务团队成员均为资深工程师,拥有计算机科学、软件工程、人工智能及机器学习相关专业研究生及以上学历,对前沿技术有深入理解;4、在人工智能领域积累了至少3年的实战经验,涵盖AI项目实施、模型开发与优化等多个关键环节;能根据用户要求,熟练应用TensorFlow、PyTorch等主流AI框架以及多种编程语言,高效进行模型构建与调试,为复杂的AI项目提供强大技术支持;主要服务内容包含人工智能模型开发、适配支持以及性能调优支持,AI开发使用支持-提供TensorFlow/Pytorch/MindSpore等主流AI框架相关API的使用指导,AI开发环境部署支持,AI框架样例演示及赋能;(1)支持随机森林、XGBoost、支持向量机等传统机器学习模型适配与调优;(2)支持深度学习模型(CNN系列架构、RNN系列架构、BERT架构、Transformer架构等)适配与调优;(3)支持主流大模型(Llama、DeepSeek、Qwen等)适配与调优;(4)开发环境构建支持:1)根据客户的具体模型需求,输出模型运行环境的安装部署方案,制作与推送容器镜像;支持业务部门使用连接资源,搭建代码开发、调试环境;2)开发技术栈支持:提供工程师现场/远程支持解答开发使用过程中的技术问题;包含在使用AI框架过程中的问题定位支持、API使用指导;3)模型开发调测支持:提供模型训练调测支持、模型推理调测支持、模型昇腾迁移支持;①模型训练调测支持为:支持用户评估模型训练需要的训练资源,支持客户配置模型的启动命令与参数,提供API调用样例与技术支持,定位模型训练开发过程中相关的技术问题;②模型推理调测支持:基于业务场景,支持用户设计模型在AI平台的推理方案与可行性,评估模型推理需要的设备,提供推理组件的接口调用样例与技术支持服务,解答用户在离线推理应用开发过程中遇到的技术问题;③模型迁移支持:基于具体业务场景与需求,推荐已适配发布的模型,提供模型复现需要的代码、权重、测试数据集等文件,调测与验证模型训练、微调与推理的流程,完成模型的部署与调测;5、样例演示:介绍全栈解决方案,演示开发环境搭建流程,演示AI应用&模型的迁移、调试与部署流程,演示相关工具链的调用指导;1套14驻场服务1、针对本项目所有建设内容提供相关工作运维及运营服务,提供相关工作经验的专业人员2人3年5*8小时的驻场服务(开始时间及服务时长消耗以双方确认为准),人员配置需符合各系统具体需求;驻场人员实行8小时工作制度,保持24小时待命,遵守建设单位作息,且需安排人员轮流值班保障非工作时间紧急响应;2、维保驻场实施人员1:需具备相关专业本科及以上学历;主要工作内容包括但不限于如下内容:(1)负责各类设备的日常巡检、告警处理、固件升级、事件、故障处理;(2)操作系统镜像安装配置、存储资源的配置划分;(3)配置变更、硬件更换、硬件资产盘点及台账管理等相关工作;(4)具备问题排查、团队协作、网络安全防护、系统测试等能力,有数据迁移与系统集成经验,理解用户体验,具备快速学习能力与良好文档习惯;3、维保驻场实施人员2:拥有计算机科学、软件工程、人工智能及机器学习相关专业本科及以上学历,需具机器学习相关经验,模型部署经验;主要工作内容包括但不限于如下内容:(1)算力调度软件管理:按授权开通账号、维护账号信息、注销账号;资源分配与回收;计费管理;(2)协助算力调度软件培训、推广、使用:培训用户使用、培训管理制度;协助用户处理使用问题;收集平台存在的问题并协助信息部门解决;(3)算力调度管理、环境部署安装、调试和程序测试;1套15验收测评1.为保证本项目建设的质量,防止在验收时定性评价的随意性,在项目建设过程及验收前,由第三方评测机构对项目全部建设内容进行公平公开公正的评测,验证软硬件系统的完整性、准确性、一致性、合理性等特性,并为项目建设内容验收存在的问题改进提供技术咨询支撑服务,第三方测评服务费用包含在本项目中;1次16等保测评1.包含项目的安全等保测评费,安全等保测评由专业机构提供信息安全技术网络安全等级保护测评服务,涉及对本项目物理安全、网络安全、主机安全、应用安全和数据安全等多个方面进行全面评估,服务提供测评报告,需协助采购人向中标公司测评反馈存在的问题,并协助中标公司整改;1次5.2.超算资源池建设内容超算平台选择自主可控的算力基础设施,硬件、基础软件、应用调度等软硬自主协同;超算平台软件具备大规模集群调度能力,可实现百万核作业调度和多集群管理,并且支持多样化算力ARM+X86+NPU融合调度;网络系统使用高速专用ROCE计算网络,具备100GB/s的持续IO能力;超算平台由高性能计算硬件,高性能计算集群软件平台,及配套基础设施组成;计算节点为HPC集群提供算力支撑,很大程度决定了整套系统的性能,高密计算节点可以节省机房空间,降低配套成本,为此精简指令集架构处理器计算节点采用高密型是2U2路机架服务器,2.8GHz主频,单台服务器支持128个核心;该服务器具有高密度、高性能计算、低能耗、易管理、易部署等优点;HPC软件平台包含集群管理软件、集群调度软件、编译开发工具、并行通信环境、高效数学库、操作系统等基础软件模块,为上层的应用开发、作业运行和系统运维管理提供必要的软件支撑;集群管理软件用于管理集群系统中的软硬件资源和作业信息;集群调度软件用于管理集群资源、接收用户作业,并把作业中的任务按照一定的策略调度到合适的节点上执行;编译开发工具提供软件编译的能力,可深度优化软件运行效率;并行通讯环境提供并行框架,实现集合操作加速算法,具备高性能、大规模和可移植可特性;高效数学库支持基础线性代数、快速傅里叶变换等常见数学库,具体包括基础线性代数库、快速傅里叶变换库、稀疏线性代数库、向量运算库、基础数学库、线性代数计算库等;操作系统支持使用自主可控linux系统;超算集群存储系统施针对高性能计算业务IO需求,存储系统软件采用集群分布式并行文件系统架构,提供高性能的数据存储、数据管理和并行I/O服务;超算集群网络系统面向集群管理面、业务面、计算面和存储面提供高带宽、低时延的网络服务;根据各部门需求测试调研分析,本次建设规模共计8台高性能计算节点,8台为大内存胖节点;单台服务器配置2路高性能CPU,每颗CPU提供64个物理核心,2.8GHz主频,单颗提供2.5TFlops@FP64算力;所有计算设备通过100GRoCE网络组成高性能计算集群;5.3.AI智算资源池建设内容AI集群基础设施包括硬件基础设施和软件基础设施;硬件基础设施采用高密集成机柜交付;软件基础设施包括高性能算子开发、深度学习组件、性能分析与调优工具以及并行计算加速库;通过硬件基础设施和软件基础设施的结合,为本项目创建了一个强大的AI大模型训练平台,支持高效的模型开发和部署,提升整体的算力水平;各部分主要功能如下:1、硬件基础设施:硬件基础设施主要包括训练子系统、推理子系统、存储子系统以及网络子系统四部分;其中模型训练开发任务主要运行于训练子系统之上,模型推理任务主要用于推理子系统之上;而存储子系统和网络子系统主要用于为这两个系统提供必要的统一存储以及互联;2、软件基础设施:主要为训练子系统硬件和推理子系统硬件提供系统运行的必要软件,包括基础的OS、容器、AI框架、加速库、编译器以及开发工具链;由于当前AI的计算模式多以高强度的矩阵乘法运算为主,多以特有的专用AI处理器实现,这就要基础软件必须提供与之配套的AI框架(例如TensorFlow,MindSpore,PyTorch等),以及AI加速库,以及开发工具链(用于算子,模型的开发,调试,调优工作);人工智能科研平台采用创新架构的高性能人工智能计算芯片,共计8台AI算力服务器,每台提供不低于4.4P@FLOPSFP16人工智能训练算力,共提供不低于35P@FLOPSFP16推理算力,可支持DeepSeekR1/V3、Qwen、Lamma、Baichuan、GLM等各类业界最新开源模型算法部署推理算力需求;5.4.高性能存储建设内容存储架构的总体规划遵循“高效、可靠、易扩展、易维护,助力提升算力可用度”的设计理念;本次存储系统作为整个数智集群的数据底座,是集群正常提供服务的基础支撑,考虑到数智平台模型多样化,有数据量大、高并发、IO特征多样化、长时间稳定运行等需求特点,对存储系统建设满足以下设计原则:(1)存储系统高性能,不让AI存储成为数智平台的性能瓶颈AI模型训练阶段GPU/NPU利用率低的核心原因之一是因为等待数据而空置,AI训练流程对访问带宽和吞吐量要求很高,存储系统设计时要充分考虑集群所需性能,不让AI存储成为数智平台的性能瓶颈;(2)AI流程中面对多类型数据、多子系统,实现数据高效互通与流转AI数据归集、预处理会涉及多种数据来源、文件/对象/大数据多协议应用,需支持文件/对象/大数据等多类型数据的高效互通与便捷流转;(3)存储系统高可靠与高可用性,保障数据不丢失业务不中断存储系统设计重点为长期稳定提供数据服务能力,应该从模块级、节点级、系统级、方案级等各个方面进行高可靠性和高可用性设计,此外,存储系统还需具备在线系统运维与升级功能,每个环节都要尽可能的保障高可靠与高可用性;(4)系统易用性和易维护性存储系统设计应具有完善的管理措施和功能,便于设备的安装、配置和维护,以及对各种软硬件资源的分配、调度和管理,提高资源和资产利用率,减轻系统管理人员的工作负担;系统应为使用用户提供简单易用的使用接口,降低系统的使用门槛,并为用户提供相关的使用培训及操作文档;本方案采用分布式存储架构搭建存储集群为数智平台提供共享文件系统;本次方案性能存储选用全闪AI存储,满足大模型训练推理全流程;5.4.1.关键技术架构高性能层存储根据AI应用特征和全栈技术未来发展趋势,面向AI场景提供高性能、大容量、高扩展的存储服务;高性能层存储硬件采用新一代的全互联智能矩阵架构,该架构采用分层构建的超集群模型,基于分布式弹性扩展技术,实现大规模的统一命名空间,2节点存储设备单文件系统提供不小于220GB/s的读带宽能力,数万计算节点共享链接和并行访问能力,为大规模训练卡的大规模AI训练提供极致易用文件服务;高性能层存储提供一系列主机客户端软件,其中私有高性能客户端软件,采用存算结合的数据访问I/O栈优化,加速数据访问和应用故障恢复,提升AI训练系统端到端的可用性;高性能层存储基于全新数控分离架构,单集群可支持1024控Scale-out,EB级存储容量扩展,匹配万亿/十万亿参数多模态大模型平滑演进诉求;5.4.2.硬件架构设计高性能层存储采用部件模块化设计,主要由系统插框、接口卡盒、硬盘盒、控制器、风扇模块、BBU模块、电源模块、管理模块和接口模块组成;高性能层存储采用部件模块化设计,主要由系统插框、接口卡盒、硬盘盒、控制器、风扇模块、BBU模块、电源模块、管理模块和接口模块组成;存储系统各控制器之间采用Scale-out网络平面作为内部控制通信链路,用以检测控制器工作状态,协商集群策略和跨控制器的均衡;系统插框上不同功能区域的槽位,用于插入并固定控制器模块、接口卡盒、硬盘盒、电源模块等部件;5.4.3.软件架构设计高性能层存储系统软件由主机客户端软件、存储业务服务软件和存储管理软件三大部分组成;其中存储业务服务软件采用软硬件一体的方式发布,支持软件在线升级;主机客户端软件和存储管理软件采用独立软件组件包方式发布,支持客户现场选择合适的服务器硬件进行安装部署;同时高性能层存储系统支持配套一系列的维护工具,支撑各种维护场景的易维护能力;5.4.1.面向AI全流程的存储优化设计AI全流程一般包含数据归集、数据预处理、模型训练、推理应用四大阶段;其中模型训练阶段要充分提高GPU/NPU利用率,对存储性能要求极高,训练集大多为海量小文件,在其加载时需要高IOPS,Checkpoint为大文件,在其保存和加载时需要大带宽,综合起来存储需要满足“高IOPS”、“大带宽”混合负载高性能的要求;在AI大模型的实际训练中,Checkpoint的恢复加载性能往往是个瓶颈,带宽要求很高;因为大模型训练时通常采用数据并行等并行计算的方式训练模型,训练数据集可分批加载,Checkpoint保存时多个数据并行域中仅需保存一个Checkpoint,而断点续训时,需要将Checkpoint加载到每个数据并行域,因此需要比较高的带宽来降低等待耗时;在以Transformer架构为基础的大模型推理应用中,解决长序列场景下的显存瓶颈与重复计算问题成为提升推理效率的主要挑战,KVCache持久化是外置存储优化推理效率的核心技术之一,需要构建以KVCache为中心的推理资源池,大幅降低大模型推理过程中的首Token时延以及增大推理并发;存储资源池面向AI场景的特点,需采用一下几点技术加速大模型应用:1、数控分离架构,降低数据读写时延,全面提升AI集群可用度:传统数控一体架构训练数据集加载、CKPT处理等混合高负载IO频繁经过CPU处理,性能瓶颈严重;采用数控分离架构,CPU仅处理控制命令流,如训练数据集加载、CKPT读写命令,避免成为写入瓶颈,DPU、SSD盘处理CKPT等数据流,直通到盘,避免无效数据迁移和格式转换,避免算力等待;2、采用数据内核直通技术:数据读写内核态直通存储,动态策略走BIO(BufferIO)或DIO(DirectIO)路径,进一步缩短IO路径,达成极致性能;3、采用智能缓存技术:数据缓存使用内核态PageCache,提供高效内存流动,减少50%内存占用;5.5.RoCE高速网络建设内容网络总体设计:AI大模型集群网络架构的总体规划遵循“分区+分层+分平面”的设计理念;分区是指按照业务特点和安全要求划分不同的业务区域,各区块间通过核心交换机连接在一起,不同类型的流量,通过VRF进行隔离;分层是指根据网络平面特点采用“Spine-Leaf”两层扁平架构;分平面是指采用AI样本网络平面、业务平面、管理平面等分离的设计方法,各自独立组网,根据各平面业务特点进行可靠性和性能规划;同时避免了各类网络之间的竞争和由此产生的拥塞,从而提高提高系统的可扩展性、安全性和可维护性;5.5.1.样本平面网络设计样本面承载了计算集群和存储阵列间的模型加载、训练数据集读取,checkpoint写入等流量,其网络设计需要同时考虑AI服务器的端口需求和存储针对对带宽和吞吐的需求;网络设计:推荐采用Spine-Leaf结构2级架构组网;样本面承载了计算集群和存储阵列间的模型加载、训练数据集读取,checkpoint写入等流量,其网络设计需要同时考虑AI服务器的端口需求和存储针对对带宽和吞吐的需求;网络设计:推荐采用Spine-Leaf结构2级架构组网;网络设计:智能无损网络推荐采用Spine-Leaf结构2级CLOS架构组网,RoCEv2流量不跨POD;Leaf和Spine之间采用Fullmesh全连接,实现网络负载均衡和高可靠性;根据业务要求定义Leaf上下行收敛比,典型推荐值为存储Leaf1:1,计算Leaf1:1;Spine采用独立部署方式;5.5.2.业务平面网络设计业务网络采用大二层架构,业务汇聚交换机做网关;业务汇聚交换机和业务接入交换机成对部署,两台业务汇聚交换机之间运行M-LAG协议;业务接入交换机两两之间也运行M-LAG协议;AI计算服务器、存储服务器、通算服务器的2个业务网口就近上连至一对业务接入交换机;网络设计:拟采用Spine-Leaf结构2级架构组网;业务面网络链路连接要求如下:每台计算服务器出2个25G接口(服务器数量8+8台),全闪/混闪存储共2个节点,总共出(28)*2个25G接口,配置2台业务接入交换机,下行的25G接口足够满足使用,上行双100G到Spine;5.5.3.管理平面网络设计智算中心内设备数量较大,对设备的访问控制授权、操作记录均需要借助带外网管来完成,建议部署专用带外管理网络,为网管数据建立独立通道,使用专用网管通道实现对网络的管理,将网管数据与业务数据分开;这样可以作为网络管理备份逃生平面(带内管理网络不通时,可通过带外网络登录设备进行管理和运维);网络设计:推荐采用Spine-Leaf结构2级架构组网;管理面网络链路连接要求如下:每台计算服务器出2个GE接口(服务器数量8+8台),全闪/混闪存储共2个节点,总共出(36)*2个GE接口,推荐配置4台千兆交换机,下行的GE接口足够满足使用,上行双10G到Spine;5.6.安全建设内容本次项目建设两台防火墙,用于医院内网与数智平台之间的访问控制,堡垒机与数据防泄漏、网闸等安全产品利旧现网资源;5.7.专业服务建设内容5.7.1.规划设计实施服务本次项目提供规划设计实施服务;面向数智平台提供工程勘探、规划设计、工程安装、部署实施、集群测试和验收测试服务;工程勘探:在工程开工前,根据工程设计的要求,由工程师深入现场进行实地全面详细的交付详勘,收集信息,为工程设计提供准确的数据和基础资料;这一服务旨在确保工程设计的准确性和可行性,同时为工程实施提供必要的技术支持和指导;规划设计:指针对数智平台内进行设计以及对应的实施方案设计及评审、验收方案设计及评审;设计包含组网设计、机房机柜Layout设计、设备连线规划、软件部署方案设计、IP规划设计;实施方案设计包含主要包含数智平台实施进度计划、里程碑、过程监控、质量管理、安全管理等、确保数智平台实施方案的可靠、可行性;验收方案设计包含:根据验收标准,制定验收测试方案及用例;工程安装:主要包含安装前准备、设备运输&开箱验收、接地线&电源线&信号线安装、硬件安装检查&上电前检查,设备上电;部署实施:主要包含设备的硬件压测(AI服务器节点)、软件部署、测试;硬件压测主是通过工具对AI服务器节点进行硬件压测,可以测试硬件健康状态,AI处理器网口连通性和带宽是否正常,能够提前发现硬件问题,减少后续单机和集群测试出现问题的概率;软件部署是指根据实施方案设计对AI服务器进行部署,包含软件和工具部署准备、服务器OS部署、网卡环境依赖安装、基础软件安装;集群测试:包含AI计算节点内集合通信测试、模型训练测试、性能测试、稳定性测试等内容,保证集群的持续稳定运行;验收测试:指在软硬件已经部署、调测并完成集群测试后,在业务上线前,根据合同验收内容,联合进行验收测试,以便确保科研平台是否满足合同规定的需求;5.7.2.AI开发支持服务服务1.提供数据治理(含清理、标化、质控)服务2年,其中相关专家现场服务共45人天;服务团队成员均为资深工程师,拥有统计学、医学信息学相关专业研究生及以上学历,对前沿技术有深入理解;在大数据治理领域积累了至少3年的实战经验,涵盖各种类型医疗数据清理、标化、质控等多个关键环节;支撑医学中心开展数据治理工作,包括但不限于各类医疗数据的清理、标化、质控等工作;服务2:提供人工智能及模型开发支持服务2年,其中AI专家现场服务共60人天;服务团队成员均为资深工程师,拥有计算机科学、软件工程、人工智能及机器学习相关专
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年政府专职消防员入职考试复习参考题库及答案(共50题)
- 食品营销单招题库及答案
- 2025年日语在线模考题库及答案
- 急性心肌梗死合并心源性休克治疗方案解析2026
- 2025年冕宁综合知识试题及答案
- 水泥运输合同范本6
- 往届口腔单招试卷及答案
- 婚礼微电影合同范本
- 干性坏疽疼痛护理与评估
- 出售原始房屋合同范本
- 配电线路及设备运检课件
- 2025秋教科版(2024)小学科学二年级上册(全册)课时练习及答案(附目录)
- 《自然语言处理理论与应用》全套教学课件
- 学堂在线 社会研究方法 章节测试答案
- 小儿急性胰腺炎课件
- FZ-T70018-2023针织服装理化性能的要求
- 中国人民银行数字货币研究所2024年度公开招聘工作人员笔试备考题库及答案详解一套
- 《MCGS组态控制技术》完整全套教学课件
- 2025公司级安全教育培训考试卷测试题(含答案)
- 经空气传播疾病医院感染预防与控制规范
- 【数世咨询】中国数字安全产业年度报告2025-公开版v5
评论
0/150
提交评论