学校AI及大数据算力平台建设需求_第1页
学校AI及大数据算力平台建设需求_第2页
学校AI及大数据算力平台建设需求_第3页
学校AI及大数据算力平台建设需求_第4页
学校AI及大数据算力平台建设需求_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学校AI及大数据算力平台建设需求一、项目概况(一)建设背景软件技术系作为学校的核心系部也正在朝着数字化、智慧化建设转型,如何“以适当的方式使用云计算、人工智能技术,并服务于教学”仍是当前职业教育信息化教学面临的重大挑战。随着人工智能(AI)和大数据技术的飞速发展,社会对具备相关技能的人才需求日益增长。学校作为培养信息技术领域专业人才的摇篮,积极响应市场需求,致力于提升学生的实际操作能力和创新能力。为此,建设一个高效、先进的AI及大数据算力平台显得尤为重要。(二)建设目标计划建设一套,能有效提升资源共享度、场景泛用性、AI资源的伸缩性及扩展性、服务运营流程可靠性的AI及大数据算力服务平台。旨在提升学校的教学实训、科研计算能力,并为学生提供更加真实的实践环境。细分为如下三点:(1)建设一个以云计算技术为核心的,面向实训师生服务的轻AI计算、存储平台,建设能够为教学、实验、创新、对内横向服务的云架构平台,可以通过分级分权、共享服务机制,为各专业提供共享资源。(2)所建设的算力平台需面向大数据和人工智能方向,提供融合的通用计算资源和高性能GPU算力服务,GPU资源具备灵活的调度能力,可面向学生教学和教师科研实现不同的资源切分、整合路径,完成具备AI教研实践路径的基础框架搭建。(3)算力服务平台需具备高度扩展性,未来将作为智慧教学平台的核心资源承载平台,虚拟化技术需具备泛用性,且管理以及资源调度接口需面向应用平台开放。(三)总体要求计划建设一套,能有效提升资源共享度、场景泛用性、AI资源的伸缩性及扩展性、服务运营流程可靠性的AI及大数据算力服务平台。旨在提升学校的教学实训、科研计算能力,并为学生提供更加真实的实践环境。二、采购项目清单及要求(一)采购清单序号名称数量单位1算力平台高性能GPU资源子节点2套2算力平台高性能GPU资源中心节点1套3AI算力管理调度平台1套4万兆交换机1台(二)技术参数序号采购内容技术参数数量单位1算力平台高性能GPU资源子节点1.AI子节点,机架高度≤4U,本国自研品牌,非OEM产品。2.配置≥2颗可扩展处理器,CPU主频≥2.1GHz,核心≥32个,TDP≤270W。3.配置≥512GBDDR5内存,单条内存容量≥32GB,ECC,≥5600MHz,最大支持32个或以上内存插槽。4.配置≥2块960G企业级SSD硬盘,配置≥2块3.84T企业级SSD硬盘。5.支持≥24块2.5或12块3.5寸SAS/SATA硬盘,支持≥16块NVMeSSD硬盘或E3.S。6.配置≥5块优于或相当于NVIDIAL2048GPCIeGPU卡。7.配置≥1张RAID卡(含超级电容),高速缓存不低于2GB,RAID控制卡支持RAID0/1/5/6。8.配置≥2个万兆网口,配置≥4个千兆网口。9.配置≥2张双口HDR200GHCA卡。10.支持虚拟机集群部署。11.支持服务器全方位性能监控,包括CPU利用率、CPU温度、内存使用率、SWAP使用率,内存及SWAP使用明细;TCP重传率及套接字个数;UDP连接数;文件句柄使用率及文件句柄数;硬盘读写次数及读写时速率;出入风口温度;风扇转速及风扇占空比;分区使用率及分区未使用量;网络发送速率、接收速率等,运行时长、系统进程数等。12.支持BMC/BIOSflash(ROM)硬件冗余、升级失败后自动回退或切换至另一片Flash启动。13.板载BMC管理模块,对外提供1个1GbpsRJ45管理口,支持Redfish、SNMP、IPMI2.0等标准接口;支持远程管理界面,提供全面的故障诊断、自动化运维、远程管理的功能。14.配置≥4个2200W铂金电源,配置风扇模块,最大支持3000W80Plus铂金/钛金电源。15.配置4根200GAOC有源线缆,可支持200Gb/SInfiniBandHDR和200GbE以太网系统。16.提供≥3年硬件维保服务。17.含耗材及设备安装调试。2套2算力平台高性能GPU资源中心节点1.AI中心节点,机架高度≤4U,本国自研品牌,非OEM产品。2.配置≥2颗可扩展处理器,CPU主频≥2.1GHz,核心≥32个,TDP≤270W。3.配置≥512GBDDR5内存,单条内存容量≥32GB,ECC,≥5600MHz,最大支持32个或以上内存插槽。4.配置≥2块960G企业级SSD硬盘,配置≥2块3.84T企业级SSD硬盘。5.支持≥24块2.5或12块3.5寸SAS/SATA硬盘,支持≥16块NVMeSSD硬盘或E3.S。6.配置≥4块优于或相当于NVIDIAL2048GPCIeGPU卡。7.配置≥1张RAID卡(含超级电容),高速缓存不低于2GB,RAID控制卡支持RAID0/1/5/6。8.配置≥2个万兆网口,配置≥4个千兆网口。9.配置≥2张双口HDR200GHCA卡。10.支持虚拟机集群部署。11.支持服务器全方位性能监控,包括CPU利用率、CPU温度、内存使用率、SWAP使用率,内存及SWAP使用明细;TCP重传率及套接字个数;UDP连接数;文件句柄使用率及文件句柄数;硬盘读写次数及读写时速率;出入风口温度;风扇转速及风扇占空比;分区使用率及分区未使用量;网络发送速率、接收速率等,运行时长、系统进程数等。12.支持BMC/BIOSflash(ROM)硬件冗余、升级失败后自动回退或切换至另一片Flash启动。13.板载BMC管理模块,对外提供1个1GbpsRJ45管理口,支持Redfish、SNMP、IPMI2.0等标准接口;支持远程管理界面,提供全面的故障诊断、自动化运维、远程管理的功能。14.配置≥4个2200W铂金电源,配置风扇模块,最大支持3000W80Plus铂金/钛金电源。15.配置一台光交换机:可提供≥40个口200Gb端口。每个端口具有完整的双向带宽。16.配置4根200GAOC有源线缆,可支持200Gb/SInfiniBandHDR和200GbE以太网系统。17.提供≥3年硬件维保服务。18.含耗材及设备安装调试。1套3AI算力管理调度平台1.支持虚拟机房功能,通过Kubernetes命名空间与网络策略实现多租户隔离的虚拟机房。2.支持自定义机房镜像、环境资源配置及开放时间策略。3.平台可在2分钟内完成100台虚拟机批量创建,支持实时展示所有虚拟机状态,提供一键启停所有虚拟机器的能力,并支持远程接入任一虚拟机操作系统进行操作。4.支持统一镜像仓库管理,采用Harbor或兼容OCI标准的仓库服务作为统一镜像后端,支持私有与公有仓库的统一接入与管理,内置CentOS、Ubuntu、Windows、JupiterNotebook、WebIDE、PyCharm等丰富的基础镜像,并支持用户自定义镜像构建、定时快照保存及版本控制。5.支持全方位查看镜像环境的资源配置与使用情况,涵盖IP地址、内存容量、CPU核心数、GPU型号与数量、硬盘容量及使用率等关键指标,实现资源使用情况的透明化监控。6.支持灵活设置用户镜像保留时长,提供一个月、一学期、一年等多种预设周期及自定义时长选项;支持基于策略的自动化虚拟机房镜像清理,可联动租户资源配额进行智能清理,确保存储资源的高效利用与成本优化。7.支持集群节点纳管,能够无缝整合并高效利用现有资源,动态扩展算力池。支持对节点运行状态、容器组分布及元数据进行全面管理,提供从基础设施层到应用层的多维度监控。配备直观的图表可视化看板,至少涵盖CPU使用率、GPU使用率、CPU平均负载、内存使用量、磁盘空间、IOPS、磁盘吞吐量及网络流量等核心指标。8.支持容器组管理,以KubernetesAPIServer数据源,支持查看容器组ID、IP地址、容器总数、运行中容器数等核心信息,并支持深入查看容器组下各容器的详细信息,包括容器名称、ID、归属用户、所属节点、运行状态及更新时间。9.提供完善的存储管理功能,采用容器存储接口(CSI)标准,支持以用户为单位进行存储空间的精细化划分与配额管理,支持实时查看存储节点的已用空间与总空间;支持存储卷的统一管理,包括存储卷名称、所属用户、所在主机、存储卷大小等信息的展示,并提供标准接口供上层应用调用。支持多种持久化存储方案,包括分布式文件存储、对象存储、NFS共享存储及本地存储,满足不同场景的存储需求。10.支持全面的实例生命周期管理,提供直观易用的图形化用户界面,方便用户编辑实例信息,并执行启动、重启、停止与删除等操作。11.支持图形化用户界面能够清晰展示实例的详细信息与运行状态,包括健康状态、实例名称、IP地址、宿主机信息、镜像信息、申请人信息及在线时长等。12.支持灵活配置容器实例的持久化时长、持久化存储大小等关键参数,满足不同业务场景对实例数据留存和存储容量的个性化需求。13.提供强大的数据集管理功能,内置基于Web的文件管理器,支持文件及文件夹的创建、删除、重命名、在线编辑和权限设置等操作。支持文件批量上传与打包下载,允许用户根据需求灵活创建和管理数据集。平台支持数据隔离与安全协作,并能将数据集便捷地挂载到容器实例中供应用使用。14.支持全面的日志审计功能,详细记录实例生命周期操作、用户操作行为及平台运行日志,支持通过日志查询与追溯用户的各类操作,便于进行安全审计、问题排查与合规管理。15.支持精细化的实例网络访问策略功能,深度集成Kubernetes网络策略,实现基于命名空间和Pod选择器的L3/L4层网络隔离与访问控制,支持多租户环境下的网络隔离与策略管控,确保集群内部不同租户间的网络安全,实现对实例进出流量的严格管控。16.支持GPU设备虚拟化功能,实现GPU设备的共享与资源隔离,支持根据使用率与显存进行精细化算力调度与管理,并兼容本国GPU设备。提供可视化界面,实时展示各节点上的GPU使用情况,包括计算能力、显存分配与使用等关键信息。17.提供标准化API接口,所有功能均通过标准化的RESTfulAPI暴露,便于与上层应用(如用户门户Portal、CI/CD流水线系统、教学系统等)进行高效集成与调用,免费技术支撑业务校方系统对接服务。18.平台须支持任意界面一键开启API调用请求实时查看功能,能够在产品页面直接显示调用的API,并可根据API请求类型进行分类查看,提高二次开发效率。19.具有资源编排功能,能够支持可视化方式和编排语言两种方式。通过资源栈模板,定义所需的云资源、资源间的依赖关系、资源配置等,可实现自动化批量部署和配置资源,轻松管理云资源生命周期,通过API和SDK集成自动化运维能力。20.平台可以创建AccessKey,为第三方系统提供安全的对接访问。21.含平台部署。1套4万兆交换机1.交换容量≥2.56Tbps/23.04Tbps包转发率≥360Mpp。2.Console口≥1个,管理用以太网口≥1个,USB口≥1个。3.前面板业务端口:≥24个1/10GSFPPlus端口。4.输入电压:交流额定电压范围:100V~240V,50/60Hz,直流额定电压范围:-48V~-60V。5.功耗(静态)AC:≤17W,DC:≤16W;功耗(满负荷)AC:≤67W,DC:≤68W。6.工作环境温度:0℃-45℃。7.工作环境相对湿度(非凝露):10%~90%。8.含耗材及设备安装调试。1台三、交付使用要求1交付使用期合同签订后90天内2交货地点用户指定地点。四、包装、运输及到货检验1货物为原厂商未启封全新包装,包装箱内应有下列随箱资料:产品合格证(包括出厂试验数据)、产品使用说明书、随箱清单等。2中标供应商负责所有设备从出厂到安装现场的运输。3双方将依据有关规定,对到货的规格、数量等进行检验。中标供应商应对其全部产品、零件、配件、介质造册登记,并与装箱单对比,如有出入应立即书面记录,由中标供应商解决,如影响安装则按合同有关条款处理。登记册作为验收文档之一。五、质量要求1中标供应商必须有完善规范的工作流程、详细的设备交货/项目实施进度表,有专业的工作小组。2如果设备运输和安装调试过程中因事故造成货物短缺、损坏,中标供应商应及时安排换货,以保证合同设备安装调试的成功完成;换货的相关费用由供应商承担。3中标供应商必须严格按照技术规格来组成系统;设备清单和数量必须满足招标方对系统及设备的全部技术和功能要求;项目设备安装和调试时,不能缺少的一切附属配件和零星工程,亦应由投标中标商考虑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论