人工智能与物理计算综合平台项目需求_第1页
人工智能与物理计算综合平台项目需求_第2页
人工智能与物理计算综合平台项目需求_第3页
人工智能与物理计算综合平台项目需求_第4页
人工智能与物理计算综合平台项目需求_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能与物理计算综合平台项目需求一、需实现的功能或者目标;功能:(1)满足人工智能、大数据、动漫与视频制作、计算物理、光学、材料科学等教学与科研需求,同时融合现有设备系统,支撑大语言模型训练及物理学科大模型算力需求;(2)打造“高共享、高利用率、高效率”的多学科交叉平台,促进学校教学改革与科研成果转化,培养学生创新实践能力,服务区域产业发展;(3)推动与企业、科研机构合作,提升学校区域影响力与社会服务能力;二、需执行的国家相关标准、行业标准、地方标准或者其他标准、规范;采购标的需符合相关行业的相关要求;1)本次采购的设备应符合本章第三项中所要求的参数及性能要求;同等条件下,性能高者优先采购;2)本次采购的设备必须是成熟的、合格的产品,能满足人工智能、计算物理等领域教学科研对算力、显存、并行计算等关键指标的需求;三、需满足的质量、安全、技术规格、物理特性等要求;编号设备/项目名称技术参数1高性能大模型训练设备8U机架式设备系统:1、CPU:≥Intel(R)Xeon(R)Platinum8558*2;2、内存:≥64GBDDR5-4800*32;3、硬盘:≥3.84TB/2.5寸/NVME*1;15.36TB/2.5寸/NVME*2;4、电源:≥钛金3000W双输入交流电源*6;5、GPU显卡:配置8张一体封装模组GPU显卡,单卡GPU算力节点:FP32计算性能≥0.5petaFLOPS;TF32计算性能≥7.9petaFLOPS;FP16TC计算性能≥15.8petaFLOPS;FP8TC计算性能≥31.6petaFLOPS;GPU算力节点显存≥1128GB(提供原厂产品白皮书);GPU算力节点的GPU之间高效互联,GPU点对点的实测互联带宽数据≥780GB/s;单卡内存带宽≥4.8TB/s,TDP≥700W;6、网卡:配置≥1张10Gb双光口网卡(含2个10Gb光模块),配双口千兆RJ45网卡;7、阵列控制器:配置NVMEVROC模块,支持NVMERAID0/1/5/10;8、PCIe插槽:满足但不限于8个双宽x16插槽PCIe5.0,4个单宽x16插槽PCIe5.0,1个OCP3.0网卡专用插槽和1个阵列卡专用插槽;9、硬盘槽位:最大支持24个热插拔硬盘槽位,支持8个NVMe硬盘,支持板载M.2接口≥2;10、接口支持:≥5个USB接口,≥2个VGA接口,支持后部独立的管理端口;11、满足系统支撑与承载的配套设备,如主板、机箱、显示器、散热器、键盘及鼠标等;12、正版的操作系统、GPU驱动和加速库、远程连接和管理工具;13、主流厂商品牌机,不接受拆改配;2管理与应用系统一、集群管理功能1.支持容器及镜像的全生命周期管理,可对GPU、CPU集群进行统一管理和调度,实现资源的高效分配;2.具备多数据中心管理能力,允许用户根据需求选择特定数据中心的资源进行使用;3.集成多种深度学习框架(如TensorFlow、PyTorch等)及科学计算工具链(如CUDAToolkit、OpenMPI、GPU版VASP、LAMMPS等),支持用户进行AI模型开发、训练及高性能科学计算(如分子动力学模拟、材料模拟);同时支持自定义环境扩展,管理员可配置C/C++编译器、MPI库、GPU加速科学软件等环境;4.提供多样化计费模式及完整的计量计费功能,管理员可对GPU、CPU、内存等资源设定费用标准,并根据用户实际使用时长进行计费;5.可实时监控集群中GPU服务系统及GPU卡的运行状态与资源使用情况,包括GPU总数、使用数、核心平均利用率、显存平均利用率等关键指标;6.支持多台服务系统的GPU卡资源统一纳管与分配,可按GPU型号进行分组,当用户指定特定GPU卡时,能从对应资源池调度资源;7.支持单机单卡、单机多卡、多机多卡等资源分配-模式;提供单GPU卡多任务共享、GPU切割(vGPU)功能,提升GPU资源利用率;8.支持组织及用户优先级设定,管理员可对用户配置1-5级优先级,优先级高的用户可优先调度资源;9.允许用户按需申请深度学习环境,如科学计算环境,可指定计算类型(如AI训练、CUDA开发、分子动力学模拟、材料计算)、软件栈(如PyTorch2.0、VASP6.4-GPU、LAMMPS-GPU、CUDA12.x)、网络模型、GPU型号/数量及CPU等资源,并支持动态调整环境配置;10.集成JupyterLab,支持AI相关数据集成至Jupyter环境,提供一键添加代码和数据集功能,支持在线编程及部署;同时支持通过SSH访问环境,可使用PyCharm、VSCode等工具或命令行(如nvcc、mpirun)开发/调试CUDAC/C++程序、提交VASP/LAMMPS任务;11.支持通过Web及Shell提交训练任务,用户可实时查看任务运行结果;12.具备分布式并行训练功能,支持TensorFlow、PyTorch及科学计算软件(如VASP、LAMMPS)的多节点GPU加速任务,集成Horovod、Ray及MPI库(OpenMPI/MVAPICH);用户可动态申请跨节点GPU资源,系统自动配置多机通信环境(如RDMA网络);13.支持科学计算任务的全生命周期管理,用户可通过Web或Shell提交VASP、LAMMPS等作业,指定GPU卡数、MPI进程数、线程数等参数;系统自动生成任务脚本并调度资源,实时监控任务状态与GPU/CPU利用率,任务结束提供性能分析报告;二、数字孪生与桌面管理1.具备算力资源调度、桌面环境构建及软硬件设备维护能力,可满足个人桌面使用需求;2.支持桌面环境申请功能:管理员可开放桌面模板,用户登录后可查看面向其开放的所有模板,提交创建申请时可指定使用起止时间、预使用时间段及桌面数量;3.提供实验室线上开放功能:可指定开放的可用时间段、开放对象,支持按日、周、月设置重复开放计划;可通过指定对象或生成邀请链接确定开放范围,并支持对已开放实验室执行暂停、取消开放操作;4.支持管理员自定义桌面申请自动审批策略,可配置自动审批通过的时间范围、可用时间段及桌面到期回收策略等,减少人工操作;当自动审批不通过时,可开启手动审批流程;三、资源融合与调度1.支持工作站授权管理,实现异构资源的融合调度及多模态大模型融合驱动;2.构建分级分域的用户管理体系,提供集群整体运维、运营情况的数据看板,优化传统集群管理方式;3.可对多种不同硬件进行融合管理与调度,支持接入多个异地计算中心实现统一管理调度,计算中心可弹性扩容,具备不少于100个算力服务器节点并行纳管能力;4.具备实例创建功能:在实例创建界面可选择算力型号、所需算力数、主机(含主机名称/ID、算力型号、最高CUDA、CPU/内存分配、空闲磁盘、空闲算力、单价等信息)、数据盘、自定义服务端口,支持无卡模式开机及镜像选择;同时支持根据算力型号、空闲算力卡、主机选择实例,可配置数据盘容量及自定义服务端口;5.支持弹性部署功能:通过系统创建部署界面,可选择GPU型号、GPU数量、内存大小范围、CPU核心数量范围等配置;四、开发与数据支持1.提供系列开发工具,包括JupyterLab、实例监控等,支持通过RemoteSSH技术使用VSCode、PyCharm等工具远程开发,助力用户最大化利用系统性能;2.支持数据存储与管理功能:可通过网络存储、用户存储、网盘客户端管理数据集,网盘客户端可接入主流云盘,支持用户通过网络云盘传输数据进行作业;3.预装基础训练数据集及工具:图像部分需预装部分公开数据集,如交通、医疗等数据集,但不限于此,以满足训练需要;光学模拟部分需提供基准数据生成工具(如Fourier仿真或自编程脚本);五、镜像与模型支持1.云镜像仓库中部署的镜像数量不低于30个,涵盖以下类型:-热门类:包括但不限于AI绘画、大语言模型、知识问答、视频生成、数字人、面部替换、语音合成、训练模型、视频剪辑、问答、图像转3D、图像描述、声音克隆;-多模态类:包括但不限于大语言模型、数字人、AI绘画、知识问答、视频生成、语音合成、声音克隆、训练模型、图像描述;-计算机视觉类:包括但不限于图像转3D;-语音类:包括但不限于语音合成;-自然语言处理类:包括但不限于问答;-科学计算类:包括但不限于CUDAC/C++开发环境、GPU版VASP、GPU版LAMMPS;-其他类:包括但不限于面部替换、视频剪辑;2.支持主流大模型及科学计算镜像创建实例,从开机到运行时间、访问实例响应时间、输入问题回答响应时间均需满足高效性;3.提供多种类型及多个版本的科学计算框架,包括但不限于Miniconda、Torch、TensorFlow、Jax、PaddlePaddle、TensorRT、Gromacs、Jittor、GPU版VASP、GPU版LAMMPS等,提供可运行的Python环境及多版本CUDA、CUDAToolkit(支持C/C++GPU编程)、OpenMPI、GCC多版本等即时可用的容器运行时;4.环境采用Docker+Conda双层隔离机制,对预装模型/工具进行容器化部署,确保CUDA开发环境与科学计算软件(如VASP/LAMMPS)互不干扰、独立运行;每个环境需附带完整的Dockerfile或environment.yml文件,支持后期扩展与复现;5.模型调用接口标准化,统一通过RESTAPI或PythonSDK接口调用,科学计算任务支持通过SSH命令行提交(如mpirun执行LAMMPS);6.建立JupyterHub多用户系统,支持多用户同时使用相关开发环境;扩展支持SSH直连访问,允许使用VSCode/PyCharm开发CUDAC/C++程序或调试VASP/LAMMPS任务;六、开发流程与日志审计支持1.平台需自动记录每一次用户任务执行日志,包括:用户身份、调用镜像、输入参数、资源申请情况(GPU、CPU等);执行时间、失败/中断信息、警告信息等;所有记录需保留≥180天,可导出CSV或JSON;2.平台需支持训练任务中途崩溃自动保存日志及缓存,可手动恢复断点;3.管理端提供作业运行统计报表模块,支持按用户/模型/时间段生成月度报告(支持图表);4.建议提供AI助手界面,用户可通过问答交互快速了解任务调度方式、常见镜像使用方法(如ChatBot接入文档);七、系统性能要求1.支持不少于500个并发用户登录,从点击登录按钮到进入主界面的平均响应时间不大于3s;2.系统各功能按钮(如数据概览、云镜像仓库、控制台、帮助文档等)的切换响应时间均小于500ms;八、管理与运维1.配置≥1Gb独立远程管理控制端口,具备虚拟KVM功能,可实现与操作系统无关的远程完全控制服务器;提供统一管理软件,支持在同一管理界面进行多点管理;2.支持GPU服务器及节点的运行状况、资源使用情况监控,包括但不限于节点负载、资源分配状态等;3.支持带外升级功能:不依赖操作系统,可通过BMC界面带外升级BIOS、BMC版本,支持一次升级多个部件固件(如网卡、存储卡等),无需多次操作;4.支持通过外接USBWIFI模块提供无线热点,允许使用手机或便携机直接登录服务器管理平台,配合移动端APP实现移动运维和巡检;3集成与配套含42U机柜及配套布线、安装、调试与集成,以及所需耗材;1.机柜承重要求:42U机柜需支持≥800kg静态承重,具备前后门可调结构,支持标准19英寸设备安装,配置滚轮与刹车;2.布线系统:配套光纤与千兆铜缆应符合TIA-568标准,配备线缆整理槽、标签标识、预留≥20%扩容空间;3.安装调试责任划分:设备厂商负责完成整体上架、连线、首次上电、系统初始化与GPU驱动配置,需提供详细调试记录;4.集成商需提供项目计划书(含施工进度、时间节点),并在完工后提交《交付验收报告》《运行测试报告》《三方签字文档》等相关文件;四、数量、采购项目交付或者实施的时间和地点;1、交付清单:编号设备名称/支出项目单位数量1高性能大模型训练设备台12管理与应用系统套13集成与配套套1本项目实施期限为合同签订后40天内;2、基本要求:1)合同生效后40天内完成到货、安装、调试、验收完成;2)包装要求:负责设备分解,按国际设备有关包装标准及要求进行包装,若在运输过程中因包装而引起的设备腐蚀、剥落、碰损等造成的一切损失将由承担责任;3)运输方式:铁路、公路、船运、航空运输均可;3、软硬件交付1)应保证用户在使用提供的货物或其任何一部分时不受第三方提出侵犯专利权、商标权或设计权的指控;如果有第三方提出侵权指控,须与第三方交涉并承担可能发生的一切法律责任和费用;2)系统内所提供设备必须是或生产厂家最新改进、原装成熟软件、硬件产品,没有设计、材料或工艺上的缺陷,并且是全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论