人工智能教学实训综合应用平台需求说明_第1页
人工智能教学实训综合应用平台需求说明_第2页
人工智能教学实训综合应用平台需求说明_第3页
人工智能教学实训综合应用平台需求说明_第4页
人工智能教学实训综合应用平台需求说明_第5页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能教学实训综合应用平台需求说明一、建设背景与目标2024年,全国共有618所高职院校备案人工智能技术应用(服务)专业,占全国1547所高职院校的近40%;高职院校纷纷抓住“人工智能”这把打开未来之门的钥匙,从找准定位,培养人工智能产业链上的技能人才,到持续探索,应对“人工智能+”的全面来临;人工智能教学实训综合应用平台,可服务全校师生的科研任务,提供大模型训练、人工智能内容生成、图像渲染等任务;同时,可服务于电子信息专业群开设人工智能实训课程(含大数据技术、计算机网络技术、电子信息工程技术、集成电路技术等4个专业学生),预计可服务人数450人/年;二、设备清单序号设备名称数量单位1教学实训科研综合平台1套2AI计算节点12台3AI计算节点21台4存储节点1台5万兆交换机2台三、技术参数序号设备名称技术参数1教学实训科研综合平台1.总体要求:采用国产AI算法集群管理平台,面向深度学习开发场景,实现从数据管理、模型开发、模型训练、模型管理、模型测试及发布的全生命周期管理;为了保证软件的成熟度及可迭代,须提供商业版人工智能开发平台软件;2.通过容器快速创建计算环境,基于Kubernetes进行可移植容器的编排管理,计算环境隔离互不影响,内置各种AI框架镜像,例如TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet、昇思等主流框架,兼容web开源镜像和用户自定义镜像;3.环境软件应提供最近一年的版本,并可持续升级更新;4.提供集群资源统一调度,能够多用户,多作业同时运行,通过调度器来给作业动态分配资源,提供单节点单GPU,单节点多GPU,多节点多GPU以及多节点GPU,以及CPU/GPU混合的多种调度方式;5.数据管理:提供基于Web的文件管理功能,提供文件和文件夹的创建、删除、重命名、在线编辑、权限设置,提供文件批量上传和打包下载;平台提供数据隔离与协同,个人数据可通过共享提供给平台其他人员使用;平台提供模型开发时的数据加速功能,用户可直接使用远端共享存储上的文件,也可以将远端存储的文件拉取到计算节点本地参加计算,从而提升计算性能,同时减轻高并发下存储Server端的I/O压力;6.交互式开发:用户通过平台内置AI镜像或用户自定义镜像进行环境创建交互式开发环境,环境实例可以使用CPU资源也可以使用GPU资源;开发环境提供Jupyter、webshell等在线交互开发,支持对接第三方开发工具(如VSCode、PyCharm等);平台提供开发实例的持久化功能,在实例中安装的软件包在下次创建启动后可以继续使用;7.模型训练:提供基于容器的模型训练功能;对TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架,用户可自定义训练使用的框架版本,容器数量,GPU数量,内存,指定不同的GPU型号资源,并且可以实时查看训练日志,监控各容器内资源使用状况;提供AI模型的多机分布式训练,提供模板可以提交TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架的分布式训练作业;8.资源调度能力:提供任务级别的资源调度方式功能,提供指定节点、GPU型号亲和调度、数据亲和调度策略,提供用户资源配额,用户组轮询调度等策略,高/中/低优先调度、支持紧急任务调度;9.GPU利用率:为了更好的支持教学和科研,平台须提供基于web的GPU细粒度调度设置,允许多个任务指定GPU显存,调度到同一张GPU卡,GPU切分需同时支持:1)MIG模式:每张卡独立配置MIG方案;2)GPU显存切分(隔离模式):按GPU显存进行任意大小的切分,支持切分显存≥1GB;3)复用率:按GPU上并发任务个数进行配置;10.在进行训练任务时,业务应用支持资源弹性使用,用户可基于业务需求对任务进行扩缩容管理,提升GPU使用效率;11.提供大模型训练容错,平台自动检测异常训练节点、出现异常节点自动业务迁移,自动加载断点重新发起任务;12.报表统计:从集群、资源组、节点三个维度进行计算资源的性能及使用统计,包括CPU利用率、GPU利用率、CPU使用核数、GPU使用卡数信息;对集群周期内的任务情况进行统计,按任务规模和任务时长进行数量统计;用户和用户组统计周期内的资源使用明细,包括任务总量、任务总机时、任务总CPU核时、任务总GPU卡时、数据存储;13.兼容性:提供异构GPU管理,包括英伟达GPU和国产主流GPU(支持昇腾、天数智芯,燧原,昆仑芯等GPU卡)的统一管理与监控;在界面能够显示纳管的不同类型GPU型号、数量;14.提供对接多种存储系统,包括NFS、BeeGFS、HDFS等;支持通过界面配置同时对接多个存储系统;15.提供高可用:平台自动检测主备机状态及HA服务状态,当发现主机存在异常需要切换备机时,HA模块会自动切换管理服务到备机,并且在切换过程中不影响用户运行任务;16.提供自动告警功能,能够提供物理节点或容器的CPU、网络、GPU、磁盘使用的实时数据统计,达到告警阈值时自动告警;17.提供集群横向扩展:当系统出现性能瓶颈,可以通过新增节点,添加到集群中实时扩展;18.提供数据缓存加速机制,数据集可高速并行缓存到计算节点本地,并提供缓存数据的生命周期管理,支持缓存进度查看,可进行缓存数据的增量更新、手动清理等;19.提供断点续训,针对长时间多机多卡分布式训练场景的断点续训功能;在出现硬件故障或其他导致训练任务异常中断的情况下,具备在上一次训练状态的基础上继续训练的能力,避免从头开始训练;20.提供用户对大语言模型进行微调功能,支持主流的SFT任务,可以选择Full、Freeze、LoRA等多种微调方法,满足不同业务场景诉求;提供图形化界面,降低用户使用门槛;21.提供5年软件升级维护;2AI计算节点11.总体要求:机架式服务器,高度≥4U;2.处理器:配置≥两颗Intel处理器,单颗处理器主频≥2.1GHz,核数≥48核;3.内存:配置≥1TBDDR5内存,单条内存≥64GB,频率≥5600MHz,支持≥32个内存插槽;4.硬盘:支持≥12块2.5寸硬盘或24块2.5寸硬盘,支持≥8块NVME硬盘;本次配置≥2*960GSSD硬盘,≥4*7.68TNVMeSSD,配置Raid卡(含≥4G缓存);5.GPU扩展:8张GPU卡(单张显存≥48GB,带宽≥864GB/s,FP32≥91TFLOPS,FP16≥733TFLOPS),提供PCIEswitch模块,能够实现卡间的P2P通讯;6.网卡:≥2张双口万兆光口(含光模块),≥1块双口千兆以太网端口;7.电源:配置≥4个2000W热插拔冗余电源;8.5年原厂硬件保修;3AI计算节点21、CPU、AI处理器使用国产自研芯片;2.处理器:配置≥4颗处理器,单颗处理器主频≥2.6GHz,单颗处理器核心数≥48核;3.内存:配置≥512GBDDR4内存,单条内存≥32GB,频率≥3200MHz;4.存储:配置≥2块960GBSSD硬盘,≥4块7.68TBNVMeSSD硬盘;5.AI加速模组:配置8块AI模组卡(单颗AI处理器提供不低于32GBHBM,速度不低于800GB/S,单颗AI处理器FP16算力≥280TFLOPS,FP32算力≥75TFLOPS),提供≥4.4POPSNT8或2.2PFLOPSFP16或0.6PFLOPSFP32;6.网卡:≥4个万兆以太网端口(含光模块);7.服务器管理系统支持国产自研管理芯片;

8.支持中文BIOS界面;9.需提供配套国产AI并行计算调度框架;10.RAID:raid卡采用国产自主可控芯片;11.电源:满配冗余热插拔电源,并提供配套的电源连接线:4个热插拔2600W交流电源模块,支持2+2冗余;12.5年原厂硬件保修;4存储节点1.控制器框提供≥25个硬盘槽位;2.每个控制器均可提供NAS协议(包括NFS、CIFS以及NDMP)、不需单独NAS网关;3.支持控制器扩展,最大支持≥8控;4.配置2个控制器,控制器采用多核处理器,且单控控制器处理器核心数≥16核,CPU主频率≥2.0GHz;5.系统内总一级缓存容量配置≥128GB,且任意控制器一级缓存容量≥64GB(不含任何性能加速模块、FlashCache、PAM卡,SSDCache、SCM等);6.配置≥4*10GbpsEthernet接口(满配多模光模块),≥8*1GbpsEthernet接口;7.配置≥

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论