OrionX AI 算力资源池化解决方案技术白皮书

上传人：媚*** IP属地：境外上传时间：2024-04-17 格式：DOCX 页数：49 大小：3.46MB 积分：12 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

OrionXOrionXAIOronA算力资源池化解决方案发布时间：2021年11版权所有©北京趋动科技有限公司2021电话：010-地址：北京市海淀区中关村大街1目引 GPU资源池化技术的演 OrionX产品概 OrionX产品优 OrionX软件架 OrionX的逻辑架 OrionX的功能组 OrionX OrionXServer OrionXClient OrionX OrionX组件间通管理平数据平部署形 OrionX与容器云平台集 OrionX与Kubernetes集 OrionX与KVM集 OrionX与VMware集 OrionX应用场 OrionX支持大模型场景的典型应通过“化零为整”功能支持训通过“隔空取物”功能支持训 OrionX支持小模型场景的典型应通过“化整为零”功能支持推通过“隔空取物”功能支持推 OrionX支持大/小模型场景的典型应通过“随需应变”功能支持训练/推通过“任务队列”功能支持训练/推理任务自动排通过“抢占”功能支持任务抢占资通过“显存超分”功能支持多任务叠加常通过“双类资源池”功能支持物理/虚拟切性能测测试环测试结兼容性列功能与版图表目图表1-1全球人工智能市场规模走势图表2-1GPU资源池化技术演进图表3-1ORIONX架构图表5-1ORIONX逻辑架构图表5-2管理平面逻辑结构图表5-3数据平面逻辑结构图表6-1ORIONX与容器云平台集图表6-2ORIONX和KUBERNETES集图表6-3ORIONX和KVM集图表7-1通过化零为整功能支持训图表7-2通过隔空取物功能支持训图表7-3通过化整为零功能支持推图表7-4通过隔空取物功能支持推图表7-5通过随需应变功能支持训练/推图表8-1模型推理测试结图表8-2模型训练测试结 OrionXOrionXAIPAGEPAGE1引十四五”德勤在2020上半年发布的《全球人工智能发展白皮书》预测数据表明：2025年世界人工智能市场将超过6万亿美元；中国人工智能核心产业规模到2020年将增长至1600图表1-1全球人工智能市场规模走势AI市场中的重要组成GPU、FPGAAI加速器市场发展也随之水涨船高。根据IDC中国加速计算市场报告，预计2021年人工智能加速服务器市场规模将达到56.92020年增长61.6%，到2025人工智能加速服务器市场将达到亿美元，其五年复合增长率为25.3%与此同时，由于缺乏高效经AI算力资源池化解决方案，导致绝大部分企业只能独占式地使用昂贵的AI算力资源，带来居高不下的AI算力使用成本OrionXOrionXAI22持，用户不得不修AI应用以适应不同厂AI算力硬件。这会加AI应用开发部署复杂性、提高AI算力投入成本并导致供应商锁定。GPUGPUGPUGPU，每个vGPUAI模型对任意虚拟化GPUAI应用个性化需求的vGPU。远程调用AI应用与物理GPUGUIGUIGU资源。资源池化。形成GU资源池后，需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时，也需要提供北向I，与数据中心级的资源调度平台对GUOrionXOrionXAI图表21GPUOrionX趋动科技的OrionX（猎户座）AI算力资源池化解决方案已经实现了上述四个阶段的技术功能，可以为用户提供GPU资源池化的整体解决方案。OrionX帮助客户构建数据中心级AI算力资源池，使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之AI加速器。OrionX不但能够帮助用户提高AI算力资源利用率，而且可以极大便利用户AI应用的部署。图表3-1OrionXOrionX通过软件定义AI算力，颠覆了原有的AI应用直接调用物理GPU的架构，增加软件层，将AI应用与物理GPU解耦合。AI应用调用逻辑的vGPU，再由OrionX将vGPU需求匹配到具GPU。OrionXGPU资源池化，让用户高效、智能、灵活地使用GPU资源，达到了降本增效的目的。OrionXOrionX通过构建GPU资源池，让企业内的AI用户共享数据中心内所有服务器上的GPU算力。AI开发人员不必再关心底层资源状况，专注于更有价值的业务层面，让应用开发变得更加便捷。OrionX产品有如下优势：物理GPU利用率。GPU3-10倍，1N损耗小于2%。vGPU支持从单台到整个数据中心GPU服务器纳管，轻松实现GPU资源池的横RDMA（IB/RoCE）TCP/IP网络连接各个节点，实支持AI负载与GPU资源分离部署，更加高效合理地使用GPU提供GPUGPUAIAIGPU/CPU配比和多机多卡模型拆OrionXOrionX的逻辑架一个典型的OrionXGPU资源池的逻辑架构中包含OrionXController（OC、OrionXService（OSSRuntime（OCRTOroX的各功能组件可以根据用户环境需求被部署在单服务器上，也可以被分布式地部署GU全局共享的计算资源，对I应用提供可远程访问的、可灵活切分的、可聚合的弹性GPUOroX图表5-1OrionX架构CUDA(ComputeUnifiedDeviceArchitecture)是由Nvidia公司定义且公开推广、维护的一种GPU编程接口。从2007年推出之后，经过十几年生态培育，已经成为GPU编程的一个事实标准。大部分流行的AI框架，例如TensorFlow、PyTorch、MXNet和都是基于CUDAOrionX在管理物理GPUCUDAAI应用提供一个与NvidiaCUDASDK接口功能一致的运行环境AI应用透明无感知地运行OrionXGPU资源池之上。OrionX不仅在单服务CUDA标准接口，并且通过分布式部署各功能组件，能够提供分布式的CUDA运行环境。OrionX的功能组OrionXOrionXControllerGPU资源池的核心管理调度模块，其他所OrionX的功能组件都直Controller资源池的统一管理以及资源调度IPGPU信息、虚拟GPU信息以及应用OrionXGPU资源池可以只部署一OrionXController。为了OrionX的可靠性，可以进行2+1冗余备份。OrionXController提供如下功能：弹性虚拟GPULicense提供运维所需要的各种RestAPIOrionXServerOrionXServerService发现并管理物理节点上GPU资源，同时把GPU的计算能力OrionX的高性能私有协议提供给数据中心内的各个物理节点，以及各个物理节点上的OrionXServerService部署OrionX资源池内的每一个节点上，包GPU节点和应用所在的节点。OrionXServerService提供如下功能：发现和管理物理GPU把物理GPU资源抽象成弹性的vGPUAIGPUOrionXClientOrionXClientRuntime是一套兼NvidiaCUDA编程环境的运行环模拟CUDA的运行时接口。当AI应用在使用NvidiaGPU进行计算的时候，会自动调用OrionXClientRuntime。由于OrionXClientRuntime提供和NvidiaGPU兼容的CUDA接口，因此应用无需修改，可以透明无感知地运行在一个虚拟的GPU环境下。OrionXClientRuntime部署在每一个应用环境下，替代原有NvidiaCUDASDK。OrionXClientRuntime提供如下功能：CUDA自动完成虚拟GPUOrionXOrionXGUI给运维提供一个友好的GUI界面，方便管理员对OrionX整体资源池进行全面管理。OrionXGUI提供如下功能：OrionX组件间通OrionX的各个功能组件通过管理平面网络和数据平面网络GPU资源池的管理以及GPU资源的调度等功能。在部OrionX时，使用基TCP/IP网络的管理平面，来承载整个系统的管理工作。通过管理网络，分布在各个节点的功能组件都保持和OrionXController同步。管理平面逻辑结图表52OrionXController在应用运行的过程中，应用所在环境和GPU物理节点之间的数据传输使OrionX的数据面。该数据面支持多种后端数据传输载体，包括TCP/IP以太网络、RoCERDMAInfinibandRDMA、ShareMemory支持虚拟机、容器和宿主机之间的TCP/IP图表5-3平面逻辑结OrionX的各个组件，支持直接部署在裸金属服务器上，即安装操作系统后，直Binary形式部署，也支持容器化部署。OrionX具备适配多种Linux操作系统和云平台的能力，因此，OrionX具有多样化的部署形式。OrionXCentOS、Ubuntu、DebianLinuxKVM的虚拟机云平台和基于Docker的容器云平台。尤其是支持原生容器，并实现了和Kubernetes的平OrionX与容器云平台集OroX支持原生容器，各个组件都可以通过容器镜像方式部署。在容器环境中，客户只需要使用OrnXOroXGUOrionX的容器部署方式，将GPUDrivers、CDUA、CUDNN和NCCL等软件栈都下沉到宿主机上内部只需要安装OrionXClientRuntime和机器学习AI大大简化了客户算法工程师运维、管理AI图表6-1OrionX器云平台集OrionXKubernetes集OrionX为Kubernetes提供两个插件，实现与K8S的集成对接。集成后，系统管理员只需要在K8S中，即可完成对GPU资源池中vGPU资源的配置和调度管理。并且，允许系统软件定义的数据中心OrionX为KubernetesOrionXKubernetesDeviceOrionXControllerOrionXGPU通过Kubernetes定义的DevicePlugin标准向Kubernetes注册名字为/gpuOrionXKubernetesScheduler提供基于HTTPAPIK/gpu的资源敏感字，使其指向OrionKubernetesSchedulerExtender的HTTP服务地址。图表6-2OrionXKubernetes集OrionXKVM集OrionX支持原生KVM，各个组件都可以通过Binary方式部署。在KVM环境中，客户使OrionX组件的安装脚本，就可以完成OrionX的基础部署，轻松实现GPUOrionXKVM部署OrionXControllerOrionXServerServiceBinary方式部署在宿主机OrionXClientRuntime部署在VMGPUDriversCDUACUDNN和NCCL等软件栈都下沉到宿主机上。这样，VM内部只需安装OrionXClientRuntime和AIAIKVM的云平台OpenStack，OrionX提供全开放RestAPI接口Nova件对接，实现GPU资源池中的vGPU资源在OpenStack图表6-3OrionXKVMOrionXVMware集vSphereGPU通过直通方式全部透传给一VMVMOrionXController和OrionXServerService组件，即可轻松实现GPU资源池化。该VM上或者其他VM上的AI应用即可通过OrionXClientRuntime组件调用虚拟GPU资源，大大简化GPU资源在vSphere环境中的分配难度，提高GPU资源的调度效率。图表64OrionXVMwareOrionXOrionX支持大模型场景的典型OrionX支持将多台服务器上的GPU提供给一个虚拟机者容器内的基于分布式训练框架（HorovodDistributedDataParallel）AI应用无需修改代码。GPU资源聚合后提供给单一虚拟机或者容器使用。“化零为整”支持训练等大模型场景，为用户的AI应用提供数据中心级的海量算力。Hrovod是UerHrovd本扩大规模，使其仅用几行thon代码就可以在跨设备的多个GU上运行。一旦配置了Hrovosrlw、rc、XNetDistributedDataParallel(简称DDP)是PyTorch自带的分布式训练框架,支持多机多卡和单机多卡分布式训练DDPDataParallel，可以通过提batchsize来增加并行度DDP通过Ring-Reduce的数据交换方法提高了通讯效率，并通过启动多个进程的方式PythonGIL图表7-1化零为整功能支持明地使用其他服务器上的GPU资源，该虚拟机或者容器内的AI应用无需修改代码。通过这个功能，OrionX帮助用户实现了数据中心级GPU资源池，实现了AI应用和GPU物多个GPU卡完成训练任务。“OrionXOrionXAI图表7-2隔空取物功能支持OrionX支持小模型场景的典型资源。作为AI算力资源池平台，OrionX可以从算力和显存两个维度，切分GPU。支持将OrionX支持将一块物GPU细粒度切分成vGPU，然后分配给多个虚拟机或者容器。每一块vGPU的显存和算力都能被独立设置和限制。通过这个功能，用户可以高效地共享GPU资源，提高GPU利用率，降低成本。算力切分的最小颗粒度为原物理GPU算力的1%；显存切分的最小颗粒度为1MBOrionXOrionXAI图表7-3化整为零功能支持明地使用另一台服务器上的GPU资源，该虚拟机或者容器内的AI应用无需修改代码。通过这个功能，OrionX帮助用户CPUGPU资源的解CPUGPU需要双向平衡的推理场景下，OrionX可以更好的平CPUGPU资源的分配，减少短板资“GUGU资源间的OrionXOrionXAI图表74OrionX支持大/小模型场景的典型应过这个功能，OrionX帮助用户实现GPUGPU资源调OrionXvGPU资源按需分配、随用随取，最大限度的利用算力资源。不论是大模型训练，还是小模型推理的环境中，用户都可AI模型需求，动态的调整算力资源大小，而无需重启挂载vGPU的虚拟机/容器。OrionX支持vGPU资源预留模式和获取模式：预留模式：和使用物理GPU类似，客户申请的vGPU是独占的，不可被其他用户才锁定到具体的物理GPU，一旦AI应用结束，物理GPU资源及时释放。OrionXOrionXAI图表7-5随需应变功能支持训练/推当请求GU/UOronX支持任务排队能力。OrnX会将任务放入等待队列中，直到队列中前面任务跑完，可调度OroX允许对任务进行队列优先级预设，一旦资源缺乏导致任务进入等待队列，按照优先图表7-6随需应变功能支持训练/推上述“任务队列”中，OronX允许对某些任务赋予抢占属性，一旦资源不足导致任务进入oX通常推理任务为满足最佳用户体验，会将推理模型常驻显存，4小时不中断，以便拥有最，OrionX在逻辑上扩大GPU显存的承载容量，从而支持多个常驻显存的长尾任务叠加在同一个物理GPUGPUGPU闲置算力。根据业务特点，OroX还支持不同任务设置不同优先级，从而保证突发高优先级任务的服图表7-7随需应变功能支持训练/推AI任务由于程序本身自有的特殊性，需要直接使用物NativeGPU资源，OrionX支持同时纳管OrionXGPU（即经过OrionX池化管理的GPU，可以被虚拟化为多个VGPU，和NativeGPU（即原生GPU，不会被虚拟化。OrionX能够在一个界面上方便的控制哪些GPU卡初始化上报为OrionXGPU,哪些GPU卡被初始化上报为NativeGPU。在初始化上报结束以后，依然能够灵活的OrionXGPUNative

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

OrionX AI 算力资源池化解决方案技术白皮书

文档简介

温馨提示

最新文档

评论

OrionX AI 算力资源池化解决方案 技术白皮书

文档简介

温馨提示

最新文档

评论

相关文档

OrionX AI 算力资源池化解决方案技术白皮书