AI基础架构平台建设方案_第1页
AI基础架构平台建设方案_第2页
AI基础架构平台建设方案_第3页
AI基础架构平台建设方案_第4页
AI基础架构平台建设方案_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AI基础架构平台建设方案技术创新,变革未来主要内容企业客户需要的AI能力浪潮商用机器有限公司的AI解决方案GPU服务器应用场景与实践参考AI平台工作流和数据流数据抽取构建模型数据准备训练模型评估部署使用模型定价监控业务分析师数据工程师应用开发开发运维数据科学家开发运维AI生命周期的完整管理数据导入训练监控超参搜索资源调度AI平台化挑战,需要全栈考虑端到端环节数据源新数据数年的数据g,.10 x推理训练过的模型部署训练完成的模 型在生产环境几秒获得结果2,.5秒,准实时训练数据集测试数据集几个星期几个月50%,.g0%迭代模型的构建、训练、优化AI 深度学习框架(Tensorflow & Caf

2、fe)监控建 议测试评估分布式 & 弹性的深度学习井行超参搜索与优化网络模型超参数几天 几个星期速度、效率传统业务系统数据清理和预处理IoT & 传感器合作伙伴的数据移动应用和社交 媒体历史数据数据准备沉重的I/OCPU处理强大的 计算力 GPU计算力和I/O主要内容企业客户需要的AI能力浪潮商用机器有限公司的AI解决方案GPU服务器应用场景与实践参考IPS(Inspur Power Systems), 浪潮商用机器有限公司合资共建 融合优势销售和技术服务品牌及研发核心技术方案一致的研发标准平滑的升级路线一致的供应链体系一致的体系架构一致的认证标准一致的质量要求体系架构与IBM同源相通国产化优

3、势本地化体系想你所想产品解决方案定制化, 更有针对性急你所急智能制造 品质一流, 交付更快速持续提供更多价值免你所忧技术支持覆盖广泛 专业 完备,服 务响应更及时供你所需迁移方案更平顺40层主板设计,保障高速信号传送稳定检 系统双时钟 电源时序信号冗余设计检 选择低功耗器件,提升零件可靠性检 合 理的元器件布局,提升散热效率检 20 倍故障隔离寄存器,智能检测机制检 定制企业内存,更多热备内存颗粒使用寿命22年的高可靠性刘扇钢金属片导热材质,提升导热效率抗硫化电阻提升阻容器件使用寿命可靠的架构体系增强系统安全性设计支持多种国际标准和中国政府认证支持国产和符合商用密码证书的外置硬件 安全模块(H

4、SM) 产品内置Meltdown和Spectre固件补丁自主研发,极致设计,国际品质保障浪潮信息化高端装备智能制造生产基地,位千济南孙村浪潮科技园,主要由柔性自动化生产车间 智能立 体化仓储 全球质量监测品控中心等组成,实现了大规模定制化生产模式,是一座集自动化 模块化 智 能化 数字化 精益柔性制造千一体的智能模范工厂,产能 效率 质量 交付均处千较高水平。Inspur有业界领先的质量管理体系和物流体系,质量管理设置有洹温洹湿压测中心,辅以可调节稳压供电 系统 智能洁净温控系统 自动转运系统,全面管控保障产品质量;丰富多样的物流体系应对各类需求, 按需支持。柔性自动化生产车间智能立体化仓库全

5、球质量监测品控中心智能物流中心本地生产交付,智能制造,品质一流Inspur Power 家族明星产品K1Power S922据、深度学习等多种应用场性能优异,支持性能异构FP5466G2FP51g0G2FP546gG2纵向扩展,关键应用的领跑者最新的POWER9技术业界最高 RAS 能力面向企业多样化的业务需求提供针对数据和认知的基础架构服务构建优异性价比的稳定多云基础架构K1 Power E950K1 Power S924K1 Power S914K1 Power E9g0面向企业数据密集型关键业务及私有云应用场景SpectrumScaleGPFSCephSwifHDFSIPS AI方案概要

6、FP52g0G2FP5295G2FP5466G2AI服务器P52g0G2P5295G2P5466G2AI服务器行业合作&一体化方案医疗机场&安防教育金融互联网更多的合作行业合作& 一体化方案机场&安防疗教育金融互联网更多的合作FP52g0G2高性价AI服务器 平衡型存储服务器 通用 型服务器机器学习深度学习 推理生产服务器2U空间,2xP9 CPU,支持4个T4 或 Vl00 GPU,支持2080Ti GPU,PCIe 4.0FP5295G2高性能旗舰AIHPC服务器深度学习 高性能训练服务器2U空间,2 x P9 CPU,支持4个Vl00 GPU (唯一全NVLink ),PCIe 4.0F

7、P546gG2高性价AI服务器 平衡型存储服务器 通用 型服务器机器学习深度学习 推理生产服务器4U空间,2xP9 CPU,支持8个T4 或 Vl00 GPU,支持2080Ti GPU,PCIe 4.0FP5466G2高密度大容量存储服务器分布式存储4U空间, 2 x P9 CPU,最大支持40块3.5 寸硬盘,总容量高达480T,PCIe 4.0AI/HPC软件堆栈AI:平台WMLWatson Machine LearningHPC StackxCaLSF Spectrum MPIISV AI解决方案AI/HPC软件堆栈AI平台WML(Watson Machine Learning)HPC

8、Stack(xCat LSF Spectrum MPI)ISV AI解决方案分布式存储软件堆栈xSKYUMStorAS13000)分布式存储 软件堆栈xSKYUMStorAS13000Spectrum Scale(GPFSCeph Swift HDFSFP546gG2面向关键计算、智慧计算时代的 POWER9!#$%&() + !#$%& ,()-./01() + -./02()家族l4nm2H172H1gPOWER9 家 族 4nm2H17 - 2H1gPOWER7+ 32 nm2H12POWER8 家族 22nm1H14 - 2H16POWER7 45 nm1H10POWERl0 家族20

9、20!03 .4-/55-6789 /:4 ,(), + /:4 1(),%; + 2%;面向异构加速的Open POWER9处理器性能优势单核线程数4 : 2L3高速缓存ll0MB : 38.5MB2.9xNVLink 互连GPU带宽300GBs : 32GBs9.4x单处理器内存容量2TB : l.5TB1.3xCAPI连接IO设备延时0.36s : l3s1/36IO总线带宽l92GBs: 96GBs2x2xWatson Machine Learning (WML) 软件框架Deep Learning Impact (DLI) ModuleData Model Management ET

10、L Visualize AdviseIBM Spectrum Conductor with SparkCluster Virtualization Dynamic Resource Orchestration Multiple Frameworks Distributed Execution EngineSourceLarge Model Support (LMS)Distributed Deep Learning (DDL - l000s of nodes)Auto Hyper-parameter TuningPowerAI VisionAuto-DL for Images VideoLab

11、elTrainDeployAccelerated ServersStorageH2O Driverless AIAuto-ML for Text Numeric Data NLPImportExperimentDeployWML CE: Open Source ML FrameworksDistributed Deep Learning (up to 4 nodes)深度学习、机器学习框架为OpenPOWER服务器优化分布式深度学习加速库为大模型的加速库(LMS)机器学习加速库(SnapML)预编译快速搭建AI运行环境支持Conda、Docker部署Large Model Support(LM

12、S)大模型支持Traditional Model Support有限的GPU显存导致模型尺寸和数据精度的妥协Large Model Support利用系统内存配合CPU支持更复杂模型、更高精度的数据LMS打开了GPU显存限制!LMS配合NVLink发挥最大性能!LMS使能单GPU跑大模型:?:?,#$%& ()*+,+-$.+)/ 0 1.$#.2% .+(3454 (+/2.3678 63-)/*69:1 %$#$(3.3# .2/+/; (+/2.36=AB0C DCEF ;GH$I$JB$G% B$;0A8K;EL0 B$;0A ICG; 1M NO!0B B P,Q1 G% RST S

13、-NPK U 2KPOWER9 NVLink 2.0拥有更好的LMS性能POWER9 with 4 GPUs is 2.1x faster than x86 with g GPUs:Distributed Deep Learning (DDL)深度学习训练时间从几天降到几周WML with DDL 可支持扩展到几百个GPUs,高达95%的加速比SnapML 分布式GPU加速机器学习库Kaggle的调杳显示,数据科学家仍然主要依赖机器学习算法金融行业使用场景参考:预测信贷违约:比scikit-learn快23x加快信用卡欺诈检测模型训练:32x faster than TensorFlow 12

14、.5xfaster than scikit-learn预测股票波动率:from l0-k textual reports 35x faster than Apache Spark46x基千Google广告点击 率预测模型,Snap ML: 训练时间从l.l小时降 到92秒WML-A 超参搜索四种可选的优化策略选择多种神经网络优化方法对不同的超参设置一个范围对超参搜索任务所需GPU资源的设置对超参搜索任务并发度的设置对超参搜索任务执行时间的设置Elastic Distributed Training (EDT)多种资源调度策略可选有效利用GPU CPU资源EnvironmentTwo (2) P

15、OWER8 servers with four (4) GPUsEight (8) GPUs totalPoliciesFairsharePreemption(抢占)PriorityTimelineT0 - Job l starts uses all available GPUsTl - Job 2 starts Job l gives up four GPUsT2 - Job 2 priority change Job l gives up GPUsT3 - Job l finishes Job 2 uses all GPUsCDC7CBC数据准备/处理数据集分布杳看导入数据-多种数据格式支

16、持AI Vision 视频分析解决方案Learning models APIPowerAI VisionAI Foundation for visionVideo InsightsEvent detection Behavior analytic Object searching .EnterprisesystemsVideo management system, camerasvideo streamsevent, msg, managementRecognitioncapability enhancement withNew scenarios new situations video c

17、lips, or imagesEnable fast AI development for enterpriseInference APIdeploymeon clouddeployment on cloudInferenceEnterprise R&DEnterprise DATAEnterprise Production EnvironmentAI ExecutionAI in data centerAI in edgeDatalabelingDataPreprocesinglabelingPreprocessingDataTrainingPowerAI Vision: Developme

18、ntPipelineData Lake Data StoresContainer Cloud with GPUML DL Libraries FrameworksPowerAI Accelerated ServersStorageAI acceleratorgeneration for edge机场、安防、零售、医疗 WML offerings 总结Deep LearningMachine LearningWML CEWML-AAI VisionH2O Driverless AI方案描述Machine and DeepLearningMachine and DeepLearning(企业级)D

19、eep Learning with Videotools (Auto-DL)Auto-ML场景文本 数值YesYesNoYes影像YesYesYesNo视频-Optional add-onYesNo主要角色数据科学家数据科学家业务部门数据科学家次要角色ITITIT业务部门用户所需技能高中或高低低或中优势高性能 快速部署企业特性 高性能 快速部署快速部署 简单半自动化 图形化 高性能简单直观的界面,模型的“可解释性”,端到端自动化平台DDLl-4 nodesl-thousands of nodes即将支持-LMSYesYes即将支持-SnapMLYesYesCWSDLI(EDTEDIGUI)可选

20、包含可选DSX Local可选可选可选云ICPYes即将支持Yes即将支持WML-A平台企业级的特性7#O4特性快速获得结果更高的准确性提高资源利用率企业级安全性简化管理#:(!#$%&,)VVVMM#(-./02()VV:%E#(S-N)V超参搜索与优化VV8M#(S-N)VVWML在OpenPOWER服务器上的优势服务器优势CPUMEMPCIe 4.0NVlinkCAPI机器学习性能约是x86的 l.l7Xl.4lX深度学习性能是x86的 l.35X2X深度学习性能是x86的 3.8X (LMS)深度学习性能是x86的 2.3X (DDL)分布式存储是x86的 l.75l.99XTCO节省

21、 20%&.%6E00*3F3G)%3#5+(5-)(0G+/2H)/%)I3#0%3#,-)G0%3#,-)GJ(G*G0AI平台优势DDL 95%的加速比(占优)LMS大模型支持超参搜索功能大数据分析关联生态EDT动态资源共享调度,多租户支持(占优)Snap ML机器学习加速,46XAI vision,影像自动化打标签功能(独有)AI vision,FPGA AISC自动化优化功能(独有)端到端,SparkDLMLAuto DLAuto ML(独有)图形化管理界面&.%6E006.$-#363$#-&5-)(0/3I60BD7K0DL07M0NO:7KD4DL主要内容企业客户需要的AI能力

22、浪潮商用机器有限公司的AI解决方案GPU服务器的应用场景与案例实践参考支撑全球HPC Top500排名第一系统的计算节点4608个计算节点,9 2l6颗 POWER9 CPU每秒 20亿亿次计算250PB 存储容量计算节点之间数据传输可达每秒 25GB27 648个 NVIDIA Tesla GPUSummit系统上部分应用参考本科 智能科学与技术课程体系教学-实验环境建设-课程资源数学类基础课程: 概率论,线性代数, 数值分析,离散数学专业核心课专业基础课无人驾驶类综合实践课机器学习类深度学习类智能家居类计算机类基础课程:计算机原理,操作系统,计算机网络 数据结构,程序设计人工智能导论(32

23、课时) 机器学习(64课时)python编程基础(32课时)python数据分析(4g课时) 神经网络与深度学习(64课时)计算机视觉(4g课时) 自然语言处理(4g课时)语音处理技术(4g课时)知沪库与知沪图谱(4g课时)专业选修课建立智慧安全校园CameraVMS重要地点的拥挤排队报警NVIDIA Jetson TX2 Module分析存储视频搜索人物 分析热力图PowerAI Vision重要资源监控 教室 实验室等边 缘 设 备某高校管理学院AI项目客户需求某高校管理学院实验室需建设一套大数据AI平台,用千教学和科研通过此平台实现对健康医疗 金融 能源环境 营销等各大行业的 数据分析处

24、理,为学院教学 科研 实验提供基础架构平台解决方案2台FP5295G2,每台配置2*l6C POWER9256GB4*Vl00(l6G)WML-CE方案价值POWER9平台计算能力和带宽给客户带来强大的计算力独有的全NVLink互联,突破CPU-GPU传输瓶颈WML-CE预编译的开源框架,帮助客户简化部署IPS与高校构建人工智能教育实验室,支持专业开展教学与科创活动IBM IPS与北京理工大学就培养方案 课程体系以及三方合作模式达成协议在北京理工大学,举行签约和人工智能实验室揭牌仪式完成培养方案里相关课程的教学内容与教学计划的制定,并完成人工智能训练营的学生选拔工作基千课程体系,开设面向高年级

25、本科生的AI训练营,并完成课件内容教学IBM IPS与北京理工大学合作开展师资培训,将课程体系向其他高校进行推广AI案例与实践宽带安装复核(目标检测&OCR)金融单据字符沪别 (OCR & NLP)晶元瑕疵检测(目标检测&分类)视频中的物体沪别(目标检测)AI案例与实践铁路部件质检(目标检测)误停机风险分析(用户画像)卫星图像缺陷检测(目标检测)股指期货预测(时序数列处理)某机场视频分析AI项目客户需求预计五年后,年客运量达到l30M,但机场管理人员仅3000人左右需基千AI的视频分析系统,降低成本与改善运营,首期包括寻人 拥挤排队分析 零售数据分析 停机坪管理等l2个业务场景,未来 预计扩大

26、到l0倍的业务场景解决方案36台AC922FP5295G2(4xVl00) + PowerAI Vision定制化集成服务,提供视像分析应用系统的设计 供应 交付与 安装,以及后期的技术支持与维护服务方案价值端到端解决方案,集成AI后端不同的系统强大的研发团队直接支持整个项目 全球前沿合作伙伴生态PowerAI Vision Auto DL能力,结合AC922(FP5295G2)服务器 的强大处理能力算法和摄像头松紧耦合了解详细信息,Tech Owner:薛松 l330lll6253 xuesong某安防领域案例:AI 需要高性能高井发的文件系统支撑方案概要GPFS 作为分布式文件系统存储总容

27、量:提供92TB+7.5T 可用存储容量 配置方案: 4台 Inspur OpenPOWER(l.92 TB*24 SSD+960GB*2),两副本。方案优点方案成熟:GPFS软件经过20年的迭代,成熟稳定,被全球各大 超算中心采用,目前全球排名第l 2名的超算中心,均用 GPFS+POWER CPU作为分布文件系统。性能卓越:GPFS软件的分布式设计,自身没有性能瓶颈,可完 全发挥低层硬件性能,结合OpenPOWER强劲的性能,一台服 务器可以支撑更多的客户端访问。可靠性:无单一故障点 在线软件升级 在线硬件更换 多分 拷贝 远程容灾服务:原厂的实施和培训1.75,.1.99倍提升4kl6k

28、 randwrite 延迟 l0ms500Ms读,470Ms写使用GPU服务器迎接HCLS的挑战基因分析分子动力学医疗影像PN精准医疗3$G.&-$#3 Q 9+,3 1-+3/-3大 规 模 数工 作 负 载数 据 生 命生物信息学需要GPU优化解决现有应用的性能问题0生物学数学计算机生物信 息学生物信息学(+)+/,)#($.+-6)利用应用数学 信息学 统计学和计算机科学的方法研究生物学的问题。生物 信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的 搜索(收集和筛选) 处理(编辑 整理 管理和显示)及利用(计算 模拟)。SS维基百科序列比对

29、序列组 装 基因识别 基 因重组 蛋白质结 构预测 基因表达 蛋白质反应 进化0演化 变异OI$ 6$(.)G6 %+-$#* PCT 3*.)G6 -,.)G6 F-,.)G6 U$6.VW :2G.+VW XRY基因组 转录组 蛋白组 染色体 基因后缀树算法 1(+.&JI$.3#($/局 部比对算法 *3/)F)组装算法 贝叶斯 最大似然 支持向量机 1X: Y$+#J:隐形马尔科夫 模型 :高斯混合模型 R: 期望最大化算法 动态规划算法某医院肺结节&乳腺钥靶智能检测客户需求根据互联网医疗联盟,医疗影像数据年增长率为63%,放射科医生 数量年增长率仅2%,放射科医生供给缺口很大医学专业

30、人员数量的不足及繁重的工作导致误诊漏诊率偏高影像科医生读片速度有限,传统的方法需耗费医生3至5个小时解决方案FP5280G2(lxVl00)+PowerAI EE医准智能检测系统方案价值肺结节:l8秒智能检测300-500张CT,3mm以上结节检出率99%, 假阳性率平均每个患者2个以内乳腺铝靶:全国首个乳腺智能检测系统,病灶检出率93%,l个假阳 性前提下,良恶性准确率94%自动生成结构化图文报告,一键推送至PACS报告系统,自动生成BI-RADS分级和报告文本了解详细信息,Tech Owner:孙建 l85ll095l27 sunjianbjS4Y2 基因测序:6E0% -G30C服务器的

31、优异表现ZS0C;L$%0 示例)Power服务器是众多数据库的优选平台DBMSRelational DBMySQLPostgreSQLIBM DB2MariaDBSQLiteInformixDocument DBKey-Value DBGragh DBOracleMongoDBRedis(Instant Client)MemCached Neo4jColumnar DBMemory DBGPU DB来源:https:enrankingSAP HANAAltibaseCassandraMariaDB IBM DB2 BLU ColumnStorePostgreSQL PG-StromMapD OmniSciKineticaBlazegraphBlazingDBZILLIZYaspeed雅捷OpenPOWER上运行PG-Strom优势FP5295G2PowerGPU优势高性能服务器:2* POWER9 处理器 4*NVIDIA GPU NVLink 2.0互联Power9 CPU大缓存与高内存带宽: 保障数据库高并发和快速响应能力NVLink 2.0连接Power GPU 带宽达l50GB 可倍增PG-Strom性能特性结合PG-st

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论