版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AI模型时代的多模态AlexChen阿里云智能集团-研究员2026中国AI支出占亚太的58%2026年亚太地区AI支出5年复合增长24.5%2026中国AI支出占亚太的58%2026年亚太地区AI支出5年复合增长24.5%*Source:IDCWorldwideArtificialIntelligenceSpendingGuide,2023GPUGPU495TFLOPS144TBMem1EFLOPSDPU2x200GRDMA32Core•算力:模型计算量增长68倍GPT-3(175B)GPT-4(1800B)模型参数350GB3.6TB计算量314ZFLOPS21500ZFLOPS•单个样本的数据量(Token)大幅增加单个样本的单个样本的Token量GPT-32049GPT-3.54096GPT-4-8k8192GPT-4-32k32768GPU显存几乎没有变化,GPU单卡的算力只增长了3倍显存大小显存大小80GB80GBA100/A800H100/H800156TFLOPS459TFLOPSCPU卡计算量InitializetrainingInitializetrainingListfilesindatasetandshufflePrepareMP&PP发Repeat(foreachbatch):ReadfileforthebatchTrainingAllreduceCheckpointifnecessary模型切片到GPU卡上分布式计算•每个iteration结束时利用高速网络在所有GPU上allreduce•GPU卡规模越大,对高速网络、可//迭代多轮iteration//读取一批数据用于训练//所有GPU同步模型参数//周期性checkpoint//随机打散数据//规划模型并发,流水线并1b1b模型切片,加载到GPU模型并行GPT-4(1800B)•算法工程师要经常检查模型质量,如果学习率不够就要利用checkpoint回溯、参数调优后再继续训练CPUGPT-3(175B)模型分片CPUCPUCPU数据分片Backall-reduce1)数据shuffle、切片2)读取数据集分片4)all-reduce,更新模型参数5)周期性生成checkpoint数据并行iterations3)SGD………………CPUs…CPUsstatestatestate……CPUs statestatestate………CPUs…文件类型5B数据量250TB,涉及文件数约100亿•每个GPU32路并发读•集群并发读6百万QPS文件类型(以200B参数、2064卡为例)•模型文件:16x8GPU节点,128个3GB文件,约384GB•优化器状态文件:2048GPU的zero优化器状态,2048个1.2GB文件,约2.4TB•大块写模型文件,16个GPU节点30秒写完模型文件,单节点写吞吐1GB/s•每张GPU卡单路大块写优化器状态文件,2048卡并发写总带宽48GB/s•每张GPU卡单路大块读模型文总带宽60GB/s………………某客户的视频推理存储性能需求………………某客户的视频推理存储性能需求帧特征x2 平均汇合视频特征z全连接层类别预测图像分类模型删除小文件第2帧读取小文件读取文件第T帧帧特征xT视频图像分类模型图像分类模型checkpoint大块顺序读写,低延时和高吞吐集群并发读,需要具备最高百GB/s吞吐能力需要具备超过50GB/s吞吐能力CPFSClientElasticFileCPFSClientElasticFileClientElasticFileClient文件锁服务数据服务文件锁服务数据服务文件锁服务数据服务文件锁服务数据服务全分布式架构布式CPFSElasticFileClient单集群最大支持2TB/s吞吐,3000万IOPS万卡万卡GPU集群....CPFS....ElasticFileClient元数据缓存AI应用/PAI-DLC、TensorFlow、PyTorch多链接多链接元数据缓存高性能文件存储分布式数据读缓存GPU服务器GPU服务器ElasticFileClient计算服务OSS数据湖存储海量数据的存储成本优化最低0.75分/GB/月CPFSCPFS文件系统OSS数据变动在CPFS中分钟级可见度冷归档高质量的数据是高质量的数据是模型迭代的核心及最后修改时间等条件设定,快速完成Bucket的文件扫描•实现秒级文件名模糊搜索、数据筛选等能力•提高数据扫描与管理效率支持Object粒度的搜索与聚合秒级返回结果秒级返回结果存储类型、读写权限、文件名、上传类型、最后修改时间、文件大小、对象tag、对对象存储OSS元数据管理库频具有内容语义描述能力的原子标签对视频描述能力不足原子标签对视频描述能力不足堆叠标签数量无法满足业务需求小孩吃苹果精确过滤等多种模态搜索模式精确过滤等多种模态搜索模式以文搜图、视频、以文搜图、视频、文本、语音统一查询接口(SQL)通道引擎通道引擎(CDC)智能媒体管理智能媒体管理大规模向量索引流式构建快速实现增删改查功能大规模数据低延迟查询大规模向量索引流式构建快速实现增删改查功能大规模数据低延迟查询ProxiamProxiamSEProxiamDE云原生分布式大规模向量的高性能、相似性搜索面对非结构化数据提供高效的向量管理和相似向量查询功能支持百万量级TopK向量召回支持多类目召回实现了对大数据的高性能相似性搜索与存储原生集成与存储原生集成支持多模态内容审核场景化构建元数据管理快速实现应用FPGA硬件实现多种格式社交图库社交图库对象存储OSS索引聚类故事生成文件解压缩数据处理工作流数据管理与索引多媒体处理引擎应用层的创新生产效率的提升应用层的创新生产效率的提升SecOps为了调查Case,需在百TB数据中抽丝剥茧智能运维模型指标异常检测、智能运维模型指标异常检测、日志文本智能分词Trace链路高延时诊断智能问答分析运维场景多模态数据人工辅助微调人工标注、结果打标修正模型根据人工反馈自动微调通用模型灵活扩展基础模型开箱即用快速扩容和服务迁移时序/链路异常检时序/链路异常检测NL2SQLTrace基础模型trace探测导致Trace高延时或错误的服务关联Log/Trace/Metric,探测导致Trace高延时或错误的服务关联Log/Trace/Metric,自动检测根因游戏服务系统调用、依赖关系复杂,任何阶段出问题都可能导致游戏操作失败或卡顿,影响玩家用户体验根据服务中的Trace数据自动生成拓扑图围绕高延时分析、高错误率分析、系统热点和瓶颈进行分析和诊断缩短问题处理时间,优化系统延时在海量Trace中快速定位异常根因和性能瓶颈无需人工干预,提高大规模分布式系统异常定位效率数千请求秒级定位根因,在生产中准确率达95%预测微服务系统的性能瓶颈将Trace聚合,找到Trace的Pattern快速找到相同错误类型的报错多共出现2880次占100.0%最高,其中共出现2892次占99.0%在根因分析结果中,方法POST/payment-共出现2892次占99.0%SLSMall共有12个服务,45个入口接口,在在根因分析结果中,主机pay-ment-5b7dBd684b-zjtzv出现比例最高,其中共出现2892次占34.0%1EFLOPS大规模1EFLOPS大规模高性能网络高性能低成本存储GPU495TFLOPS组织:优化数据治理,改善数据质量,提高访问效率收集:构建AI基础设施的可观测数据资源池,简化数据访问洞察:智能化诊断,实现高效的问题定位以数据为基础在线转码在线转码数据准备/分析/标注数据准备/分析/标注–模型持久化对象元数据HDFS对象元数据模型训练与部署模型训练与推理文件存储CPFSPOSIX/MPI-IO/NFS应用与内容生成权限管控协同编辑深度优化发布服务深度优化发布服务完整覆盖AI标注、开发、训练、推理一体化全链路的AI工程平台,全面提升行业、产业落地的三个效率模型选型模型选型效果验证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《齐白石》教案-2025-2026学年赣美版小学美术四年级下册
- 世界环境日主题活动总结(32篇)
- 2025-2026学年广西壮族自治区桂林市高三考前热身化学试卷(含答案解析)
- 某水泥厂生产计划管理准则
- 非遗花灯LED灯光改造实 用指南:传统技艺与现代技术的融合实践
- 某石材厂资源利用细则
- 2026年碳中和旅游路线设计与实践路径
- 一例白内障超声乳化术患者围手术期护理个案
- 正压送风设施检修维护保养管理制度
- 温湿度监控记录表
- 2026北京西城区教委所属事业单位招聘359人(第二批)笔试参考题库及答案解析
- 2026贵州省农业发展集团有限责任公司招录(第一批)岗位65人农业笔试备考题库及答案解析
- 2026届百师联盟高三下学期考前适应性训练(一)语文试题+答案
- 江苏工程技术资料TJ全套表格
- 2026广西南宁昇智人力资源服务有限公司第14期招聘3人备考题库(南宁市青秀区自然资源局)及答案详解(历年真题)
- 行政事业单位会计监督制度
- 北京市安全生产风险管理实施指南
- 蚊虫科普教学课件
- 中级注册安全工程师《化工安全》历年真题(2021-2025)
- 基因测序技术质量控制:全流程管理方案-1
- 2025年下半年湖北武汉市江汉区招聘社区网格管理员招考易考易错模拟试题(共500题)试卷后附参考答案
评论
0/150
提交评论