2025AI时代存储系统_第1页
2025AI时代存储系统_第2页
2025AI时代存储系统_第3页
2025AI时代存储系统_第4页
2025AI时代存储系统_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI需要什么样的存储系统?目录用户视角下,存储系统选型的挑战有哪些?存储系统选型中的几个难题性能、价格的取舍与平衡一个LLM案例分享什么是JuiceFS?为云设计的分布式文件系统2017年创立;开源版:易部署,好维护。2021年发布,10.7K

stars,最大文件系统超过70B

文件100PB

容量;企业版:2019

年开始服务AI

领域。GenAI、自动驾驶、量化交易、生物科技、搜广推等业务广泛使用。01

用户视角下,存储系统选型的挑战有哪些?描述存储系统时,需要精确量化的形容词我们经常用到下面这些词

描述存储系统:大规模大量,海量大文件小文件高性能快,慢……描述存储系统时,需要精确量化的形容词我们习惯于参照过往经验选择形容词,但我们需要更精确的定义。大规模:什么规模,容量,还是文件数量?大量,海量:有人说我们有大量数据,已经超过50TB;有人说我们数据不多,只有1~2PB。大文件:>1MB,>1GB,或者?小文件:<10MB,<1MB,<100KB?高性能:最玄学的环节,快,慢:关键在于和谁比?快多少?慢多少?……描述存储系统时,需要精确量化的形容词规模:要有容量,和文件数量的预期,很可能不容易准确预估,那是否需要弹性伸缩能力,扩容对业务影响的容忍度如何?文件大小:大文件(>1MB,越大越好)更需要存储系统的吞吐能力,小文件(<1MB,目前很多时候在128KB上下)更需要IOPS能力性能:主要关注吞吐(20GB/s)和IOPS(100K

QPS),要关注扩展性天花板影响性能的因素调整的难易度一个容量规划例子预期500TB容量;5亿文件规模;大文件是GB量级,小文件是100KB左右;读吞吐预估20GB/s,峰值40GB/s;写吞吐峰值10GB/s;100K

IOPS;业务可能快速增长,在容量、文件规模、性能维度都需要容易扩展。数据快速增长带来的挑战CV领域MNIST,70K

imgs,50MBImageNet,1.5M

imgs,150GBOpenImages,9M

imgs,500GBLLM领域GPT,参数110M,文本5.7GGPT-2,参数1.5B,文本40GGPT-3,参数175B,文本45TBGPT-4,参数1800B,文本1PB数据集越来越大,模型和Checkpoint

也越来越大。单机存储必须转为分布式存储,单机训练也必须转为分布式训练。复杂的数据工作流Structured

dataSemi-structured

dataUnstructured

dataParquet,

Avro,

ORC,

Lance

…Log,

CSV,

JSON

…Image,

Video,

Audio,

PCD,

PDF,Fastq,

XYZ,

Bag,

FFRecord…ingestionclean,convert10PB1~10Bexperiment,featureengineeringpre-trainingpost-traininginferenceMegatron-LMMegatron-LMJuiceFS

Unified

Storage100PB100B100TB~1PB100M~1B1~10TB10M~100M10~100TB10K~10M如何测试存储系统?功能测试基准性能测试业务负载测试,层层递进。如何测试存储系统?功能测试

基准性能测试 业务负载测试,层层递进。兼容性是容易被忽视的,pjdfstest和LTP

test是两个POSIX兼容性权威测试集;用S3FS行不行?S3

LIST

API性能比文件系统慢10x~100x倍;没有原子RENAME支持;没有追加写;没有FILE

LOCK。2022年测试结果如何测试存储系统?功能测试

基准性能测试

业务负载测试,层层递进。juicefs

bench

#最简单的基准测试,适用于所有文件系统如何测试存储系统?同样是JuiceFS为什么性能不同?请在自己的环境上测试性能功能测试

基准性能测试

业务负载测试,层层递进。juicefs

bench

#最简单的基准测试,适用于所有文件系统如何测试存储系统?要识别业务系统的I/O模式:同步I/O举例:有算法工程师喜欢用LMDB保存数据,它的读取是同步I/O模式,PageSize

4KB,所以我们读取的数据会被拆分成一连串4KB的请求,在网络存储中就会引入更多的网络开销。异步I/O举例:FFRecord是Deepseek开源的一个数据格式,它提供的SDK使用libaio读取数据,可以通过提高并发获得更高的IOPS与吞吐。随机I/O举例:Hugging

Face提供的Safetensor

SDK使用mmap方式读取数据,它会把一个大文件映射到内存地址空间后随机读取。功能测试 基准性能测试业务负载测试,层层递进。如何测试存储系统?功能测试 基准性能测试业务负载测试,层层递进。02

存储系统选型中的几个难题集中式架构与分布式架构怎么选?集中式存储架构:优势:简化管理:所有数据都存储在一个位置,便于集中管理和监控。性能:可以部署高性能的硬件来优化读写速度,如使用高速的存储设备和优化的文件系统。成本效益:对于小规模数据,集中式存储可能更经济,因为它不需要在多个节点上复制数据。数据一致性:由于数据存储在单一位置,更容易保证数据的一致性。劣势:单点故障:如果存储设备发生故障,整个系统可能会瘫痪。扩展性限制:随着数据量的增长,集中式存储可能会遇到扩展性瓶颈。性能瓶颈:在高负载情况下,单一存储设备可能会成为性能瓶颈。数据迁移困难:在需要迁移到新系统时,可能会因为数据量大而变得复杂和耗时。分布式存储架构:优势:高可用性:数据分布在多个节点上,即使某个节点失败,系统仍然可以继续运行。可扩展性:可以通过增加更多的节点来扩展存储容量和处理能力。容错能力:分布式系统通常设计有数据冗余,可以容忍一定数量的节点故障。负载均衡:请求可以分散到多个节点,减少单个节点的负载。劣势:复杂性:需要复杂的管理工具和协议来协调多个节点。数据一致性:在分布式系统中保持数据一致性是一个挑战。成本:需要更多的硬件和网络资源,可能会增加总体成本。性能问题:网络延迟和数据同步可能会影响性能。集中式架构与分布式架构怎么选?集中式存储架构:优势:简化管理:所有数据都存储在一个位置,便于集中管理和监控。性能:可以部署高性能的硬件来优化读写速度,如使用高速的存储设备和优化的文件系统。成本效益:对于小规模数据,集中式存储可能更经济,因为它不需要在多个节点上复制数据。数据一致性:由于数据存储在单一位置,更容易保证数据的一致性。劣势:存储设备发生故障,整个系统可能会瘫痪。1.2.

扩展性限制:随着展性瓶颈。3.瓶颈。4.

数据迁移困难:在需要迁移到新系统时,可能会因为数据量大而变得复杂和耗时。分布式存储架构:优势:高可用性:数据分布在多个节点上,即使某个节点失败,系统仍然可以继续运行。可扩展性:可以通过增加更多的节点来扩展存储容量和处理能力。容错能力:分布式系统通常设计有数据冗余,可以容忍一定数量的节点故障。负载均衡:请求可以分散到多个节点,减少单个节点的负载。劣势:1.

复杂性:需要复杂的管理工具和协议2.

数据一致性:在分布式系统中保持数据一致性是一个挑战。数据量的增长,集中式存储可能会遇到扩3.

成本:需要更多的硬件和网络资源,可负载情况下,单一存储设备可能会成为性能

4.单点故障:如果不适合数据量快速增长的AI业务,比如持续进行预训来协调多个节点。练、微调、对齐等;仅支持推理业务在规模上没问题,能会增加总体成本。性能瓶颈:在高但要注意多区域数据管理需求。性能问题:网络延迟和数据同步可能会影响性能。集中式架构与分布式架构怎么选?集中式存储架构:优势:1.

简化管理:所有数据都存储在一个位置,便于集中管理和监控。2.

性能:可以部署高性能的硬件来优化读写速度,如使用高速的存储设备和优化的文件系统。3.

成本效益:对于小规模数据,集中式存储可能更经济,因为它不需要在多个节点上复制数据。4.

数据一致性:由于数据存储在单一位置,更容易保证数据的一致性。劣势:1.

单点故障:如果存储设备发生故障,整个系统可能会瘫痪。2.

扩展性限制:随着数据量的增长,集中式存储可能会遇到扩展性瓶颈。3.

性能瓶颈:在高负载情况下,单一存储设备可能会成为性能瓶颈。4.

数据迁移困难:在需要迁移到新系统时,可能会因为数据量大而变得复杂和耗时。分布式存储架构:优势:高可用性:数据分布在多个节点上,即使某个节点失败,系统仍然可以继续运行。可扩展性:可以通过增加更多的节点来扩展存储容量和处理能力。容错能力:分布式系统通常设计有数据冗余,可以容忍一定数量的节点故障。负载均衡:请求可以分散到多个节点,减少单个节点的负载。劣势:复杂性:需要复杂的管理工具和协议来协调多个节点。数据一致性:在分布式系统中保持数据一致性是一个挑战。成本:需要更多的硬件和网络资源,可能会增加总体成本。性能问题:网络延迟和数据同步可能会影响性能。GlusterFS:随集群规模上升,元数据性能下降。会遇到数据一致性问题。MinIO:只提供S3

API。Ceph:RGW

是S3

API,CephFS

建议只用Single-MDS,Multi-MDS

运维难。Lustre:需要有数据副本机制的块存储系统配合使用。GPFS:整体反馈不错,单集群10PB

以上稳定性下降。JuiceFS:适合云环境,尤其多云。用户态与内核态客户端怎么选?用户态与内核态客户端怎么选?内核客户端更节省系统资源,省去内核态向用户态拷贝的开销,性能更高。用户态与内核态客户端怎么选?内核客户端更节省系统资源,省去内核态向用户态拷贝的开销,性能更高。但用户态客户端:不用编译内核模块,维护和升级更简单;有更好的隔离性,不会导致宿主机崩溃;---目前的计算范式中,算力瓶颈更明显,对存储系统的期待更多是稳定和易扩展的性能,而不是极致的性能。用户态与内核态客户端怎么选?需要InfiniBand网络么?IB网络目前多用于GPU间通信,但较少用于访问存储系统的网络;IB组网没有IP方便,网卡、交换机价格显著高于IP设备,且供应商集中,订货周期也是影响系统可扩展性的重要因素;存储集群内部有使用IB网络,但我推荐采用更加通用的硬件做存储系统;需要RDMA通信么?RDMA可以优化时延,但是对大文件顺序读写的吞吐优化帮助不大;RDMA需要内核模块支持,增加了运维成本;也需要专用的编程接口,提高了开发难度,普适性还不及TCP;RoCE在GPU环境中正在快速部署,普遍使用v2;目前Transformer和Stable

Diffusion等常见模型架构中,高带宽网卡使用TCP通信也可以很好支持训练需求;存储系统也会被大量CPU节点使用,所以网络普适性很重要的,能支持数千~数万客户端访问是重要的;公有云的虚拟化环境中RDMA支持还不普遍。训练中使用TCP/IP网络的JuiceFS训练中使用TCP/IP网络的JuiceFS应用不够快,是因为存储慢么?仅靠吞吐、时延、QPS

等指标可以得到存储系统性能,但是无法知道原因需要继续观测更详细的I/O

行为表现,判断上层应用的数据访问特征。应用不够快,是因为存储慢么?仅靠吞吐、时延、QPS

等指标可以得到存储系统性能,但是无法知道原因需要继续观测更详细的I/O

行为表现,判断上层应用的数据访问特征。03

性能、价格的取舍与平衡上一代文件存储系统:集群扩容,才能得到更大吞吐为物理机设计的分布式存储方案:增加更多的磁盘,才能提供更大的吞吐。AWSFSx

for

LustrePERSISTENT-1000吞吐10000

MBps/TiB

存储容量,IOPS

数万/TiB

存储容量$0.6/GB/month

(US-East

Ohio)性能、价格的取舍与平衡容量由对象存储提供,性能由缓存提供,两者独立弹性伸缩多级缓存:Page

cache,local

cache,remote

cache$0.04/GiB/mo

(Ju

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论