




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
益企研究院 04 09 12大模型场景下的以存强算 12 14 18算力与存力高效协同 22 24 24 25 29 33 33 35 39边缘侧计算和存储能力增长 40 41 42 43 44 45 46 47 49 52 52 53 54 55 56 59 60 60 62 64 65 68 4自2022年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。2024年2月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。从2018年始,希捷参与了益企研究院发起的数字中国万里行活动。几年来,数字中融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应△JasonFeist希捷科技市场营销高级副总裁52024年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。首先,随着数据的爆炸式增长,生成式AI应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。根据市场研究机构IDC的预测,到2028年,全球预计将产生394ZB数据。而现代频和电子邮件等,它们无法规则地纳入到传统数据库中。在AI业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。△IDC:全球生成的数据中,只有不到5%会被保存下来。预计到2028年,存储在云端的数据约10ZB(具体构成如上图,HDD占比约80%,是SSD的6倍多),企业端约6ZB,消费端约4ZB6更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着AI模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使AI模型更加全面准确地反映现实世界情况,确保推理的可确定性。其次,AI工作负载在不同阶段需要不同特点和类型的算力、存力支撑。在大型数据中心部署中,AI相关数据在使用和创建的无限循环中流动。工作流程的每个阶段都需要不同组合的内存和存储设备。△AI数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环AI相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展,其中硬盘(HDD)能够长期保存原始数据并提供数据保护,固态盘(SSD)则充当可即时访问的数据层。在模型的训练过程中,先要快速地从存储中加载数据到HBM(高带宽内存)、DRAM以及本地固态盘以供后续的计算密集型7操作使用。网络硬盘和固态盘存储检查点,以保护和优化模型训练。推理过程中的内便不断进行优化。硬盘用于存储并保护内容的副本。在这一系列步骤之后,数据被妥善保存下来,成为构建可信赖AI的基础。最后,数据会被重新利用,为AI模型提供反馈信息。网络硬盘和固态盘在不同的地理位置存储AI数据。对模型训练来说,为了能够快速恢复训练,需要频繁创建检查点。大容量、高性能的AI存储系统能够显著节省训练所需的时间,并确保AI集群计算能力的高可用性。数据的持续生成带来更多存储需求,而后者反过来又推动了数据生成和人工智能的进化,形成了一种良性循环。△在大型数据中心部署中,大多数AI相关的数据最终都存储在大容量对象存储中随着人工智能基础设施的更新,AI工作负载在性能、容量和能耗方面对数据中心和边缘计算的存储提出了严峻挑战。数据的处理和存储在整个AI业务流程和生态系统中扮演着重要角色,而存储与计算共同构成了AI落地的关键基础设施。最后,在AI相关的数据中心,对存储容量要求大幅增长,不同的存储介质在性能和可扩展性方面各具优势。希捷的热辅助磁记录技术突破了硬盘面密度的增长瓶颈,有效提升了硬盘容量、性能8基于魔彩盒3+(Mozaic3+)技术的希捷银河新一代企业级硬盘,已经在超大规模数据中心部署。以希捷为代表的机械硬盘厂商与服务器厂商、最终用户紧密协作,不断扩展存储能力,构建高可靠、高价值存储方案与服务,以保证整体解决方案的性能和稳定性,有效地激活数据价值。AI时代,存储比以往任何时候都更为重要,因为它支撑着最核心的资产——数据。在AI迅速发展的当下,数据成为了推动人工智能进步的关键要素。存储作为数据的载体,其重要性不言而喻。为了充分抓住AI带来的机遇,企业需要进行长期的、战略性的存储容量和性能规划。只有这样,才能满足AI对海量数据的存储需求,为人工智能的发展提供坚实的基础。AI生态系统的重构对计算、存储、网络等多种组件提出了更高的要求。存储作为人工智能大模型的关键基座,不仅提供了数据存储和管理的基础支撑,还推动了生态互人工智能(ArtificialIntelligence,AI)技术自诞生之初,便开启了从理论探索到实践应用的发展历程。初期,以专家系统为代表的AI技术,尝试模拟人类专家的决策过程,为特定领域提供智能支持。随着技术的不断进步,机器学习(Machine动了自然语言处理、计算机视觉等领域的飞速发展。伴随着大模型的爆发和人工智能技术的快速迭代,计算架构、算法框架、数据供给正面临深刻变革,生成式AI正在△人工智能将推动总潜在市场(TAM)增长率达到更高的水平(来源:希捷@OCP)变到质变长期积累的结果,也是GenAI(GenerativeAI,生成式人工智能)发展的重要里程碑。从GPT-4开始,超大规模预训练模型展示了一条通向通用人工智能的可以用自然语言方式生成任务描述,以非常灵活的方式应对大量长尾问题和开放性任务,甚至是一些主观的描述。整个IT行业正处于为AI和GenAI重塑基础设施的关键算法突破、算力紧俏的背后,是数据需求的激增。在深度学习时代,高质量的数据能够为人工智能模型提供准确的学习样本和标签,使得模型能够从中提取有效的规律和特征。例如,在图像识别领域,大量清晰、标注准确的图像数据是训练高性能模型的关键。只有通过对这些数据的学习,模型才能逐渐掌握不同物体的特征,从而准确地识别出各种图像中的内容。在自然语言处理中,丰富多样的文本数据能够帮助模型理解语言的结构、语义和上下文关系,从而实现准确的语言翻译、文本生成等任务。随着大语言模型的爆发,公众的注意力常常集中在算力规模(如GPU卡数量)上,但业内先驱们早已认识到数据才是最难补齐的短板。根据OpenAI在2020年论文中展示的大语言模型扩展法则(Kaplanscalinglaws每个参数需要1.7个文本Token,175B大语言模型需要300BTokens。而DeepMind在2022年提出的霍夫曼扩展法则(Hoffmannsca数需要大约20个Token进行训练。一个10B规模的模型需要约200BTokens,若每个Token是FP32数据格式,那就意味着800GB的数据。DeepMind的论文预测,10Trillion(10万亿)规模参数需要216TTokens。这个数字10T规模的模型需要当前百B级模型的千倍甚至万倍的算力或训练时间。△出自DeepMind发表的论文《TrainingCompute-OptimalLargeLanguageModels》,2022年3月简而言之,有效数据匮乏已经成为当前预训练阶段的主要矛盾。虽然模型参数仍在继续增加,但由于数据的限制,更大规模的模型在实现通用人工智能(AGI,ArtificialGeneralIntelligence)的道路上存在训练不足的隐患。如何摄取、整理、处理、存储超乎想象的巨量数据成为AI时代最关键的问题。按照霍夫曼扩展法则,模型的规模和训练数据的规模是决定模型能力的关键因素,超千亿参数的大模型研发不仅仅是算法问题,而是囊括了底层庞大算力、网络、存储等诸多领域的复杂系统性工程,需要有超大规模数据中心的AI算力来支撑。而在当前算力成本高昂的背景下,提升算力利用率成为了有效提高系统性能和降低整体成本的关键。因此,面对算力成本急剧上升和优化算力利用率的迫切需求,存储系统的构建大模型场景下的以存强算大模型的全生命周期主要可以分为三个阶段,包括数据的采集、训练/微调、推理。△微软总结的AI模型生命周期,中间三个都属于模型的训练阶段,而数据采集、预训练和微调是对存储层要求较高的环节型从单模态到多模态,出现数百亿的小文件,多模态大模型所需的训练数据量是传统单模态小模型的1000倍以上,数据预处理时长占AI数据挖掘全流程的30%,对算力消耗巨大。存储系统需要高效地存储和调度大规模的数据,包括结构化和非结构化数据,可能包含文字、图片、视频、音频等多种多样的数据类型,用户迫切希望拥有一个大容量、低成本、高可靠的数据存储底座。例如,在自然语言处理领域,为了训练一个强大的语言模型,需要收集来自书籍、文章、网页等各种这些数据不仅数量庞大,而且格式各异,包括纯文本、HTML、PDF等。存储系统需要具备足够的容量来容纳这些数据,同时还要保证数据的安全性和可靠性,防止数据储系统需要与计算资源紧密结合,实现高效的数据处理。在模型训练环节,训练数据集加载慢、易中断、数据恢复时间长等问题是大模型训练中的常见难题,存储系统必须足够快速地为AI算力芯片提供训练所需数据。为了解决这些问题,需要实现海量小文件数据集快速加载,降低GPU等待时间,以及快速读写检查点(checkpoint)文件,降低恢复时长,提高训练效率。首先,对于海量小文件数据集的快速加载,可以采用分布分布式文件系统可以将数据分散存储在多个节点上,提高数据的并行访问能力。同时,数据缓存技术可以将频繁访问的数据缓存在内存中,减少存储I/O操作,提高数据加载速度。其次,对于快速读写检查点文件,可以采用高性能的存储设备和优化的存储架构。大容量、高性能的AI存储系统能够极大缩短断点续训时间,保障AI集群的算力可用度处于较高水平,提升算力应用效率。模型推理是与AI应用关系最为直接的环节。如果说2024年是多模态市场成为现实的关键一年,2025年将开启生成式AI应用的崭新时代。结合大语言模型、智能代理和多模态模型,AI将被用于分析和整合非结构化数据,例如文本、叙事和洞察,与定量数据融合,提供更全面的分析结果。这将颠覆传统的基于数字和结构化数据的分析模式,为企业决策提供更丰富的背景和更动态的洞察。更多的数据、更大的模型以及更长的上下文窗口能够带来更高效的人工智能应用范式。模型的推理过程是一个复杂的存储系统工程,关键是需要能够存的多、传的快、性价比高。数据的不断生成促此外,存储成本也是企业需要考虑的重要因素。随着数据量的不断增长,存储成本也会相应增加。因此,企业需要寻找一种低成本的存储解决方案,既能满足数据存储的需求,又能控制成本。大模型的存储还需考虑数据的安全性和隐私性。由于大模型通常涉及敏感的训练数据和商业机密,因此存储系统必须提供严格的数据加密和访问控制机制,以防止数据泄露和非法访问。自动驾驶3.0时代的数据循环从行业趋势来看,由硬件与软件驱动的自动驾驶1.0与2.0时代已近尾声。由数据驱动的3.0时代正式开启。自动驾驶1.0时代为硬件驱动,主要依靠激光雷达和人工规则的认知方式提供自动驾驶方案。但在100万公里后,硬件不再是决定自动驾驶技术发挥的下限。自动驾驶2.0时代则是软件驱动,特点是传感器单独输出结果,用小模型和少数据的模式提供自动驾驶方案。挖掘算力潜能,让AI真正发挥价值。在AI算力升级后,很多自动驾驶企业加大了对算法模型的应用,这使得其产品最终能够落地,让自动驾驶△自动驾驶市场规模发展趋势2023~2033(来源:PrecedenceResearch)伴随智能网联汽车传感器数量的快速增加,ADAS和自动驾驶车辆数据的生成量也呈现指数级增长,从GB到TB、PB,传统数据存管模式无法应对大规模复杂数据的快速处理、各种传感器数据及外部数据的适配接入。从PrecedenceResearch的数据来看,2023年全球自动驾驶汽车市场规模估计为年将以33%的复合年增长率(CAGR)增长。2023年美国自动驾驶汽车市场价值599.2亿美元。从2024年到2033年,亚太地区的复合年增长率预计将达到在过去两年的调研中,数字中国万里行团队发现大模型的发展思路给自动驾驶带来了更多启发,从道路信息感知到路径规划决策,从智能驾驶的开发效率到用户驾驶体验,智能驾驶企业正采用多模态传感器联合输出结果,用大模型大数据的模式提供自在自动驾驶3.0时代,数据闭环是核心要素,即从车端数据采集,到处理后形成有效数据集,再通过云服务器进行存储、运输,经过算法模型训练、验证后,将有效数据成果部署上车,各环节相互连接,形成自动驾驶数据循环。△自动驾驶的数据循环路径以具有国内合规采集资质的吉利汽车为例,基于用户车队及集团内运营车辆资源,目前吉利一辆车每个月的合规数据采集量是几个GB的量级,星睿智算中心每天的采集数据增长量达到了TB水平。特斯拉为了训练基于端到端技术路线的FSDV12,向系统内输入了1000万个经过筛选的、熟练司机的驾驶视频。特斯拉在全球各地约200万辆的车队,每天也会提供约1600亿帧视频用于训练。端到端自动驾驶存在与其他大模型应用相同的问题:难以修正错误。基于规则的系统可以通过修改程序或者数据库修正错误,而大模型只能重新训练/微调。针对不同任务,设置多个头部、部署不同的模型可以隔离不同任务训练时对其他能力的影响。但在重新训练过程当中,依旧可能无法彻底解决问题,或出现新的问题。譬如FSD迫或者故意。这些数据对学习效果的影响难以评估,训练结果难以测量。按下葫芦浮起瓢的反复训练模式会极大消耗算力和数据资源。实现高等级自动驾驶的难点在于覆盖尽可能多的极端场景、长尾场景。这类场景的采集难度极大,需要收集大量的数据。特斯拉有意识地收集自动驾驶模式中人为介入的场景。解决数据不足的思路还包括合成数据、强化学习等。自动驾驶还需要处理来自多种类型传感器的多模态数据,包括但不限于图像、视频流、点云等。此外,还需要应对复杂的天气条件、交通状况以及各种长尾场景下的数据采集与分析。这些数据在结构、大小和访问频率上都存在差异。因此,存储系统需要具备灵活的数据管理能力,能够适应不同类型数据的存储需求,并提供高效的数据另外,自动驾驶技术对边缘侧的数据存储可靠性也有着极高的要求。自动驾驶事关生命安全,因此任何数据丢失或损坏都可能带来严重的后果。存储系统必须采用多种数据冗余和保护机制,确保数据的完整性和可用性,即使在面临硬件故障或自然灾害等极端情况下,也能保证数据的可靠存储。数字平台在不同领域的扩展产生了大量数据,特别是由于物联网(IoT)设备等互联设备,产生了大量的数据集。如今,AI的进步催生了新的数据采集形式,这些形式不再与模型构建者试图训练的精确策略直接相关。生成性AI的兴起,引发了对基准测试、偏好数据、安全性及红队测试的新关注——不再局限于标注和收集精确的策略数据,而是向价值链上游延伸,涉及更复杂、更昂贵和更具挑战性的任务。比如在智能制造领域模拟到现实的合成技术、模块化机械臂附件等方式,开展大规模机器人数据采集。这些方法有助于收集基础规模的数据,以支持现实世界中的通用机器人。然而,收集数十亿或数万亿个机器人数据Token需要大容量存储设备进行后续的处理,边缘AI的存储也成为另外一个热门场景。在AI技术迅猛发展的背景下,存储容量和性能的提升显得尤为重要。AI应用所产生的数据不仅规模庞大,而且类型多样,包括结构化数据、非结这些数据的存储和管理对存储系统提出了更高的要求。为了应对这一挑战,新型存储技术应运而生。分布式存储技术通过将数据分散到多个节点上存储,提高了系统的可扩展性和容错性。这种技术不仅能够满足AI应用对大容量存储的需求,还能够提供高并发访问和数据共享功能,为AI应用的训练和推理云存储技术则是另一种重要的解决方案。通过将数据存储在云端,云存储技术实现了数据的集中管理和按需访问。云存储具有弹性扩展、高可靠性、低成本等优势,能够数据备份、恢复、迁移等,为AI应用的数据管理提供了极大的便利。总的来说,存储容量和性能的提升是AI技术发展的重要支撑。随着新型存储技术的不断涌现和应用,我们有理由相信,未来的存储系统将更加智能、高效、可靠,为高速、低延迟的存储性能对于确保AI应用的顺畅运行和实时响应至关重要。传统存储技术,尽管在过去的数十年中发挥了重要作用,但在面对AI应用带来的数据洪流优化存储性能是确保AI应用高效运行的关键环节。通过采用新型存储介质、优化存储算法和架构等多元化手段,我们可以有效地提升存储系统的性能表现,满足AI应用对高速、低延迟存储的迫切需求。这不仅有助于提升AI应用的用户体验和业务效率,还将为整个AI产业的持续发展和创新注入新的活力。在AI技术的迅猛发展下,存储技术的创新步伐也日益加快。机械硬盘(HDD)与固存储系统的智能化随着人工智能技术的深入发展,其对存储系统的影响日益显著。智能化存储系统作为这一趋势的重要产物,正逐渐改变着传统存储方式的面貌。通过集成先进的机器学习算法和深度学习模型,智能化存储系统能够实现对海量数据的智能分析与挖掘,进而优化存储性能,提升数据处理的效率。智能化存储系统的核心在于其具备的自我学习和自我优化能力。系统能够通过对历史数据的分析,识别出数据的访问模式和特征,从而预测未来的数据需求。基于这些预测结果,智能化存储系统可以自动调整存储策略和布局,以确保数据能够以最优的方式被存储和访问。这种动态调整的能力不仅提升了存储系统的性能,还有效降低了运除了优化存储性能外,智能化存储系统还在数据备份和恢复方面展现出强大的实力。传统的数据备份方式往往需要人工干预,且恢复过程繁琐易错。而智能化存储系统则能够根据数据的重要性和优先级,自动制定备份计划,并在必要时迅速恢复数据。这种智能化的备份和恢复机制不仅提高了数据的安全性,还大大减少了因数据丢失而造智能化存储系统还在容灾方面发挥着重要作用。在面临自然灾害、人为错误或恶意攻击等潜在威胁时,智能化存储系统能够迅速响应,自动将数据迁移到安全的存储位置,确保业务的连续性和数据的完整性。这种高度的自动化和智能化水平,使得智能化存储系统成为现代企业不可或缺的重要基础设施之一。算力与存力高效协同数据规模的增长对存储技术的性能、容量和可靠性提出了更高要求。尤其在大模型训练和推理过程中的数据调度、边缘侧与云端数据的存储,需要大容量、高速、低延迟的存储系统以支撑实时数据处理和分析,大容量的存储技术解决方案成为支撑整个AI生态系统的关键。在整个生成式AI落地过程中,企业如果希望充分利用AI能力,需要首先建立一套高效、可靠的数据存储与管理系统,确保数据价值被充分计算存储协同促进AI落地AI应用需处理和分析的数据规模日益庞大,使得算力不断增加。但算力规模增加的同时,集群的可用性明显下降,数据的存储与访问速度对系统性能和效率产生直接影响。此外,随着AI应用数据规模和复杂性的持续增长,对存储技术的容量、速度和可靠性提出了更为严苛的要求。越来越多的应用场景开始将AI算法与存储介质紧密结合,以实现更为智能化的数据处理和存储管理,提升集群的可用度。根据PrecedenceResearch于2024年7月发布的研究报告,全球AI驱动存储市场预计将从2024年的287亿美元,激增至2034年的2552亿美元,年复合增长率(CAGR)相当喜人。越来越多企业正在积极寻求更智能、更灵活的数据管理解20△AI驱动存储市场规模发展2024~2034(来源:PrecedenceResearch)大模型场景下,数据存储面临的挑战,将不仅仅是传统意义上容量增加、性能提升的为AI数据处理而优化,可以提升训练集群可用度,降低推理成本,提升用户体验。GPU(或AI加速器,下同)是AI集群的核心,也是最昂贵的部分,优化其使用率以缩短训练时间及获得更好的投资回报(ROI),是网络和存储架构设计时必须重点考虑的因素。AI工作负载可以分为准备数据、开发模型(训练)和部署模型(推理)能取得较好的效果。GPU服务器通常内置有限的本地存储,以NVIDIA的8GPU机缓存(DataCache)盘,总容量约30TB。新一代的GB200NVL72是每4个GPU配置8个E1.S规格SSD,每个GPU对应的本地存储容量并没有很明显的增长。△左边是配备8个U.2SSD(中下部区域)的8UGPU服务器,右边是8个1UGPU服务器(节点),每节点配备8个E1.SSSD(中部区域),后者明显更节省空间,但容量上限也网络存储如文件存储和对象存储,在共享、扩展和故障恢复等方面都优于(服务器)层。现在SSD和HDD的单体容量都可以达到20TB以上,但在性能和成本等方面准备数据采集(生成/获取)、积累源数据是个相对长期的过程,除了结构化数据,更多的是非结构化数据,从文本到图像、视频等,文件尺寸越来越大,累积下来总数据量通常可达PB级,并且规模还在不断增长。相对而言,性能上的要求不算很高,顺序写入△AI数据在CPU和GPU、不同存储层之间的流动(来源:微软)式转换及数据增强等操作,将原始数据转换为GPU可处理的张量格式,再批量送往GPU。数据加载是个顺序读取的过程,数据量在数百GB到TB级,单台服务器的读带宽可达数GB/s到数十GB/s。顺序读对SSD和HDD都是最为舒适的场景,有足够的网络带宽与合理的存储系统架构支持,根据数据类型和模型的特点不同,从存储读取数据不一定成为瓶颈。例如,处理文本数据(供语言模型使用)时,只需进行分词,预处理时间较短;而处理图像或视频数据集时,预处△数据加载涉及存储IO和转换流水线(来源:SNIA)远超实际训练过程的时长。通过将数据集预处理为更适合高吞吐量加载的格式,并用优化的数据加载器在训练时加载数据,可以大幅减少数据加载所需的时间。理想的情况是将读取和预处理数据的过程与训练过程并行,把准备数据的时长“隐藏”△MIT在2023年发表的论文《FFCV:AcceleratingTrainingbyRemovingDataBottlenecks》中指出,ImageNet训练所花费的时间里,图片处理阶段占比最高训练过程在正常的训练过程中,只有少量的读访问,顺序和随机都有,训练结束后得到的模型被写入存储,这个数据量也不算大。然而,训练过程恰恰是给存储系统访问压力最大的环节,因为AI集群在高强度的训检查点及其作用大规模AI训练集群结构复杂,组件众多,如上千台服务器、上万个GPU/加速器、网卡和数量更多的光模块,而训练的同步性质使其对故障的容忍度较低——单个GPU、网卡或光模块的故障就可能需要重启整个作业。期间,经历了共466次作业中断,其中47次是计划内的中断,另外4中断。大约78%的意外中断归因于确认的硬件问题,如GPU或△Llama3405B预训练54天期间意外中断的根本原因分类,大约78%的意外中断归因于已确认或怀疑的硬件问题训练过程中定期保存检查点可以在需要时恢复训练,或用于模型评估和推理。检查点(Checkpoint)保存模型训练过程中的当前状态,通常包括模型的参数(权重和偏用检查点可以从最后一个保存的检查点继续训练,而不必从头开始。检查点对于保障训练进度至关重要,如果每次故障后都需要从头开始重新运行训练任务,有些大型任务可能永远无法完成。数据量与读写压力),恢复:发生故障或需要恢复时,从存储中读取(相应的)检查点数据到系统内存,反检查点的内容包括模型权重(已学习的参数)、优化器和训练状态,可以理解为当时模型参数通常按2个字节(BF16或FP16)计算,在混合精度训练中,为了减少累积就可以得出不同模型的检查点大小,如GPT3的1750亿(Parallelism,DP)和模型并行。在数据并行的多个模型实例中,每个实例都持有完整检查点的保存检查点操作所耗费时间应尽可能的短,这样可以增加检查点的频率,以最大限度减少△检查点文件的写入数据量是固定的(来源:SNIA/益企研28状态持续到保存检查点完成,就意味着有效训练时间的相应减少。而且保存检查点花费的时间过长,也会限制保存检查点的频次,反过来影响检查点的实际效果——检查Dell在SNIA分享的《AI训练和检查点的存储需求》360秒540秒0.5830.0580.5440.5060.8569803.63034.0286.8064050亿5300亿统Check-N-Run,默认每30一种方法是全链路上强度,并行化检查点写入,可以成倍缩短耗费的时间。这种方法将检查点创建分配给多个数据并行的GPU,因为每个模型实例持有相同的检查点数与进来。检查点保存从更多并行存储I/O中受益,性能和效率得到提升,显然也对存Meta为其Llama3集群提供了7500个配备SSD的服务器,支持2TB/s的可持续吞吐量和7TB/s的峰值吞吐量,以应对在短时间内饱和存储网络的高突发性检查点写另一种方法的思路与准备数据阶段的分析类似,不是简单的把数据读写的压力全部丢时暂停,GPU将其内存(显存)中的数据复制到系统内存后(模型快照就绪便可继续进行训练工作;CPU接手模型快照的处理,由专用的进程在后台负责创建、优化目前微软、字节跳动等企业都已采用了类似的解决方案。以微软Nebula异步保存为此种做法的核心思路是最小化检查点期间GPU的暂停时间,尽快让宝贵的GPU回到检查点的恢复30△恢复检查点的读取数据量与数据并行度正相关(来源:SNIA/益企研这个N就是模型实例的数量,取决于数据并行度。换言之,从检查点恢复时读取的数尽管恢复操作不会有检查点那么频繁,时间窗口的要求不必那么苛刻,但在乘以模型实例的数量之后,总读取带宽的要求仍然相当可观。以5分钟恢复检查点为例,大模1830亿4.4808.96020.9070.6074.85338.827330亿24.64098.5609806.533836.26765.333522.6674050亿302.400604.8005300亿NVIDIA与斯坦福大学、微软研究院在2021年发表的论文《基于Megatron-LM的检查点为13.8TB,数据并行度为6,存储系统需提供除了采用全闪存存储之外,分层存储也可以化解这种高带宽需求。因为检查点对应的存储容量并没有改变,只是有更多的GPU(存储层上,SSD存储层只保存比较新的检查点,或者用于临时加载需要访问的特定检),△微软AzureBlob对象存储采用SSD与HDD分层的在计算侧优化的思路同样适用于缓解恢复过程中的存储带宽压力。字节跳动和北京大个GPU》中,提出了一种优化的数据检索策略。多个GPU工作节点通常共享相同的状态分区,例如同一数据并行组中的工作节点。因此,M作节点从HDFS读取共享状态分区,随后将状态分区广播给所有共享相同数据的其他GPU工作节点。这种方法可以线性减少负载,有效缓解了保存期限与价值任务迁移:将训练任务迁移至不同的AI节点或集群增量学习:为后续的增量学习和迁移学习提供基础,利用先前训练模型的状态从中间模型调优:需要重新调整超参数或者跳过部分数据(如出现尖峰)时,可以回到之前动覆盖可以节省大量存储空间,达到中断恢复的基本条件。即便是Meta,其DLRM但是,检查点量化有可能降低训练准确性,差分或增量检查点则在检查点之间建立了推理过程大模型(LLM)的推理分为两个阶段:Prefill阶段主要处理来自用户的输入(如提示词是计算密集型;Decode阶段要生成大量的月下旬发布的DeepSeek-V3模型,在实现中针对SLO(服务级别目标)使用了PD可以看出,对内存的使用和优化在推理过程中的重要性。前面在数据准备和训练过程KVCache及容量需求模型权重所占用的内存空间为参数数量及精度的积,注意力计算的中间状态(Key和参数、FP16精度,需要消耗350缩减参数规模和精度,可以降低显存/内存的占用。譬如7B(70亿)参数量的模型精度,如FP8,那么占用的显存/内存也相应地得以缩减为7G随着推理服务愈发重视长Token的输入,KVCache容量主要动力。为了控制KVCache的容量增长,典型的应对方法是滑动窗口的注意力机可分为动态量化和静态量化。动态量化通过在模型运行时确定量化参数,能够更好地适应数据分布的动态变化,但这种实时运算需要更大的计算开销。静态量化采用预先载更大的批次。由于(系统)内存速度较慢,卸载会增加延迟,但考虑到计算本身也有时间消耗,尤其是对于非顶级推理卡而言,其算力落差大于显存容量的差距,部分除了主机内存,CXL内存、SSD也可以参与卸载。有一些SSD厂商推出了SLC35RAG与向量数据库大语言模型应用中最让用户反感的是“无知”,例如幻觉、正确的废话等,缺乏最新的资讯和某些专业领域的知识。再训练可以改善大语言模型在某些专业领域的表现,但依旧不能及时更新知识,需要重复进行训练。RAG(RetrievalAugmented除了专业性和时效性更高,RAG还有部署门槛低、风险可控的优点。大语言模型依靠量化的模型,除了可以降低云端部署的成本,还可适用于边缘侧、端侧,对企业和个对于有保密性需求的专有知识,RAG的知识库也更可控。可控性还体现在RAG的知识库可以逐步更新,而无需重新训练生成模型。这对于企业分阶段处理长期沉淀的海RAG的核心流程分为知识库建立、检索、生成等关键阶段。知识库是将精炼后的信息构建为向量数据库。检索模块接受基于自然语言的提示词输入,相关提示会被转换为向量嵌入,并接着使用向量搜索在预先构建的知识库中检索相似信息。生成模块对检一类专为执行相似性搜索而定制的数据管理系统。与传统数据库按行或列组织信息不同,向量数据集使用数据的嵌入(embedding)作为表示,并基于嵌入的相似性进行余、错误的内容会提高成本和降低输出质量。由于专业内容往往需要大量的背景知36识,专有名词、潜规则等难以理解,会导致知识遗漏。文档应以文本形式为主,大多数RAG更擅长处理基于文本的来源,但难以有效地集成和理解多模态内容。图•数据处理:利用特定RAG管线从之前收集的文档中提取文本、格式化内容,并将数据分块成可管理的大小。块(chunk)的划分对输出质量影响较大,太小的块可能导致正确答案被切分,导致检索时遗漏关键信息;太大的块可能引入过多的噪声,还可能超过大语言模型的上下文窗口尺寸。针对不同类型的文档应当使用不同•向量化:通过嵌入模型处理数据块,将文本转换为向量,可包括用于丰富上下文的元数据。选择合适的嵌入模型对于检索速度、质量有很大的影响。不同的嵌入模型•存储:将向量化数据存储在可扩展的向量数据库中,以便进行高效检索。由于嵌入了高维度的向量信息,数据库相对原始文档及相关元数据的容量有明显的增加,会达到数倍甚至十倍以上,常常可以达到PB级。数据量的急剧增长带来了存储方面检索阶段接受的通常是自然语言输入,需要理解用户意图,并对查询进行优化。查询•改写是指对用户输入的查询语句进行修改或重写,包括调整结构、添加或删除关键•说明是修正或分解用户输入中不明确或模糊的内容,使系统更好地理解并执行相应检索既可以通过一次检索获得最终结果,也可以是多步推理,包括迭代检索、递归检•迭代检索允许模型参与多个检索周期,从而增强获得信息的深度和相关性,为生成•递归检索可以将之前的检索输出作为后续的检索输入,通常用于需要渐进式收向量数据库的检索是整个RAG流程中消耗计算、存储资源最多的阶段,通常使用近ANNS算法是内存型,随着数据库规模的扩大,尤其是向量嵌入的高维度,需要大量的系统内存来容纳从对象存储中提取的向量和索引,这导致了高昂的成本,并限制知识库的大小。改良的ANNS算法可以将数据库索引存储在SSD中,将量化后的向量保存在内存中,在保持接近内存型的性能前提下,显著提升成本效益。甚至有更激进对于企业而言,RAG可以更充分发挥专业领域知识和私有数据的价值,以满足商业分析、智能客服、研发等方面的需求,是训练、微调私有大语言模型的有力补充。对于拥有多种数据集、众多用户的大型企业而言,对加速计算、网络和存储基础设施进行训练开始前要加载数据,推理开始前要加载模型。当模型首次部署到GPU服务器上38在推理过程中,模型会根据输入数据动态访问其参数和中间计算结果。这些访问模式通常是随机的,取决于具体的输入序列和模型架构的设计。例如,自注意力机制会导•缓存管理:如果使用了KVCache或其他形式的缓存来加速检索过程,那么缓存命中率低的情况下也会导致更多的实际I/O活动,因为系统需要频繁地从原始数据源•数据预处理:为了使检索到的数据适合用于后续生成步骤,通常需要对其进行一些•日志记录与监控:在生产环境中,为了跟踪性能指标和服务健康状况,通常会对每当有多个文档存储和成百上千个AI用户时,RAG增强的LLM将跨多个GPU服务器运行,共享可扩展的存储能够更好的满足训练/嵌入和推理/检索等需求。一些服务△一套存储方案支持多种不同类型AI应用的全生命周期(来源:WEKA)数据保护、更好的数据共享、更轻松的管理和更灵活的配置。在嵌入大型文档存储并生成式AI促进数据生产生成式AI极大提高了内容的生成效率,只言片语便可生成音乐、图片甚至视频,这使得即使是普通人也可以快速创作富媒体内容,在专业人员手中更是如虎添翼。以模态内容工具构建更丰富的对话并适配口型、语音,更快速地建模、生成分镜等。运维人员可以用生成更详实的日志、故障报告、风险分析等。另外,转录、翻译音视频也是让富媒体数据量裂变的一种应用。福布斯在2024年3月预计,到2028年,利40△承载多个处于不同阶段的AI应用,对网络存储系统的能力提出了全面的要求,需要结合不边缘侧计算和存储能力增长边缘侧的推理应用有显著的实时性要求,这种需求在大语言模型落地之前便已经非常清晰。早期的推理应用主要基于卷积神经网络为代表的深度学习模型,典型应用是机器视觉,广泛应用于安防、质检等领域。这类应用的算力需求不高,主流FPGA、经过优化的CPU、GPU核心即可满足,也有一些专用的ASIC。这类需求需要不间断地在2020年代,深度学习中的多模态输入开始受到更多的重视。多模态数据的学习有许多挑战,譬如不同模态信息的映射、对齐等。大语言模型降低了多模态数据的处理门槛,任何人都有机会利用基础模型和自有数据微调、训练自有模型。在近一年中涌自动驾驶是传感器激增、数据量激增的一个典型例子。在L4等级自动驾驶的愿景面前,数据采集的瓶颈并不仅在于传感器的成本,更在于算力的限制。这也反映出人类据安全/合规的约束,去中心化更符合边缘侧推理的要求。大多数数据在边缘侧处理和存储,由此带动了边缘侧算力和存储空间的增长。业界预测边缘存储的增长速度是数据留存与复用为后继交互的上下文信息而短暂保留,大多数不符合用户预期的生成内容被抛弃,包括文本、图像、音视频等。也有大量的内容被保留下来,不论是出于合规的需要(如智能客服的对话文本、录音等抑或是用户认为有用。后一种内容还有可能被多次复制、分发,被上传至多个设备、平台。快速生产配合移动互联网的裂变式传播,生成式AI带来的数据量巨大,除了在基见等,还存在人类尚难以察觉的其他问题。这类信息除了对社会带来困扰,也对AI本缺陷。AI生成的数据如果污染了下一代模型的训练数据集,大语言模型就会错误地感知现实。中毒的模型生成的内容如果继续污染后继的数据集,如此往复,多代模型将),需要强调的是,生成式AI“近亲繁殖”导致模型崩溃的问题,主要影响的是预训练阶段,也就是基础大模型。对于微调/后训练阶段,AI生成的内容(包括合成数据)其实是可以用于推理模型的训练迭代的。以自动驾驶为例,如果要进行极端场景的训练如暴雨、浓雾、狂风等,或者针对性场景的训练如鬼探头、加塞等,使用合成数据的的规则生成符合要求的训练样本。随着DeepSeek-R1推理大模型的爆红,也宣告强化学习可以用于推理模型的训练。强化学习意味着只需要为训练设定奖励,而不再需与预训练需要的周期长、成本高不同,微调/后训练的周期更短、成本更低,会反复进行,以匹配不同的用户需求、验证不同的基础模型等。这导致数据的重复利用,也而微调模型的需求会唤醒沉睡的数据,甚至在多次微调当中反复利用,或分阶段地利用不同部分的数据。譬如,客服电话录音,在传统上只是为了合规要求而保存,如无意外发生将被归档、等待销毁。但在大语言模型支持下,这些录音可以用于训练企业会热衷于宣传其智驾模型训练迭代的频次是以月,甚至以周计算。而对于数据量较小AI对数据生命周期的影响非常深刻。传统的数据在产生后,不论是被立刻遗弃,还是需要比以往任何时候都要努力地搜集数据。不仅归档数据被发掘出价值,就连“错误”44随着技术的演进和应用需求的细化,经典的存储金字塔层级也日渐丰富。当然,这么△经典的存储金字塔层级(来源:希捷)存储介质的分层,自上而下,性能逐级下降、容量逐级递增、成本逐级递减。访问频繁或者随时变更的数据会保留在较高的存储层,而鲜少访问或需要长期保存的数据将SCM是介乎于内存和外部存储之间的角色,可以向上或向下融合:SCM可以与DRAM组合应用,从逻辑上看上去是内存设备;SCM也可以与SSD、硬盘配合,从45在数据进入较高性能存储介质,再转入较低性能存储介质的过程当中,SCM或TLC浅层的优化是较大容量的缓冲可以承受数据的变化,一些临时性的数据没有必要向下深层的优化主要是写整形和条带化,充分发挥容量层介质不善于随机访问但适合连续缓存和分层存储是现代计算机系统中典型的策略,用以协调与综合不同类型存储介质的性能、成本和容量特性,以优化整体系统的性能、成本效益,但也带来了更复杂的的时候,需要加载模型内的所有权重和读取KVCache。生成速度的上限是显存/内算力(FP8)B2008TB/s3,958TFLOPS4.8TB/s3,958TFLOPS3.35TB/s46但是总体而言,由于DRAM提速的步伐远低于摩尔定律,即使是以高带宽为名的•CerebrasWSE-3是一颗面积46225平方毫米的巨型芯片,其片上SRAM容量为丢失信息。它们的优势是速度快,缺点是成本较高、容量有限。能够长期保存信息的非易失性介质包括闪存、硬盘、磁带等,也包括一些新兴的存储介质。非易失性介质收敛到3.5英寸、7200RPM的技术路线上继续迭代。大容量硬盘普遍采用氦气密封技术,氦气的低密度低阻力特性使盘片可以更顺滑平稳的转动,便于在同样的高度内所以硬盘容量持续提高的关键还是提高单张盘片的容量。在盘片尺寸保持不变的前提硬盘的数据记录在磁道上,这是一个个以主轴为圆心的同心圆。面密度可以分解为两),•记录密度指沿着单个磁道上单位长度内可以存储的数据位数,通常以每英寸位数•磁道密度指每英寸磁盘表面可以容纳的磁道数量,通常以每英寸磁道数(TracksPerInch,TPI)来表示,主要受磁头的定位精度、磁盘表面的平滑度和平整度等因),48如其名,形似屋顶上层叠排列的瓦片,允许相邻磁道部分重叠,提高了磁道密度,能△HAMR技术发展通过磁头和介质的共同努力,从根本上获得面密度的持续提升,才是HDD技术发展49磁记录)技术,量产品已经达到单碟3TB、全盘30TB,单碟4TB和5TB也已经在路供高达36TB的容量点。希捷已率先将硬盘单碟容量提高至3.6TB,并有望实现单碟SSD堆叠层数能带来存储密度的成倍提高,这也是过去十年间SSD裸片堆叠(DieStacking在单个封装内堆叠多个,相邻两者间的存储容量增长收益从100%依次递减为50%和25%。这种增长还会给性能和寿命带来不利的影响,综合投入产出比,越往后越困难,譬如五层单元的位存储成本,市场份额正在逐步提升。但是QLCSSD不会复现TLCSSD取代SLC/在数据中心领域,部分QLCSSD选择与TLCSSD差异化的发展道路,以突出存储50密度优势,降低性能权重,并逐步采用异于传统的管理方式(如FDP等)。TLC和爆炸半径:单盘容量太大,上面承载的数据和应用过多,一旦出现故障,受影响的范围太广,对软硬件架构是很严峻的考验。AWS在其历年的re:Invent大会上就多次指单位容量性能:现在3.84TB的SSD读性能就足以跑满PCIe5量版本的单位价格有优势,而大容量SSD中NAND是成本的绝对大头,总体成本会空白,需要付出巨大的代价NAND来替代硬盘驱动器的需求是成本过高的。另一个阻碍是单位容量的成本($/HDD出货总容量达340EB,其中近线(NL)容量盘环比增长19%达到创纪录的286EB,出货量环比增长15%达1570万个,三家供应商的近线盘平均容量分别为显然,在相当长的一个时期内,SSD全面替代HDD是不现实的,我们可以从两个层根据IDC的预测,到2028年,全球数据圈(Datasphere)的规模将达到2023年的三倍,产生的数据接近400ZB(394ZB其中能被存储下来的数据不到5%(近硬盘是应用最广泛、历史最悠久、兼容性最好的非易失性存储介质。数据中心中90%以上的数据存储在硬盘当中。硬盘具有仅次于磁带的容量价格比,短期内也不会出现度,如果前两者不变,而后者又只是面密度的一个分量,那么HDD的顺序读写性能最大持续传输率只是HDD顺序读写性能的一个切面,实际的顺序读写性能还受磁道所处位置的影响,越靠内圈的磁道,顺序读写性能越低。最内圈的持续顺序传输率通并发机制,也正因如此,SSD在低并发度访问时发挥难免受限,而HDD反而在小数53别是顺序写入。SSD因为写入操作更为复杂,顺序写入的速度会下降三分之一或更盘片旋转+磁头寻道所需的时间构成了HDD的时延(latency),7200RPM产品的平均值在11~14ms(毫秒)的范围内,对应的读IOPS在90上下,把队列深度加不过,再怎么努力,在小数据块(如4KB)随机读取的场景下,HDD的输出骤降至4KB数据块读写IOPS0.3480.8485502.2005650.880,(IOPS很高,可以达到300万以上,换算成MB/s相比顺序读取下降不多,甚至可以超过顺序写入的水平。SSD的时延可低至数十微秒(μs)级,也遥遥领先于硬盘。硬盘的机械特性决定了其不擅长随机访问,时延比基于半导体技术的其他介质54△Conventional(传统)和Shingled(叠瓦)分别对应了CMR和SMR,两种磁道可以在同一个碟片上出现,划在不同的分区(Zone)(来源:微软@OCP)在硬盘存储方案中,如果对IOPS有一定的要求,传统上会使用较多的盘位来实现目标,附带一些保留容量、存储密度方面的损失。随着多磁臂技术的出现,可以使用新臂硬盘可以获得更好的容量价格比。对于不需要经常改写数据的应用,如归档、视频SSD的随机写入和顺序写入都与容量有一定的关系,小容量SSD因为NAND数量少一些,IOPS也相应低一些。区别在于,随机写入的IOPS传统的DRAM作为写缓存,有掉电时丢失数据的风险,硬盘制造商们想出了用非易失性存储如NVM或盘片上的特定区域来缓存写入数据的办法,在禁用写缓存55对SMR分区(zone)的随机写必须转变为顺序写,最好能在前面提到的缓存层中进行必要的重新排序、达到一定数据量后成批顺序写入。如果连续的磁道中间需要改写接口的SSD已经超过10GB/s,在绝大多数场合不会成为瓶颈;主流(单磁头)硬盘随机写入对SSD也很不友好,性能与寿命都会受到影响。SSD的耐久性通常以5年SSD的容量和DWPD指标共同决定了每天持续不停(随机)写入时能达到的输出水表5:SSD的峰值与持续写入性能7.68TB6.4TB61.44TBTLCTLC130.5835.64TB56TLCSSD具有极高吞吐量,但其耐久度还不足以支撑持续地写操作。即使在顺序写情况下控制了写放大,耐用度可以提升至3~5倍,也不可以承受满负荷写入的场景。耐久度实际上限制了TLCSSD的性能发挥。TLCSSD的峰值性能和耐久度的矛盾使得数据再异步至网络存储集群是典型负荷。但随着检查点间隔从小时计逐步缩减为以分钟计,使用TLCSSD缓存检查点即使在性善写放大的手段,大容量QLC的耐久度还会更高。因此,在一些对总不巨大(PB级)的应用和新建基础设施一些大容量企业级HDD也会提供如每年550TB(5用度也更低,需要控制写入放大以保护QLCSSD令人不安的耐久度。尤其对使用与规避容量层存储弱点的最根本方式就是将随机写入尽量转化为顺序写入。在顺序写入时,QLCSSD和磁盘阵列的性能与TLCSSD相比落差并不算大,而SMR硬盘的随实际业务中,写入时存在不同大小的数据块,譬如近似于顺序写入的大数据块,或是随机写入的小数据块以及可能与SSD页面尺寸不匹配的数据块。不论这些这个缓存层使用的存储介质需要具备优异的写入性能和耐久性,容量和成本最好优于易失性。SCM介于内存和外部存储之间,属于非易失性存储器,但提供接近DRAM有高读写IOPS、极高耐用度的特点。部分英特尔至强可扩展处理器可以把傲腾当做58内存使用。理论上具有非易失性、高性能、高耐用度的技术路线还有磁变随机存储器于商业化早期阶段,容量较小、成本较高。随着傲腾停产,相应的需求由SLC、MLCSCM通常用于需要极高速度和低延迟的应用场景,如大型数据库,弥补主机内存容量SCM与QLCSSD搭配使用,可以弥补后者随机写入性能的弱点,并减少后者的写入对于高性能存储阵列,SCM还可以作为对象存储阵列虽然元数据缓存可以完全放置在内存当中,但会受到内存容量的限制。使用SCM有合在一个CXL内存模块当中,被主机视作是一种内存设备,其随机访问速度高于传统60存储容量的增长终归要依靠存储密度的提升,而存储密度的提升手段可以分为持续性固态盘(SSD)的3DNAND;一次性的手段提升幅度通常不会超过一倍,而且往往为满足数据迅速增长的需求,以及保持单位容量成本能够逐步降低,提升硬盘的单盘容量是根本性的解决方案。经过数十年的发展,目前3.5英寸硬盘的外形尺寸已经固定,盘片数量以及盘片面积在这个有限的立方体空间内已经难以取得进展,不断提升△HAMR(Heat-AssistedMagneticRecording,热面密度(记录密度和磁道密度)的增加导致放置每比特信息所能占用的磁性颗粒面积变小,颗粒之间的相互磁影响也会越来越大。为了保持信息稳定,避免相邻信息颗粒的干扰,高密度磁盘需要使用高矫顽力的颗粒。但这在改写信息时,需要磁头施加更强大的磁场变化,这可能意味着更长的操作时间和更多的干扰,导致性能或可靠性的下降。业界的解决方案是写入前对目标区域施加额外能量,让磁性颗粒的极性变得更容易被改变。目前已经正式商用的技术是希捷的HAMR(Heat-AssistedMagnetic介质,瞬间升温至400℃以上,临时降低矫顽力以辅助写入,然后在不到2ns的时间△HAMR技术的关键组件HAMR技术中,纳秒级的激光加热时间对硬盘的性能没有负面影响,因为在目前的磁着单盘容量提升,存储的单位容量成本将会很快被摊薄至传统技术之下。HAMR的另一个顾虑是增加了硬盘内的热源(激光器本身热量及盘片局部受热热量的增加会目前已经批量上市的魔彩盒3+平台单碟容量已经达到3TB,还有很大的增长空间。量的目标,23年达到5TB,24年在实验室内已达到6TB。现阶段4TB单碟容量的硬表6:ExosM30TB和传统的E30TB3TBSSD垂直扩展即3D堆叠,从早期的24层、32层,逐步增加。目前市场上主流产品使用300层以上的样品已经试产。500层的产品预计在2年内实现,乐观估计在2030年代到来之前有机会达到1000层。层数的增加会提升制造成本,主要是线性地增加了片面积减小可以相应降低光刻成本。考虑到光刻仍是半导体制造成本的大头,继续垂63横向扩展是减小单元间的间距,也就是提高每一层的密度。由于相邻存储单元之间具有电容效应,间距缩小会增加干扰、减少耐用度,这也工艺微缩而转向垂直堆叠的主要原因。但随着3DNAND层数已压缩水平方向间距提高密度的收益也随之放大。愈发强大的SSD逻辑扩展是提升单个闪存单元所存储的位数。通过区分更多的电荷状态(电压),每个单元可以代表的信息也从1位(SLC)提升至2位(MLC),再到目前TLC、QLC成为主流。2023年FMS会议中已经出现了基于浮栅技术的PLC(5层单元)的样品,而在实验室低温环境下,7层单元的技术可能性也获得了验证。考虑到目前QLCSSD仍处于市场培育阶段,用户的接受程度、部署的技术条件都有待继续提升,PLCNAND在短期内不会受到太多的关注。另外,考虑到基于电荷状态细分表征信息的代价(可靠性、耐用度)越来越大,而容量收益越来越小,逻辑扩展需要寻找新的技术数量的限制主要在于SSD的体积,准确地说是内部PCB的面积。以主流的2.5英寸外形为例,每块PCB的两面通常可以布置16颗芯片,如果需要安排更多的芯片则可者开发新的外形规格以容纳更大面积的PCB,如EDSFF,尤其是E1.L就是为高密度64格与容量的关系近乎于线性增加,而且容量点之间的落差通常是倍数关系,用户扩容但大语言模型的爆火打破了这个平衡。对于GPU节点,典型的SSD配置仍然是平均每GPU对应一块7.68TBTLCSSD作为缓存盘;对于配套的全闪存储节点,为了提升机架利用率和减少单位能耗,需要更高容量的SSD,如30TB等级的TLC企业级SSD主控的典型规格是16通道、每通道8CE,那么每个主控可以直接管理这也是目前高性能TLCSSD停留在30.72TB的根本原因。60TB以上容量的SSD需足够多的晶粒还会面临封装、PCB面积的限制。因此,针对AI催生的大容量SSD需求需要自上而下的改变才能满足,NAND原厂需要开发更大容量的晶粒。目前已经可大容量(2Tb及以上)的晶粒并不适合用在主流设备上,因为普通用户较低的容量需求对应较少的CE配置,虽然可以节省封装成本,但会损失性能。换句话说就是:AI存储的需求和主流设备的需求发生了分化。这与AI服务器有脱离通用服务器常规SSD的十倍以上,这导致它们只能成为支付能力最强多路并发和软件优化是SSD提高性能的常用手段,通过机械结构上的调整,HDD也65传统上,硬盘的性能主要由转速和记录密度决定。转速影响的是磁道的线速度和平均等待时间。磁道的记录密度和线速度决定了顺序读写的性能。由于硬盘的转速不再增加,面密度(包含记录密度和磁道密度)增长缓慢,硬盘的性能增长也变得迟缓,最HAMR技术的出现让人们看到了面密度提升的希望,但从初期产品的性能指标看,面密度的提升并没有转换为最大传速率的提升,随机写IOPS还有所下降。即使最大传△双磁臂可以扭转硬盘单位容量IOPS随容量提升的下降态势(来源:希捷)时代约10IOPS,30TB就只有个位数了。对于分布式存储集群而言,规模越大,低IOPS的危害也越大,尤其是写入操作的过大延迟会拖累整个集群的响应能力。通过66度,导致这样的产品昙花一现,厂商们还是选择提升转速的道路。20多年后,希捷重0.6GB/s0.02GB/s/TB0.04GB/s/TB0.6GB/s0.02GB/s/TBMACH.2的两组磁臂上下堆叠,共用一个枢轴,在机械结构上相对上个世纪的方案大幅度简化,硬盘的整体布局与传统硬盘基本一致,确保了硬盘尺寸的兼容性。首款基应4张。每组磁头除了拥有独立的音圈马达及驱动芯片,也对应各自独立的主控、缓存等。实际上,MACH.2在逻辑上就是两个硬盘——对于SAS接口的版本,它可以利用SAS协议中的逻辑单元号(LUN)功能,在操作系统中显示为两个容量减半的304550560MACH.2可以让传输速率翻倍,读IOPS也接近翻倍,而单位容量成本低于使用两块较小容量的硬盘。以MACH.2为代表的多磁臂技术逆转了性也会相应提升。当硬盘容量达到40~50TB的时候,利用两某大型云服务提供商表示,CMR容量达到24TB因此磁臂运动时需要对另一组磁臂的动作做补偿,并要求磁臂启停的节奏更平缓。这随着SSD被委以重任,其耐用度的先天不足受到重视。优化SSD的写入方式是提升耐用度的最好方法。长期以来,大多数SSD被当做传统块存储设备看待,应用于基于硬盘发展而来的整个软件生态当中。一个典型的问题就是块存储设备的LBA与闪存分写操作以及垃圾回收过程中面临写入放大问题。而大容量QLCSSD的IU通常是16KB以上,更容易出现写放大问题。有统计表明,TLCSSD的写入放大平均为1.768的写入,而是根据租户、应用程序等线索,将具有相似生命周期的数据分组到一起。承载这些数据逻辑分组的是多命名空间(MultipleNamespaces)。当一个进程/租户的临时数据被删除时,它们所在的命名空间所对应的若干物理页当中不可能存在其他进程的任何数据,可以直接将这一组页全部擦除。这样就避免了垃圾回收过程中有FDP还有利于提高性能和QoS。在混合工作负载中,写时延对QoS的影响最大。频繁写入对空白页的需求会触发盘内垃圾回收,带来高于预期的写时延,并导致被移动且不可能在垃圾回收操作中被迫移
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 增强现实中的音乐沉浸-洞察及研究
- 多传感器协同感知技术-洞察及研究
- 幼儿园健康教育课程内容开发
- 湖泊生态系统演化研究-洞察及研究
- 电子行业碳足迹动态研究-洞察及研究
- 桥梁施工技术标准规范使用手册
- 先锋叙事在电影改编中的重构与艺术表达研究
- 安全生产责任制及操作规范汇编
- 高中英语必修阅读教学设计
- 企业社会责任评估与报告编制指南
- 抗抑郁症临床用药分类
- 借款授信合同范本
- 应用PDCA降低抗生素的使用率及使用强度
- 百货公司管理制度
- 2025年上海市闵行区区管国企招聘笔试参考题库含答案解析
- 《性病防治知识讲座》课件
- 化工静电事故培训
- 脑疝的急救和护理
- 私人助理兼保姆聘用协议模板
- 工程项目现场管理制度(业主方用)
- GB/T 19411-2024除湿机
评论
0/150
提交评论