人工智能行业：云原生人工智能白皮书

上传人：1*** IP属地：山西上传时间：2024-04-15 格式：DOCX 页数：63 大小：273.01KB 积分：19.9 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

CNCFAI工作组云本土人工智能AuthorsAdelZaaloukAlexJonesAndreyVelichkevichBorisKurktchievCassandraChinCathyZhangClaudiaMisaleHuaminChenJoelRobertsKai-HsunChenMaliniBhandaruMichaelYaoNikhitaRaghunath彼得潘RajasKakodkarRasikPandeyRicardoAravenaRonaldPettyRyanTaylorSaadSheikhShawnWilsonTomThorleyVictorLu已发布3月20,2024（第1版）执行摘要云原生（CN）和人工智能（AI）是当今最关键的技术趋势。ClodNative1技术为运行应用程序提供了可扩展且可靠的平台。鉴于AI和机器学习（ML）的最新进展，它作为主要的云工作负载正在稳步上升。虽然CN技术很容易支持AI/ML工作负载的某些方面，但挑战和差距仍然存在，为创新和更好地适应提供了机会。本文简要概述了最先进的AI/ML技术，其次是CN技术提供的内容，在讨论不断发展的解决方案之前涵盖了下一个挑战和差距。本文将为工程师和业务人员提供知识，以了解不断变化的云原生人工智能（CNAI）生态系统及其机遇。我们建议阅读路径取决于读者的背景和兴趣。假设暴露于微服务2和CN技术3，如Kberetes(K8s)。对于那些没有工程AI系统经验的人，我们建议从头到尾阅读。对于那些在AI/ML采用或交付过程中走得更远的人，根据他们的用户角色4，我们建议深入到与他们正在努力解决或有兴趣解决的挑战相关的部分。我们还分享社会在这方面需要投资的地方。WHITEPAPER2WHITEPAPERWHITEPAPER内容表云原生(CN)04的出现人工智能进化(AI)05结束注释28云人工智能(CNAI)简介在我们进入CNAI之前，将CloudNative和AI技术结合在一起，让我们简要地研究一下每种技术的演变。云原生的出现自2013年以来广为人知，5随着容器技术从LXC6到Docer7再到Kberetes（K8s）的兴起，ClodNative（CN）一词越来越受欢迎8如今，ClodNative更广泛地成为使用微服务设计模式构建的平衡系统的理想目标，该模式可促进模块化设计和开发，具有高度的可重用性。这也有助于部署性、可扩展性和弹性。云原生计算基金会定义云原生计算基金会定义9云原生为：CloudNative技术使组织能够在现代动态环境（如公共云、私有云和混合云）中构建和运行可扩展的应用程序。容器、服务网格、微服务、不可变基础设施和声明性API就是这种方法的例证。这些技术使松散耦合的系统具有弹性，可管理和可观察性。结合强大的自动化，它们使工程师能够以最少的工作量频繁且可预测地进行高影响的更改。云原生计算基金会寻求通过培育和维持一个开源、供应商中立的项目生态系统来推动这一范例的采用。我们将最先进的模式民主化，使每个人都能获得这些创新。云原生人工智能是云原生的一个不断发展的扩展。CloudNativeArtificialIntelligence(CNAI)是指使用CloudNative原理构建和部署AI应用程序和工作负载的方法和模式。启用可重复且可扩展的AI工作流，可让AI从业者专注于自己的领域。Kberetes已经发展成为事实上的云操作系统，包括私有、公共和混合云产品。它实现了一个分布式编排器，用于处理多种类型的网络、存储和计算资源。此外，K8s提供了一个接口，使DevOps10的最佳实践，如GitOps.11每个云服务提供商（CSP）都有一些Kberetes服务的味道，便于访问基础设施和一系列支持服务来运行各种工作负载，包括AI/ML。WHITEPAPER4人工智能的进化人工智能，最早在1956年被称为一个术语，12是机器模拟人类智能的能力。几十年来，它已被用于语音识别，机器翻译，图像处理，游戏等应用，甚至是作为危险玩家的出色表现。13但是，由于人工神经网络和深度学习的创新，人工智能最近在midshare中爆发了，主要应用于自然语言理解。AI有两种主要分类：判别性和生成性。判别式AI寻求学习决策边界或分类，将知识捕获为“模型”,用于预测新数据。例如，将电子邮件分类为垃圾邮件，区分猫和狗的图像等等。判别AI通常用于已知所需输出的任务（例如Procedre，通过监督学习，一种机器学习的形式)。人工智能擅长序列预测，例如，通过分析大量现有文本，包括我们的个人写作风格，以高概率猜测我们接下来要输入的内容。卷积神经网络14（CNN）最初是在1980年代开发的，但直到21世纪初才被广泛使用。近年来，由于它们能够从图像的大型数据集中进行学习，并在各种图像处理任务（例如对象检测，图像分类和分割）上表现良好，CNN变得越来越受欢迎。生成AI学习数据中的潜在结构或表示。它可以使用这些结构或表示来合成新数据，例如创建故事，音乐和视觉艺术来自单词提示。生成性AI用于所需输出未知或“正确”输出定义不明确的任务。使用生成性AI，AI已经超越了人类认为的创造性，原创性和崇高性。让我们仔细看看AI的一些惊人突破。变压器由多伦多大学和谷歌的研究人员于2017年开发。变形金刚使用一种称为缩放点积注意力的专门机制，该机制使它们充满了类似记忆的结构。15基于变形金刚的模型对于自然语言处理任务非常有效，例如回答问题，总结文本和翻译。因此，它们在大多数大型语言模型（LLM)中至关重要。最著名的LLM是GPT，该模型为流行的ChatGPT服务提供动力。WHITEPAPERLLM是在海量数据集上训练的。除了能够针对具有额外数据的专业领域进行微调之外，它们还采取可能很长的提示序列来生成上下文敏感的响应，无论是时事，医学，法律还是其他。用于微调的新技术，例如来自人类反馈的强化学习（RLHF）和直接偏好优化（DPO），已经被开发出来，以使LLM更具吸引力。研究和创新使最终用户的交互比以往任何时候都更快，更有创造力，更准确。与数据科学和软件的创新一样重要的是基础设施的发展模型推理（从AI模型计算结果的过程）和模型训练（从数据构建AI模型的过程）。使用AI加速器技术，人工智能从业者可以更快地迭代，以在几天和几周内提供更高质量的模型，而不是几个月。此外，数据科学家和统计学家采用的几种传统技术正在重新评估，以利用CN系统的功能。云原生与人工智能的融合正如上一节所述，人工智能是一个更广泛的概念，旨在创建可以执行类似于人类任务的系统。机器学习是一种基于数据进行学习并做出明智预测和决策的方法。它可以被认为是另一种形式的自动化，涉及使用算法来学习和改进，而无需显式编程。最后，数据科学作为一个多学科领域，融合了统计学，数学和计算机科学的技术来制定。广泛的活动，从数据分析和解释到机器学习算法的应用。从广义上讲，我们可以将AI，ML和数据科学的应用程序分为两大类：预测性AIand生成AI。预测性AI旨在预测和分析现有模式或结果（例如，分类，聚类，回归，对象检测等）。相比之下，生成AI旨在生成新的和原始的内容（例如，LLM，RAG17等）。因此，支持预测性和生成AI的算法和技术可能会有很大差异。WHITEPAPER以下是预测和生成AI在计算、网络和存储方面有不同需求的一组示例：挑战/需求生成AI预测性AI计算型Power需要专门的硬件。中等到高。通用硬件就足够了。数据量和多样性用于培训的大量、多样化的数预测的具体历史数据。模型训练和微调使用专业计算进行复杂的迭代训练。适度的训练。可扩展性和弹性高度可扩展和弹性的基础设施（可变和密集的计算需求）可扩展性是必要的，但要求较低的弹性。批处理或事件驱动的任务。存储和吞吐量具有出色吞吐量的高性能存储。数据类型多需要高吞吐量和低延迟的数据访问。高效存储，吞吐量适中。它更侧重于数据分析，而不是数据生成；数据主要是结构化的。联网用于数据传输和模型同步(例如,在分布式训练期间)的高带宽和低延迟。数据访问的一致可靠连接。在接下来的部分中，我们将探讨如何满足这两种形式所产生的需求，随之而来的挑战，以及在面对这些挑战时可能提出的建议。什么是云原生人工智能？云原生人工智能允许构建实用的系统来部署、运行和扩展AI工作负载。CNAI解决方案解决了AI应用科学家、开发人员和部署人员在云基础设施上开发、部署、运行、扩展和监控AI工作负载时面临的挑战。通过利用底层云基础设施的计算(例如Procedre，CPU和GPU），网络和存储功能，以及提供隔离和受控共享机制，可加速AI应用程序性能并降低成本。图2（下图）在工具和技术之间映射了这些启用机制。WHITEPAPER7启用工具和技术18在云原生基础设施上运行AI云服务提供商和/或AI公司发布的媒体文章强调了CloudNativeforAI的价值。OPENAI将Kubernetes扩展到7,500个节点拥抱脸与Microsoft合作在Azure上启动拥抱脸模型目录云原生人工智能是云原生的一个不断发展的扩展。云原生人工智能是云原生的一个不断发展的扩展。Kubernetes是一个可用于部署和管理容器的编排平台，容器是轻量级、可移植、自包含的软件单元，AI模型可以打包成容器然后部署到K8s集群。容器化对于AI模型尤其重要，因为不同的模型通常需要不同且通常相互冲突的依赖关系。在容器中隔离这些依赖关系可以在模型部署中提供更大的灵活性。CN工具允许AI模型的高效和可扩展部署，并不断努力为AI工作负载定制这些模型。WHITEPAPERKubernetesScheduler21继续发展，2223特别是为了更好地集成和支持共享图形处理单元(GPU)，这些图形处理单元在加速AI工作负载方面变得非常流行。除了支持共享GPU和处理多租户的应用程序之外，还在努力支持利用Kubernetes之外的远程资源池。需要高质量的数据来训练和测试AI模型，以获得卓越的推理。云原生基础设施可以通过各种方法访问数据，例如数据湖和仓库。许多云提供商提供块、对象和文件存储系统，非常适合提供低成本、可扩展的存储。例如，模型的大小可以达到千兆字节。在训练阶段，每次拉取模型的检查点都会导致网络和存储带宽的严重负载。将模型视为容器化的工件为在OCI24注册表中托管它们打开了大门，并启用了缓存。它进一步允许应用。软件供应链模型的最佳实践，例如工件签名,验证，证明和数据来源。此外，容器化模型/工件促进了WebAssembly(WASM)二进制文件的捆绑。WASM是一种独立于平台的高效CN推理方法。为什么选择云原生人工智能？凭借其弹性，始终在线的基础架构，云允许企业，初创公司和开发人员快速原型，提供新服务，扩展解决方案等等。它还通过凭借其弹性，始终在线的基础架构，云允许企业，初创公司和开发人员快速原型，提供新服务，扩展解决方案等等。它还通过资源共享实现了成本效益。普通用户不再需要担心订购硬件或处理空间、电源、网络连接、冷却、软件许可和安装等物流问题。人工智能也有类似的担忧——快速原型设计、访问存储、网络和计算资源，以解决小型和大规模的训练和推理任务。使用AI改进云原生系统无论是打包为可观察性工具还是利用LLM功能进行日志的自然语言处理（NLPAI驱动的解决方案/项目都在进入运营商和最终用户的手中，以提高他们的生产力并使他们的生活更轻松。一个这样的开源云原生计算基金会(CNCF）项目是K8sGPT，它利用LLM的模式识别和语言功能，如Bedroc，Cohere等，以帮助K8s运营商。日常工作。更重要的是，CN和AI的共生为新的和不可预见的机会打开了生态系统。例如，我们预计能够操作和管理复杂系统的技术含量较低的用户将会增加。WHITEPAPER云人工智能的挑战重要的是要注意，CNAI的挑战在不同的角色之间会有所不同。26而且，尽管ClodNative的灵活，可扩展的平台非常适合AI工作负载，但AI的规模和延迟需求带来了挑战，并暴露了CN技术中的差距，同时也带来了机会。我们在端到端ML流水线的背景下梳理这些内容。27在文献中也称为MLOps.28传统的时间和空间，并行性和同步权衡的问题都存在，暴露了易于使用的差距。总而言之，ML生命周期如下所示：周期典型的ML管道包括：•数据准备（收集、清洗/预处理、特征工程）•模型训练（模型选择、架构、超参数调优）•CI/CD,模型注册表（存储）•模型服务•可观察性（使用负载、模型漂移、安全性）训练、相似性搜索和模型大小（特别是LLM）中涉及的数据量，每个驱动器内存和性能方面的考虑因素。虽然CN处理CPU的访问控制和调度，但具有充分共享的GPU分配仍在不断发展。ML训练阶段涉及搜索，需要跟踪中间模型的性能，以确定要保留哪些模型以及如何进一步调整模型参数以获得更高的准确性。考虑到处理数据的敏感性和模型的内在价值，安全性更为重要。可观察性对于检测模型漂移、使用负载等至关重要。让我们更深入地探讨每个管道阶段的挑战。鼓励读者考虑与其领域相关的其他挑战，并添加到对话中。数据准备作为AI/ML管道的第一阶段，数据准备可能会带来各种挑战。这些可以大致分为三大类：管理大数据大小，确保开发和部署期间的数据同步以及遵守数据治理策略。WHITEPAPER数据大小构建更好的AI/ML模型的数据需求增长速度快于摩尔定律，每18个月翻一番。30无论是数据管理/处理、数据处理还是数据分析，构建AI/ML模型的数据需求都在快速升级。因此，分布式CloudNative计算和高效的数据移动和存储对于弥合这些计算需求和硬件能力之间的差距至关重要。数据同步数据可能需要以不同的格式从多个不同的位置获得；开发人员和生产环境通常是不同的，所有这些都是除了处理分布式计算引起的复杂性增加之外，例如分区和同步。让我们仔细看看后者。在像Spar这样的数据处理系统中，行业标准接口SQL在为用户提供熟悉的统一体验方面起着至关重要的作用，无论他们是在本地制作原型还是以分布式方式运行大型工作负载。但是，ML工作负载没有行业标准接口。因此，数据科学家在本地使用小数据集开发他们的MLPytho脚本，然后分布式系统工程师重写这些脚本以进行分布式执行。如果分布式ML工作负载未按预期运行，数据科学家可能需要使用其本地Pytho脚本调试问题。这个过程是低效的并且通常是无效的。尽管有更好的可观察性工具和容器技术提供的可再现性,但这是真的。存在可能可行的解决方案来解决本地开发和生产环境之间的这种不一致。首先是使用行业标准接口来支持端到端ML生命周期。例如，用户可以利用PyTorch或TesorFlow等原生ML框架的API来创建训练代码，并通过在Pytho运行时本地运行来验证它。然后，用户可以轻松。重用相同的代码并利用Kbeflow的PythoSDK通过Kid/Miibe以分布式方式在本地运行此代码，或者通过使用相同的PythoSDK将其部署到远程大型Kberetes集群来轻松扩展其训练代码。另一种选择是使用通用分布式计算引擎，如Ray,其计算抽象还使用户能够在本地和生产环境中无缝运行相同的Ray脚本。数据量是一个贯穿各领域的问题，也体现在训练阶段。数据治理数据治理对于建立信任和确保负责任的AI开发至关重要。应该考虑关于数据治理的三个关键支柱。1.隐私和安全：应对GDPR31和CPA32等数据隐私法规的复杂环境至关重要。应实施强有力的安全措施来保护人工智能模型中使用的敏感数据。应使用加密、访问控制和定期漏洞评估来保护有价值的信息。2.所有权和谱系：必须明确定义从收集到使用的整个AI生命周期中谁拥有和有权访问数据。应使用数据沿袭跟踪工具来了解数据如何通过系统流动，确保透明度和问责制。这样做有助于防止对敏感信息的未经授权的访问和滥用。WHITEPAPER3.缓解偏差:人工智能模型仅与所训练的数据一样好。因此，必须积极监控和解决数据和算法中的潜在偏差。这包括使用不同的数据集，采用公平性指标，并不断评估模型以确保其提供公平和道德的结果，包括捕获其局限性。ModelCards33正在不断发展以捕获这些结果。数据隐私和安全是一个跨领域的问题，需要在每个阶段加以考虑。模型训练模型训练数据量呈指数级增长，导致需要分布式处理和加速器来实现更多的并行性。进一步的训练是一个迭代的多步骤过程，这使得扩展成为一个复杂的多组件协调任务。我们在本节中更详细地回顾了这些方面。不断上升的加工需求LLM正在迅速突破界限，以满足不断增长的AI/ML训练和推理计算需求，加速器正在变得流行。这些范围从多个供应商的GPU与谷歌的张量处理单元（TPU），英特尔的高迪，甚至现场可编程门阵列（FPGA）不同的功能。这些多样化的计算资源需要虚拟化支持、驱动程序、配置和共享它们的能力以及CN调度器增强功能。此外，这些加速器有限的可用性和成本促使人们探索多云资源带宽，甚至是sy34计算。在GPU虚拟化和动态分配方面，将CN技术用于AI可能会很复杂。vGPU，MIG，MPS（请参阅词汇表）和动态资源分配（DRA）等技术使多个用户可以共享单个GPU，同时在Pod中的容器之间提供隔离和共享。它们可以提高GPU利用率，从而降低成本，此外还可以允许多个工作负载同时受益。但是，实施需要仔细的编排和管理，尤其是在动态分配和释放资源时。AI和CN工程团队之间的紧密协作是确保顺利和高效集成的必要条件。成本效率云原生环境固有的弹性和可扩展性允许组织根据波动的需求动态调配和扩展资源。这一点也适用于AI任务。However,resourcepropersizingandreactivescheduingtomeetvaryingworkloaddemandareevenmorecompliantinthecontextofacceleratorssuchasGPU,whichareexpensibleandlimitedinsupply.Itdrivestheneedtobeableto细分GPU更好地利用它们。在模型服务期间减少碳足迹可以使用自动扩展服务框架来实现，该框架根据需求动态调整资源。36KServe，37一个LFAI和DataFodatio项目，提供了这样的功能。可持续能力38可以通过各种方式得到显著改善,例如使用更小、更专业的模型、使用专家的混合以及诸如压缩和蒸馏的技术。将ML服务分配到由可再生或更清洁能源提供动力的地理区域可以显着减少碳足迹。ML模型的负责任开发可以包括有关碳足迹的元数据，以帮助跟踪和报告模型排放对环境的影响。其他工具，例如mlco240and编解码器41存在局限性，以帮助在体育锻炼之前预测新神经网络的碳足迹。WHITEPAPER可扩展性协调各种微服务的扩展,每个微服务封装特定的AI功能,此外，AI模型和框架的异构性使标准化变得复杂，使得创建适用于各种应用程序的通用扩展解决方案具有挑战性。编排/调度正如前面提到的，CloudNative工具和项目通过利用容器化、微服务和可扩展云基础设施的固有特性，简化了AI工作负载的编排和调度。复杂的AI工作流可以分解为模块化组件，从而更容易独立管理和扩展特定功能。但是，如前所述，GPU是一种宝贵的需求资源，能够更有效地管理基于GPU的AI工作负载的共享和调度对于AI开发团队的成功至关重要。用于解决高级调度需求（如装箱，放置，资源争用和抢占）的经过良好测试的工具对于云原生AI的蓬勃发展至关重要。通过Yior，42Volcao，43和Kee，44后两种解决批量调度的努力，更好的调度支持在Kberetes中不断发展，这对于有效的AI/ML训练特别有价值。训练作业受益于gag（或组）调度，45因为属于作业的容器副本需要全有或全无放置策略才能正常运行，并且这些作业不容易放大或缩小。帮派调度支持是一个机会领域。自定义依赖项AI应用程序通常依赖于特定的框架和版本的库，这些依赖关系可能无法轻易获得或与标准容器映像兼容。由于许多AI工作负载受益于GPU加速，因此拥有必要的GPU驱动程序和库来支持在GPU上运行的工作负载可能具有挑战性，尤其是在与不同的供应商和GPU架构打交道时。例如,当在NVIDIA设备上运行分布式训练时,可以使用NVIDIA集体通信库(NCCL),以利用优化的多GPU和多节点通信原语。不同版本的库可能会导致不同的性能。可复制的构建是所有软件的良好构建卫生实践，需要使用版本化的依赖关系来避免运行时不兼容和性能意外。模型服务由于负载可变性和通常的延迟要求，模型服务主要不同于数据处理和训练。此外,除了共享基础设施之外,还考虑服务弹性以降低成本。此外，AI模型特征是不同的，在经典ML，深度学习（DL），生成AI（GAI）LLM以及最近的多模态方法（例如。Procedre，文本到视频)。不同的工作负载需要来自ML基础设施的各种支持。例如，在LLM出现之前，模型服务通常只需要一个GPU。如果工作负载对延迟不敏感，则一些用户选择基于CPU的推理。但是，当服务LLM时，由于Trasformer解码器的自回归特性，性能瓶颈从计算绑定转移到内存绑定。46。WHITEPAPER本节探讨CN如何支持这些方面以及仍然存在哪些挑战。微服务架构和开发人员体验CN基于微服务架构。然而，这可能对AI构成挑战，将ML管道中的每个阶段作为单独的微服务来处理。许多组件可能使保持和同步它们的输出和切换具有挑战性。即使用户只想在笔记本电脑上使用这些解决方案，他们可能仍然需要创建数十个Pods。复杂性使得基础架构缺乏适应多功能ML工作负载的灵活性。其次，基于微服务的ML基础架构导致了碎片化的用户体验。例如，在他们的日常工作流程中，AI从业者可能需要构建容器映像、编写自定义资源YAML文件、使用工作流编排器等，而不是只专注于他们的MLPytho脚本。这种复杂性还表现为更陡峭的学习曲线，要求用户在他们的专业知识和/或兴趣之外学习许多系统。第三，在ML模型生命周期中集成来自不同系统的每个阶段时，成本会大大增加。Samsara工程博客47提到，它的ML生产管道托管在几个微服务中，具有单独的数据处理、模型推理和业务逻辑步骤。拆分基础架构涉及复杂的管理以同步资源，从而减慢了开发和模型发布的速度。然后，使用Ray，Samsara构建了一个统一的ML平台。增强了他们的生产ML管道性能，为公司提供了近50%的年度ML推断总成本，这主要源于资源共享和消除了各个阶段的序列化和反序列化。这些问题凸显了对基于Ray等通用分布式计算引擎的统一ML基础架构的需求。Ray可以补充现有的ClodNative生态系统，专注于计算，允许ClodNative生态系统专注于部署和交付。Ray/KbeRay社区与多个ClodNative社区广泛合作，例如Kbeflow，48Kee，49GoogleGKE，50和OpeShift.51。模型放置理想情况下，用户喜欢在单个集群中部署多个可能不相关的模型进行推理，同时也寻求共享推理框架以降低成本并获得模型隔离。此外，对于弹性，他们希望在不同的故障区域中复制副本。Kberetes提供了亲和力和反亲和力机制来调度不同拓扑域中的工作负载（例如Procedre，zoe，ode52但可用性改进可以帮助用户利用这些功能。资源分配模型服务主要需要处理模型参数。参数的数量和表示大小指示所需的内存。除非处理万亿参数LLM，否则这些通常只需要GPU的一部分。这凸显了需要能够分割昂贵的加速器，如GPU。DRA项目53仍处于alpha状态，旨在使GPU调度更加灵活。另一个考虑因素是响应延迟，这在很大程度上取决于用例。例如，在自动驾驶环境中检测道路上的物体所需的响应延迟比创建图像或写诗时的可容忍低几个数量级。其他服务实例可能需要为高负载条件下的低延迟应用程序启动。如果可以实现所需的延迟，这些应用程序可能会降落在CPU、GPU或其他计算资源上。在Kubernetes中，对可用资源的这种级联机会调度的支持仍在不断发展。WHITEPAPER此外，事件驱动的托管是不浪费资源和降低成本的理想选择。Kberetes事件驱动自动缩放（KEDA）54项目非常适合这里，前提是模型加载延迟可以容忍仍然提供端到端服务延迟。这里的一个机会是通过以OpeCotaierIitiative55(OCI)格式交付模型来为模型共享提供更好的支持，OCI是一种适用于共享的不可变文件系统。另一种解决方案是将AI用于CN，特别是预测使用情况，并主动浮动或关闭服务实例以处理预期的负载。用户体验CN的标志，也就是容器，允许可移植性和可重复性，而Kberetes的API和操作员，如Kbeflow，简化了AI工作负载的部署，使它们以易于扩展的方式“编写一次并（几乎）在任何地方运行”。一旦用户从裸机或虚拟化环境上的传统批处理系统过渡到容器和Kberetes，他们就会欣赏云技术的优势，尽管它们最初的采用面临挑战。然而,学习曲线可以是陡峭让我们考虑AI培训工作负载。配置运行时环境可能是耗时的,特别是当使用高度可定制的库时。用户可以选择对大量环境变量使用默认设置，但这些设置可能会产生较差的性能。一旦在给定的Kberetes平台上针对特定的训练工作负载进行了优化，就不能保证它将在另一个平台或训练任务或包含不同库的容器捆绑上执行同样的操作。这会影响工作负载的可移植性和易用性。上一段只看了AI管道中的一个阶段，通常是多阶段，涵盖数据准备、训练、调优、服务和微调。如何为不一定精通系统或云概念的AI从业者提供无缝的用户体验，并为他们提供简化的产品体验，以消除AI开发中的摩擦？为AI从业者提供用户友好且众所周知的Pytho编写的SDK，抽象出Kberetes的复杂细节，可以帮助提高ClodNativeAI工具的采用率。用户希望使用PyTorch和TesorFlow构建ML模型，然后通过使用简单的PythoSDK快速轻松地将其部署到Kberetes基础设施，而不必担心打包，构建Docer映像，创建Kberetes自定义资源等细节（例如。Procedre，PyTorchJob，TFJob），并使用复杂的云原生工具扩展这些模型。要为MLOps生命周期创造一个更加用户友好的开源产品体验，需要一个强大的产品开发重点。集成像JupyterLab这样的工具，它包含了类似IDE的体验空间，这些体验可能存在于当今可用的AI/ML工具（例如KubeflowKatibAPI）中，这将使ML从业者能够更快地迭代他们的AI开发，而在多个用户界面上的上下文切换更少。JupyterLab的可扩展特性为ML从业者提供了一个工作区，可以在熟悉的工具中构建，部署和监视AI/ML工作负载,而无需学习新的工具和界面。甚至可以使用JupyterLab使用像Elyra56这样的GUI工作流构建工具以及Kubeflow管道来安排在各个AI/MLNotebooks中开发的代码的工作流。企业内外的大数据是AI的支柱。必须考虑如何弥合大数据和ML生态系统之间的差距。例如，现代生成AI模型需要大量数据进行训练。尽管如此，将Iceberg等格式的大量数据加载到PyTorch等训练框架中的工具仍需要增强，TorchArrow57和PyIceberg58等工具展示了早期的希望。用于大规模数据准备的工具，如Spar，与ML生态系统中的工具没有很好的连接。需要额外的开销来准备数据、构建功能、将功能存储到磁盘，然后将这些功能读回内存以用于训练工作负载。RayData59或基于ArrowFlightRPC构建的数据缓存微服务等解决方案可能会显著提高训练工作负载第一阶段的输入/输出开销。WHITEPAPERML工具很复杂，用户通常需要帮助才能在Kubernetes上部署它们。识别和部署GPU的适当驱动程序并使其与用户的AI/ML兼容是不平凡的工作负载。应简化和改进现有ML工作负载的升级路径，类似于其他Kubernetes控制平面组件。用户应获得有关如何使其AI工作负载适应Kubernetes升级和集群停机的明确指南。影响易用性的另一个方面是多租户，使用配额和名称空间。非管理员用户需要帮助来确定他们可用的系统资源。通常，管理员提供工具(例如，Grafana仪表板)以实现可观察性；当缺乏这些工具时，非专家/非管理员用户会陷入困境。最后，调试是具有挑战性的，在分布式环境中更是如此，当处理管道包括多个复杂服务时更是如此。硬件和软件故障可能或多或少是明确的，并且很容易识别云用户，但人工智能从业者可能需要帮助来查看故障的完整情况。例如，NCCL终止错误可能是模糊的，有许多可能的原因，每个原因都需要调查。用户可能需要将错误消息解析给管理员以获得进一步的帮助。交叉关注在前面的章节中，我们解决了AI管道中特定阶段的挑战。但其他是所有阶段和所有软件应用程序所共有的，涵盖参考实现、可观察性、安全性等。例如，适当调整大小的资源对于处理数据、训练或服务是有效的。它具有资源利用率，成本和可持续性的影响。让我们深入一点。参考实施云和人工智能都不是容易的研究，在从许多工具和项目中做出选择后，让它们一起工作并不容易。需要通过要求满足大多数简单用例的参考实现来改进采用。Kberetes的Kid创造了奇迹，帮助开发人员开始使用笔记本电脑。JpyterNoteboo也为新兴的AI/ML开发人员做了同样的事情。对于在云中运行的AI/ML管道，我们需要类似的东西。适当调整资源调配规模AI/ML工作负载是资源密集型的，尤其是具有数十亿或数万亿参数的LLM。如前所述，像GPU这样的加速器价格昂贵且供不应求，使用适当的大小分配来节省资源和控制成本至关重要。我们不仅需要能够对GPU进行时间排序，还需要将它们切片或划分为分数段，并根据不同工作负载的需要明智地分配它们。结合上述后端工作，需要前端支持在启动工作负载时请求GPU子单元并对其进行配置。为了满足这一需求，Kubernetes引入了一个新的API，动态资源分配(DRA)6061作为v1.26中的alpha。该API为管理专用硬件资源提供了更大的灵活性，特别是：•网络连接资源•资源请求的任意参数•任意、特定于资源的设置和清理操作•自定义匹配资源请求与可用资源，包括处理可选请求。WHITEPAPER•与现有方法相比，DRAAPI提供了几个优点：-可以通过开发和部署DRA驱动程序来添加自定义硬件，而无需修改核心Kubernetes代码库-供应商可以定义资源参数-资源可以在容器和Pod之间共享成本控制AI/ML可以迅速成为预算黑洞。自动化资源分配和扩展流程以优化AI云成本至关重要。微服务可以根据需要单独扩展。此外,它非常适合使用Kubernetes自动扩展功能，这将进一步帮助正确调整活动实例的数量，从而降低基础设施成本。最后，Spot实例可以利用策略来捕获平衡风险并满足服务级别协议(SLA)。可观察性可观察性在AI/ML管道中很有价值。CN提供了OpeTelemetry62和Promethes63等工具，可以监控负载、访问次数、响应延迟等。在生产环境中监控模型性能和运行状况至关重要。跟踪模型漂移以确保AI系统的准确性和可靠性至关重要。例如，在COVID-19大流行期间，随着越来越多的人戴着口罩，面部识别系统可能会退化。同样，由于自然灾害或利率变化等外部因素,房价预测模型可能会偏离现实。因此，持续监控AI模型对于检测任何性能问题并进行必要的调整至关重要。基础设施监控是必不可少的，尤其是对于长时间运行的工作负载。当AI训练工作负载运行时，GPU和网络可能会出现异常。例如，GPU内存中的错误或无法访问的节点可能会导致作业崩溃。但是，可能会出现无法立即识别的问题：例如，训练性能可能会开始下降，而不会报告任何明显的硬件故障。在这些情况下，只有深度诊断才能识别问题。当前的度量不会暴露深度诊断的结果。因此，在运行AI培训作业之前、期间和之后提供检测、避免和处理基础设施问题的工具变得至关重要。灾难恢复和业务连续性所有生产服务都必须具有弹性，并有备份，AI服务没有什么不同，服务失败或响应缓慢会导致声誉受损和收入损失。制定全面的灾难恢复计划至关重要，可能包括数据备份，在多个可用区中运行实例以及运行多个实例。策略可以帮助您解决这些问题。安全性和合规性审核所有面向外的服务，特别是ModelServing实例，都需要防火墙保护、访问控制等。与任何其他服务一样，您的AI/ML工作负载必须遵循安全最佳实践。这些包括渗透测试、漏洞扫描和工作负载域的合规性检查，如医疗保健、财务等。WHITEPAPER像Grype64和Trivy65这样的工具可以扫描容器化工作负载的漏洞。Kyverno66和策略实施服务可以确保容器化工作负载以所需的最低权限运行，并且需要较小的功能。使用机密计算67或可信执行环境（TEE）可以实现附加的安全层。这些硬件支持的环境提供加密内存、数据完整性保护和可测试性。TEE在使用过程中保护数据和工作负载免受其他基础架构用户的影响。AMD、英特尔、NVIDIA和IBM都有TEE产品，它们正在公共云中可用。保护敏感数据，如医疗保健和财务信息以及ML模型是主要用例。可持续性AI/ML模型训练一直是资源密集型的，尤其是像GPT-3这样的大型语言模型。培训排放可与多个横贯大陆的航班相媲美，而由于查询量高，推断排放加起来。68行业倾向于对市场主导地位的过大模型的趋势导致效率低下，从而导致能源和资源消耗。69在报告模型的环境影响方面，提高透明度和标准化是挑战。最近，有努力增加与LLama70的透明度，同时一些见解正在成为可用的关于水使用的冷却服务器运行的LLM，如ChatGPT。ChatGPT的碳足迹是显著的，因为它的数以百万计的用户。可持续发展的动力为创新提供了机会。DeepMind的BCOOLER和DistilBERT和FlexGen等更小，更高效的模型在减少AI/ML能源方面显示出希望71采用高效的机器学习架构、优化的处理器以及将云计算基础设施定位在节能位置等最佳实践，可以遏制机器学习训练的碳儿童教育如今，技术教育主要集中在没有AI或计算机辅助的传统编程语言上。学校通常不使用支持重构，模板或API帮助的现代IDE，并且将在包含的网站上提供学生代码，以便于设置。他们也不教授使用像Githb的Copilot这样的AI编码辅助技术,尽管这将成为未来的标准开发模式。大多数学生甚至不知道这项技术的存在。由于担心作弊，学校积极劝阻学生使用ChatGPT和Copilot等AI技术。这阻止了学生学习如何使用AI技术来增强他们的工作并有效地脱颖而出。因为学校以负面的眼光描绘人工智能技术，好学的学生害怕使用它，而寻找避免做作业的方法的学生更有可能使用人工智能。上面提到的挑战为我们提供了在实施CNAI系统时关注的领域的洞察力。幸运的是，CN工具正面临着许多挑战。我们接下来考虑来自这些挑战的机遇。WHITEPAPER云本土人工智能前进的道路本节提供了一个前瞻性的方法来主动实施CNAI。我们从建议（或行动）开始，然后列举现有但不断发展的解决方案（即CNAI软件最后考虑进一步发展的机会。建议灵活性从用于接口的REST接口到基于云的资源和服务,CN技术今天运行良好,并将随着新产品的发展而继续运行。可持续性改善AI工作量环境影响的问责制对于生态可持续性至关重要，特别是在云原生景观中。这可以通过支持项目、方法和分类法来实现，这些项目、方法和分类法有助于澄清、分类和催化AI工作量对生态可持续性的影响。此外，集成云原生技术以优化AI工作负载调度、自动扩展和调优是必要的。此外，倡导在环境影响评估中采用标准化方法至关重要。同样重要的是，主要通过Kbeflow等云原生堆栈来促进节能AI模型的开发和使用，并提高模型开发和使用的透明度。最后，强调有目的和有效使用人工智能的重要性将有助于最大限度地减少不必要的计算负荷。自定义平台依赖项我们建议确保CloudNative环境具有所需的GPU驱动程序，并支持针对AI工作负载的GPU加速。这一点至关重要，因为AI应用程序通常依赖于特定的框架和库版本，这些版本可能无法轻松访问或与标准容器映像兼容。这将有助于应对拥有各种供应商和GPU架构的挑战。参考实施考虑到AI开发中涉及的工具的数量和复杂性，建议考虑基于ClodNative，基于OpeTof的各种工具的用户友好组合的参考实现的价值，这些工具可以为世界各地的任何团队提供类似产品的体验，以便快速开始在云中进行AI/ML。结合用于数据准备、功能存储、培训、调优、模型注册和服务的最佳可用开源工具，可以帮助团队快速开始进行机器学习，并利用云的强大功能有效地扩展工作。考虑将一套复杂的技术组合成一个功能和可扩展的分布的价值/力量。（例如JupyterLab，Kubeflow，PyTorch，Spark/Ray/Trino，Iceberg，Feast，MLFlow，Yunikorn，EKS/GKE,S3/GCS等）。这样的参考实现对于推进基于云的技术的开放和负责任的AIML开发可能非常有价值。WHITEPAPER行业接受术语随着人工智能变得无处不在，它在某些方面变得越来越复杂，但在其他方面变得更简单。例如，术语演变，为企业提供了更轻松的关于人工智能的对话(例如，“重新利用”来重用现有内容等术语)。这也适用于更多的技术术语，如RAG、理性和精炼。AI/ML的演进解决方案以下只是一些特定工具或技术的示例，这些工具或技术已成为启用AI（包括CNAI）的选项。业务流程-KubeflowKubeflow是支持MLOperations(MLOps)的CNAI工具的一个例子。使用Kubernetes、无状态架构和分布式系统等技术,Kubeflow帮助AI/ML社区更有效地采用ClodNative工具。Kbeflow的成功采用凸显了ClodNative技术在AI/ML/DL中的成功集成。Kbeflow在将机器学习概念应用于Kberetes提供的弹性基础的能力方面一直非常进步，许多其他项目也遵循了这一要求。72Kbeflow遵循Kberetes最佳实践，并将其应用于AI/ML空间，例如声明性API，可组合性和可移植性。Kbeflow为ML生命周期的每个阶段实现了单独的微服务。例如，使用KbeflowTraiigOperator。对于分布式训练，Katib用于超参数调优微调，KubeflowKServe用于模型服务。这允许用户将单个Kubeflow组件集成到他们的ML基础设施中或使用Kubeflow作为端到端ML平台。上下文-向量数据库LLM在某个时间点使用大量的，通常是公开可用的数据进行训练。我们通过提示与他们进行交互。但是为了使响应更有价值，而无需用户输入更长或更多的提示并可能检索更多特定领域的响应，“丰富”是有帮助的提示。这是矢量数据库的来源。它们是矢量的巨大索引存储，是数字形式的数据的数学表示。嵌入是每个附加数据的特定矢量表示形式，通常是专有的，特定于领域的或更新的，旨在捕获关系和相似性(context)它们表示的数据之间。用户提供的LLM提示使用向量数据库使用的相同嵌入进行转换,然后使用结果向量在数据库中查找相似向量。然后将它们合并以提供额外的上下文多模式GenAI系统将处理可能是文本、图像、音频或其他的提示，并具有处理不同输入的嵌入能矢量数据库可以是专门构建的数据库，也可以是具有扩展功能的传统数据库，以更具体地处理矢量。实例在选择索引方案，用于计算相似性的距离度量以及它们是否采用以及采用什么数据压缩技术方面可能会有所不同。一些产品包括Redis，73Milvus，74Faiss，75和Weaviat.76可观测性-OpenLLMetryOpeLLMetry77是一个构建在OpeTelemetry78之上的项目，旨在为LLM可观测性提供彻底和供应商中立的检测。因为生成AI在传统意义上是不可调试的（i。Procedres.，您不能“只是逐步完成代码”），开发人员必须转向可观察性工具和实践，以随着时间的推移改善他们对生成性AI的使用。这些数据通常也是评估和微调工作流程的来源。WHITEPAPER机会CNCF项目景观包括CNCF，LFAI79和Data在内的多个LinuxFoundation（LF）小组以及AIAlliance等合作伙伴80以上，为AI和云工程师都可以使用的AI项目提供了一个枢纽。现有工具，例如CloudNativeLandscape，81可以鸟瞰CN生态系统。下图列出了按功能区域分组的已建立和正在发展的项目。ML工具任务思维导图WHITEPAPERCNAI儿童和学生孩子们已经每天使用像ChatGPT这样的AI辅助技术，不知道它们是如何工作的。现代人工智能的基础，如辨别和生成人工智能算法，是一个孩子甚至技术精湛的父母都不理解的黑匣子，所以很难对它产生兴趣。学生的教育不仅应将ChatGPT之类的LLM视为理所当然，还应包括神经网络和机器学习算法的基础知识，以解释AI技术的工作原理以及如何在未来的职业生涯中更好地使用它们。ClodNative社区和KbeCo的CNCFKidsDay82等成功计划提供了有关ClodNative和AI技术的教育机会。尽早向孩子们介绍AI技术也将防止困扰计算机科学的多样性，公平性和包容性问题。AI是一种平等的技术，因为每个种族，性取向和社会经济地位的人都可以每天体验AI/ML，并通过适当的培训和教育帮助改进这项技术。AI/ML革命类似于互联网时代，在互联网时代，网络技术变得无处不在，甚至普通工人也接受了这项技术来改善他们的业务。随着AI/ML技术在社会中无处不在，我们必须确保学生跟上AI和CloudNative技术的进步。Participation随着AI的发展，更多的教育和参与机会发生。有AI专家的空间（例如。Procedre,Ph.D.在ML中对数据科学家)和AI通才(例如Procedre、运营商和最终用户)。MOOCs83和认证等教育项目已经出现，专注于各个方面的AI工具和技术。专业社团（e。Procedre，ACM84和IEEE85）和聚会提供了面对面学习和讨论挑战的机会。CNCF，86以及LixFodatioAI，AIAlliace，87等行业组织提供了大规模协调项目和协议的能力。信任和安全/设计安全当我们构建AI和云原生技术时，存在意外后果和负面影响的重大风险。这些可能是由于无意的设计问题对弱势群体造成不利影响，例如，推荐算法无意中推广基于仇恨、暴力、极端主义的材料。它们也可能是由于个人或团体恶意使用系统和/或工具来故意伤害，例如使用生成性AI工具来创建错误信息和虚假信息活动，或者个人故意将LLM精细起来以产生儿童性虐待材料。AI和ClodNative技术也是TrstadSafety使用的工具的核心：“数字服务用于管理内容并对用户和他人进行风险扫描，减轻在线或其他形式的技术促进滥用，倡导用户权利并保护品牌安全的领域和实践。“已经建立了89个系统来提供信任和安全周期的每个部分，包括识别和评估潜在的暴力行为，对案件进行分类和优先排序，制定和记录执法决策，选择和应用干预措施以及收集威胁情报。除了对互联网的安全和健康至关重要之外，如果在设计时没有适当考虑，这些系统可能会产生重大的负面影响。负责任的技术是减少技术的危害，使技术管道多样化，并确保技术符合公共利益。它探索并积极考虑技术的价值，意外后果和负面影响，以管理和减轻风险和伤害。在构建AI和ClodNative技术时，我们必须考虑这些潜在的道德和人权影响。WHITEPAPER优化言论自由、隐私权、生命权、自由权和人身安全权，91和其他基本普遍人权。世界经济论坛指出：“设计安全将用户安全和权利置于在线产品和服务的设计和开发的中心。”92这种主动和预防性的方法侧重于将安全嵌入到组织的文化和领导中。它强调问责制，旨在为每个人培养更积极，文明和奖励的在线体验。有越来越多的专家来帮助这些发展最佳做法，例如全球反恐互联网论坛（GIFCT93技术联盟，94和互联网协会。95AllTech是该领域的人类专家名单，可以提供与关键资源的链接。96AIAlliace97计划（IBM，Meta和50多个机构）专注于推进AI的开放式创新和科学，以提出封闭式AI系统的替代方案，并推进负责任的AI领域（道德，信任，安全）。OpeAI是ChatGPT背后的组织，最初是一家非营利性组织，致力于保证AI的安全性和公平性。一门新的工程学科的出现在过去的二十年中，我们已经看到科技行业如何根据他们的职责迅速创造和改变工程工作角色。我们见证了DevOps工程师、SRE工程师和基础设施工程师等角色的崛起。我们预计MLDevOps或AI工程师将在未来几个月或几年内成为数据科学、基础设施和开发之间的粘合剂。重要的是要知道这个行业领域正在发展，角色头衔可能会波动；只有时间才能证明。不同的术语也可能成为现实。将来，该角色将需要更多地关注AI工具，以及部署AI链和代理。WHITEPAPERCLOUDNATIVE的人工智能本文主要关注支持AI开发和使用的ClodNative。但AI可以通过多种方式增强ClodNative，包括预测负载和更好的资源调度，特别是涉及多个优化标准，例如节能、提高资源利用率、减少延迟、尊重优先级、增强安全性、理解日志和跟踪等用于群集控制的自然语言接口在202399年芝加哥的ClodNativeAI+HPCDay上，演示了具有自然语言界面的Kberetes控制器来处理与集群相关的任务。它在该后端使用了LLM，该LLM理解了用户请求并将其转换为KberetesAPI调用。它还支持启动混沌测试，以确定服务弹性，扫描CVE等。它是Kberetes集群更直观的编排和管理的先驱，并及时降低了管理员和站点可靠性工程师的学习曲线。安全机器学习可以分析大量数据集，以快速识别模式并预测系统中的潜在威胁或弱点。将AI集成到Redteamig100中可以加速识别安全漏洞，并使组织能够加强对新兴网络威胁的防御。检测异常网络行为的ML模型可以轻松地用于集群中，以保护工作负载，或用于边缘部署的集群队列。更智能的编排/调度AI可以分析日/周/月的历史集群使用情况，以识别工作负载模式和资源可用性，了解何时以及如何部署工作负载，是水平扩展还是垂直扩展，何时在几个节点上整合工作负载以使其他节点处于静止状态以节省电量，甚至将其从集群中删除以降低成本。ML驱动的模型可以优化任务排序，自动化决策过程，并提高工作负载管理的整体效率。自然语言接口有助于整个编排和调度过程。这些增强功能将使组织更容易在动态云环境中管理和安排复杂的工作流。正在构建处理器电源模型，以帮助规划和优化以降低功耗。飞行中和探索中的AI集成努力•微调自定义LLM以分析日志。•MLOps管道，用于捕获和维护数据来源。•OpenTelemetry.101等CNCF项目的AI语义约定•AI驱动的开发环境(IDE)用于开发和部署AI应用程序。我们希望在不远的将来报告这一领域的进展。WHITEPAPERConclusion人工智能（AI）和云原生（CN）技术的结合为组织提供了开发前所未有的功能的绝佳机会。借助云原生基础设施的可扩展性、弹性和易用性，AI模型可以更高效、更大规模地进行训练和部署。本白皮书深入研究了这两个领域的交集，讨论了组织利用这种有效组合的当前状态、挑战、机遇和潜在解决方案。虽然仍然存在一些挑战，包括管理复杂AI工作负载的资源需求，确保AI模型的可重复性和可解释性，以及简化非技术从业者的用户体验，但ClodNative生态系统正在不断发展以解决这些问题。像Kbeflow、Ray和KbeRay这样的项目为在云中运行AI工作负载提供了更加统一和用户友好的体验。此外，对GPU调度，矢量数据库和可持续性的持续研究为克服局限性提供了有希望的解决方案。随着AI和CloudNative技术的成熟，拥有这种协同作用的组织将处于有利地位，以释放显著的竞争优势。从自动化复杂任务和分析大量数据集到生成创造性内容和个性化用户体验，可能性是无穷无尽的。通过投资合适的人才、工具和基础设施，组织可以利用AI和云原生技术的强大功能，可推动创新、优化运营并提供卓越的客户体验。这份文件带给你的CNCFAI工作组。APPENDIX参考文献词汇表AI从业者在本文的上下文中，它指的是（不限于）ML工程师，数据科学家，数据工程师，其主要职责包括操纵相关数据，创建和优化机器学习模型。开发人员在本文的上下文中，它是指（不限于）软件工程师，前端工程师，后端工程师，全栈工程师，软件架构师和软件测试员。其主要职责包括编写和测试软件，包括用户界面，微服务和后端软件。WHITEPAPER部署人员在本文的上下文中，它是指（不限于）DevOps工程师，站点可靠性工程师，基础架构架构师，应用程序管理员，群集管理员。主要职责包括将软件和云基础架构部署到多个环境（包括开发，暂存和生产）。DRADRA代表动态资源分配。它是对Pod的一般资源声明和配置的API抽象，允许第三方供应商按需提供HW/SW资源，而无需重写Kubernetes核心API。LLM“LLM”代表“大型语言模型”。大型语言模型是在大量文本数据上训练的人工智能模型，用于理解和生成类似人类的文本。LLM是专门为自然语言处理(NLP)任务设计的机器学习模型的子集。LLMOpsLLMOps代表大型语言模型操作，包含专门为大型语言模型（LLM）量身定制的操作方面。从本质上讲，LLMOps是MLOps原则和工具的适应LLM支持的应用程序的独特要求，涵盖了从开发到部署和维护的整个生命周期。MIG多实例GPU技术是一项创新，它允许将单个物理GPU（图形处理单元）划分为多个更小的实例，每个实例都作为一个独立的GPU运行，具有自己的资源和功能。该技术增强了数据中心和云计算环境中的GPU利用率和灵活性。MLOpsMLOps是机器学习操作的缩写，是指用于简化和自动化机器学习模型在生产环境中的部署、监控和管理的实践、方法和工具。MLOps旨在弥合机器学习开发和运营之间的差距，确保机器学习模型的高效、可靠和大规模部署。它涉及结合软件工程原则、DevOps实践和专用工具，实现端到端ML生命周期的自动化，包括数据准备、模型训练、模型部署、监控和维护。MLOps可帮助组织加速其ML项目，提高模型性能，并在ML管道中保持一致性和可靠性。MPSMPS在GPU计算中代表多进程服务，MPS技术允许多个GPU加速的应用或进程共享单个物理GPU，同时保持隔离和高效RAGWHITEPAPER在AI的背景下，RAG代表“检索增强生成”。“这是一个模型架构，结合了基于检索的模型和生成模型来生成文本。RAG的生成过程通过检索机制增强，该机制可帮助模型从广泛的数据库或知识库中访问相关信息。该检索组件允许模型将外部知识合并到生成过程中，从而提高生成文本的质量和相关性。vGPUvGPU（即虚拟图形处理单元）技术使多个虚拟机（VM）共享单个物理GPU（图形处理单元）。该技术可在云计算，数据中心和虚拟桌面基础架构（VDI）等虚拟化环境中有效利用GPU资源。WHITEPAPER参考文献123456789https://github.com/cncf/toc/blob/main/DEFINITION.mdhttps://en.wikipedia.org/wiki/Microserviceshttps://travide.cncf.io/guidehttps://docs.aws.amazon.com/whitepapers/latest/build-secure-enterprime-ml-platform/personas-for-an-ml-platform.htmlDocker2013年3月20日首次发布。https://en.wikipedia.org/wiki/LXChttps://en.wikipedia.org/wiki/Docker_（软件）https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/44843.pdfhttps://github.com/cncf/toc/blob/main/DEFINITION.md截至7月18,202https://en.wikipedia.org/wiki/DevOpshttps://about.gitlab.com/topics/gitops/https://ai100.stanford.edu/2016-report/appendix-i-short-history-aihttps://youtu.be/P18EdAKuC1U?si=Dd74AdpbF3EgzVmnhttps://arxiv.org/abs/2008.02217https://openai.com/chatgpthttps://en.wikipedia.org/wiki/Prompt_engineering#Retrieval-augmented_generationhttps://github.com/zanetworker/ai-landscapehttps://openai.com/research/scaling-kubernetes-to-7500-nodeshttps://huggingface.co/blog/hugging-face-endpoints-on-azure21https://kubernetes.io/docs/concepts/schedution-eviction/kube-scheduler/22https://github.com/intel/platform-感知调度/tree/master/gpu-感知调度23https://kubernetes.io/docs/tasks/manage-gpus/schedulation-gpus/24https://opencontainers.org/25https://k8sgpt.ai/26https://docs.aws.amazon.com/whitepapers/latest/build-secure-enterprime-ml-platform/personas-for-an-ml-platform.html28https://docs.databricks.com/en/machine-learning/mlops/mlops-workflow.html29https://cloud-native.slack.com/archives/C05TYJE81SR33https://iapp.org/新闻/a/5-要知道的东西-ai-模型卡/34https://arxiv.org/abs/2205.0714735https://kubernetes.io/docs/concepts/schedulation-eviction/动态资源分配/37https://github.com/kserve/kserve/38[2112.06905]GLaM：使用专家混合的语言模型的有效扩展39面向云的多集群Kubernetes环境中的碳感知工作负载调度程序WHITEPAPER

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能行业：云原生人工智能白皮书

文档简介

温馨提示

最新文档

评论

人工智能行业：云原生人工智能白皮书

文档简介

温馨提示

最新文档

评论

相关文档