孟令公-大模型推理性能优化与实践

上传人：策*** IP属地：山西上传时间：2025-03-16 格式：DOCX 页数：75 大小：4.73MB 积分：15 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

孟令公得物机器学习高级专家主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯、阿里等多家互联网大厂。2022年加入得物，专注于大模型相关技术，包括推理加速与各应用场景落地，曾在得物技术公众号发表过多篇高质量大模型相关文章，比如：利用多L演讲主题：大模型推理性能提升实践大模型推理引擎设计KVCache高效显存管理Prefill与Decode阶段的优化利用多Lora节省成本大模型推理引擎设计模块模型模块模型调度器调度器大模型推理引擎设计•业务方在训练并部署大模型后，需要专用的大模型推理引擎来加速推理过程。当用户发送请求时，Req会首先传递给应用程序；当应用程序会调用大模型的推理引擎来触发推理逻辑。•大模型推理引擎的核心目标是提升推理速度和吞吐量，并兼容各种•推理引擎的核心模块主要包括调度器、Prefill、Decode和KVCache管理，这四个部分是性能优化的关键。当然，它还包括Token、DeToken、采样、模型支持、硬件支持(CUDA)等其他逻辑。KVCache高效显存管理-自回归推理过程的的的的退出条件：•达到模型预定义的最大长度。KVCache高效显存管理-Attention计算KVCache高效显存管理-KVCache与显存碎片推理引擎人工智能是一项人工智能是一项快速发展的技术硬件支持：GPUCPUXPU•需要为每个请求维护一个KVCache的缓存。KVCache高效显存管理-KVCache与显存碎片•KVCache在系统中占比多少？图片来自论文：EfficientMemoryManagementforLargeLanguageModelServingwithPaged•KVCache的频繁申请与释放会带来什么问题？显存碎片！就像内存管理一样，频繁的申请与释放不规则的内存，时间长KVCache高效显存管理-VLLMPagedAttention视频来自文章：vLLM:Easy,Fast,andCheapLLMServingwithPagedAttentionKVCache高效显存管理-VLLMPagedAttention•VLLM的PagedAttention是受操作系统虚拟内存和分页启发的注意•此外，它支持多序列共享内存，例如在并行采样时共享提示词的KV缓存，进一步降低内存开销并提升性能。图片来自文章：vLLM:Easy,Fast,andCheapLLMServingwithPagedAttentionKVCache高效显存管理-VLLMPagedAttentionKVCache高效显存管理-SGLangRadixAttention共享部分的KVCache能否复图片来自文章：SGLang:EfficientExe不可共享的模型输出。•可共享的元素包括少样本学习示例、自一致性中的问题、多轮对话中的聊KVCache高效显存管理-SGLangRadixAttention图片来自V章：SGLang:EfficientE2.第一场聊天开始：用户发送“你好！”,助手回复新节点附加到树上。存。6.处理少样本学习查询：服务器收到不与现有节点共享请求作为单独分支插入树中。以高效管理内存。要的节点以为新请求分配内存。KVCache高效显存管理-SGLangRadixAttention图片来自V章：AchievingFasterOpen-SourceLlama3ServingwithSGLangRuntime(vs.TensorRT-LLM,vLLM)大模型推理的关键阶段Prefill与Decode的的的的退出条件：•达到模型预定义的最大长度。大模型推理的Prefill阶段与Decode阶段推理引擎前向传播对输入Prompt进行批量计算人工智能是一项硬件支持：硬件支持：GPUCPUXPU推理引擎人工智能是一项快速发展的技术人工智能是一项快速发展的技术人工智能是一项快速发展的技术前向传播人工智能是一项快速发展的技术前向传播未经过chunkedprefill拆分的请求，会将整个请求图片来自TamingThroughput-LatencyTradeoffinLLMInferencewithSarathi-ServevLLM@FourthMeetup(Public)图片来自TamingThroughput-LatencyTradeoffinLLMInferencewithSarathi-ServevLLM@FourthMeetup(Public)大模型推理的Decode阶段推理引擎前向传播对输入Prompt进行批量计算人工智能是一项硬件支持：硬件支持：GPUCPUXPUDecode阶段-Continuousbatchingdecode快速推理引擎快速发展的技术人工智能是一项发展的技术人工智能是一项前向传播硬件支持：GPUCPUXPU就会导致GPU利用率不足。Decode阶段-Continuousbatchingdecode例子来自/blog/continuous-batching-llm-inferenceDecode阶段-SpeculativeDecoding•目标模型的并行验证：将提出的词元一次性送入目标模型进行验证。•错误检测和纠正：目标模型发现第三个词元“cooking”不正确，应该是“playing”。例子来自https://blog.vllm.ai/2024/10/17/spec-decode.htmlDecode阶段-SpeculativeDecoding例子来自docs.vllm.ai推理引擎前向传播等待队列-调度器前向传播•服务收到REQ后，会首先把REQ加入到等待队列中。调度策略决定了调度器如何从等待队列中选择和组合请求。以下是几种常见的调度策略：）：）：优先处理具有最长匹配前缀的请求，通常用于优化缓存命中率。）：优点：简单实现，避免请求饥饿。缺点：不保证公平性和资源利用率最优化。，缺点：不保证公平性和资源利用率最优化。，图片来自https://blog.vllm.ai据格式化）会与GPU密集型任务（如模型推理）竞争CPU资源。•通过将API服务器和推理引擎分离到不同的进程，利用多Lora节省大模型部署成本W表示大模型的一个原始参数矩阵。Lora的利用多Lora节省大模型部署成本大模型大模型数据数据基础大模型合并参数部署大模型合并参数部署大模型对于每个业务场景，我们首先通过微调训练生成一个Lora参数文件，然后将Lora参数利用多Lora节省大模型部署成本场景1大模型1场景2大模型2场景3大模型3真的需要为每个场景都独立部署一个大模型吗？利用多Lora节省大模型部署成本基础大模型场景1场景1场景2场景3场景3每个业务场景都基于自己的业务数据训练一个Lora

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

孟令公-大模型推理性能优化与实践

文档简介

温馨提示

最新文档

评论

孟令公-大模型推理性能优化与实践

文档简介

温馨提示

最新文档

评论

相关文档