2025大语言模型的推理_第1页
2025大语言模型的推理_第2页
2025大语言模型的推理_第3页
2025大语言模型的推理_第4页
2025大语言模型的推理_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2推理框架的选择与部署 首先需要明确什么是框架。框架,这个在IT领域经常被提及的名词,究竟意味着什么呢?它既是一种约束性的“框子”,指其提供的规范性;也是一种支撑性的“架子”,为其上的应用提供支撑。推理框架是LLM中的核心组成部分,它负责引导模型进行逻辑推理、上下文理解和文本生成。 跨平台支持简化部署流程跨平台支持简化部署流程加速模型推理优化资源利用 不同模型与框架的兼容性存在差异,主要考虑如下几方面: 性能要求在选择推理框架时,需要考虑其对模型性能的影响,选择能够最大化模型性能的框架。兼容性推理框架应与现有的技术栈和部署环境兼容。例如计算资源:如GPU、CPU或l只需执行几条命令,无需复杂配置即可完成安装部署便捷,易于使用l用户界面友好,命令行工具便捷,无论是专业开发者还是普通用户,都能轻松管理和运行LLM模型社区支持和生态推理框架的社区支持和生态也是选择时的重要因素,强大的社区和完善的生态可以提供更好的技术支持和资源 部署环境准备 部署注意事项 部署步骤解析 部署后的测试 性架 VLLM框架介绍VLLM框架介绍vLLM框架的基本概念vLLM框架的基本概念vLLM是一个高吞吐量和内存高效的大型 原本只作为pagedattn开源实现,目前已经在生产环境中广泛使用:•与OpenAIAPI服务的兼容性:vLLM提供了与OpenAI接口服务的兼容性,使得用户能够更容易地将vLLM集成到现有系统中。 VLLM框架应用场景vLLM作为一种大型语言模型推理加速工具,在各种应用场景中都有着广泛的应用。在自然语言处理领域vLLM可以用于文本分类、情感分析、机器翻译等任务;在语音识别领域vLLM可以用于语音转文字、语音合成等任务;在图像识别领域vLLM可以用于图像标注、物体识别等任务。智能客服、智能助手vLLM在智能客服、智能助手等场景中,为用户提供更加高效、便捷的服务,提升用户体验。结合百度智能云千帆大模型平台的API接口,用户可以更加灵活地部署和调用这些模型,满足多样化的应用需求。 VLLM推理过程介绍输入一段话,输出是一个一个token(词元)/单词的输出一句话。 VLLM推理过程介绍 VLLM推理过程介绍ZOMIwhoareyou?whileIamZOMIwhoareyou?whileIamIamwhileZOMIKVCachewhoYou?IamZOMI[gEND] VLLM推理过程介绍DecodingDecoding VLLM推理过程介绍1.根据输入Tokens生成第一个输出Token(A通过一次Forward就可以完成2.在Forward中,输入Tokens间可以并行执行,因此执行效率很高•Decoding:1.从生成第一个Token后,采用自回归一次生成一个Token,直到生成StopToken结束2.设输出共NxToken,Decoding阶段需要执行N-1次Forward,只能串行执行,效率很低3.在生成过程中,需要关注Token越来越多,计算量也会适当增大 准备事项操作系统安装本地安装方式Docker部署方式 启动后输出日志 客户端工具连接客户端工具连接 影响VLLM推理速度的重要参数配置:max_num_batched_tokens一次推理最多能处理的tokens数量,max_num_batched_tokens一次推理最多能处理的tokens数量,默认值是2048。vllm会预先分配显存,默认值是0.9。量也就越大,但vllm内部会根据max_model_len自动计算max_vllm会预先分配显存,默认值是0.9。量也就越大,但vllm内部会根据max_model_len自动计算max_num_batched_tokens,所以可以不设置这个值的情况下,gpu_memory_utilization可以设置为0.95。Qmax_num_seqstensor_parallel_sizemax_num_seqs张量并行时需要使用的GPU数量,使用多个一次推理最多能处理的sequences数量,张量并行时需要使用的GPU数量,使用多个max_num_seqs越大,能处理的请求数量就会max_model_lenGPU推理时,每个GPU都有更多的内存可用于KV缓存,能处理的请求数量更多,速度模型的最大生成长度,包含prompt长度和generated长度。这个值需要根据实际情况输 prefill阶段调度的请求数量受到max-num-seq以及max-num_batchd-tokens的限制,前者控制了批的大小,后者控制了总的tokens数。在decode阶段,每次迭代只生成一个token,只受max-num-seq的限制 PD两阶段的特点:1.Prefill阶段算力是瓶颈(计算和生成kvcacheDecode阶段内存是瓶颈(访存kvcache)2.Prefill阶段能充分使用算力,Decode阶段不能3.Decode阶段

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论