2025大语言模型的推理

上传人：1*** IP属地：山西上传时间：2025-12-24 格式：PPTX 页数：27 大小：1.60MB 积分：19.9 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大语言模型的推理

时间：

2025.021

、

推理框架的选择与部署、

vLLM框架介绍3

、

演示：使用VLLM框架完成大语言模型推理目录

CONTENT2推理框架的选择与部署

推理框架定义

首先需要明确什么是框架

。

框架，

这个在IT领域经常被提及的名词，

究竟意味着什么呢？

它既是一种约束性的“框子

”

，指其

提供的规范性；

也是一种支撑性的“架子

”

，

为其上的应用提供支撑。推理框架是LLM中的核心组成部分，

它负责引导模型进行逻辑推理

、

上下文理解和文本生成。04简化部署流程推理框架提供了模型转换、部署和监控等一系列工具，简化了模型部署步骤，降

低了部署难度。01加速模型推理推理框架通过算法优化和硬件加速等技术，能够显著减少模型推理所需的时间

，提高系统的响应速度和吞吐量。02优化资源利用推理框架可以有效地管理计算资源和显存，如CPU、

GPU等

，通过资源调度和优化算法，降低能耗，提高资源利用率。

推理框架作用

跨平台支持推理框架支持多种操作系统和硬件平台，使得模型可以在不同环境下运行。03

不同模型与框架的兼容性存在差异，

主要考虑如下几方面：1

性能：

TTFT

、

ITL等2

模型版本：

例如Llama-2

、

Llama-3

、

Llama-3.1等3

模型格式：

.safetensors

、

.ckpt

、

.gguf

、

.pth

和

.bin等4

量化模型：

fp8

、

int8

、

int4等

不

同推理框架与模型兼容性

性能要求在选择推理框架时，

需要考虑其对模型性能的影响，

选择能够最大化模型性能的框架。兼容性推理框架应与现有的技术栈和部署环境兼容

。例如计算资源：

如GPU

、

CPU或专用AI芯片；

系统：

window

、

linux。部署便捷,易于使用l

只需执行几条命令，

无需复杂配置即可完成安装l

用户界面友好，

命令行工具便捷，

无论是专业开发者还是普通用户，

都能轻松管理和运行LLM模型社区支持和生态推理框架的社区支持和生态也是选择时的重要因素，

强大的社区和完善的生态可以提供更好的技术支持和资源

推理框架的选择原则

推理框架部署

部署注意事项在部署过程中需要注意版本兼容性

、资源限制、性能优化等因素，确保推理服务的稳定运行。同时考虑到未来的扩展性

。

部署环境准备部署推理框架前，需要准备合适的服务器硬件、安装操作系统

、配置网络环境以及安装必要的部署步骤解析部署步骤通常包括框架的安装

、模型的加载与优化

、推理服务的配置和启动，

以及相关的性部署后的测试部署完成后，要通过一系列的测试来验证推理框架的功能正确性

、性能表现以及安全性。

软件依赖。

能测试。

推理Maas平台应具备的功能

Maas定义：

ModelasaService（

MaaS）是一种云计算服务模式，它允许用户通过互联网访问和使用机器学习模型，而不需要自行构建和维护这些模型

。

MaaS提供了模型的托管

、管理和监控，使用户能够专注于应用程序的开发和业务需求，而无需深入了解模型的内部细节。内置模型

、模型定制

、注册模型提供易于使用的API根据实时资源情况，

自动扩展使用此工具，监控模型性能和使用情况支持模型版本管理，便于跟踪不同版本的模型效果确保数据传输和存储的安全性，遵守相关法律法规服务提供商会定期更新模型，

以提升性能和准确性支持多种机器学习和深度学习框架，例如：vLLM、

Sglang

、

llama.cpp等模型管理API接口自动扩展监控与分析版本控制定期更新支持多种框

架安全与合规性功能

推理Maas平台(GpuStack+Xinference图示)

VLLM框架介绍vLLM框架的基本概念vLLM是一个高吞吐量和内存高效的大型语言模型推理和服务引擎

。

它特别适用于大批量Prompt输入，并对推理速度要求

高的场景

。vLLM的吞吐量比HuggingFaceTransformers高14x-

24倍，展现出卓越的性能

。其优势在于文本生成速度快

、支持各种解码算法

、

与OpenAIAPI兼容以及高吞吐量服务。LLMEngine有两个核心组件，分别是负责请求调度的Scheduler和负责模型推理的Worker，前者从等待队列中选择接下来要处理的请求，后者负责使用模型对被调度的请求进行推理。VLLM框架概述vLLM架构

VLLM框架特点和优势原本只作为

pagedattn

开源实现，目前已经在生产环境中广泛使用：•有着大量且稳定的开发者，作者基本为在读博士生，github

上

Contributors

最多，vllm

开发人员投入最高

。

因此vllm

对模型支

持和硬件支持都是最完善，

以及各种功能也往往是最齐全的•社区活跃度最高，github

上

issue

和

都很多

。大量

paper

都是以vllm

作为

baseline

来开发

demo，

因此各种新技术的引入vl

lm是具有更大优势的•基础的各种优化以及进阶的权重量化

、连续批处理

、

kv压缩

、speculate

decode

、chunked

prefill

、

PagedAttention算法等功能

都是完备的•与OpenAI

API服务的兼容性：vLLM提供了与OpenAI接口服务的兼容性，使得用户能够更容易地将vLLM集成到现有系统中。 VLLM框架应用场景

vLLM作为一种大型语言模型推理加速工具，

在各种应用场景中都有着广泛的应用。在自然语言处理领域vLLM可以用于文本分类

、

情感分析

、机器翻译等任务；在语音识别领域vLLM可以用于语音转文字

、

语音合成等任务；在图像识别领域vLLM可以用于图像标注

、

物体识别等任务。智能客服

、

智能助手vLLM在智能客服

、

智能助手等场景中，

为用户提供更加高效

、便捷的服务，

提升用户体验

。

结合百度智能云千帆大模型平台的API接口，

用户可以更加灵活地部署和调用这些模型，

满足多样化的应用需求。 VLLM推理过程介绍

输入一段话，

输出是一个一个token(词元)/单词的输出一句话。 VLLM推理过程介绍

VLLM推理过程介绍

大模型推理自回归解码who

areyou?Iam

KVCachewhoclreYou?IamZOMI[gEND]ZOMI

gENDwhilewhileZOMIIamDecodingPrefill VLLM推理过程介绍

VLLM推理过程介绍

•Prefill：1.根据输入Tokens

生成第一个输出

Token（A），

通过一次

Forward

就可以完成2.在

Forward

中

，输入

Tokens

间可以并行执行，

因此执行效率很高•Decoding：1.从生成第一个Token

后

，采用自回归一次生成一个Token，

直到生成

Stop

Token

结束2.设输出共

Token，

Decoding

阶段需要执行

N-1

次

Forward，

只能串行执行，

效率很低3.在生成过程中，

需要关注Token

越来越多，

计算量也会适当增大准备事项硬件环境：GPU

、服务器

、

网络已经准备就绪。模型：下载模型基础软件：系统

、驱动

、

pip

、docker环境操作系统安装本地安装方式部署方式：操作系统本地安装或者docker方式安装操作系统本地安装：condacreate

-nvllm

python

=3.10

-ycondaactivatevllm安装vllm0.4.3(vllm)

liunn@gz01-gpu09:~$

pip

installvllm

==0.4.3启动模型：python3.

-mvllm.entrypoints.openai.api_server

--model/share/modelscope/hub/Yi-6B-Chat Docker部署方式docker

run

--rm

--privileged

=true--runtime

nvidia

--gpusall

--name

=vllm-openailnn

-v/share/Yi-6B-Chat/:/share/Yi-6B-Chat/-p8000:8000

--shm-size64g

--ipc

=hostvllm/vllm-openai:v0.4.3

--model

/share/Yi-6B-Chat/--tensor-parallel-size4

--max-num-seqs

1024 VLLM框架的部署

VLLM框架的部署

启动后输出日志

客户端工具连接工具p VLLM框架的部署

OpenAI连接影响VLLM推理速度的重要参数配置：gpu_memory_utilizationvllm会预先分配显存，默认值是0.9。gpu_memory_utilization设置越大，

可占用显存越大，就有更多显存可用于

缓存，推理速度也会越快

。在显存足够的情况下，

gpu_memory_utilization可以设置为0.95。max_num_batched_tokens一次推理最多能处理的tokens数量，默认值是2048

。

max_num_batched_tokens越大，

能处理的tokens数量也就越大，但vllm内部会根据max_model_len自动计算max_num_batched_tokens，所以可以不设置这个值 VLLM推理参数设置与优化介绍

max_model_len

模型的最大生成长度，包含prompt长度和generated长度

。

这个值需要根据实际情况输入。张量并行时需要使用的GPU数量，使用多个GPU推理时，

每个GPU都有更多的内存可用于

缓存，

能处理的请求数量更多，速度也会更快。max_num_seqs

tensor_parallel_si

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025大语言模型的推理

文档简介

温馨提示

最新文档

评论

2025大语言模型的推理

文档简介

温馨提示

最新文档

评论

相关文档