版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型的推理
时间:
2025.021
、
推理框架的选择与部署、
vLLM框架介绍3
、
演示:使用VLLM框架完成大语言模型推理目录
CONTENT2推理框架的选择与部署
推理框架定义
首先需要明确什么是框架
。
框架,
这个在IT领域经常被提及的名词,
究竟意味着什么呢?
它既是一种约束性的“框子
”
,指其
提供的规范性;
也是一种支撑性的“架子
”
,
为其上的应用提供支撑。推理框架是LLM中的核心组成部分,
它负责引导模型进行逻辑推理
、
上下文理解和文本生成。04简化部署流程推理框架提供了模型转换、部署和监控等一系列工具,简化了模型部署步骤,降
低了部署难度。01加速模型推理推理框架通过算法优化和硬件加速等技术,能够显著减少模型推理所需的时间
,提高系统的响应速度和吞吐量。02优化资源利用推理框架可以有效地管理计算资源和显存,如CPU、
GPU等
,通过资源调度和优化算法,降低能耗,提高资源利用率。
推理框架作用
跨平台支持推理框架支持多种操作系统和硬件平台,使得模型可以在不同环境下运行。03
不同模型与框架的兼容性存在差异,
主要考虑如下几方面:1
性能:
TTFT
、
ITL等2
模型版本:
例如Llama-2
、
Llama-3
、
Llama-3.1等3
模型格式:
.safetensors
、
.ckpt
、
.gguf
、
.pth
和
.bin等4
量化模型:
fp8
、
int8
、
int4等
不
同推理框架与模型兼容性
性能要求在选择推理框架时,
需要考虑其对模型性能的影响,
选择能够最大化模型性能的框架。兼容性推理框架应与现有的技术栈和部署环境兼容
。例如计算资源:
如GPU
、
CPU或专用AI芯片;
系统:
window
、
linux。部署便捷,易于使用l
只需执行几条命令,
无需复杂配置即可完成安装l
用户界面友好,
命令行工具便捷,
无论是专业开发者还是普通用户,
都能轻松管理和运行LLM模型社区支持和生态推理框架的社区支持和生态也是选择时的重要因素,
强大的社区和完善的生态可以提供更好的技术支持和资源
推理框架的选择原则
推理框架部署
部署注意事项在部署过程中需要注意版本兼容性
、资源限制、性能优化等因素,确保推理服务的稳定运行。同时考虑到未来的扩展性
。
部署环境准备部署推理框架前,需要准备合适的服务器硬件、安装操作系统
、配置网络环境以及安装必要的部署步骤解析部署步骤通常包括框架的安装
、模型的加载与优化
、推理服务的配置和启动,
以及相关的性部署后的测试部署完成后,要通过一系列的测试来验证推理框架的功能正确性
、性能表现以及安全性。
软件依赖。
能测试。
推理Maas平台应具备的功能
Maas定义:
ModelasaService(
MaaS)是一种云计算服务模式,它允许用户通过互联网访问和使用机器学习模型,而不需要自行构建和维护这些模型
。
MaaS提供了模型的托管
、管理和监控,使用户能够专注于应用程序的开发和业务需求,而无需深入了解模型的内部细节。内置模型
、模型定制
、注册模型提供易于使用的API根据实时资源情况,
自动扩展使用此工具,监控模型性能和使用情况支持模型版本管理,便于跟踪不同版本的模型效果确保数据传输和存储的安全性,遵守相关法律法规服务提供商会定期更新模型,
以提升性能和准确性支持多种机器学习和深度学习框架,例如:vLLM、
Sglang
、
llama.cpp等模型管理API接口自动扩展监控与分析版本控制定期更新支持多种框
架安全与合规性功能
推理Maas平台(GpuStack+Xinference图示)
2
VLLM框架介绍vLLM框架的基本概念vLLM是一个高吞吐量和内存高效的大型语言模型推理和服务引擎
。
它特别适用于大批量Prompt输入,并对推理速度要求
高的场景
。vLLM的吞吐量比HuggingFaceTransformers高14x-
24倍,展现出卓越的性能
。其优势在于文本生成速度快
、支持各种解码算法
、
与OpenAIAPI兼容以及高吞吐量服务。LLMEngine有两个核心组件,分别是负责请求调度的Scheduler和负责模型推理的Worker,前者从等待队列中选择接下来要处理的请求,后者负责使用模型对被调度的请求进行推理。VLLM框架概述vLLM架构
VLLM框架特点和优势原本只作为
pagedattn
开源实现,目前已经在生产环境中广泛使用:•有着大量且稳定的开发者,作者基本为在读博士生,github
上
Contributors
最多,vllm
开发人员投入最高
。
因此vllm
对模型支
持和硬件支持都是最完善,
以及各种功能也往往是最齐全的•社区活跃度最高,github
上
issue
和
pr
都很多
。大量
paper
都是以vllm
作为
baseline
来开发
demo,
因此各种新技术的引入vl
lm是具有更大优势的•基础的各种优化以及进阶的权重量化
、连续批处理
、
kv压缩
、speculate
decode
、chunked
prefill
、
PagedAttention算法等功能
都是完备的•与OpenAI
API服务的兼容性:vLLM提供了与OpenAI接口服务的兼容性,使得用户能够更容易地将vLLM集成到现有系统中。 VLLM框架应用场景
vLLM作为一种大型语言模型推理加速工具,
在各种应用场景中都有着广泛的应用。在自然语言处理领域vLLM可以用于文本分类
、
情感分析
、机器翻译等任务;在语音识别领域vLLM可以用于语音转文字
、
语音合成等任务;在图像识别领域vLLM可以用于图像标注
、
物体识别等任务。智能客服
、
智能助手vLLM在智能客服
、
智能助手等场景中,
为用户提供更加高效
、便捷的服务,
提升用户体验
。
结合百度智能云千帆大模型平台的API接口,
用户可以更加灵活地部署和调用这些模型,
满足多样化的应用需求。 VLLM推理过程介绍
输入一段话,
输出是一个一个token(词元)/单词的输出一句话。 VLLM推理过程介绍
VLLM推理过程介绍
大模型推理自回归解码who
areyou?Iam
KVCachewhoclreYou?IamZOMI[gEND]ZOMI
gENDwhilewhileZOMIIamDecodingPrefill VLLM推理过程介绍
VLLM推理过程介绍
•Prefill:1.根据输入Tokens
生成第一个输出
Token(A),
通过一次
Forward
就可以完成2.在
Forward
中
,输入
Tokens
间可以并行执行,
因此执行效率很高•Decoding:1.从生成第一个Token
后
,采用自回归一次生成一个Token,
直到生成
Stop
Token
结束2.设输出共
N
x
Token,
Decoding
阶段需要执行
N-1
次
Forward,
只能串行执行,
效率很低3.在生成过程中,
需要关注Token
越来越多,
计算量也会适当增大准备事项硬件环境:GPU
、服务器
、
网络已经准备就绪。模型:下载模型基础软件:系统
、驱动
、
pip
、docker环境操作系统安装本地安装方式部署方式:操作系统本地安装或者docker方式安装操作系统本地安装:condacreate
-nvllm
python
=3.10
-ycondaactivatevllm安装vllm0.4.3(vllm)
liunn@gz01-gpu09:~$
pip
installvllm
==0.4.3启动模型:python3.
10
-mvllm.entrypoints.openai.api_server
--model/share/modelscope/hub/Yi-6B-Chat Docker部署方式docker
run
--rm
--privileged
=true--runtime
nvidia
--gpusall
--name
=vllm-openailnn
-v/share/Yi-6B-Chat/:/share/Yi-6B-Chat/-p8000:8000
--shm-size64g
--ipc
=hostvllm/vllm-openai:v0.4.3
--model
/share/Yi-6B-Chat/--tensor-parallel-size4
--max-num-seqs
=
1024 VLLM框架的部署
VLLM框架的部署
启动后输出日志
客户端工具连接工具p VLLM框架的部署
OpenAI连接影响VLLM推理速度的重要参数配置:gpu_memory_utilizationvllm会预先分配显存,默认值是0.9。gpu_memory_utilization设置越大,
可占用显存越大,就有更多显存可用于
KV
缓存,推理速度也会越快
。在显存足够的情况下,
gpu_memory_utilization可以设置为0.95。max_num_batched_tokens一次推理最多能处理的tokens数量,默认值是2048
。
max_num_batched_tokens越大,
能处理的tokens数量也就越大,但vllm内部会根据max_model_len自动计算max_num_batched_tokens,所以可以不设置这个值 VLLM推理参数设置与优化介绍
max_model_len
模型的最大生成长度,包含prompt长度和generated长度
。
这个值需要根据实际情况输入。张量并行时需要使用的GPU数量,使用多个GPU推理时,
每个GPU都有更多的内存可用于
KV
缓存,
能处理的请求数量更多,速度也会更快。max_num_seqs
tensor_parallel_si
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职第一学年(化妆品技术)化妆品市场营销基础综合测试试题及答案
- 2025年大学大三(经济学)计量经济基础阶段测试卷
- 2025年大学(临床医学)内科学试题及答案
- 2026年注册公用设备工程师(给水排水专业案例考试下)试题及答案
- 2025年高职机电一体化技术(机电技术专题)试题及答案
- 2025年大学潜水运动与管理(潜水技术)试题及答案
- 深度解析(2026)《GBT 17980.75-2004农药 田间药效试验准则(二) 第75部分杀虫剂防治棉花蚜虫》
- 深度解析(2026)《GBT 17884-1999费率和负荷控制用电子式纹波控制接收机》
- 深度解析(2026)GBT 17454.1-2017机械安全 压敏保护装置 第1部分∶压敏垫和压敏地板的设计和试验通则
- 武汉职业技术学院《信息融合》2025-2026学年第一学期期末试卷
- 反邪教反渗透课件
- 社区商业综合体商业计划书
- DB11∕T 1831-2021 装配式建筑评价标准
- 自身免疫性胰腺炎急性发作护理查房
- 2025年湖北省中小学教师招聘考试笔试试题(附答案)
- 纪检办案安全课件讲义
- 机械三视图培训课件
- 环卫部门冬季安全作业培训课件
- 合成洗涤剂制造工作业指导书
- 托盘货架培训课件
- 胎儿右位主动脉弓伴镜像分支超声诊断
评论
0/150
提交评论