版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
小米大模型端侧部署落地探索演讲人:
黄武伟小米/大模型算法工程师CONTENTS
02LLM端侧部署的挑战
01
端侧A
I的重要性
03相关技术探索目
录
04
总结与展望端侧A
I的重要性在终端设备上直接运行
和处理人工智能算法
端侧A
I可靠性:
端侧A
I减少了对网络连接的依
赖,
即使在网络不稳定或断开的情况
下也能正常工作,
提高了系统的鲁棒
性
。隐私和安全:
所有数据的存储和计
算都在本地完成,
避免了数据传输
到云端可能带来的安全风险。
端侧A
I优势找方案&找标准找方案微信(扫第一个码)每日分享各个领域高质量专业的解决方案,内容包括某省市、乡村振兴、智慧城管、智慧园区、智慧公安、智慧水务(水利)、智慧林草、社会综合治理、智慧旅游、智慧工地、智慧环卫、智慧医院、智慧环保、智慧安监等领域,结合数字孪生、人工智能、物联网、大数据、云计算等技术,分享行业售前方案、设计方案、技术方案和项目信息等。找标准微信(扫第二个码)每日分享各个智慧领域国家和地方标准规范,国家和地方政策指导文件,让各个智慧方案有据可依,内容包括找方案中的各个行业的政策和规范,内容在不断的收集和完善中。找方案知识星球(扫第三个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找标准知识星球(扫第四个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找方案星球优惠券(扫第五个码)扫描69元价格优惠加入,1W+方案任意下载,资源不断的丰富完善中......找方案微信找方标准信成本效益:
端侧A
I减少了对云端
计算资源的需求,
有助于降低成
本,
特别是在大规模部署时更为
明显。个性化服务:
端侧A
I可以根据
用户的具体使用习惯和偏好提
供更加个性化的服务,
增强用
户体验。
端侧A
I优势
小米为什么做端侧A
Il
(软件×硬件)
Aᴵl
轻量化、本地部署是小米大模型技术主力突破方向l
小米的端侧设备数量大LLM端侧部署的挑战服务器GPU手机计算能力数百TFLOPS的算力(如
A100)相对较低内存大容量显存有限的内存和存储(通常几个GB到十
几GB)功耗设计用于高功耗环境,
散
热要求高低功耗设计,
优化
能效带宽A100显存带宽接近
1.6TB/sNPU
约70G/s
云端VS端侧存储差异12GB
内存瓶颈6B模型分片?手机内存~16G6B模型平均阅读速度:对于母语读者,
平均阅读速度通常在300至500个字每分钟。(50+字/s)快速阅读速度:快速阅读者或经过训练的读者可以达到500至700字每分钟,
甚至更高。(100+字/s)端侧推理速度
不做优化20
tokens/s以内
推理速度相关技术探索减少计算量•
剪枝•
量化减小数据搬运
•
剪枝•
量化•
投机推理
大模型推理时延推理时延=计算时间
+
数据搬运时间
LLM剪枝移除神经网络中不重要的权重,
或者完全移除这些权重对应的神经元连接。非结构化剪枝
结构化剪枝
半结构化剪枝找方案&找标准找方案微信(扫第一个码)每日分享各个领域高质量专业的解决方案,内容包括某省市、乡村振兴、智慧城管、智慧园区、智慧公安、智慧水务(水利)、智慧林草、社会综合治理、智慧旅游、智慧工地、智慧环卫、智慧医院、智慧环保、智慧安监等领域,结合数字孪生、人工智能、物联网、大数据、云计算等技术,分享行业售前方案、设计方案、技术方案和项目信息等。找标准微信(扫第二个码)每日分享各个智慧领域国家和地方标准规范,国家和地方政策指导文件,让各个智慧方案有据可依,内容包括找方案中的各个行业的政策和规范,内容在不断的收集和完善中。找方案知识星球(扫第三个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找标准知识星球(扫第四个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找方案星球优惠券(扫第五个码)扫描69元价格优惠加入,1W+方案任意下载,资源不断的丰富完善中......找方案微信找方标准信
LLM剪枝结构化剪枝
目前硬件支持最友好剪层
剪Head
剪维度Layer3Layer2Layer2Layer4Layer3Layer1Layer1l
剪枝+少量恢复训练超越相同大小的预训练模型l
简单但很重要,
这个结论让剪枝有了意义[ICLR’24]
Sheared
LLaMA:
Accelerating
Language
Model
Pre-training
via
Structured
PruningSheared-Llama会剪深度和
hidden
dim,
我们认为:•
损失较大•
KV
cache
压缩不足剪枝校准目标:
加mask训练模型,
优化一般的
损失+
mask
稀疏度损失
LLM剪枝Sheared
LLaMA高效剪枝TransAct我们的结构设计有以下特点:1)
保留深度和hidden
dim2)
减小MHA和
MLP
模块内的激活维度3)
参数量相近时,
KV
cache
显著减小[
ACL’2024]
Pruning
Large
Language
Models
to
Intra-module
Low-rank
Architecture
with
Transitional
Activations.
LLM剪枝计算量
端到端时延(w4a16)
LLM剪枝剪枝效果
结构搜索
LLM剪枝什么是量化(quantization)
?•在深度学习领域,
量化是将浮点数
值转化为定点数值的方法。
LLM量化
存储开销
带宽开销(显存->SRAM)
计算开销GPU
NPU
LLM量化优点影响量化精度的几个因素•
量化位宽•
量化粒度•
量化范围•
离群值(Outlier)量化
反量化x=
(xint
−
z)·s将fp16/fp32的数值转换为int4/int8的数值
LLM量化[0.1,0.2,
3.6]
->
[0,
0,
4]由于3.6的存在,导致量化误差较大![0.1,0.2,
0.6]
->
[0,
0.2,
0.6]数值分布范围缩小,
量化相对容易!
LLM量化量化中权重的Outlier对于精度影响较大消除权重中的异常值!
LLM量化参数弥补•逐行量化参数,
适当调整未量化的权重来弥
补造成已经量化参数的损失量化方法选择上注意的问题结合硬件特性额外计算和存储开销Outlier裁剪•对于每个通道的min
max进行放缩•使用MSE
loss获得最优的放缩系数Outlier放缩转移•
将权重和激活中难量化的值进行等价转移操作自回归
LLM
的缺陷:1)
每次前向计算只生成一个词2)
LLM前向需要大量的数据访问和搬运解码阶段算力充足,但带宽不足解决方案:
投机推理•
充分利用算力•
减少带宽压力•一次前向生成多个tokens预填充KVcache
自回归
LLM解码大模型推理的两个阶段投机推理的流程•
Speculative
Inference:采用高效的的方式获取1个(或多个)
解码候选•
Verification:采用原LLM对解码候选做并行验证,
保留符合输出条件的部分
LLM推理加速
Prompttokens
Prompt
kvcacheBiTA:
Bi-Directional
Tuning
for
Lossless
Acceleration
in
Large
Language
Models
LLM推理加速基于Prompt的投机词生成加速生成投机词通过:
Attention
mask采样词的logits取topK,
形成树状结构进行验证LLM推理加加速比1.7~2.1•
端侧Tree
attention•
采样和验证融合
提高接受率速Xl
推理优化稀疏加载
端侧推理效率优化l
轻量化低比特量化结构化剪枝推理加速总结与展望•
模型1.3B~6.7B•
平台高通/天玑GPU高通平台NPU天玑平台NPU
MiLM端侧部署实践融合更强个性化
展望THANKS智能未来,
探索A
I无限可能IntelligentFuture,
ExploringtheBoundless
PossibilitiesofA
I找方案&找标准找方案微信(扫第一个码)每日分享各个领域高质量专业的解决方案,内容包括某省市、乡村振兴、智慧城管、智慧园区、智慧公安、智慧水务(水利)、智慧林草、社会综合治理、智慧旅游、智慧工地、智慧环卫、智慧医院、智慧环保、智慧安监等领域,结合数字孪生、人工智能、物联网、大数据、云计算等技术,分享行业售前方案、设计方案、技术方案和项目信息等。找标准微信(扫第二个码)每日分享各个智慧领域国家和地方标准规范,国家和地方政策指导文件,让各个智慧方案有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冷链物流温控追溯技师考试试卷及答案
- 2025年六安市金安区区属国有企业公开招聘人34名员笔试历年参考题库附带答案详解
- 2025年上半年合肥滨湖投资控股集团有限公司招聘14人笔试历年参考题库附带答案详解
- 2025山东无棣海丰(集团)有限责任公司招聘3人笔试历年参考题库附带答案详解
- 2025安徽振含控股集团有限公司招聘8人笔试历年参考题库附带答案详解
- 2025四川西南发展控股集团有限公司招聘工作人员65人笔试历年参考题库附带答案详解
- 2025四川成都广播影视集团有限责任公司招聘22人笔试历年参考题库附带答案详解
- 2025四川中建长江佳成水利工程有限公司招聘54人笔试历年参考题库附带答案详解
- 2025内蒙古锡林郭勒苏能白音华发电有限公司招聘49人笔试历年参考题库附带答案详解
- 2025内蒙古土地资源收储投资(集团)有限公司常态化招聘急需紧缺专业人员16人(第十三批)笔试历年参考题库附带答案详解
- 2025云南烟草产业市场发展趋势分析投资现状调研规划分析研究报告
- 《建设强大国内市场 加快构建新发展格局》课件
- 车间使用空调管理制度
- 橡胶研发技术面试技巧集
- 酒店防偷拍培训
- 2025年水利工程质量检测员考试题库及答案(云南省)
- 办公室照明灯具安装施工方案
- 钻探施工合同模板及注意事项
- 2021-2025年高考化学真题知识点分类汇编之物质结构与性质(解答大题)(二)
- 2025年兽医实验室理论考试题库带答案详解(能力提升)
- 四川省成都市2023级高中毕业班摸底测试(成都零诊)化学试题及答案
评论
0/150
提交评论