小米大模型端侧部署落地探索_第1页
小米大模型端侧部署落地探索_第2页
小米大模型端侧部署落地探索_第3页
小米大模型端侧部署落地探索_第4页
小米大模型端侧部署落地探索_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

小米大模型端侧部署落地探索演讲人:

黄武伟小米/大模型算法工程师CONTENTS

02LLM端侧部署的挑战

01

端侧A

I的重要性

03相关技术探索目

04

总结与展望端侧A

I的重要性在终端设备上直接运行

和处理人工智能算法

端侧A

I可靠性:

端侧A

I减少了对网络连接的依

赖,

即使在网络不稳定或断开的情况

下也能正常工作,

提高了系统的鲁棒

。隐私和安全:

所有数据的存储和计

算都在本地完成,

避免了数据传输

到云端可能带来的安全风险。

端侧A

I优势找方案&找标准找方案微信(扫第一个码)每日分享各个领域高质量专业的解决方案,内容包括某省市、乡村振兴、智慧城管、智慧园区、智慧公安、智慧水务(水利)、智慧林草、社会综合治理、智慧旅游、智慧工地、智慧环卫、智慧医院、智慧环保、智慧安监等领域,结合数字孪生、人工智能、物联网、大数据、云计算等技术,分享行业售前方案、设计方案、技术方案和项目信息等。找标准微信(扫第二个码)每日分享各个智慧领域国家和地方标准规范,国家和地方政策指导文件,让各个智慧方案有据可依,内容包括找方案中的各个行业的政策和规范,内容在不断的收集和完善中。找方案知识星球(扫第三个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找标准知识星球(扫第四个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找方案星球优惠券(扫第五个码)扫描69元价格优惠加入,1W+方案任意下载,资源不断的丰富完善中......找方案微信找方标准信成本效益:

端侧A

I减少了对云端

计算资源的需求,

有助于降低成

本,

特别是在大规模部署时更为

明显。个性化服务:

端侧A

I可以根据

用户的具体使用习惯和偏好提

供更加个性化的服务,

增强用

户体验。

端侧A

I优势

小米为什么做端侧A

Il

(软件×硬件)

Aᴵl

轻量化、本地部署是小米大模型技术主力突破方向l

小米的端侧设备数量大LLM端侧部署的挑战服务器GPU手机计算能力数百TFLOPS的算力(如

A100)相对较低内存大容量显存有限的内存和存储(通常几个GB到十

几GB)功耗设计用于高功耗环境,

热要求高低功耗设计,

优化

能效带宽A100显存带宽接近

1.6TB/sNPU

约70G/s

云端VS端侧存储差异12GB

内存瓶颈6B模型分片?手机内存~16G6B模型平均阅读速度:对于母语读者,

平均阅读速度通常在300至500个字每分钟。(50+字/s)快速阅读速度:快速阅读者或经过训练的读者可以达到500至700字每分钟,

甚至更高。(100+字/s)端侧推理速度

不做优化20

tokens/s以内

推理速度相关技术探索减少计算量•

剪枝•

量化减小数据搬运

剪枝•

量化•

投机推理

大模型推理时延推理时延=计算时间

+

数据搬运时间

LLM剪枝移除神经网络中不重要的权重,

或者完全移除这些权重对应的神经元连接。非结构化剪枝

结构化剪枝

半结构化剪枝找方案&找标准找方案微信(扫第一个码)每日分享各个领域高质量专业的解决方案,内容包括某省市、乡村振兴、智慧城管、智慧园区、智慧公安、智慧水务(水利)、智慧林草、社会综合治理、智慧旅游、智慧工地、智慧环卫、智慧医院、智慧环保、智慧安监等领域,结合数字孪生、人工智能、物联网、大数据、云计算等技术,分享行业售前方案、设计方案、技术方案和项目信息等。找标准微信(扫第二个码)每日分享各个智慧领域国家和地方标准规范,国家和地方政策指导文件,让各个智慧方案有据可依,内容包括找方案中的各个行业的政策和规范,内容在不断的收集和完善中。找方案知识星球(扫第三个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找标准知识星球(扫第四个码)会员可下载所有资料,并每日上新(注:所有资料均通过互联网等公开渠道获取,个人学习使用,请勿用于商业用途)。找方案星球优惠券(扫第五个码)扫描69元价格优惠加入,1W+方案任意下载,资源不断的丰富完善中......找方案微信找方标准信

LLM剪枝结构化剪枝

目前硬件支持最友好剪层

剪Head

剪维度Layer3Layer2Layer2Layer4Layer3Layer1Layer1l

剪枝+少量恢复训练超越相同大小的预训练模型l

简单但很重要,

这个结论让剪枝有了意义[ICLR’24]

Sheared

LLaMA:

Accelerating

Language

Model

Pre-training

via

Structured

PruningSheared-Llama会剪深度和

hidden

dim,

我们认为:•

损失较大•

KV

cache

压缩不足剪枝校准目标:

加mask训练模型,

优化一般的

损失+

mask

稀疏度损失

LLM剪枝Sheared

LLaMA高效剪枝TransAct我们的结构设计有以下特点:1)

保留深度和hidden

dim2)

减小MHA和

MLP

模块内的激活维度3)

参数量相近时,

KV

cache

显著减小[

ACL’2024]

Pruning

Large

Language

Models

to

Intra-module

Low-rank

Architecture

with

Transitional

Activations.

LLM剪枝计算量

端到端时延(w4a16)

LLM剪枝剪枝效果

结构搜索

LLM剪枝什么是量化(quantization)

?•在深度学习领域,

量化是将浮点数

值转化为定点数值的方法。

LLM量化

存储开销

带宽开销(显存->SRAM)

计算开销GPU

NPU

LLM量化优点影响量化精度的几个因素•

量化位宽•

量化粒度•

量化范围•

离群值(Outlier)量化

反量化x=

(xint

z)·s将fp16/fp32的数值转换为int4/int8的数值

LLM量化[0.1,0.2,

3.6]

->

[0,

0,

4]由于3.6的存在,导致量化误差较大![0.1,0.2,

0.6]

->

[0,

0.2,

0.6]数值分布范围缩小,

量化相对容易!

LLM量化量化中权重的Outlier对于精度影响较大消除权重中的异常值!

LLM量化参数弥补•逐行量化参数,

适当调整未量化的权重来弥

补造成已经量化参数的损失量化方法选择上注意的问题结合硬件特性额外计算和存储开销Outlier裁剪•对于每个通道的min

max进行放缩•使用MSE

loss获得最优的放缩系数Outlier放缩转移•

将权重和激活中难量化的值进行等价转移操作自回归

LLM

的缺陷:1)

每次前向计算只生成一个词2)

LLM前向需要大量的数据访问和搬运解码阶段算力充足,但带宽不足解决方案:

投机推理•

充分利用算力•

减少带宽压力•一次前向生成多个tokens预填充KVcache

自回归

LLM解码大模型推理的两个阶段投机推理的流程•

Speculative

Inference:采用高效的的方式获取1个(或多个)

解码候选•

Verification:采用原LLM对解码候选做并行验证,

保留符合输出条件的部分

LLM推理加速

Prompttokens

Prompt

kvcacheBiTA:

Bi-Directional

Tuning

for

Lossless

Acceleration

in

Large

Language

Models

LLM推理加速基于Prompt的投机词生成加速生成投机词通过:

Attention

mask采样词的logits取topK,

形成树状结构进行验证LLM推理加加速比1.7~2.1•

端侧Tree

attention•

采样和验证融合

提高接受率速Xl

推理优化稀疏加载

端侧推理效率优化l

轻量化低比特量化结构化剪枝推理加速总结与展望•

模型1.3B~6.7B•

平台高通/天玑GPU高通平台NPU天玑平台NPU

MiLM端侧部署实践融合更强个性化

展望THANKS智能未来,

探索A

I无限可能IntelligentFuture,

ExploringtheBoundless

PossibilitiesofA

I找方案&找标准找方案微信(扫第一个码)每日分享各个领域高质量专业的解决方案,内容包括某省市、乡村振兴、智慧城管、智慧园区、智慧公安、智慧水务(水利)、智慧林草、社会综合治理、智慧旅游、智慧工地、智慧环卫、智慧医院、智慧环保、智慧安监等领域,结合数字孪生、人工智能、物联网、大数据、云计算等技术,分享行业售前方案、设计方案、技术方案和项目信息等。找标准微信(扫第二个码)每日分享各个智慧领域国家和地方标准规范,国家和地方政策指导文件,让各个智慧方案有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论