T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第1页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第2页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第3页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第4页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信终端产业协会发布I 1 1 1 1 1 1 2 2 2 2 3 3 4本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。国)有限公司、北京三星通信技术研究有限公司、紫光展锐(上海)科技有限李丛蓉、彭程、潘正、周世乐、董霁、刘妍能够完成通信任务,更将成为人工智能的最佳载体,为用户开牌厂商纷纷加大在大语言模型端侧部署方面的创新力度,领先的芯片厂商也在不断提升移动平台的AI持续拓展,端侧大语言模型将在未来发挥更加重要的1面向智能手机的端侧大语言模型技术要求4缩略语NPU:神经网络处理器(NeuralNetworkProcessingUnit)5概述5.1前置条件本文件不规定端侧大语言模型部署方式和推理框架,智能手机内置大语言模型本文件不考计算方法:记录模型文件在端侧所占用的存储空间大小,单25.2技术要求指标模型加载时延指把大语言模型文件从存储设备加载到内存中所需的时t=t1__to下表3展示了参数量在1B及以下、1B–3B、以及3B及以上的模型,在INT4和INT8量化条件下,端侧加载延时的建议上限。所有数据均为模型在端侧加载20次后的平均耗时,指标要求请见表3。3计算方法:记录将文本输入到大语言模型的时间戳t0和大语言模型返回第者之差即为首词响应时延t,单位s。及以上的模型,规定在INT4和INT8量化条件下,经过20次测试所得的平均首词响应时延不宜高于表4所记为t;记录生成的字符数为N,出词速度s,计算公式如下,单位为tokens/s。端侧推理20次后获得的平均出词速度下限要求4并直到大语言模型推理结束,监控到内存占用达到的最大值为d1及平均值d2。则内存计算方式如下:dmax=d1_do…………(4)dmax——内存峰值;d1——内存占用达到的最大值;do——调用大语言模型前的内存占用。davg=d2_do…………(5)davg——内存平均占用;d2——平均值;do——调用大语言模型前的内存占用。a)监控被测设备待机中总电量消耗为N1,平均电流b)监控推理过程中总电量消耗为N2,平均电流可以通过使用功耗测试仪测量()的耗电量N2计算得到,单位为mAh。(以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论