T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第1页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第2页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第3页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第4页
T∕TAF 327-2026 面向智能手机的端侧大语言模型技术要求_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Technicalrequiremen2026-02-09发布2026-02-09实施I 12规范性引用文件 13术语和定义 1 1 15.1前置条件 15.2技术要求指标 2 26.1加载时延 26.2推理速度-首词响应 26.3出词速度 36.4内存占用 36.5增量功耗 4本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件起草单位:中国移动通信集团终端有限公司、中国信息通信研究院、维沃移动通信有限公司、中兴通讯股份有限公司、安谋科技(中国)有限公司、翱捷科技股份有限公司、高通无线通信技术(中国)有限公司、北京三星通信技术研究有限公司、紫光展锐(上海)科技有限公司、博鼎实华(北京)技术有限公司、联想(北京)有限公司、小米通讯技术有限公司、南德认证检测(中国)有限公司深圳分公司、上海移芯通信科技股份有限公司。本文件主要起草人:王绍颖、董千洲、黄云霞、王健宇、范洪源、傅蓉蓉、高立发、曹宇琼、李根、李丛蓉、彭程、潘正、周世乐、董霁、刘妍、王彬、龙迪、曾勇波,聂大伟、吴术霞、耿琦、王骏超、梁恒康。能够完成通信任务,更将成为人工智能的最佳载体,为用户开启一个崭新的AI交互领域。各大终端品1下列缩略语适用于本文件:GB:吉字节(Gigabyte)INT:整数(Integer)5.1前置条件2表1所示为模型参数量在1B及以下、1B-3B、3B及以上的模型INT4与INT8量化下,模型文件体积不宜超过的大小。1B及以下INT4量化≤RAM*80%大小INT8量化≤RAM*80%大小技术要求指标请见表2。首词响应时延出词速度内存占用内存峰值、平均内存占用模型加载时延指把大语言模型文件从存储设备加载到内存中所需的时间。计算方法:记录初始化开始的时间戳t。和初始化结束时的时间戳1,两者之差即为模型加载时间t,t=t₁-t₀下表3展示了参数量在1B及以下、1B-3B、以及3B及以上的模型,在INT4和INT8量化条件下,端侧加载延时的建议上限。所有数据均为模型在端侧加载20次后的平均耗时,指标要求请见表3。1B及以下INT8量化INT4量化3计算方法:记录将文本输入到大语言模型的时间戳t₀和大语言模型返回者之差即为首词响应时延t,单位s。t=t₁-t₀本文件的测试样本token长度分别为128、1024和4096。针对参被测设备(内置NPU)6.3出词速度记为t;记录生成的字符数为N,出词速度S,计算公式如下,单位为tokens/s。端侧推理20次后获得的平均出词速度下限要求。模型出词速度不被测设备(内置NPU)1B及以下3B及以上6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论