CN119416823A 大模型推理方法、装置、设备及程序产品 (安徽讯飞寰语科技有限公司)_第1页
CN119416823A 大模型推理方法、装置、设备及程序产品 (安徽讯飞寰语科技有限公司)_第2页
CN119416823A 大模型推理方法、装置、设备及程序产品 (安徽讯飞寰语科技有限公司)_第3页
CN119416823A 大模型推理方法、装置、设备及程序产品 (安徽讯飞寰语科技有限公司)_第4页
CN119416823A 大模型推理方法、装置、设备及程序产品 (安徽讯飞寰语科技有限公司)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

请在部署时选择稀疏性大模型作为待部署的大2在执行大模型推理任务时,按照当前推理任务所需的目标根据算子之间的结构关系,从所述混合专家大模型的输入开始将所述混合专家大模型从输入至所述目标门控算子切分为继续向后搜索,识别到两个以上的前馈网络的输出集中到同一个权则在执行大模型推理任务时,按照当前推理在执行大模型推理任务时,按照当前推理任务所需的目标子模按照当前推理任务的推理目标,确定各子模型相关数据在内存3对拆分后的每个所述子模型进行剪枝处理,和/或量化处理,得到处理后的每个子模模型拆分单元,用于将所述稀疏性大模型拆分为若干个子模型,并存4解决方案。[0013]继续向后搜索,识别到两个以上的前馈网络的输出集中模型推理任务包括推理任务的前处理过程以及大模型5[0020]按照当前推理任务的推理目标,确定各子模型相关数据在内存中的目标排布方[0023]对所述稀疏性大模型进行剪枝处理,和/或量化处理,得到处理后的稀疏性大模[0037]借由上述技术方案,本申请提供了一种大模型落地端侧设备时的内存墙解决方6LargePre_TrainedModels或Large_ScalePre_TrainingModels。大模型的特点是规而实现计算效率和性能的提升。稀疏性大模型通常采用MOE架构,全称为Mixtureof7[0057]终端100可单独用于执行本申请实施例提供的大模型推理方法。除此之外,终端现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra_mobile[0062]输入单元130可用于接收输入的数字或字符信息,以及产生与该便携式多功能装或其他输入设备132。该触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手8[0066]处理器170是终端100的控制中心,利用各种接口和线路连接整个终端100的各个执行大模型推理方法的步骤,也可以调度其他单元(例如上述输入单元130以及显示单元备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、通用分组无线服务(GeneralPacket9多针连接器,可以用于连接终端100与其他装置进行通信,也可以用于连接充电器为终端[0076]处理器202可以为中央处理器(centralprocessingunit,CPU)、图形处理器[0077]存储器204可以包括易失性存储器(volatilememory),例如随机存取存储器(randomaccessmemory,RAM)。存储器204还可以包括非易失性存储器(non_volatile100和服务器200中的处理器(例如处理器170以及处理programmablegatearray,FPGA)、通用处理器、数字信号处理器(digitalsignal[0080]为了便于说明,本申请下述实施例中以待部署大模型的[0083]本申请实施例提供了一种大模型推理方法,以该方法应用于图1中的计算机设备[0090]本申请可以选择同参数量的稀疏性大模型,以MOE混合专家大模型作为待部署的疏性大模型拆分后的各个子模型可以存储到ROM硬盘中,在端侧设备启动后再从硬盘中加载到CPU的内存中。后续执行推理任务时,可以从内存中加载选定的目标子模型至推理芯部分的32个专家子模型以及尾部tail子模型,激活专家数量为4,则在执行不同推理任务择稀疏性大模型作为待部署的大模型,稀疏性大模型是指只使用部分参数进行计算的模输入数据分配给不同的专家子模型进行处理。输入数据首先被传递给Router,Router会根[0109]Router中包含门控算子,如软门控softmax算子、硬门控argmax算子、TopK门控求和算子weightsum,在weightsum之前进行切分,将从weightsum到目标门控算子[0114]如图5所示,在FFN和weightsum之间进行切分,从weightsum到目标门控算子[0161]推理芯片在从CPU内存中加载目标子模型相关数据时,可以将数据先加载到缓存[0165]为了提高cache的命中率,本申请实施例中考虑将经常一起访问的数据放在相邻[0167]按照当前推理任务的推理目标,确定各子模型相关数据在内存中的目标排布方[0168]本实施例中构造了推理芯片推理目标cache亲和性更高的内存排布方式,提高内[0180]继续向后搜索,识别到两个以上的前馈网络的输出集中[0186]按照当前推理任务的推理目标,确定各子模型相关数据在内存中的目标排布方[0194]如图10所示,该电子设置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图10示出了具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论