版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
KaiHan,etal..GhostNetCVFConferenceonCom输出。本申请在transformer模型中插入了目标合,增加了transformer模型中目标网络层输出2加所述ghost模块的神经网络生成更多的特征图,所述目标模块用于对所述目标网络层的获取终端设备的性能要求,所述性能要求用于指示所述transformer模型的数据处理精度和/或所述transformer模型根据所述性能要求,确定所述目标模块的数量以及在所述transformer模型中的插入通过所述transformer模型对所述待处理数据进行目标任务对应的处理,所述目标任所述卷积核包括的权重参数的加和与1的差值在预设4.根据权利要求1至3任一所述的方法,其特征在于,所5.根据权利要求2至3任一所述的方法,所述对所述目标网络层的特征图输出进行目标运算,以得到运算结对所述M个特征图输出进行N次目标运算,以得到N个第一特征图将所述N个第一特征图与所述M个注意力头的M个特征图输出注意力头中的每个注意力头包括第一分支和第二分支,所述第一分支的输出为根据K向量3所述对所述目标网络层的特征图输出进行目标运算,以得到运算结对所述M个第一分支的输出进行N次目标运算,以得到N个第二所述对所述目标网络层的特征图输出进行目标运算,以得到运算结对所述M个第三分支的输出进行N次目标运算,以得到N个第三将所述N个第三特征图与所述M个第三分支的输所述对所述目标网络层的特征图输出进行目标运算,以得到运算结对所述X个特征图输出进行N次目标运算,以得到N个第四特征图将所述N个第四特征图与所述X组神经元的X个特征图输所述对所述目标网络层的特征图输出进行目标运算,以得到运算结对所述X个输出层输出进行N次目标运算,以得到N个第五特征图4将所述N个第五特征图与所述X个输出层输根据所述数据处理结果,对所述transformer模型进行模型训练,以得到训练后的接收端侧发送的终端设备的性能要求,所述性能要求用于指示transformer模型的数据处理精度和/或所述transform根据所述性能要求,确定所述目标模块的数量M以及在所述第一trans根据所述第一transformer模型、所述目标模块的数量M和所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距离所24.根据权利要求21或23所述的方法,其特征在于,所述根据根据所述目标模块的数量和所述插入位置,将所述M个目标模块插入至所述第一525.根据权利要求21至23任一所述的方法,其特征在于,所述接收所述端侧发送的针对于初始transformer模型获取所述初始transformer模型,对所述初始transformer模型进行压6[0002]人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算来在以翻译为代表的一系列自然语言处理的任务上显著超越了之前的模型,基于模型进行剪枝等压缩处理,来得到较轻量化的transformer模型,然而压缩处理会使transformer模型可以为训练好的transformer模型,例如transformer模型可以为预训练络层可以为transformer层中的注意力层或者[0009]其中,可以将目标模块插入到transformer模型中,以得到本申请实施例中的7[0012]其中,上述特征图输出可以理解为网络层输出的特征图(可以是网络层的最终输[0014]可以通过transformer模型对所述待处理数据进行处理,待处理数据可以为模型[0015]本申请实施例中在transformer模型中插入了目标模块,通过目标模块生成更多目标模块的输入进行融合,增加了transformer模型中目标网络层输出的特征图中携带的卷积核包括的权重参数的加和与1的差值在预设范围内;所述卷积核包括的权重参数为正[0024]在一种可能的实现中,所述将所述N个第一特征图与所述M个注意力头的M个特征8个注意力头的M个特征图输出进行加和运算后,可以丰富注意力层输出的特征图中携带的述M个注意力头的M个第一分支的输出;所述对所述目标网络层的特征图输出进行目标运图与所述X组神经元的特征图输出进行融合,例如可将所述N个第四特征图与所述X组神经[0031]本申请实施例中,transformer模型可以为对FFN的中间层进行剪枝操作后得到9目标网络层的特征图输出包括所述X个输出层输出;所述对所述目标网络层的特征图输出[0033]在一种可能的实现中,所述通过所述transformer模型对所述待处理数据进行处侧服务器在接收到终端设备发送的性能要求之后,可以基于接收到的性能要求确定transformer模型的剪枝尺寸,具体的,当性能要求包括的精度要求较高时,可以确定transformer模型的剪枝尺寸较大,当性能要求包括的时延要求较高时,可以确定transformer模型的剪枝尺寸较小,当性能要求包括的模型压缩比较高时,可以确定transformer模型的剪枝尺寸较大。具体的,云侧服务器可以基于预设的函数关系确定所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距离所述块的数量以及在所述transformer模型所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距离所述transformer模型中的嵌入层的距标模块在所述transformer模型中的插入位置距离所述transformer模型中的嵌入层的距配的剩余参数量和FLOPs等性能参数进一步确定目标模块的数目和在transformer模型中[0045]在一种可能的实现中,所述通过所述transformer模型对所述待处理数据进行处所述transformer模型的数据处理精度和/或所述transformer模型[0075]根据所述性能要求,确定所述目标模块的数量以及在所述transformer模型中的[0078]在一种可能的实现中,所述通过所述transformer模型对所述待处理数据进行处[0079]通过所述transformer模型对所述待处理数据进行目标任务对应的处理,所述目[0081]接收端侧发送的性能要求,所述性能要求用于指示transformer模型的数据处理精度和/或所述transformer模型目标transformer模型包括目标网络层以及目标模块,所述目标模块用于对所述目标网络[0086]在一种可能的实现中,所述根据所述性能要求,获取满足所述性能要求的目标[0091]所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距[0094]根据所述目标模块的数量和所述插入位置,将所述M个目标模块插入至所述第一型的数据处理精度和/或所述transformer模型[0110]所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距[0113]根据所述目标模块的数量和所述插入位置,将所述M个目标模块插入至所述第一所述transformer模型包括目标网络层以及目标模块;获取待处理数据,通过所述果与目标模块的输入进行融合,增加了transformer模型中目标网络层输出的特征图中携提供给基础平台提供的分布式计算系统中的智能芯片[0158]基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、[0170]图2示出了一种自然语言处理系统,该自然语言处理系统包括用户设备以及数据户设备得到的该一段文本执行自然语言处理应用(例如文本分类、文本推理、命名实体识该用户设备能够直接接收来自用户的输入(例如本申请实施例中的待处理数据)并直接由[0176]在本申请实施例中,用户设备可以存储有transformer模型,并在每次操作系统[0179]上述图2和图3中的用户设备具体可以是图4中的本地设备301或者本地设备302,[0180]图2和图3中的处理器可以通过神经网络模型或者其它模型进行数据训练/机器学习/深度学习,并利用数据最终训练或者学习得到的模型针对文本序列执行自然语言处理施例涉及的相关术语及神经网络等相关概念[0183]神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运P个输入向量中的任意的第一输入向量为中心,基于预设的注意力窗口范围内的各个输入其中transformer层中最后一个transformer层得到的多个输出向量用作所述当前输入的码(positionalencoding)层。在输入嵌入层,可以对当前输入中的各个词进行词嵌入处理,从而得到各个词的词嵌入向量。在位置编码层,可以获取各个词在该当前输入中的位词嵌入向量和位置向量时,可以将各个词的位置向量和对应的词嵌入向量进行组合,得到各个词特征向量,即得到该当前输入对应的多个特征向量。多个特征向量可以表示为具有该多个特征向量可以表示为M×H的嵌入矩阵。固定窗口多头注意力(fixedwindowmulti-headattenAttention可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息理解为内部Attention(intraattention),Attention机制发生在Target的元素Query和素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力计[0195]自然语言(naturallanguage)即人类语言,自然语言处理(NLP)就是对人[0199]句子关系推断:给定两个句子,判断这两个句子是否具备某种名义关系。例如[0204]词性标注(part-speechtagging):为自然语言文本中的每个词汇赋予一个词性[0208]现有的ghost模块可以用廉价的线性运算生成更多的幻影特征图,通过幻影特征供的数据处理方法可以运用上述训练好的transformer模型,将输入数据(如待处理数据)申请实施例提供的transformer模型相关的模型训练方法和数据处理方法是基于同一个构数据等等,在本申请实施例中,训练样本为对transformer模型进行训练时所采用的数据[0216]训练设备520可以基于数据库530中维护的训练样本对transformer模型进行训练,以得到目标模型/规则501。本申请实施例中,目标模型/规则501可以为训练后的也不一定完全基于数据库530维护的训练样本进行目标模型/规则501的训练,也有可能从云端或其他地方获取训练样本进行模型训练,上述描述不应该作为对本申请实施例的限[0218]根据训练设备520训练得到的目标模型/规则501可以应用于不同的系统或设备[0221]预处理模块513和预处理模块514用于根据I/O接口512接收到的输入数据进行预[0222]在执行设备510对输入数据进行预处理,或者在执行设备510的计算模块511执行集如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果作为新的样本数据,[0227]本申请实施例中,上述执行设备520的计算模块511可以获取到数据存储系统550[0228]本申请实施例中,执行设备520的计算模块511可以包括硬件电路(如专用集成电路(applicationspecificintegratedcircuit,ASIC)、现场可编程门阵列(field-programmablegatearray,FPGA)、通用处理器、数字信号处理器(digitalsignal请实施例提供的数据处理方法可以为存储在存储器中的软件代码,执行设备520的计算模块511可以从存储器中获取到软件代码,并执行获取到的软件代码来实现本申请实施例提于训练设备520或者与训练设备520分离部署)中存储的代码来实现本申请实施例中的数据specificintegratedcircuit,ASIC)、现场可编程门阵列(field-programmablegate上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统数据处理方法可以为存储在存储器中的软件代码,训练设备520可以从存储器中获取到软[0235]应理解,训练设备520可以为不具有执行指令功能的硬件系统以及具有执行指令[0238]601、获取transformer模型;所述transformer模型包括目标网络层以及目标模[0240]本申请实施例中,终端设备或者云侧服务器可以获取用于进行模型推理的transformer模型,其中,transformer模型可以为训练好的transformer模型,例如构仅仅是一个示例,transformer层的数目可以根据需要而设置。例如,可以仅设置一个中上下文对各个词的影响。嵌入层可以基于当前序列中各个节点的节点特征及其位置编transformer层可以包括依次相邻的多头注意力层(或者简称为注意力层)、加和与归一化即为前一级transformer层的输出向量。多头注意力层可以包括多个注意力头head(如图8[0249]图9为一个注意力头head的操作示意图,该示意图示出注意力头head如何将输入得到V矩阵所在的操作支路在本申请实施例中也可以称之确定该第i输入向量Xi与各个输入向量Xj的各个关联度。尽管也可以直接将qi与kj的点乘[0259]以上为一个注意力头head的处理过程描述,在MHA架构中,MHA层维护m套变换矩过transformer模型对所述待处理数据进行处理,待处理数据可以为模型推理过程中的输[0265]本申请实施例中,目标模块可以对所述目标网络层的特[0267]一般来说,大部分线性运算都可以作为目标模块中所采用的运算,但是在[0270]其中,一维卷积(Conv1D)在序列方向编码局部依赖性并表现出卓越的表现用于i个token第c个通道的输出可以表示为:[0274]其中,对于二维卷积(Conv2D),输入和输出通道均为1,卷积核的维度是W∈R1[0276]虽然一维卷积(Conv1D_S)有强大表达能力,但是需要引入许多额外的内存和计的权重参数都为正,且权重参数的加和为1或者为接近于1的数值,例如可以与1的差异在图10为一种基于深度可分离卷积的目标模块的操作示意。Softmax正则化应用在卷积核上[0287]参照图11,目标模块在transformer模型中的插入位置可以在注意力头的输出之的特征图输出可以包括所述M个注意力头的M个特征图输出,目标模块可以对所述M个特征可以为M个注意力头的中每个注意力头,也就是将M个注意力头的M个特征图输出输入至目[0291]假设对transformer层包括M个注意力头,可以用这M个注意力头通过目标模块生[0294]在一种可能的实现中,可以根据所述N个第一特征图更新所述M个注意力头的M个特征图输出,例如可以将所述N个第一特征图与所述M个注意力头的M个特征图输出进行加[0296]参照图13,目标模块在transformer模型中的插入位置可以在注意力头的中间输出之后,目标模块在transformer模型中的插入位置可以位于注意力头中k向量和q向量点[0299]参照图14,目标模块在transformer模型中的插入位置可以在注意力头的中间输的输出进行融合。例如可以将所述N个第三特征图与所述M个第三分支的输出进行拼接操[0302]参照图15,目标模块在transformer模型中的插入位置可以在FFN的中间输出之标网络层的特征图输出包括所述X组神经元的X个特征图输出,也就是说目标模块在所述N个第四特征图与所述X组神经元的X个特征图输出[0304]本申请实施例中,transformer模型可以为对FFN的中间层进行剪枝操作后得到[0305]参照图16,目标模块在transformer模型中的插入位置可以在FFN的最终输出之如可以在经过第一变换矩阵K进行线性变换之后,在进行k向量与q向量的点乘之前的位置[0309]本申请实施例中在transformer模型中插入了目标模块,通过目标模块生成更多目标模块的输入进行融合,增加了transformer模型中目标网络层输出的特征图中携带的[0310]如表1所示,添加了目标模块应用在压缩或者原始的BERT、RoBERTa和ELECTRA等transformer模型上在几乎不增加额外参数和计算的情况下显著的提高了模型的数据处理所述transformer模型包括目标网络层以及目标模块;获取待处理数据,通过所述果与目标模块的输入进行融合,增加了transformer模型中目标网络层输出的特征图中携还可以为经过剪枝处理后的模型,例如transformer模型可以为经过对注意力层的注意力块的数量以及在所述transformer模型[0327]transformer结构的初始神经网络模型,云侧服务器在接收到终端设备发送的性预设的函数关系确定transformer模型的剪枝尺寸信息,或者基于预设的对应关系确定[0328]在一种可能的实现中,尺寸信息可以包括transformer模型的宽度尺寸和深度尺可以包括transformer模型包括的transfor的中间层intermediatelayer包括的神经元的数量,全连接网络(前馈层)的中间层块的数量以及在所述transformer模型标模块在所述transformer模型中的插入位置距离所述transformer模型中的嵌入层的距配的剩余参数量和FLOPs等性能参数进一步确定目标模块的数目和在transformer模型中用于transformer模型中(例如该transformer模型为预训练模型或经过精调后得到的模[0339]在得到数据处理结果后,可以基于数据处理结果构建损失,并基于损失对有较好模型精度的模型作为老师模型,将上述加了目标模块的transformer模型作为学生[0341]在一种可能的实现中,在得到训练后的transformer模型之后,可以对训练后的进行精调。模型传回用户设备,进而用户设备可以使用云侧返回的模型(训练后的transformer模型)处理精度和/或所述transformer模型的模型(例如该第一transformer模型为预训所述目标transformer模型包括目标网络层以及目标模块,所述目标模块用于对所述目标上述实施例中的第一transformer模标模块在所述transformer模型中的插入位置距离所述transformer模型中的嵌入层的距配的剩余参数量和FLOPs等性能参数进一步确定目标模块的数目和在transformer模型中所述插入位置,将所述M个目标模块插入至所述第一transformer模型,以得到第二transformer模型,并对所述第二transformer模型进行模型训练,以得到所述目标识蒸馏的方法来将原始大模型(老师模型)学到的知识迁移到(剪枝后)加了目标模块的模[0357]关于目标模块的描述可以参照上述实施例中步骤602中与目标模块相关的描述,[0362]关于获取模块2101的具体描述可以参照步骤601或者步骤2001的描述,这里不再[0364]关于数据处理模块2102的具体描述可以参照步骤602或者步骤2002的描述,这里所述transformer模型的数据处[0392]根据所述性能要求,确定所述目标模块的数量以及在所述transformer模型中的所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距离所述transformer模型中的嵌入层的距[0395]在一种可能的实现中,所述通过所述transformer模型对所述待处理数据进行处[0396]通过所述transformer模型对所述待处理数据进行目标任务对应的处理,所述目型的数据处理精度和/或所述transformer模型[0408]所述数据处理精度越高,所述目标模块在所述transformer模型中的插入位置距[0411]根据所述目标模块的数量和所述插入位置,将所述M个目标模块插入至所述第一2200中的处理器2203的数量可以一个或多个,图22中以一个处理器为例),其中,处理器2203可以包括应用处理器22031和通信处理器22032。在本申请的一些实施例中,接收器数据。存储器2204的一部分还可以包括非易失性随机存取存储器(non-volatilerandom[0419]上述本申请实施例揭示的方法可以应用于处理器2203中,或者由处理器2203实理器或微控制器,还可进一步包括专用集成电路(applicationspecificintegrated训练设备一种结构示意图,训练设备2300上可以部署有图17至图2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026甘肃陇南市康复医院(市精神卫生中心)招聘3人考试备考试题及答案解析
- 2026年山东省精神卫生中心博士、高级岗位公开招聘人员(31名)考试模拟试题及答案解析
- 2026年止吐药行业分析报告及未来发展趋势报告
- 2026c语言省计算机笔试试题及答案
- 2026年污水切割泵行业分析报告及未来发展趋势报告
- 2026年宝鸡市水利系统事业单位人员招聘考试备考试题及答案详解
- 2026年安庆市水利系统事业单位人员招聘考试备考试题及答案详解
- 2026年电子元器件检测行业分析报告及未来发展趋势报告
- 2026年大连市财政系统事业单位人员招聘考试备考试题及答案详解
- 2026国网四川省电力公司高校毕业生招聘(第三批)考试参考题库及答案解析
- 【答案】《世界贸易组织法律制度》(西南政法大学)章节期末慕课答案
- 汽车制造VDA 6.3过程审核点检表模板
- 2025年北京事业单位联考公共基本能力测验真题及答案(管理岗)
- 核技术利用教学课件
- 2026年江苏省苏州市技能人才评价考评员考试题库及答案
- 检验科消防安全培训课件
- 2025年成都经济技术开发区(龙泉驿区)区属国有企业专业技术人员公开招聘备考题库及参考答案详解
- 2025年河南省三门峡市辅警协警笔试笔试真题(附答案)
- 2025年军队文职人员招聘之军队文职法学通关训练试卷含答案讲解
- 小班数学《开心水果店》课件
- 2025年华住集团酒店考试题库
评论
0/150
提交评论