CN113887610B 基于交叉注意力蒸馏Transformer的花粉图像分类方法 (内蒙古工业大学)_第1页
CN113887610B 基于交叉注意力蒸馏Transformer的花粉图像分类方法 (内蒙古工业大学)_第2页
CN113887610B 基于交叉注意力蒸馏Transformer的花粉图像分类方法 (内蒙古工业大学)_第3页
CN113887610B 基于交叉注意力蒸馏Transformer的花粉图像分类方法 (内蒙古工业大学)_第4页
CN113887610B 基于交叉注意力蒸馏Transformer的花粉图像分类方法 (内蒙古工业大学)_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2020342316A1,2020.10.29US2021182662A1,2021.06.17基于交叉注意力蒸馏Transformer的花粉图一种基于交叉注意力蒸馏Transformer的花力Transformer模块计算所有令牌的全局关联码为图片令牌,增加对图片令牌内部信息的建以动态的卷积注意力机制来实现图片令牌的局2distillationthroughattention.31.基于交叉注意力蒸馏Transformer的花粉图像分类方法,采用网络一和网络二的架所述网络一将输入花粉图片进行分割,然后线性投影为图片令牌,令牌序列二中的Class令牌和蒸馏令牌所述网络二将输入花粉图片进行分割,然后卷积编码为图片令牌,列四中的Class令牌和蒸馏令牌加权进所述网络一和网络二中,蒸馏令牌和Class令牌均与图片令牌进行注意力运算并且输所述网络一和网络二的损失函数组成交叉注意力蒸馏模块,交叉注其中,所述网络一由Transformer编码器、再注意力transform力transformer模块由再注意力模块和沿输入方向,连接关系为:Transformer编码器-再注意力transform稀疏化模块-再注意力transformer模块-动态令牌稀疏化模块-再注意力transformer模块-动态令牌稀疏化模块-……-动态令牌稀疏化模块-再注意力transforme所述再注意力模块建立在多头注意力机制的基础上,首先将输入的定义一个端到端可训练的变换矩阵使用变换矩阵动态聚合同一再注意力Transformer模块中不同头部之间的注意力映射图,即使用变换矩阵沿着头部维度乘以注多头再注意力机制利用不同的权值矩阵将每个输入令牌线性投影到h个不同的子空4所述网络二由多个卷积令牌编码模块和多个卷积Transformer模块组成,卷积令牌编所述卷积令牌编码模块将分割得到的2D图像或上一阶段输出的2D重塑令牌图x.eR"r"作为本阶段的输入,通过卷积操作得到一组新的令牌图所述卷积Transformer模块由多头注意力机制和前馈网络交替构成,将本阶段卷积令所述网络一输出的Class令牌和蒸馏令牌组成网络一的损失函数,其中Cl所述网络二输出的Class令牌和蒸馏令牌组成网络二的损失函数,其中Cl2.根据权利要求1所述基于交叉注意力蒸馏Transf在于,所述Transformer编码器将输入花粉图片重新划分为2D图像块序列列;所述Class令牌和蒸馏令牌是初始化的可学习的嵌入向量,Class令3.根据权利要求2所述基于交叉注意力蒸馏Trans54.根据权利要求1所述基于交叉注意力蒸馏Transformer的所述软交叉蒸馏策略,计算蒸馏令牌与老师网络输出的KL散度,得到两所述硬交叉蒸馏策略,直接与老师网络的概率输出取交叉熵损失,使用带温度的Softmax激活函数输出的交叉熵损失,允许学生网络学习老师网络输出中的高概率负标签6[0002]自从AlexNet网络在2012年的ImageNet图像分类比赛中获得冠军后,深度学习大出的针对自然语言处理(NLP)的模型,它以可并行化计算和建立全局依赖关系等优点迅速开始把目光投入计算机视觉领域,2020年,FacebookAI提出BETR模型,这是第一个将于Faster-R-CNN,但在小目标上不如后者。2020年,Dosovitskiy等人首次尝试将标准Transformer模型直接应用于图像分类,并尽可能少的修改,称之为视觉转换器(Vision参数的ImageNet数据集上就实现了83.1%的To7[0007]基于交叉注意力蒸馏Transformer的花粉图像分类方法,采用网络一和网络二的冗余令牌,多次经过再注意力Transformer模块和动态令牌稀疏化模块后,输出令牌序列令牌序列四中的Class令牌和蒸馏令牌加权[0010]所述网络一和网络二中,蒸馏令牌和Class令牌均与图片令牌进行注意力运算并模块和动态令牌稀疏化模块组成,所述再注意力transformer模块和动态令牌稀疏化模块进行点积生成注意力图,并且除以缩放因子7,经过Softmax激活函数以获得V的权重输出到下一个再注意力模块,该注意力图表示每个再注意Transformer模块内所有令牌之间的8全局相关性;多头注意力机制利用不同的权值矩阵将每个输入令牌投影到h个不同的子空意力模块的输出,再注意力机制通过定义一个端到端可训练的变换矩阵使用变换矩阵动态聚合同一再注意力Transformer模块中不同头部之间的注意力映射图,重新映[0019]所述预测模块以二进制决到一个概率值τ,应用Gumbel-Softmax激活函数从τ中取样得到当前的决策D,利用更新i;力掩码矩阵A,由二进制决策掩码生成,通过显示切断的已修剪令牌和其他令牌之积Transformer模块由多头注意力机制[0022]所述卷积令牌编码模块将分割得到的2D图像或上一阶段输出的2D重塑令牌图 f(x.)eR"",f[0023]所述卷积Transformer模块由多头注意力机制(MHSA)和前馈网9率分布之间的差异性,通过减小KL散度值来使蒸馏令牌在自身注意力机制运算的基础上,Softmax激活函数输出的交叉熵损失,允许学生网络学习老师网络输出中的高概率负标签[0044]如图1所示,本发明为一种基于交叉注意力蒸馏Transformer的花粉图像分类方从而增加像素空间表示的丰富性和多样性,实现图片令牌的局部和全局像素信息的融合,序列四中的Class令牌和蒸馏令牌加权进[0047]在网络一和网络二中,加入的是初始化的D维的Class令牌和蒸馏令牌(此时两个是两个向量趋于不同的值。而Class令牌和蒸馏令牌又均与图片令牌进行注意力运算并且transformer模块由再注意力模块和前馈网络[0050]网络二可由多个卷积令牌编码模块和多个卷积Transformer模块组成,卷积令牌[0055]标准Transformer模型的输入是一维的令牌序列,为了处理2D的花粉图像,px,e"",其中H,W是输入图像的长和宽,C是通道数,是图像或令牌(补丁)序列的集P2。这里的N刚好满足Transformer模型的有效输入序列长度。为了使所有再注意力p和蒸馏令牌通过与图片令牌序列进行注意力运算,对图像令牌之间的全局关系进行建模,[0064]在标准的注意力机制中,首先将输入的令牌序列通过一个层规范化LayerNormk意Transformer模块不同头部的注意力图相似度很小,这表示来自同一层的不同头部关注[0068]具体来说,定义一个端到端可训练的变换矩阵使用变换同一再注意力Transformer模块中不同头部之间的注意力映射图,即使用变换矩阵沿着头部维度乘以注意力映射图,将多头注意力映射图混合到重新生成的新的注意力映射图中,[0071]多头再注意力机制利用不同的权值矩阵将每个输入令牌线性投影到h个不同的子[0075]再注意力模块解决了因层数加深而产生的注意力雷同问题,通过加深再注意力Transformer模块层数来增加注意力特征表达空间的多样性,更好的对令牌的全局关系进[0078]如图3所示,再注意力transformer模块由再注意力模块(MHRT)和前馈网络(FFN)[0086]参考图4,预测模块动态地对输入的令牌进行选择性的修剪,对于输入的每个令[0096]对于输出的概率τ,应用Gumbel-Softmax激活函数从概率τ中进行采样得到当前的切断的已修剪令牌和其他令牌之间的联系,让已经被稀疏化的令牌不参与注意力的运算,[0101]具体来说,在计算注意力特征图的时候加上一个注意力掩码矩阵A,通过A,显示切断的已修剪令牌和其他令牌之间的联系,由二进制决策掩码转化而成,新的令牌图f(x.)eR""高度和宽度计算公式为:[0112]然后将得到的f(x)eR"r"展平成HiWi×Ci的1D令牌序列,其中HiWi是第i阶段使用深度可分离卷积的多头注意力机制(MHSA)代替原来的位置线性投影进而形成卷积投[0118]深度可分离卷积将标准化卷积分解为逐通道卷积(depthwiseconvolution)和逐点1×1卷积(pointwiseconvolution)。逐通道卷积操作把来自上一层的多通道特征图全接下来的N1个卷积Transformer模块中,对H1W1个维度为C1的1D令牌进行卷积投影得到H1W1值V进行多头注意力运算来对全局关系进行建模。[0120]初始化的Class令牌和蒸馏令牌将不通过卷积令牌编码模块,为了与各个阶段卷Transformer模块中与图像令牌进行多[0122]网络一在标准ViT图像分类器中加入了再注意力机制和动态令牌稀疏化模块。再注意力机制通过一个端到端可学习的矩阵Θ来关注同一注意力层中不同过维护一个二进制决策掩码来决定令牌是丢弃还是保留,分层的修剪掉重要性较低的令[0123]网络二将卷积操作融入Transformer中,通过卷积令牌编码模块和卷积投影来逐[0124]网络一致力于加深Transformer模块的层数,并且修剪冗余令牌来达到速度和精效数据训练。并且缺少卷积神经网络的归纳假设和对局部像素的建模。网络二通过在Class令牌在Transformer模块中与其他图像令牌进行交互,执行注意力运算。区别在于Class令牌的目标是与真实的标签值一致,而蒸馏令牌的目标是要与老师网络预测的标签得到各个类别的概率值作为最终分类结果概率,取概率最大值的类别做为模型预测结果,并且将输出的Softmax值与真实标签取交叉熵损失,以降低损失值来进行反向传播来更新签组成交叉熵损失,蒸馏令牌与网络一的Class令牌输出组成蒸馏损失。网络一和网络二损失函数不仅有原来的Class令牌与真实标签的交叉熵损失值,还有各自的蒸馏令牌与老师网络的输出值取KL散度或交叉熵损失,最终的损失函数由Class令牌部分和蒸馏令牌部[0132]本发明使用两种蒸馏策略来进行优化,分别是软交叉蒸馏策略和硬交叉蒸馏策温度的Softmax激活函数输出的交叉熵损失,允许学生网络学习老师网络输出中的高概率带温度的Softmax函数允许学生网络也可以学习到老师网络输出值中的高概率负标签所携方向,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论