CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）

上传人：1*** IP属地：山西上传时间：2026-04-22 格式：DOCX 页数：32 大小：2.76MB 积分：10.2 举报 版权申诉

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）_第2页

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）_第3页

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）_第4页

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）_第5页

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种用于ViTs的逐图像块后训练量化方法一种用于ViTs的逐图像块后训练量化方法及系化的ViT模型，所述量化模块中包括激活值和权后的ViT模型。本发明允许每个图像块享有独立2步骤2：将所述全精度Visiontransformer预训练模型中的全部模块替换为对应的量步骤3：利用所述校准数据，计算得到所述待量化的ViT2.如权利要求1所述的一种用于ViTs的逐图像块后训练量化方法，其特征在于，FCqq的ViT模型中所有所述量化模块的权重，以及MatMul2模块的激活值V采用逐通道均匀量化5.如权利要求1或2所述的一种用于ViTs的表示百分位数计算函数，x[t]表示激活值矩阵中的第t个图像块，pct表示百分位数，选择最小的损失对应的百分位数作为该图像块对应3若量化模块为卷积层或输出线性层，则将校准数据输入到全精度Visiontr若所述量化模块为编码模块，则将校准数据输入到全精度Vision9.如权利要求7或8所述的一种用于ViTs的逐ce表示第i个模块的注意力特征，表示第i个模块的注意力特征的反量化结所述校准模块，用于将所述全精度Visiontransformer预训练模型中的4所述优化模块，用于利用所述校准数据和全精度Visiontransf5[0003]模型量化方法可大致被分成两大类流程：量化感知训练(QuantizationAwareTraining,QAT)和后训练量化(PostTrainingQu[0004]大部分现有ViTs的PTQ工作将准确率下降归因于post_LayerNorm激活值的通道间后注意力特征崩溃。崩溃后的注意力特征难以精准地捕获构成ViTs归纳偏置的全局依赖，[0005]Visiontransformer模型的结构如图1所示，其部分模块的输入激活值的部分通6[0006]本发明旨在解决ViTs激活值的量化参数受到不同程度通道间数值差异和异常值大提升了量化分辨率并且使量化的激活值具有更步骤2：将所述全精度Visiontransformer预训练模型中的全部模块替换为对应q其中，x表示量化后的激活值矩阵，Clamp表示截断函数，Round表示舍入函q图像块的零点偏移,1表示全1行向量，其元素个数等于激活值矩percentile表示百分位数计算函数，x[t]表示激活值矩阵中的第t个图像块，pct表示7子以及输出部分的线性层中的缩放因子按层优化，其余的缩放因子按堆叠的编码模块优若量化模块为卷积层或输出线性层，则将校准数据输入到全精度Visionce表示注意力加表示第个模块的注意力特征，表示第个模块的注意力特征的反量[0016]本发明还提供一种用于ViTs的逐图像块后训练量化8所述优化模块，用于利用所述校准数据和全精度Visiontransformer预训练模[0021]图2是本发明提供的Visiontransformer模型部分模块的输入激活值的部分通道可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组9[0027]大部分现有ViTs的PTQ工作将所有具有严重通道间差异的post_LayerNorm激活值明为激活值中的每个图像块在滤掉异常值后计算量化参数来缓解严重数值差异和异常值[0029]步骤2：将所述全精度Visiontransformer预训练模型中的全部模块替换为对应式提升量化分辨率同时使其能够在硬件推理时q其中，x表示量化后的激活值矩阵，Clamp表示截断函数，Round表示舍入函q图像块的零点偏移,1表示全1行向量，其元素个数等于激活值矩表示结果激活值矩阵的第i行元素所对应的缩放因子，第i行即为第i个图像percentile表示百分位数计算函数，x[t]表示激活值矩阵中的第t个图像块，pct表示[0040]本实施例使用百分位数方法而不是最大最小值来滤掉异常值并确定每个图像块[0045]在步骤4中，对缩放因子按堆叠的编码模块(block)或层(layer)为单位进行迭代优化。对所述待量化的ViT模型的输入部分的卷积层中的缩放因子以及输出部分的线性层数据输入到全精度Visiontransformer预训练模型中对应的编码模块，获取输入激活值、ceuss表示注意力加权的度量的损失，表示第个模块的注意力特征，表示第个模块的注意力特征的反量所有实验均在一张英伟达A800GPU上执行。我们基于ImageNet1K和COCO数据集在图像分集中分别选择1024张和1个样本用于校准量化参数。使用完整的测试集来评估性能。采用可微分的舍入函数使用直通估计器(StraightThroughEstimator,STE)。图像分类任务例分割任务中，采用与方法中相同的方式优化MaskR_CNN和CascadeMaskR_CNN框架的[0057]表1为Visiontransformer变体上的PTQ方法与全精度模型在基于ImageNet1K数据集的图像分类任务上的Top_1准确率(%)比较。FQ_ViT、PTQ4ViT、APQ_ViT、RepQ_ViT、[0058]如表1所示，W6A6量化位宽情况下，本方法的top_1准确率在多个vision更低精度情形下的优越性。为了更加直观地展示PTW_ViT能够产生更具表达力的注意力特[0062]表2为PTQ方法与全精度模型在基于COCO数据集的目标检测和实例分割任务上的输入图像分辨率的变化而发生变化，因此本实施例只将逐图像块量化方法运用于MatMul1模块。PTW_ViT方法在W4A4情况下，w.Swin_T作为骨干网络的MaskR_CNN和CascadeMask[0065]消融实验：为了验证本发明所提出的逐图像块量化和注子。PatchTokenWiseQuant.表示针对基线模型使用逐图像块量化方法；Attention激活值都应该使用逐图像块量化来缓解严重数值差异和异常值的影响来降低量化误差积[0069]本方法是一种细粒度且硬件友好的Visiontransformers的后训练量化方法，通图像块滤掉异常值后独立地计算量化参数以支持推理时硬件上的纯整型矩阵乘法。此外，[0070]本实施例还提供一种用于ViTs的逐图像块后训练量化系统，采用的技术方案如所述优化模块，用于利用所述校准数据和全精度Visiontra

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）

文档简介

温馨提示

最新文档

评论

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统 （南开大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN119445127A 一种用于ViTs的逐图像块后训练量化方法及系统（南开大学）