版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WO2022027242A1,2022.02.10本公开涉及一种神经网络模型的训练方法获取的待训练的第一神经网络模型中第一网络得到第二神经网络模型,并根据第二模型优化根据量化模拟结构和初始的第一模型优化器确例可实现在训练过程中模拟量化操作带来的误2获取待训练的第一神经网络模型,待训练的第一神经网络将所述第一神经网络模型中第一网络层更新为第二网络层,得到第二神经网络模型,所述第二网络层比所述第一网络层增加了量化模拟根据第二模型优化器,对所述第二神经网络模型进行训练其中,所述第二模型优化器是根据所述量化模拟结构和初始的第一模型优化器确定根据当前轮每步训练中所述第二网络层的更新步长,对所述第二网在满足预设的训练结束条件的情况下,将当3.根据权利要求2所述的方法,其特征在于,根据验证数据集对第一量化标签进行更确定第一结果和第二结果;其中,所述第一结果和第二结果3响应于所述第三结果与所述第二标签的差值小于第一预设阈值且大于第二预设阈值,所述第二模型优化器在所述第一标签为第二标识的情况下,根据所述第二模型优化器是根据所述量化模拟结构和初始的第一模型4获取模块,用于获取待训练的第一神经网络模型,待训练的第一更新模块,用于将所述第一神经网络模型中第一网络层更新为第二其中,所述第二模型优化器是根据所述量化模拟结构和初始的第一模型优化器确定其中,所述处理器被配置为调用所述存储器存储的指令,以执行程序指令被处理器执行时实现权利要求1至6中任意处理器执行时实现权利要求1至6中任意一项5[0002]随着人工智能技术的不断发展,人工智能相关的模型结构也被设计的越来越复待训练的第一神经网络模型;将所述第一神经网络模型中第一网络层更新为第二网络层,6标签和第三标签,所述第一标签用于标记所述第二网络层启用或停用所述量化模拟结构;及当前轮每步训练使用的训练数据,确定当前轮每步训练中所述第二网络层的更新步长,7标签和第三标签,所述第一标签用于标记所述第二网络层启用或停用所述量化模拟结构;及当前轮每步训练使用的训练数据,确定当前轮每步训练中所述第二网络层的更新步长,89所说明的任何实施例不必解释为优于或好于其它实[0037]相关技术中的量化感知训练方法,大多依赖于深度学习模型中具有的卷积(convolution)和正则化(BatchNorm)结构,一个第二网络层权重参数的更新步长,量化模拟结构用于对权重参数执行模拟量化操作,量化模拟结构和初始的第一模型优化器确定的,所述第二模型优化器用于调整至少一个包括多个卷积层、池化层、全连接层等,第一神经网络模型可以是卷积神经网络(ConvolutionalNeuralNetworks,CNN)、深度神经网络(DeepLearningNeuralNetwork,DNN)、循环神经网络(RecurrentNeuralNetwork,RNN)、残差网络(Residual第一神经网络模型的网络结构不作具体限制。取对权重参数执行模拟量化操作带来的模拟量第二模型优化器可以是根据所述量化模拟结构和初始的第一如第二网络层的权重参数),第一优化器例如包括随机梯度下降优化器(Stochastic度优化器(AdaptiveGradient,Adagrad)、均方根传递优化器(RootMeanSquareProp,[0057]在步骤S12中,将第一神经网络模型中第一网络层更新为增加了量化模拟结构第法(LearnedStep_sizeQuantization,LSQ)、参数化剪裁激活法(Parameterized习量化法(LearnedQuantizationforHighlyAccurateandCompactDeepNeural签可用于指示第二网络层在训练过程中,是否对第二网络层的权重参数进行模拟量化操[0066]图2示出根据本公开实施例的第二网络层与第一网络层的对比示意图,如图2所签可用于指示第二网络层在训练过程中,是否对第二网络层的权重参数进行模拟量化操例的第一量化参数,quant_bit表示量化标签中用于标记模拟量化操作量化位数的第三标[0077]Q=quant(weight,quant_bit)=clamp(weight/scale,quant_b示将第二网络层权重参数weight与第一量化参数scale的商的元素值限定在数值为quant_用于确定第一量化结果Q与第二量化参数zero_point的差值与第一量化参数scale乘积的[0083]在步骤S12中,将第一神经网络模型中第一网络层更新为增加了量化模拟结构第[0090]在步骤S12中,将第一神经网络模型中第一网络层更新为增加了量化模拟结构第[0091]在一种可能的实现方式中,图3示出根据本公开实施例的第二网络层训练方法的示意图,如图3所示,所述第二神经网络模型中任一第二网络层的训练过程包括:在步骤的量化标签,所述第二量化标签是指当前轮多步训练共用的所述第二网络层的量化标签。[0092]在步骤S132中,利用所述第二模型优化器根据所述第二量化标签(当前轮多步训化模拟结构来执行模拟量化操作;所述第二标签用于标记所述模拟量化操作的量化误差;[0097]对于第二神经网络模型中的某一第二网络层,假设预设的验证步数为K(例如K=[0098]可选的,如果第i轮的量化标签表示停止对第二网络层的权重参数进行模拟量化并且该量化标签还指出模拟量化操作所使用的量化比特位,第二网络层在第i轮各步的迭模拟结构的情况下,可根据所述验证数据集中的验证数据与所述第二网络层的权重参数,[0102]图4示出根据本公开实施例的第一结果和第二结果确定方式的示意图,如图4所据集中的验证数据,也可以是由第二网络层之前的网络层基于验证数据确定的输入数据,表示输入数据activation和权重参数weigh的乘积结果,再加上偏置参数bias的第一结果由公式(3)所示的第一量化算子quant()和公式(4)所示的第二量化算子dequant()构成,拟结构来执行模拟量化操作。例如,在训练过程中,如果某个第二网络层的第一标签is_重参数执行模拟量化操作;如果某个第二网络层的第一标签is_quant的值为第二标识(例[0116]由于在训练过程中,每轮可以对各第二网络层自身的第一标签is_quant更新一网络层自身的第三标签quant_bit更新一次,对于同一第二网络层,在不同轮的迭代训练果与所述第二标签的差值小于或等于第二预设阈值,将所述第三标签缩小第二预设倍数,[0122]通过比较用于模拟量化操作带来量化误差的第三结果和第二标签在先记录的量动态确定每个第二网络层是否执行模拟量化操作,以及动态整模拟量化操作的量化位数,[0124]可以对第三结果rst3和该第二网络层的第二标签quant_err进行对比,若第三结≥第一预设阈值,在此情况下,如果第一标签is_quant记录的是第二标识并且第三标签quant_bit也已经是预设的最大值(例如包括16),可以将第一标签is_quant由第二标识更达到预设的最大值(例如包括16),则将该第二网络层[0125]若第三结果rst3比第二标签quant_err小第二预设阈值(例如包括0.5)及以下,[0126]若第三结果rst3与第二标签quant_err的差值小于第一预设阈值且大于第二预设施例对第一预设阈值和第二预设阈值的取值范围不据之前更新好的量化标签和量化参数(例如第一量化参数和第二量化参数),确定量化梯g[0133]Q=quant(grad,quant_bit)=clamp(grad/scale,quant_bit)+zero_gggg化参数,quant_bit表示量化标签中用于标记模拟量化操作量化位数的第三标签,zero_point是表示零点位置的第二量化参数。可以将嵌位操作结果clamp(grad/scale,quant_gggdd[0139]在公式(11)中,Q表示量化梯度,H_1表示量化梯度Q的近似海森(Hesgg[0141]第二模型优化器可以将第二网络层权重参数weight的梯度grad与近似海森根据当前轮每步训练中第二网络层的更新步长,根据公式(6)对第二网络层的权重参数进基于量化模拟结构将其量化至第三标签指示网络模型中第一网络层更新为增加了量化模拟结构的第二网络层,得到第二神经网络模标签和第三标签,所述第一标签用于标记所述第二网络层启用或停用所述量化模拟结构;及当前轮每步训练使用的训练数据,确定当前轮每步训练中所述第二网络层的更新步长,[0171]电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源多用户多进程的计算机操作系统(UnixTM),自由和开放原代码的类Unix操作系统[0174]计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形[0175]这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功计算机可读介质则包括一个制造品,其包括实现流程图和/或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 唐山市新区2025-2026学年第二学期三年级语文第五单元测试卷部编版含答案
- 楚雄彝族自治州姚安县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 四平市双辽市2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 曲靖市会泽县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 软件方案评审
- 深度解析(2026)《CBT 4415-2015船用螺旋风管及附件》
- 深度解析(2026)《CBT 3905.6-2005锡基轴承合金化学分析方法 第6部分:原子吸收光谱法测定铜量》
- 深度解析(2026)《CBT 3580-1994船体钢板和构件修理测厚技术要求》
- 深度解析(2026)《CBT 601-1992 自闭式放泄阀》:结构解析、标准解码与未来应用前瞻
- 福建美术题库及答案
- 中国电信安徽公司校园招聘试卷
- 氧气瓶安全培训知识
- 2023学年完整公开课版耐久跑说课
- 足球传球与跑位配合技巧:传跑结合破解对手防线
- 《水泥搅拌桩》课件
- 数独培训课件
- GB/T 470-2008锌锭
- 鲧禹治水课件
- 初中 初一 劳动教育活动《维护保养自行车》第一课时 PPT 课件
- 廊桥施工方案完整优秀版
- 部编版四年级语文下册第二单元《习作:我的奇思妙想》课件PPT
评论
0/150
提交评论