CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-06 格式：DOCX 页数：75 大小：1.89MB 积分：9.6 举报 版权申诉

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）_第2页

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）_第3页

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）_第4页

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）_第5页

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PCT/CN2019/10446020WO2020/186703EN2020.09.基于卷积神经网络的图像处理方法和图像本申请公开了人工智能领域的一种基于卷进行卷积操作时，由该层卷积层的m个主卷积核卷积核和r个辅卷积核分别对该图像信息做卷积积层执行卷积操作之前利用各卷积层的主卷积2所述M个卷积核中包括m个主卷积核和r个辅卷积核，所述r个辅卷积核由所述m个主卷积核的二维矩阵包括所述任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵的子矩阵；矩阵包括的元素为所述任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵中除最外5.根据权利要求1至4任一项所述的方法根据所述任一主卷积核的梯度，更新所述任一主卷积核3二维矩阵包括的元素为所述任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵中除任一辅卷积核包括所述任一辅卷积核对应的主卷积核包括的Q个通道中P个连续通道上的根据所述任一主卷积核的梯度，更新所述任一主卷积核4络的图像处理方法和图像处理装置”的美国非临时专利申请以及于2019年9月4日提交的、申请号PCT/CN2019/104460的国际专利申请的优先权，其全部内容通过引用结合在本申请各种智能系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世[0004]得益于图形处理器(graphicsprocessingunit，GPU)以及各种神经网络处理器数量常常能够达到几万甚至几十万，整个CNN中参与卷积运算的参数(卷积核参数)的个数5辅卷积核包含的元素的个数少于该辅卷积核对应的主卷积核包含的元素的个数。可选的，将一个主卷积核中的一部分元素设置为0得到一个辅卷积核。采用这种方式得到的辅卷积核包含的非0元素的个数少于该辅卷积核对应的主卷积核卷积层执行卷积运算之前，根据该卷积层的主卷积核生成该卷积层对应的多个辅卷积核，利用主卷积核以及生成的多个辅卷积核对该卷积层输入的图像信息做卷积运算。举例来从一个矩阵当中选取某些行和某些列交叉位置的元素所组成的新矩阵称为原矩阵的一个[0012]在该实现方式中，图像处理装置由主卷积核在第p个通道上的二维矩阵的子矩阵得到辅卷积核在第p个通道上的二维矩阵，可以由主卷积核快速地得到辅卷积核，实现简[0013]在一个可选的实现方式中，任一辅卷积核在第p个通道上的二维矩阵包括的元素为该任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵中除最外围的K行和最外围[0016]可选的，任一辅卷积核包括该任一辅卷积核对应的主卷积核包括的Q个通道中任6[0017]在该实现方式中，图像处理装置可以快速地生成比主卷积核尺寸更小的辅卷积[0022]一个二维矩阵中目标位置的元素可以为该二维矩阵中除最外围的K行和最外围的辅卷积核对应的主卷积核为同型矩阵且该采样矩阵中各位置的元素与该主卷积核中各位置的元素一一对应，该采样矩阵的目标位置的元素均为1且除该目标位置之外的元素均为[0029]该采样矩阵的目标位置的元素可以为该采样矩阵在通道维度上的每个二维矩阵度上包括(Q-P)个零矩阵和P个包含的元素均为1的二维矩阵，该采样矩阵和该任一辅卷积核对应的主卷积核为同型矩阵且该采样矩阵中各位置的元素与该主卷积核中各位置的元7[0034]在该实现方式中，将已生成的辅卷积核作为新的主卷积核来生成另外的辅卷积络各卷积层的主卷积核生成各卷积层所需的辅卷积核，可以减少卷积神经网络占用的内[0038]在一个可选的实现方式中，r个辅卷积核中的s个辅卷积核由该m个主卷积核中的[0041]在一个可选的实现方式中，任一辅卷积核在第p个通道上的二维矩阵包括的元素为该任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵中除最外围的K行和最外围8[0045]一个二维矩阵中目标位置的元素可以为该二维矩阵中除最外围的K行和最外围的辅卷积核对应的主卷积核为同型矩阵且该采样矩阵中各位置的元素与该主卷积核中各位置的元素一一对应，该采样矩阵的目标位置的元素均为1且除该目标位置之外的位置上的度上包括(Q-P)个零矩阵和P个包含的元素均为1的二维矩阵，该采样矩阵和该任一辅卷积核对应的主卷积核为同型矩阵且该采样矩阵中各位置的元素与该主卷积核中各位置的元[0054]在一个可选的实现方式中，任一辅卷积核在第p个通道上的二维矩阵包括的元素为该任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵中除最外围的K行和最外围9每个通道上的二维矩阵中目标位置的元素设置为目标值一个或多个通道上的二维矩阵中的元素均设置在通道维度上包括(Q-P)个零矩阵和P个包含的元素均为1的二维矩阵，该采样矩阵和该任一辅卷积核对应的主卷积核为同型矩阵且该采样矩阵中各位置的元素与该主卷积核中各[0063]在一个可选的实现方式中，r个辅卷积核中的s个辅卷积核由该m个主卷积核中的主卷积核对应得到一个或多个辅卷积核，且该r个辅卷积核中的每一个辅卷积核所包含的卷积层的主卷积核生成各卷积层所需的辅卷积核，可以大大减少卷积神经网络占用的内[0066]在一个可选的实现方式中，r个辅卷积核中的s个辅卷积核由该m个主卷积核中的数；采用反向传播算法将该s个梯度之和作为该任一主卷积核的梯度，更新该任一主卷积[0068]在该实现方式中，利用损失函数相对于各辅卷积核的梯度之任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵的子矩阵；其中，P为大于0的整[0070]在一个可选的实现方式中，任一辅卷积核在第p个通道上的二维矩阵包括的元素为该任一辅卷积核对应的主卷积核在第p个通道上的二维矩阵中除最外围的K行和最外围每个通道上的二维矩阵中目标位置的元素设置为目标值一个或多个通道上的二维矩阵中的元素均设置和该任一辅卷积核对应的主卷积核为同型矩阵，该采样矩阵的目标位置的元素均为1且除在通道维度上包括(Q-P)个零矩阵和P个包含的元素均为1的二维矩阵，该采样矩阵和该任一辅卷积核对应的主卷积核为同型矩阵且该采样矩阵中各位置的元素与该主卷积核中各头)采集的图像进行分类以得到图像分类结果，并且还可根据该图像分类结果执行相应的[0097]图像分类场景2：图像处理装置利用卷积神经网络对来自客户设备的图像进行分请实施例提供的卷积神经网络的训练方法和基于卷积神经网络的图像处理方法是基于同[0103](1)卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一以看作是使用一个可训练的滤波器对一个输入的图像或者卷积特征平面(featuremap)做间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始据采集设备160用于采集训练数据，本申请实施例中训练数据包括：一个或多个测试图像于数据库130中维护的训练数据训练得到目标模型/规则101(101就是前面介绍的经训练阶细地描述训练设备120如何基于训练数据得到目标模型/规则101，该目标模型/规则101能息输入该目标模型/规则101，即可得到图像处理结果。本申请实施例中的目标模型/规则维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得[0111]根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备[0112]预处理模块113用于根据I/O接口112接收到的输入数据(如所述输入图像)进行预[0113]在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行从而提供给用户。入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库中的卷积核的角度来减少CNN占用的存储资源。下面通过表1来说明CNN中的参数未得到充分利用的问题以及通过合理地优化CNN中的参数既可以减少CNN的参数量又能提高或保证[0122]表1展示了近年来一些在ImageNet数据集上取得佳绩的深度卷积神经网络(CNN)为利用表1中的各网络对该ImageNet数据集中的图像进行分类分别执行的浮点计算的次参数量较多的AlexNet以及VGGNet-16的分类准确率。可以理解，CNN中的很多参数是冗余[0124]如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，取决于步长的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。权重矩阵也就是卷积核，权重矩阵中的权重值也就是卷积核中的参[0136]在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏[0138]需要说明的是，如图2所示的卷积神经网络200仅作为一种卷也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目[0141]神经网络处理器30可以是神经网络处理器(neural-networkprocessingunit，NPU)，张量处理器(tensorprocessingunit，TPU)，或者图形处理器(graphics以作为协处理器挂载到中央处理器(centralprocessingunit，CPU)，也即主CPU(Host制器304控制运算电路303提取存储器(301和302)中的矩阵数据并进行乘[0144]统一存储器306用于存放输入数据以及输出数据。权重矩阵通过直接存储单元访[0145]总线接口单元(businterfaceunit，BIU)310，用于DMAC和取指存储器(instructionfetchbuffer)309的交互；总线接口单元310还用于取指存储器309从外部[0156]初始化卷积神经网络包括初始化卷积神经网络的各层卷积层的主卷积核以及其采用的卷积神经网络的第3层卷积层的输出为第4层卷积层的输入，训练设备利用第3层卷积层的卷积核(空间辅卷积核和通道辅卷积核)对该第3层输入的图像信息进行卷积操作，将得到的各特征图拼接起来输入至该第4层卷积通道至第12个通道、第13个通道至第18个通道以及第19个通道至第24个依次对应这4个特该卷积神经网络输出的图像处理结果和理想结果之间的误差。训练设备的训练任务不同，卷积神经网络的损失函数也不同。迭代阈值可以是训练设备预先设置的迭代次数，例如该主卷积核的梯度，其中辅卷积核可以包括空间辅卷积核和通道辅卷积核中的一种或多[0193]下面介绍如何利用包含少量卷积核(主卷积核)的CNN做图像处理的方案。在该方[0199]图像处理装置对上述输入图像进行预处理的主要目的是消除上述输入图像中无个辅卷积核中的每一个辅卷积核所包含的非0元素的个数均少于其对应的主卷积核所包含[0206]上述卷积操作结果包括M个特征图。图像处理装置利用上述第n层卷积层中的M个装置利用任一卷积层的各卷积核得到的特征图作为该任一卷积层的输出特征图的一部分。的输入图像可以是如图1所示的客户设备140给出的输入数据，所述执行设备110中的预处备110中的计算模块111可以用于执行[0209]可以理解实施例一为该卷积神经网络的训练阶段(如图1所示的训练设备120执行[0210]图像处理装置在利用卷积神经网络的任一卷积层中的辅卷积核对输入的图像信[0212]空间辅卷积核在第p个通道上的二维矩阵包括该空间辅卷积核对应的主卷积核在第q个通道上的二维矩阵的子矩阵。该空间辅卷积核和该空间辅卷积核对应的主卷积核均[0213]方法1：图像处理装置获取主卷积核在通道维度上的每个二维矩阵中目标位置对空间辅卷积核包括P个通道，图像处理装置可以将该任一主卷积核在第1个通道至第P个通道上的二维矩阵中目标位置对应的子矩阵分别作为该空间辅卷积核在第1个通道至第P个第P个通道上的每个二维矩阵中的一个(5×5)的子矩阵分别作为空间辅卷积核包括的第一阵中目标位置对应的子矩阵作为由该任一主卷积核得到的空间辅卷积核在第p个通道上的装置将该主卷积核在第一个通道上的二维矩阵的子矩阵作为空间辅卷积核在第二个通道[0217]在一个可选的实现方式中，图像处理装置可以获取P个二维矩阵中每个二维矩阵于P的整数。图像处理装置可以将该任一主卷积核在第q1个通道上的二维矩阵中第一位置在第q2个通道上的二维矩阵中第二位置的元素对应的子矩阵作为该空间辅卷积核在第p2的二维矩阵，由该主卷积核得到的空间辅卷积核的第1个通道上的二维矩阵是该主卷积核由任一主卷积核得到的空间辅卷积核的各通道上的二维矩阵是采用相同的方式从该任一阵为例介绍如何由该任一主卷积核得到一个或多实线黑框对应的矩阵依次为空间辅卷积核602在第p个通道上的二维矩阵，空间辅卷积核获取任一主卷积核在通道维度上的每个二维矩阵中除最外围的2行和最外围的2列之外的[0221]图像处理装置采用方法1可以由主卷积核得到比主卷积核的尺寸更小的空间辅卷[0222]方法2：图像处理装置将主卷积核在通道维度上的每个二维矩阵中目标位置之外[0224]在一个可选的实现方式中，图像处理装置将P个二维矩阵中的每个二维矩阵中目标位置之外的元素设置为目标值以得到一个空间辅卷积核。P个二维矩阵为任一主卷积核理装置可以将该P个二维矩阵中每个二维矩阵的第五位置的元素设置为目标值，得到一个的，图像处理装置将该P个二维矩阵中的每个二维矩阵中除最外围的K行和最外围的K列之将任一主卷积核在通道维度上的每个二维矩阵的最外围的2行和最外围的2列设置为目标得到第s个辅卷积核。在该任一主卷积核或者该任一主卷积核在通道维度上的二维矩阵为采用类似的方式将任一主卷积核在通道维度上的每个二维矩阵中相同位置的元素设置为绍如何由该任一主卷积核得到一个或多个辅卷积核。图7为本申请实施例提供的又一种主矩阵中最外围的一行或多行以及最外围的一列或多列设置为0，可以得到与该主卷积核同[0226]下面提供一种将主卷积核在通道维度上的每个二维矩阵中目标位置之外的元素[0227]图像处理装置计算任一主卷积核中对应位置的元素和采样矩阵中对应位置的元位置的元素与该主卷积核中各位置的元素一一对应，该采样矩阵的目标位置的元素均为1且除该目标位置之外的位置上的元素均为0。该采样矩阵的目标位置的元素可以为该采样矩阵在通道维度上的每个二维矩阵中除最外围的K行和最外围的K列之外的元素，K为不小通道维度上的每个二维矩阵的最外围的K行以及最外围的K列包括的元素均为0，该采样矩阵中除这些元素之外的元素均为1；图像处理装置计算该任一主卷积核中对应位置的元素和采样矩阵的乘积得到的空间辅卷积核与将该任一主卷积核在通道维度上的每个二维矩阵的最外围的K行以及最外围的K列包括的元素均设置为0得到的空间辅卷积核相同。图像处理装置可以分别计算任一主卷积核与多个不同采样矩阵的乘积以得到多个空间辅卷积i为由该任一主卷积核得到的第i个空间辅卷积核，f为该任一主卷积核，"0"表示两个矩阵对应位置的元素相乘。在该任一主卷积核或者该任一主卷积核在通道上"r计算该任一主卷积核中对应位置的元素和该(s-1)个采样矩阵中对应位置的元素的乘积，[0233]图像处理装置采用方法2可以由主卷积核得到与主卷积核同型的空间辅卷积核，[0235]通道辅卷积核在第p个通道上的二维矩阵为该通道辅卷积核对应的主卷积核在第至第48个通道中每个通道上的二维矩阵，将该主卷积核的第2个通道上的二维矩阵作为该辅卷积核的各通道上的二维矩阵均来自该通道辅卷积将任一主卷积核的第1个通道至第P个通道上的P个二维矩阵依次作为第一个通道辅卷积核通道上的P个二维矩阵依次作为第二个通道辅卷积核的第1个通道至第P个通道上的二维矩阵；将该任一主卷积核的第(1+g*(f-1))个通道至第(P+g*(f-1))个通道上的P个二维矩阵[0241]由任一主卷积核得到的一个通道辅卷积核在第p个通道上的二维矩阵为该任一主置可以将该96个通道中的第1个通道至第93个通道上的93个二维矩阵依次作为第一个通道通道上的93个二维矩阵依次作为第二个通道辅卷积核的第1个通道至第93个通道上的二维矩阵；将该96个通道中的第3个通道至第95个通道上的93个二维矩阵依次作为第三个通道通道上的93个二维矩阵依次作为第四个通道辅卷积核的第1个通道至第93个通道上的二维矩阵。图8为本申请实施例提供的又一种主卷积核和辅卷积核的对比示意图，如图8所示，801的多个连续通道上的二维矩阵得到的。由任一主卷积核得到的通道辅卷积核包括的通[0242]方法二：图像处理装置将主卷积核包括的Q个通道中任意一个或多个通道上的二[0243]在一个可选的实现方式中，图像处理装置将任一主卷积核包括的Q个通道中的任的第1个通道至第P个通道之外的各通道上的二维矩阵均设置为零矩阵以得到第一个通道阵均设置为零矩阵以得到第二个通道辅卷积核；将该任一主卷积核的第(1+g*(u-1))个通道至第(P+g*(u-1))个通道之外的各通道上的二维矩阵均设置为零矩阵以得到第u个通道[0244]下面提供一种将任一主卷积核在通道维度上的一个或多个二维矩阵设置为零矩个通道中的(Q-P)个通道上的(Q-P)个二维矩阵均为零矩阵，该采样矩阵中除这(Q-P)个通像处理装置计算该任一主卷积核中对应位置的元素和该采样矩阵中对应位置的元素的乘[0248]f=M;of;[0255]图像处理装置采用上述任一种方式得到的辅卷积核的参数量均小于或等于它所存储的第一层卷积层的辅卷积核；在执行该卷积神经网络的第二层卷积层的卷积运算时，积核得到的6个空间辅卷积核的输出通道数也都是16，将由这6个空间辅卷积核得到的6个[0262]通道辅卷积核的使用：以输入通道数为96的第2个卷积层为例介绍通道辅卷积核的4个通道辅卷积核的输出通道数也都是64，将由这4个通道辅卷积核得到的4个输出特征通道辅卷积核的参数量为5×5×96×64＝153600，而原始AlexNet中该层卷积层的参数量[0263]本申请实施例中的方法适用于所有CNN结构，对于AlexNet之外的网络，例如[0264]前述实施例介绍了在利用CNN实现图像分类的过程中怎样使用辅卷积核，下面介[0265]本申请所提出的算法在ImageNet数据集上进行了图像分类的测试实验。表2展示[0268]表2展示了多种卷积神经网络在ImageNet数据集上进行图像分类实验时的参数积核的AlexNet，Versatilev2-AlexNet表示使用了空间辅卷积核和通道辅卷积核的AlexNet；Versatile-ResNet-50表示使用了空间辅卷积核的ResNet-50，Versatilev2-ResNet-50表示使用了空间辅卷积核和通道辅卷积核的ResNet-50；Versatilev

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）

文档简介

温馨提示

最新文档

评论

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置 （华为技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN112236779A 基于卷积神经网络的图像处理方法和图像处理装置（华为技术有限公司）