版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2页共168页卷积神经网络的理论基础概述机器视觉技术作为当今全球人工智能正在迅猛发展中的一个重要部分。机器综合视觉技术是一项专业性的综合视觉技术,包括人机图像信息处理、机械工程综合技术、控制/运动传感器、电子光源综合照明、光学与电子成像、模拟与综合数字视频综合技术、计算机软硬件综合技术(图像增强和数据分析设计算法、图像处理卡、i/o卡等)。一个非常典型的数字机器学习视觉图像应用处理系统主要包括数字图像处理捕捉、光源处理系统、图像处理数字化系统模块、数字图像处理系统模块、智能运动判断中的决策处理模块和其在机械运动控制中的执行处理模块。简单地说来,机器图像视觉是用一种新的机器图像识别替代旧的人眼观察处理,用它来对其进行图像测量和视觉判断,不仅准确率高、而且识别速度快。机器视觉图像系统主要功能是通过摄像头,将被动所摄得到的物体和目标形态转换为成各种图像的物理形态和信号,传送图像信息到现场的图像信号进行处理和控制,得到被摄所在地点的物理和形态特征信息,根据被摄物体的宽度和灰度区域的分布和图像亮度、颜色等图象信息,转变为形态和数字化的图象信号,图像系统针对这些图像信号的物理性信息进行不同的信息计算和运算处理方法来从物体中提取出被摄物体和目标的不同物理性质,进而依靠需要判断的图像结果信息经由辅助监控现场的一些设备来执行动作。机器视觉监督控制系统最基本的技术特点之一就是能够提高工业生产的操作灵活性和生产自动化管理程度。在一些不太适宜于人工操作的危险地带区域、地理环境下进行工作或者一些其他人工操作很难完全达到的场合,常用这机器视觉系统来直接代替人工。同时,在大批量和重复性高的自动化工业生产操作过程中,用各种工业机器人和自动化视觉技术进行检测的方法等可以极大地提高企业生产的工作效率和企业对自动化管理的程度。卷积神经网络是机器视觉在众多领域取得巨大成就的关键因素,卷积神经网络类似于生物视知觉结构,包含卷积计算,是一种具有深度结构的前馈神经网络[1]。相比于传统的神经网络需要将一定的特征信息作为输入,卷积神经网络可以直接将原始图像或经过预处理之后的图像作为网络模型的输入,在训练时自动提取特征,并进行组合分类,相比其他网络的优势有准确率高,识别效率快,现在卷积神经网络已经广泛运用到各个领域,可以提高图像识别分类准确率,做到高效检测[7]。一个完整的深度学习结构包括以下几个部分,数据处理主要包括读取文件、预处理等,模型设计主要包括网络结构和损失函数,训练配置主要包括优化函数和资源配置,训练过程主要关注评价指标,校验方式,保存模型用于后期的预测。1.1卷积神经网络基本结构卷积神经网络的结构由输入层、多个隐含层和输出层组成,其结构如图所示。卷积神经网络结构如图2.1所示。图2.1卷积神经网络结构图隐含层中还包括卷积层、激活层、池化层、全连接层[2],一个完整的卷积神经网络由输入层,多个卷积池化层和多个全连接层组成,结构如图2.2所示。图2.2卷积神经网络详细结构图输入层:输入层可以处理多维数据。与其它的神经网络算法相似,由于使用了梯度下降算法来进行计算和学习,卷积神经网络中的输入层还需要进行标准化的处理。在数据输入网络之前,我们要对输入的图片数据进行一些预处理,如标准化、滤波去噪等,将输入数据标准化有利于提升系统的性能,可以提高训练速度和准确率。隐含层:隐含层主要由卷积式分层、池化分层和连接性分层3类常见的构筑分层组成。在常用的网络结构中,卷积层与神经池化卷积层分别为卷积层和神经网络所特有。卷积的分层过程中的卷积层是核确定包含权重值的系数,而变量池化层并没有确定包含权重值的系数,池所以一个变量化的层不被直接确定而成为独立的变量层。卷积层:卷积层是为了提取上层输入数据的特征,卷积层内部包含多个卷积单元。第一层卷积层只能提取到一些低级特性,所以常采用多层网络从低级特征中迭代提取更加复杂的特征。卷积结构参数主要包括卷积层最核心的尺寸即卷积核大小、和步长以及卷积填充,这三个参数的共同相互作用决定了每一个卷积层输出的卷积特征结构图[3]。卷积核尺寸小于输入网络图像尺寸,卷积核越大可以提取到的输入图像特征就越复杂。卷积核的步长原理确立了卷积核每个特征元素通过相邻两次逐个扫过像素特征点和图时及其所处不同位置的像素差异点和图的距离,当卷积核的步长如果设定为1时,卷叠层积核将可能会逐个逐次扫过每个像素特征点和图上的每个元素,步长如果设定为1或n时,卷叠层积核将可能会在接下来的第二次像素扫描中逐个跳过任何n-1个特征像素。通过对卷积基本核的各种自动交叉点和相关视图计算方法分析结果可知,随着卷积基本核在基层的不断堆叠,特征核视图的自动大小也可能会逐渐地自动减少或逐渐增所以我们常常需要对某个特征的构图尺寸进行过度填充化并人为合理地通过增大自己的特征尺寸范围来从而抵消矢量计算时对特征尺寸的过度收缩抑制作用。常见的二次填充操作方式可分为按0进行一次填充及重复的填充边界值之后进行再次填充。图片中经常有一种像素属性把它叫做图片局部关联像素属性,对一张图片的关键像素和节点位置影响最大的像素位置其实就是它图片周边的一个关键像素点,而且与周边距离这个关键像素的位点比较远的像素位置与其他像素点相比二者之间的局部关系差别并非很大。这个特殊点的性质也就就是意味着每一个三维神经元我们不用再需要去直接处理一个一张全局的三维图片了,每一个三维神经元只是需要和上一层完整的三维局部图片连接,相当于每一个三维神经元都可以在直接扫描一小块三维区域,然后许多三维神经元(这些三维神经元的所有权值都可以共享)直接组合在一起来就已经可以相当于我们直接扫描了一个一张全局,这样就已经可以直接构成一个提取特征点的图,n个三维神经元的三维特征这个图就可以提取了这张全局图片的其中n个三维神经特征,每个提取特征点的图都可以是由很多的三维神经元特征组合起来完成。图2.3卷积计算图片采用了矩阵型的布置,把这些按照矩阵型顺序排列的节点都展成了一个向量。就使我们能够让我们更好地看得出来卷积层和输入层之间的连接,并不是完全互相连接的,上图中的一个红色2*2方框叫做filter,可以通过改变他的大小和尺寸,这个方框通常会将一个图片的矩阵由左上角移动至右下角,每一次都会把矩阵圈起来四个,连接到下一层的一个神经元,然后产生四个权重,这四个权重(w1、w2、w3、w4)构成的矩阵就是卷积核,如图2.3所示。卷积的结果是由算法自己通过学习而计算得到的,它通常会和上一层进行综合计算,第二层的数值就是第一层经过局部运算得到的,被圈中的每个节点的数值都要乘以其所对应的权重后再进行相加。(1)池化层:整数池化层的常见操作方法主要包含最大最小值池化,均值池化,随机池化,中值池化,组合大值池化等。池化系统具有以下的主要功能:池化可以有效降低系统数据库的大量信息冗余;同时提升了该系统模型的精确性和尺度不变性、旋转精确不变性;同时防止了模拟数混合。在对卷积层中的数据库信息进行了特征提取后,输出的该层数据库信息特征结构图将被自动传送该层到数据池化层,用于对其他层进行数据特征层的选择和数据信息的特征过滤。池化层中所需要包含的一个预设的内置池化统计函数,其主要工作功能就是将一张不同特征节点图上单个特征节点的池化结果直接代替池化成为其节点所在区域之间相邻的多个特征节点图片并进行池化统计分析测得。池化层的区域选择步骤区域控制应该与卷积图和核心图扫描的基层特征结构图选择步骤相同,由于对池化层的面积大小、步长及选择填充层的方法不同来进行控制。全连接层:卷积中的神经网络结构中的连接层,这些都是基于传统的反向前馈卷积神经网络的一个连接层。特征结构图设计在全局的连接层设计中将可能会直接失去一个基于空间矢量拓扑的基本结构,被直接展开后变成一个空间矢量并且它们可以直接通过一个空间激励函数。按照目前传统的数据表征模式学习系统理论分析看来,卷积池化神经网络系统中的卷积池化层和数据池化层都已经能够针对已经输入的特征数据量结构进行特征提取,全新型连接层的提取功能则主要的就是通过对已经提取的特征数据量和新的特征提取进行非线性的处理组合以达到便于快速得到特征数据量的准确输出。当前面的卷积层被捕获到了足够多可以用于识别这张图片的特点后,接下来要研究的就是怎样对它进行归类。连接层之前处理好的数据会放到一个更长的向量上,进入全连接层然后与输出层相连,最后图像分为几类,卷积神经网络就会有几个神经元。输出层:输出层的前一层通常是全连接层,所以其结构和传统网络输出层相同。对于输出层图像分类逻辑问题,输出层分类可以自由选择直接使用图像逻辑分类函数或归一化逻辑指数,该函数可用来直接进行图像输出层的分类。在送出输入层的物体位置辨认的设计问题中,输出输入层的物体位置分类可以被精确设计出来成为根据每个输出输入物体的每个中心点来位置、大小值以及其他的分类。在多层图像符号语义归类分割中,输入数据层直接向每个层的像素符号进行语义分类优化处理。1.2卷积神经网络经典模型lenet5模型:1994年在当时的计算机还十分落后的条件情况下,lecun创造性地设计了lenet5模型如图2.4所示,通过卷积、参数共享和池化对输入的手写数字图片信息进行特征提取,对模型进行压缩,提升了运算速度,最后通过径向基函数进行输出,手写数字的分类结果.lenet5为后来许多的卷积学和神经网络结构模型的基本结构设计研究提供出了参考。lenet5是最早被数学研究者广泛提出的卷积式动态神经网络,一共可以设计为7层,3个卷积优化层,2个网络池化层,2个完整的网络连接层,卷积核大小都是5×5,模型中含有可训练参数的只有卷积层和全连接层,因此为LeNet-5,LeNet-5的提出是解决手写数字识别Mnist的自动识别问题,对MNIST数据集的分识别准确度可达99.2%。图2.4lenet5模型Alexnet模型:Alexnet模型曾经在比赛中遥遥领先,准确率高达83.6%,识别的准确率大幅提高。AlexNet网络结构更复杂、层数很多,如图2.5所示,有一定的深度。共有五层卷积层,卷积核大小有11×11、5×5、3×3,有三层全连接网络,最后的输出层是1000通道的softmax,有8个可训练参数的层,利用双GPU进行运算,提高了运算效率。激活函数使用ReLU,成功解决了网络较深时出现的梯度消失的问题;训练数据集时随机忽略一些神经元,可以有效解决过拟合问题;使用最大池化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年校园招聘考试试题含完整答案(夺冠系列)
- 西藏自治区拉萨市拉萨中学2024-2025学年年高一上学期期末生物试卷(含答案)
- 2026年材料员之材料员基础知识考试题库300道完整参考答案
- 2026年资产评估师之资产评估基础考试题库500道加答案
- 2026年中级银行从业资格之中级公司信贷考试题库300道含答案(轻巧夺冠)
- 2026年校园招聘考试试题及参考答案【模拟题】
- 2026年校园招聘考试试题及参考答案(培优a卷)
- 2026年资产评估师之资产评估基础考试题库500道附答案(典型题)
- 2026年心理咨询师之心理咨询师二级技能考试题库附答案【b卷】
- 2026年交管12123学法减分复习考试题库含答案(新)
- 华为HCIA存储H13-611认证培训考试题库(汇总)
- 浙江省建设工程施工现场安全管理台账实例
- 社会主义发展史知到章节答案智慧树2023年齐鲁师范学院
- 美国史智慧树知到答案章节测试2023年东北师范大学
- GB/T 15924-2010锡矿石化学分析方法锡量测定
- GB/T 14525-2010波纹金属软管通用技术条件
- GB/T 11343-2008无损检测接触式超声斜射检测方法
- GB/T 1040.3-2006塑料拉伸性能的测定第3部分:薄膜和薄片的试验条件
- 教师晋级专业知识和能力证明材料
- 申报专业技术职称课件-
- 排队叫号系统施工技术方案
评论
0/150
提交评论