【《基于深度学习的垃圾分类系统设计的相关理论基础概述》4600字】_第1页
【《基于深度学习的垃圾分类系统设计的相关理论基础概述》4600字】_第2页
【《基于深度学习的垃圾分类系统设计的相关理论基础概述》4600字】_第3页
【《基于深度学习的垃圾分类系统设计的相关理论基础概述》4600字】_第4页
【《基于深度学习的垃圾分类系统设计的相关理论基础概述》4600字】_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于深度学习的垃圾分类系统设计的相关理论基础概述目录TOC\o"1-3"\h\u22830基于深度学习的垃圾分类系统设计的相关理论基础概述 1198361.1深度学习与图像识别 138081.2深度学习模型 2195751.1.1有监督的神经网络 2144291.1.2无监督的神经网络 3186491.3卷积神经网络 451921.3.1神经元 538491.3.2多层感知器 5196001.3.3卷积层 6316901.3.4池化层 789881.3.5全连接层 822641.4深度学习框架 81.1深度学习与图像识别现如今深度学习越来越受到研究者的关注,尤其在图像处理、语音识别方面成效显著,甚至超过了人本身的识别能力,同时其已经与实际生活和生产结合。它源于人工神经网络,不过这一概念正式提出是由辛顿教授在2006年阐述的[17]。深度学习不断抽象提取特征,生成特征图,使得图像的属性越来越抽象鲜明,以此分析其分布式的特征表示,形成多层的变换,而这种变换是非线性的[18]。深度学习本身是对人脑的一种思维模拟,达到一种算法上的思维认知,让计算机拥有能够分析数据特征的能力。深度学习特点有[19]:效率高,它要比传统的计算机算法执行的快很多;可塑性,即在调整模型的时候仅需要调节参数就能够对模型产生改变,十分的灵活,也有助于程序的持续改进;最后是普适性,即可以根据面临到的具体问题来实际的构建模型,不会仅仅局限于单一的某个特定问题。通过分析深度学习的这些优点,研究者在研究深度学习上不断取得突破,成果显著,并且节省了大量的研究时间,而且其研究成果已经应用到了人们的日常生活中,比如医疗病症分析诊断,人脸识别等等,因此是一门非常有前景的学科。图像识别通过本身对图像的信息理解,并且指导下一步的操作[20],其在现在的人工智能领域也是最为热门的一个领域。随着人工智能的火热,政府对人工智能的大量投资金投入,以及5G网络时代的兴起,深度学习越来越显示了不可替代的优越性,在人们的生活中不断有它的身影,这一技术真正让人们体会到人工智能带来的便利。1.2深度学习模型深度学习发展以来,涌现出了非常多的学习模型,比如DNN、CNN等,它们被应用到各种领域,并且各自有其擅长的功能。深度学习模型有两个范围,即有监督学习和无监督学习。下面分别针对这两大类网络来举例说明。1.1.1有监督的神经网络(1)深度神经网络DNN深度神经网络在一般的神经网络结构上增加隐藏层数量,也就是具有多层隐藏层的感知机[21]。在全连接DNN中,相邻两层的神经元会对应完全连接,而本层之间不连接,形成一套看上去非常复杂的网络结构,其参数量非常巨大。不过,随着网络层数的增加,也会出现过拟合和局部最优的问题,还会导致梯度弥散。图2-1DNN结构图Fig.2-1DNNStructureDiagram(2)循环神经网络RNN循环神经网络多用于解决时间序列问题,它赋予了网络对于内容的“记忆”功能,可以模拟数据之间的一种依赖关系[22]。RNN创新性的将网络层建立了联系,其中网络层是不同的。研究者还开发出更多种类的RNN,比如LSTM常用于语音、文字、时间序列分析;双向循环神经网络BRNN,其侧重于综合考虑前文和后边的内容,也就是基于上下文判断。图2-2RNN结构图Fig.2-2RNNStructureDiagram(3)卷积神经网络CNN卷积神经网络是本论文的重点,关于卷积神经网络的介绍在1.3节详细介绍。1.1.2无监督的神经网络(1)深度信念网络DBN深度信念网络由辛顿教授提出,其包含了两个组成部分,玻尔兹曼机RBM和一层BP网络。DBN的多隐层无监督训练方法具有较好的数据描述和表达能力,具有较好的信号降维能力,克服了浅层神经网络训练容易陷入局部极小、需要大量制导信号等缺点[23]。DBN的不同之处在于它独特的训练方法,称为贪婪无监督训练[24]。深度信念网络不仅可以识别图像的特征和对数据进行分类,还可以用其生成数据。图2-3DBN结构图Fig.2-3DBNStructureDiagram(2)生成对抗网络GANs生成对抗网络,简称GANs,是一种进行生成建模的方法[25]。它可以自动发现和学习输入的数据中所包含的规则和模式,并且能够生成新的示例[26]。GANs的用途最显著的是在图像到图像的翻译任务中,例如将夏季到冬季或白天到夜晚的照片翻译,以及生成对象的真实照片,还能够分辨一些人本身也不能够分辨的图片。图2-4GANs结构图Fig.2-4GANsStructureDiagram1.3卷积神经网络卷积神经网络现在应用十分广泛,不管是图像还是语音方面都有它的身影。它是一种前馈神经网络,主要有卷积层还有池化层两个基本组成。卷积神经网络的发展由来已久,起初受人工神经网络启发,人工神经网络是一种主要模拟了人脑对于事物辨别的思维而设置的并行信息处理的算法[27]。20世纪50年代末,研究者创建了MP模型,这是单层感知机的早期模型,模型步入实践阶段[28],不过这个时候的模型还过于简单。1986年BP网络的诞生给前几项研究带来了曙光,提供了新的思路,反向传播算法的提出促进了网络研究工作的步伐[29]。在90年代人们又进一步提出了多种模型,比如SVM就是其中之一。不过人们越来越发现其中的不足,比如网络层数无限制的增加并不是一直有利于模型识别,反而出现梯度弥散,甚至还总是陷入局部最优,这些问题在当时还不能够有效解决,致使研究停滞了很长一段时间,直到ResNet提出了残差连接才得以解决。Hubel和Wiesel提出的感受野有着重要的启示作用[30],Fukushima从这方面入手提出权重共享[31],LeCun将反向传播与之结合,先后实践性的完成了字符识别,并且后来还加以改进的提出了LeNet-5模型,随后卷积神经网络的研究进程才重新有了希望。一直到2006年辛顿教授提出逐层预训练法,让深度卷积神经网络空前的追捧[32]。相对于LeNet-5,辛顿教授的预训练法效果更好,并且能够解决数据量大时识别速度下降的问题[33]。2012年,Krizhevsky首先使用了激活函数以及Dropout,解决了过拟合的现象[34]。随后针对卷积神经网络自身结构不断有研究者进行改进,从网络层的设计、损失函数的设置与设计、激活函数等方面做了非常大的创新,其成效也越来越好,例如AlphaGo与人的围棋对抗中取胜,就可以知道卷积神经网络为基础的深度学习能力的强大。卷积神经网络是图像识别技术中的主要技术框架,其以图像作为直接输入,将传统的特征提取的复杂度降低,而且其网络结构就是为了识别二维图像的多个层次的感知机,下面对其组成进行详细讲解。1.3.1神经元神经元是神经网络中最基本的组成。其模型包括多个输入,多个计算功能和一个输入,如下图2-5所示,其中xi表示输入信号,wij表示连接上的权重;bj表示偏置项,y图2-5神经元模型Fig.2-5NeuronModely1.3.2多层感知器多层感知器的结构如图2-6所示。其由多层网络组成,包括了输入、输出层和中间的隐藏层,隐藏层的数量可以有很多。输入层接收要进行判断的数据,对于图像识别来说就是图片的点信息。输出层用于分类,其神经元数量就是要分为的类别数目。中间的隐藏层互相之间有连接,但是同一层神经元没有连接。图2-6多层感知器Fig.2-6Multi-LayerPerceptron1.3.3卷积层卷积层的主要结构是卷积核,其对图像按照自身大小与图像对应尺寸的区域做点积运算得到一个数值,这一过程称为卷积,如图2-7所示。一次卷积之后再滑动一定步长再与下一个区域做同样的计算,以此类推一直到图像最终的区域。卷积过程结束后形成一张特征图featuremap,这一总体过程就是对图像的特征提取,目的是让图像的特征更鲜明。若输入的图像是三个通道,卷积核也对应有三层,分别做卷积,一次卷积之后将三个结果相加并用激活函数激活。图2-7卷积过程Fig.2-7ConvolutionProcess该过程中输出值ajl以及特征图尺寸的计算公式如式2-2,2-3所示,其中f为激活函数,M为特征图输入集合;n表示上层特征图尺寸,k表示卷积核的尺寸,aout1.3.4池化层池化层一般与卷积层交替出现,主要为了获得空间不变的特征,相当于对特征的第二次提取。池化常见的有两种方式,最大池化和平均池化。基本原理是将特征图拆为不同的区域,每个区域会输出区域中所有元素的最大值或平均值,如下图2-8,2-9所示。图2-8平均池化Fig.2-8AveragePooling图2-9最大池化Fig.2-9MaxPooling经过池化后的特征图,它的尺寸计算公式为式2-4所示。pool1.3.5全连接层全连接层是一种多层感知机,其最后一层的输出值也一般会再连上一层用于分类的输出层,比如Softmax层,其使用的激活函数一般是ReLU。为了防止模型出现过拟合,可以加入Dropout技术,让某些神经元失活,使其不再继续进行前馈和反向传播的过程,这种方法可以有效的避免模型过于拟合事物特征,降低了神经元之间的互相适应的复杂性。1.4深度学习框架现如今,人工智能发展迅猛,尤其是在深度学习领域成果颇丰,好的技术总需要一个更好的落地和实践。但是靠自身实现一个神经网络模型是一件十分复杂并且非常困难的事情,使得初学者在进行神经网络构建的过程中极其不容易。开源深度学习框架能够来辅助我们编码和构建神经网络,并且能够进行模型训练,提供了大量的功能组件,这不仅降低了研究者的学习成本和难度,同时也提高了模型构建的速度,也优化了模型运行的效率,为深度学习的学习和人才的扩充提供了有力的工具条件。我们常见的框架有以下几种,他们各自都有自身的优点,并且已经相对成熟,已经被研究者应用到生活中的各个领域,取得了很好的效果。常用的学习框架有Caffe,Theano,PyTorch,Tensorflow,Keras等,下面一一做出介绍。Caffe。其是一个经典开源框架,以层这一概念为基础,按照通常我们所知的卷积神经网络各层的顺序进行计算图的部署,由输入至隐藏层或者卷积层,再到输出。其输入的数据就可以是图像或者语音等等,然后得到输出,比如识别后的种类标签。对于研究者来说,其上手快,对于海量的数据执行效率高;模块化,增强了功能扩展性;开放性,代码开源,有利于集思广益和创新[35]。Theano。其以数学表达式为核心,靠自身的设计就可以自动地获得使用者的网络结构,并且自动优化代码运行逻辑,使之成为一个高效率的代码模型[36]。Theano的优势是很好的集成了Numpy库,可以使用GPU进行训练和计算,速度和稳定性上有了更好的优化,还能动态地生成C代码,在实现效率上大大提升,另外还包含了广泛的单元测试和自我验证,帮助研究者检测错误,总体来说Theano的灵活性很好。PyTorch。其属于Torch框架的一个接口,并且在此基础上增添了很多其他的特性,还能进行强大的张量计算[37]。基于自身所拥有的计算框架,其在运行时还能修改数据。PyTorch经常被用于影像、文本还有增强学习领域的深度学习训练。其优点也有很多,比如简洁高效,符合人类思维,有利于研究者自由创新性想法的实现,入门也很简单。Keras。这一框架根据面向对象的设计模式进行编写,实现了完全的模块化,并且具有很好的可扩展性,简化了编程中的复杂度,Keras支持现今主流的深度学习算法,在实现过程中可以根据设置转化为Tensorflow组件[38]。其优点是:对用户非常友好,主要体现在API简洁不复杂,只需要用户简单的设置,减少了研究者的工作量;模块化使各个任务之间独立且自由;易扩展,可以随时添加新的模块。Tensorflow。该框架是谷歌开发的一款最经典的框架,时至今日也被人们更多的使用,它包含了最常用的软件库。Tensorflow是一个基于数据流编程的符号数学系统,其还能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论