版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习与度量学习相关理论基础综述目录TOC\o"1-3"\h\u22382深度学习与度量学习相关理论基础综述 1302671.1神经网络 154291.2卷积神经网络 4139721.1.1卷积层 4179861.1.2池化层 7122291.1.3全连接层 735281.3深度自编码器 7142131.4深度神经网络的优化 9232421.5原型神经网络模型 10280331.6度量学习方法 1182811.6.1欧式距离 11254181.6.2余弦相似度 11293681.6.3皮尔逊相关系数 131.1神经网络神经网络对信息处理和计算的方式是通过效仿生物神经网络的突触联结结构来完成的。和生物神经元差不多,组成神经网络的最基本结构是神经元,如图2-1所示,单个神经元结构的计算方法如公式(2-1)所示。图2-1单个神经元结构(2-1)其中,输入数据是三维向量,b表示偏置量,其值为1。W代表权值向量,作用是对输入数据进行线性变换。f代表激活函数(ActivationFunction),用于对进行非线性变换并且为神经元引入非线性响应,最后输出结果。激活函数是网络中用来引进非线性特性函数的函数,在不同时间被场景应用时,不同的激活函数被使用于不同的网络层。在深度学习中最常被应用到的激活函数有Sigmoid函数,双曲正切函数Tanh,以及ReLu函数。在生物学中,Sigmoid函数是一种常见的S型函数,S型生长曲线也是该函数的一个别称。因为能将变量映射到0到1的区间内,所以Sigmoid函数常用于神经网络的最后一层,对输出数据的值域范围进行控制。其公式如(2-2)所示。(2-2)双曲正切函数Tanh函数与Sigmoid函数很像,它能将输入的变量映射到1和-1的范围中,并且Tanh函数具有对称性,基于原点对称。公式如(2-3)所示。(2-3)值小于0的输入被ReLu(TheRectifiedLinearUnit)函数映射为0,大于或等于0的输入值被ReLu函数映射为输入值本身。其公式如(2-4)所示(2-4)就像人体组织细胞中的神经元是按某种规则层层连接的一样,多个神经元按照某些特定的运算规则层层相连,组合成神经网络中的网络结构,如图2-2所示。图2-2神经网络的结构模型图2-2所示的神经网络有三个部分,分别是输入层、隐藏层还有输出层,是一种分层神经网络。神经网络的输入层一般在最左边,表示的是输入数据;输出层一般是在最右边的部分,输出层最后是输出的结果,由神经网络计算过输入数据后得到的。输出层输出的不仅有可能是常数,也可能是多维向量;中间的部分一般是隐藏层,在输入层和输出层中间。隐藏层的层数一般根据需求来设定,是神经网络设计中非常关键的超参数。例如在图2-2中的神经网络中就只包含一个隐藏层。不仅如此,除去输出层以外的网络的每一层都有自己的偏置参数,该参数表示了当前层的计算误差。下列公式详细地表示了图2-2中的神经网络是如何计算的:(2-5)(2-6)(2-7)(2-8)上式中,代表了第1层网络中第n个神经元在非线性映射后输出的值,同时也是下一层网络的输出值;代表了第l层网络中第j个神经元与第l+1层网络中第i个神经元之间的连接权值;表示第l+1层网络中第n个神经元计算得到的偏置。如图2-2中所示的神经网络首先从输入层计算出隐藏层的三个神经元对应的输出值,然后以其作为输入值,根据函数计算出网络的最终输出。对于有多个隐藏层的神经网络,可以参考以上公式进行类推计算。仅靠上述原理形成的神经网络还没有完成指定任务的能力,还需要依靠很多的任务目标,在拥有丰富的数据集中周期性地进行训练和学习。在经过一定次数的训练后,我们可以对达到一定标准的任务的输入数据进行处理,输出更准确的结果。根据神经网络的输出值,设计目标函数来评估神经网络在训练数据中的拟合度。在训练之前我们要为各层网络的权重参数W,b设置一个初始值,设定初始值后,依据任务目标函数对网络反复训练的情况,不断调整W,b的值。神经网络的训练方式可以根据训练数据是否有标签而分成有监督学习和无监督学习。在监督学习中,将样本标签与经过网络多层线性映射与非线性映射后得到的输出值进行比较。根据它们之间的误差修改网络的偏置值和权重系数。批量的样本数据在打乱后被传输到网络中,这个过程不断被重复,直到网络输出值接近样本标签值。现在被使用的最多的有监督学习训练算法是反向传播算法,也叫BP算法。该算法从网络输出层反向推导到输入层,按照链式法则,逐层计算损失函数对各个网络层权值的偏导数,接着使用梯度下降算法来计算更新网络中的偏置值和权值,在神经网络中,梯度下降优化算法就是上述过程。这种有监督学习也有缺点,训练通常需要大量带有标注的数据集,但在实际场景中,获取如此大量的数据需要花费大量的时间和经济成本,有时候甚至得不到符合需要的数据,网络的训练速度也与数据集的大小有关,数据集越大,训练速度越慢。在获取不到训练数据的样本标签的无监督训练算法中,可以凭借着任务原本特有的属性,将目标输出从数据的特征中提取出来。或者使用数学的方法,将神经网络输出值与目标函数联系起来,该方法的应用比如堆栈自编码器,它把数据的特征当做标签,用网络输出值和原数据的差异构建目标函数,基于标签和目标函数来构造神经网络,最后使用反向传播算法来优化修改神经网络中的相关参数。1.2卷积神经网络因为神经元在普通的人工神经网络的两层之间是完全连通的,所以相邻神经元之间存在着权重值。输入数据的特征数量如果太大,会给神经网络带来很大的负担,网络产生的大量的权重值会占用过多内存,巨大的计算量使得训练冗长且复杂。在这样的背景下,有人从对猫的视觉皮层电的研究中获得灵感,提出了卷积神经网络的概念(CNN)。CNN的特性是共享权重以及局部感知,非常适合用于处理信息多样且抽象的图像和文本类数据,网络所需的参数数量因为这些特性大幅减少,CNN学习和训练的效率也因此有了很大的提高。1.1.1卷积层计算图像数据时,同时计算整张图片的所有像素点并不是必须的,为了提高效率我们有些时候,可以将图片替换成部分像素点。举个例子,一只羊的图片只需要羊的头部就能识别出这张图片属于羊的种类。与这种局部到整体的思想类似,CNN中的神经元只与上层的一些神经元建立连接,网络中的参数数量因为局部连接的方式而减少,计算速度加快。与神经网络的感知过程一样,这种局部的感知过程也是先做线性计算,然后再由激活函数的非线性处理得到神经元输出结果。图2-3(左)展示了神经网络的全连接方式,图2-3(右)展示了CNN中的局部连接方式。图2-3神经网络的全连接(左)和卷积神经网络的局部连接(右)如图2-3中右图所示,卷积神经网络是局部连接的,上层的部分神经元被线性加权后经过非线性计算得到下层神经元,卷积核是参与局部神经元计算的网络权值参数。因为上层数据分批被卷积核扫描计算,而后生成下层神经元,所以卷积核的大小决定了卷积神经网络中参与局部连接的神经元的数量。假设有一个大小为50×50的输入数据,大小为5×5的卷积核一次扫描完一个5×5的部分,然后移动一定的数据单元后开始下一次扫描,这个一定的数据单元被称之为步长,通常步长的横竖向大小相等,一轮扫描全部结束后形成大小为46×46的网络层。卷积神经网络里卷积的本质就是上述卷积核进行扫描的过程,局部特征在扫描的过程中通过局部计算被提取出来,然后再联合起来反映输入数据整体的特征。在卷积神经网络中,卷积计算过程也是先做线性计算,然后再由激活函数做非线性处理。如图2-4所示,大小为4×4的输入数据,卷积核的大小是2×2,假设步长为1,经过卷积之后得到输出矩阵的大小为3×3,公式(2-9)展示了蓝色部分的卷积计算过程,f代表激活函数。(2-9)图2-4卷积计算示意图相对于全连接来说,局部连接的方式虽然能减少网络中的参数数量,但因为卷积核扫描时会产生冗余的参数,这样会大大减缓训练速度。为了降低影响,参数共享的方法被提出。参数共享的本质是扫描同一层的卷积核全部使用一样的权重参数,这样每层卷积核的参数数量就等于该层网络参数的数量。参数共享可以进一步减少网络参数的数量,优化卷积神经网络的内存空间和计算速度。用一个大小5×5,步长为1的卷积核扫描一个大小为50×50的数据,每一个局部神经元的参数为5×5个,使用权值共享的方法能使总参数从5×5×46×46减少至5×5个。当权重被共享时,一个卷积核一般只能用于提取图片的一类特征,例如一个卷积核只能提取各种羊的照片中的羊腿的特征,因为这种限制的存在,卷积神经网络一般需要多个卷积核来识别图片的多个特征。在当前的神经网络上,通常使用几个核来控制下面的网络特性,如图2-5所示,在卷积神经网络的现实应用中,一层网络一般会有多个卷积核。图2-5多个卷积核提取特征示意图假设上一层网络的特征图的尺寸是50×50×25,其中特征图大小为50×50,深度为25(可以理解为该特征图是由前一个特征图经过25个滤波器生成),要想生成尺寸为46×46×40的一个特征图,则需要使用步长为1,大小为5×5的40个滤波器。1.1.2池化层在上述方法中,因为信息量太大,特征图被多滤波器逐层卷积时,网络的过拟合现象有可能会因为产生的过多参数而出现,对训练的性能造成不好的影响。我们可以通过增大卷积步长来解决,除此之外,池化层是更常用的方法。池化层可以让特征图的维度降低,既能减少下一层的参数又能避免产生过拟合。与卷积的过程一样,池化的扫描方式是以步长确定的一个区域来扫描全图。池化有两种方法,第一种是输出对扫描区域的全部值的平均数,该方法被称之为Mean-pooling:平均值池化。第二种是输出扫描区域的全部值中的最大值,该方法被称之为Max-pooling:最大值池化。1.1.3全连接层一个多层的三维特征图是经过多层池化和非线性卷积处理之后形成的,为了使后续的处理更加方便,理通常要先将该三维特征图转换成一维向量,然后将之前卷积神经网络获取到的特征通过新构建的全连接的神经网络来映射到样本空间中,最后整个网络的目标损失函数是根据神经网络的输出来设计的。1.3深度自编码器未经过处理的数据往往无法提供良好的训练效果,造成训练结果不尽如人意。所以,需要在输入和输出层之间再加入一层或者多层神经网络对数据进行压缩、降维、提取特征等操作,该类神经网络层就叫做深度自编码器。然后,数据在经历过处理后,会得到一个表达式,进入隐藏起来的空间。一般的深度自编码器是由编码器和解码器组成的。输入数据被编码器压缩成潜在的空间表示,一般由编码函数h=f(x)表示;然后,编码后的数据被解码器重构,旨在表达输入信息,一般由解码公式r=g(h)表示,如图2-6所示。图2-6深度自编码器示意图数据的压缩、降维、特征提取等操作并不是改变原来的数据,而是将杂乱的数据重新整理,变成可以提供深度学习训练的数据,从而达到预期的训练效果。深度自编码器要求数据在经过编码、解码操作后可以重新表示出来,保证数据不失真。因此,形成深度自编码器的网络就要求g(f(x))和x尽可能的接近,也就是深度自编码器的输入和输出相似性要求较高。公式表达如公式(2-10)所示,其中,X是全部样本的集合,E是误差函数的输入和输出,n代表了样本个数,W是编码器的参数,U是解码器的参数。(2-10)图2-7深度自编码操作过程示意图深度自编码器是一种与数据压缩解压息息相关的压缩算法,所以在一定程度上会损失输入信息。深度自编码器有一下3个特点:1.深度自编码器基于神经网络训练后的自编码,所以每一类自编码器训练后只能压缩对应的数据。如果压缩别的类别的数据,效果就会很差。比如用MNIST训练出来的自编码器就不能用来压缩带有猫和狗图片的数据集。1.深度自编码器的主要工作是提取数据中的有用成分,所以对数据是有损失的,所得到的数据和原始数据肯定不会百分之百相似。3.基于深度自编码器的原理,深度自编码器可以被无监督学习的方式训练出来,并且性能良好。上文提到深度自编码器的一些功能和特点。接下来介绍常见的三种深度自编码器:卷积自编码器、稀疏自编码器、降噪自编码器。1.4深度神经网络的优化深度神经网络的优化是一件需要花费大量精力的事情,原因如下:神经网络要想设置目标参数,必须要以网络的输出为依据,然后求出各层参数的偏导,再慢慢对网格参数进行优处理,以保证最后可以有一个近乎完美的结果。但是由于深度神经网络的网络层数较多,在训练过程中产生的参数多、迭代次数多等原因,往往难以达到所期望的效果。比如以下问题:1.深度神经网络不收敛或者收敛结果不尽如人意;1.由于模型过于复杂造成的训练效果过拟合;3.超参数的设置不准确,达不到要求的训练结果。因此,深度学习的参数调整是非常有学问,并且耗时耗力的。前人已经发明了许多优秀的优化算法以使得网络调参可以取得较好的结果。比较常用的优化算法有学习率衰减、Mini-batch梯度下降。下面简单介绍这两种优化算法:1.4.1学习率衰减各层网络参数更新:(2-11)其中,是各层参数对于目标函数的偏导,t是迭代轮数,a是学习率。随着训练的进行,目标损失会有一开始的快速下降变得趋于平缓,到最后在一个稳定的值(最优解)的范围内来回震荡,不能很精准的找到到最优解所在空间位置。顾名思义,学习率衰减就是让学习率随着训练次数的增多逐渐变小,到训练后期,迭代的步长减小,目标函数可以得到最靠近最优解的值。下面是常用学习率衰减方法之一的指数衰减的公式:(2-12)α表示初始学习率,衰减率是decayrate,epoch表示当前的训练轮数,decayepoch表示衰减周期,表示何时进行指数学习率下降,是一个超参数,可以被设置。1.4.2Mini-batch梯度下降深度学习的神经网络最理想的情况是:在每一轮训练中将样本数据全部输入到网络模型中,这样权重和偏置就会在整个数据集上更新。理论上,这时候得到的解是最优的。但是,一般的服务器的内存无法承受这么大的数据量,性价比也不高。所以Mini-batch梯度下降就被发明出来解决这个问题。它允许每一次有多个训练样本被放入训练中,这样计算的速度会越来越高,也可以减小服务器的内存压力。他的另一个机制是每个训练周期中从数据中随机采取多个小批次的样本,这样可以防止计算时间过长和防止网络陷入局部最优解和过拟合。在Mini-batch的设置上,根据AndrewNg,一般可以设置在64-512之间,且最好设置为2的整数幂,如64,128,256等,因为这符合计算机最底层处理数据的逻辑,会使得训练速度稍快一些。1.5原型神经网络模型2017年,在小样本学习中,出现了各种结构复杂的元学习方法和网络。其中,原型网络的想法比较简单,将分类问题转换成在意义空间中发现原型表达,样本数量较少的经典网络。图2-8所示为原型网络的分类过程。因为原型网络采用了状况训练模式,所以训练和测试的过程是一样的。原型网络首先提取支持图像和测试图像的特征,将各类别的支持图像的平均值记录为类别的原型表示(图中的C1、C2、C3)。最后,找到与特征空间中的每个查询特征最接近的原型表示,将原型类型所表示的类别记录为查询图像的类别。原型网络是样本数少的经典网络,在之后的研究中多次确认其效果。原型网络将复杂的分类问题转换成特征向量空间的最近邻问题。这样,在小样本数据集下对分类问题会得到更好的结果。图2-8原型网络分类示意图原型网络为每个类别计算出一个原形,通过映射函数:将D维的样本特征映射到M维的空间上。原形计算公式为:(2-13)在测试时,原形网络使用softmax函数作用在查询向量点到,的距离进行分类:(2-14)1.6度量学习方法在一些任务中,还有一个非常重要的学习部分,就是矢量的正确相似度测量,这被称为度量学习。双神经网络以及许多算法依赖于量度学习来反映数据之间的一些重要关系。特别是在无监督的学习中,对量度的依赖变得更加明显。例如,在对样本进行聚类时,K-means算法使用欧几里德距离计算从样本点到重心的距离,使用带监督学习的KNN算法也使用欧几里德距离进行测量。采样点和空间中心点之间的距离表示两个之间的相似性。一般的量度学习方法有欧几里德距离、余弦相似度、穿孔耳环相关系数等。1.6.1欧式距离直观上最容易理解、最容易接受的一种距离度量计算方法是欧式距离(EuclideanDistance),欧式距离基于欧式空间中两点的直线距离来计算。二维平面上两点和的欧式距离如公式(2-15)所示:(2-15)三维空间中两点和的欧式距离为公式(2-16):(2-16)多维空间中两个点和的欧式距离为公式(2-17)所示:(2-17)在机器学习中,L2范数的计算类似于多维向量中的欧式距离。1.6.2余弦相似度余弦相似度(CosineSimilarity)是把两个向量对应点之间的距离用向量空间中的两个向量夹角的余弦值来衡量,图2-9展示了二维平面上的两个向量,这两点和的余弦相似度根据余弦值的定义推算为公式(2-18):(2-18)图2-9二维平面向量夹角示意图余弦类似度的范围是-1~1,余弦类似度越大矢量之间的角度越小,2点之间的距离越近.相反,余弦类似度越小距离越小。比两点之间大。一些极端情况:余弦相似度为1的情况下,意味着矢量角度为0度,两个矢量在那个方向重叠。余弦类似度为0时,矢量角度为90度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中国农业科学院中原研究中心招聘2人考试重点题库及答案解析
- 2025年常山县机关事业单位公开招聘编外人员43人笔试重点题库及答案解析
- 2025福建省能源石化集团有限责任公司秋季招聘416人考试重点题库及答案解析
- 2026天津河西区其他事业单位招聘3人参考考试试题及答案解析
- 2025江苏苏州工业园区车坊实验小学教学辅助人员、后勤辅助人员招聘2人考试重点试题及答案解析
- 2025重庆大足区教育事业单位面向应届生考核招聘42人备考笔试试题及答案解析
- 2025渤海银行总行党委办公室、办公室(合署)招聘考试核心试题及答案解析
- 2025黑龙江哈尔滨启航劳务派遣有限公司派遣到哈尔滨工业大学化工与化学学院招聘笔试重点题库及答案解析
- 2025年南平浦城县医疗单位医疗类储备人才引进考试重点题库及答案解析
- 2025广东佛山市顺德区杏坛中心小学后勤服务人员招聘1人笔试重点题库及答案解析
- 2025年物业年终工作总结简单版(4篇)
- 成都理工大学《数字电子技术基础》2023-2024学年第一学期期末试卷
- 专题12将军饮马模型(原卷版+解析)
- 2024年国网35条严重违章及其释义解读-知识培训
- YY/T 0063-2024医用电气设备医用诊断X射线管组件焦点尺寸及相关特性
- 创业基础智慧树知到期末考试答案章节答案2024年山东大学
- GJB9001C质量保证大纲
- 成品综合支吊架深化设计及施工技术专项方案
- 解码国家安全智慧树知到期末考试答案2024年
- 配电网故障及其特征
- 特种设备检验检测行业商业计划书
评论
0/150
提交评论