【《单任务学习方法理论基础概述》2000字】_第1页
【《单任务学习方法理论基础概述》2000字】_第2页
【《单任务学习方法理论基础概述》2000字】_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单任务学习方法理论基础概述虽然本文主要研究多任务学习方法,但在特征处理方面需要借鉴许多单任务处理的手段,因此本节对相关的单任务学习方法做了一些研究,具体如下。1图像分类方法图像分类是计算机视觉中的一个非常基础的任务,图像分类问题就是从固定的一组分类中,给输入图像分配具体类别标签的任务。早期的图像分类任务使用的是传统的机器学习方法,例如KNN临近算法和SVM支持向量机算法,完整建立图像识别模型一般包括底层特征学习、特征编码、空间约束、分类器设计、模型融合等几个阶段,这种传统的图像分类方法在PASCALVOC竞赛中的图像分类算法中被广泛使用。深度学习技术出现后,AlexKrizhevsky在2012年ILSVRC提出的AlexNet模型取得了历史性的突破REF_Ref66985040\r\h[33],效果大幅度超越传统方法,获得了ILSVRC2012冠军,这也是首次将深度学习用于大规模图像分类中。从AlexNet之后,涌现了一系列CNN模型,不断地在ImageNet上刷新成绩,随着模型变得越来越深以及精妙的结构设计,Top-5的错误率也越来越低。而在同样的ImageNet数据集上,人眼的辨识错误率大概在5.1%,也就是深度学习模型的识别能力已经超过了人眼。现在使用较为广泛的图像分类方法通常是基于神经网络的算法,在卷积神经网络中,首先需要使用卷积、池化等操作对输入图像进行特征提取,然后将提取的特征排成一列向量与输出神经元相连接,通过Softmax计算每个神经元所属类别的概率,最后通过最大概率值所在的类别来预测该图像所属的类别。ResNet是2015年ImageNet图像分类、图像物体定位和图像物体检测比赛的冠军。针对随着网络训练加深导致准确度下降的问题,ResNet提出了残差学习方法来减轻训练深层网络的困难。2017年,在ILSVRC图像分类比赛的最后一年SENet获得了冠军。这个结构仅仅使用了“特征重标定”的策略来对特征进行处理,通过学习获取每个特征通道的重要程度,根据重要性去降低或者提升相应的特征通道的权重。细粒度分类是图片分类的一个分支,由于类别间的相似性非常大,一般人比较难区分。受神经树研究的启发,提出了结合注意力卷积的二叉神经树结构ACNetREF_Ref66987513\r\h[34]用于细粒度分类,在树结构的边上结合了注意力卷积操作,这样的结构让算法有类似于神经网络的表达能力,而且能够从粗到细的层级进行特征学习。该模型在三个数据集CUB-200-2011、StanfordCars和Aircraft上达到了当年最优的水平。2语义分割方法语义分割是计算机视觉中的一个非常重要的分支,也是相对来说最为困难的一项任务。语义分割是预测图像中每个像素所属的类别。出现在深度学习之前的传统分割方法包括基于图像灰度阈值的分割方法、基于边缘检测的分割方法、分水岭图像分割算法REF_Ref67071178\r\h[35]、基于小波分析和变换的图像分割方法、图论方法REF_Ref67071081\r\h[36]等。深度学习出现之后,图像分割算法又得到了许多改进,全卷积神经网络(FullyConvolutionalNetworks,FCN)对图像进行了像素级别的分类,解决了语义级别的图像分割问题,且可以接受任意大小的图像作为输入。FCN的出色之处在于,其利用了现存的CNN网络作为其模块之一来产生层次化的特征。作者将现存的知名的分类模型包括AlexNet、Vgg16、GoogLeNetREF_Ref66985221\r\h[37]和ResNet等转化为全卷积模型:将其全连接层均替换为卷积层,输出空间映射而不是分类分数。这些映射由小步幅卷积上采样(又称反卷积)得到,来产生密集的像素级别的标签。SegNet网络应用了编码器-解码器结构,在编码器阶段使用卷积层和池化层对输入图像提取特征,在解码器阶段使用卷积层和上采样层将特征图逐渐恢复至输入图像大小,并在解码器之后使用Softmax来产生每个像素点属于各个类别的概率,其结构如图2-5所示。图2-5语义分割网络结构REF_Ref62491591\r\h[4]Fig.2-5ThestructureofsemanticsegmentationnetworkREF_Ref62491591\r\h[4]3目标检测方法目标检测也是计算机视觉中的一个重要的任务。目标检测是基于图像分类,对图像中的主体对象进行分类和识别的过程。最简单的目标检测方法是对图像内的各个子区域使用图像分类器,将输入图像分割成不同的区域,然后对这些不同的区域逐个进行分类操作。这样会导致对大量区域进行不必要的计算,且无法满足不同纵横比的要求。区域建议方法更关注于感兴趣的区域,首先需要使用选择性搜索算法创建区域建议,即提供图像中可能包含对象的部分,再在这些感兴趣的区域中进行图像分类。FasterR-CNN提出了用一个非常小的区域建议网络RPN来代替选择性搜索来寻找感兴趣的区域。像FasterR-CNN这种检测算法需要分两步完成,首先需要获取候选区域,然后对候选区域进行分类的算法称为one-stage算法,这类算法还有R-CNNREF_Ref67902054\r\h[38]、FastR-CNN、SPP-NetREF_Ref67902055\r\h[39]等。基于区域的检测器是很准确的,但需要付出极大的计算代价。另一种目标检测方法首先在各个特征图上预先设置不同比例不同大小的预选框,然后对这些预选框进行图像分类。这种算法称为two-stage。在这种算法中通常需要为每个特征图预先设置一些矩形框,这些框称为预选框。如果某个预选框与真实框重合度较高,则认为这是一个正例,否则该预选框就指向背景,作为负例。SSD是一种典型的目标检测算法,使用Vgg16网络作为特征提取器的单次检测器,并在该网络之后添加自定义卷积层,并使用卷积核执行预测。为了避免卷积层降低空间维度和分辨率,SSD使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论