第四讲图像识别之图像分类image classific上_第1页
第四讲图像识别之图像分类image classific上_第2页
第四讲图像识别之图像分类image classific上_第3页
第四讲图像识别之图像分类image classific上_第4页
第四讲图像识别之图像分类image classific上_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、法律o本课件包括:演示文稿,示例,代码,题库,和声音等,小象学院拥有完全知识产权的权利;只限于善意学习者在本课程使用,不得在课程范围外向任何第散播。任何其他人或机构不得盗版、仿造其中的者的权利。创意,保留一切通过法律o课程n咨询:小象:ChinaHadoopn新浪互联网新技术教育领航者第4课图像分类Image Classification主讲人:悉尼科技大学博士主要研究方向:计算机视觉、视觉场景理解、图像&语言、深度学习图像检索CbIR、Human ReID等互联网新技术教育领航者本章结构o 图片分类(Image Classification)o ILSVRC竞赛(ImageNet L

2、arge Scale Visual Recognition Challenge )o 卷积神经o 应用案例:(Convolutional Neural Network)nResNet超深的残差神经3/48互联网新技术教育领航者图片分类图片中是否有某个物体一个图对应一个性能指标Top1 error à 前1中1Top5 error à 前5中1Steel drum4/48互联网新技术教育领航者输出:ScaleT-shirt Giant panda Drumstick Mud turtle输出:ScaleT-shirt Steel drum Drumstick Mud turt

3、leILSVRC竞赛ImageNet Large Scale Visual Recognition Challenge多个任务图像分类(Image Classification )1000个分类训练集(1.2M)、验证集(50K)、测试集(150K)场景分类(Scene Classification)物体检测(Object Detection)(Object Localization)(Scene parsing)物体场景URL5/48互联网新技术教育领航者ILSVRC竞赛ImageNet数据集根据WordNet组织的图片集100,000+个词/词组(synsets)8,000+个名词为一个名

4、词提供平均1000张图片总共14,197,122张图片支持21,841个synsetsURL6/48互联网新技术教育领航者ILSVRC竞赛ImageNet Large Scale Visual Recognition Challenge多个任务图像分类(Image Classification )场景分类(Scene Classification)来自MIT的Places2数据集(图片10M+、分类400+)365个场景分类训练集(8M)、验证集(36K)、测试集(328K)物体检测(Object Detection)(Object Localization)(Scene parsing)物体

5、场景7/48互联网新技术教育领航者卷积神经()进化:AlexNet à VGG à深度:8 à 19 à 22 à 152VGG结构简洁有效Net à ResNet容易修改,迁移到其他任务中去任务的基础性能竞争Net:Inception v1 à v4Split-transform-mergeResNet:ResNet1024 à ResNeXt深度、宽度、基数(cardinality)8/48互联网新技术教育领航者卷积神经()ImageNet性能进化9/48互联网新技术教育领航者卷积神经()基础神经神经元浅输入向

6、量x权重向量w 偏致标量b激活函数sigmoid隐含层1隐含层2隐含层3输入层输出层35层优化出梯度下降BP后向(链式规则)10/48互联网新技术教育领航者卷积神经()基础神经梯度下降优化交叉熵批量梯度下降随机梯度下降学习率/步长扰动à动量算法(momentum)11/48互联网新技术教育领航者卷积神经()构建的基本层卷积层(Convolutional layer)激活函数(Sigmoid, ReLU, .)(Pooling layer)(Average pooling)(Max pooling)平均最大化全连接层(Fully-Connected layer)批归一化层(Batch

7、Normalization layer)12/48互联网新技术教育领航者卷积神经()卷积层3通道(RGB)输入图片à3D tensor13/48互联网新技术教育领航者卷积神经()卷积层3D滤波器/卷积核以扫描窗的方式,对图像做卷积每层含有多个核,每个核对应一个输出通道提取局部特征权重参数需要学习输入图片输出特征滤波器库14/48互联网新技术教育领航者卷积神经()零填充:1 核:3 步长:2 核数量:5卷积层3D滤波器/卷积核的超参数滤波器/卷积核数量(output number)(kernel size)核步长(stride)零填充(zero padding)计算(W, H, D)W

8、 = (W size + 2 * padding)/ stride + 1 H = (H size + 2 * padding)/ stride + 1 D = output number15/48互联网新技术教育领航者卷积神经()卷积层原理演示输入图片32x32x3卷积核5x5x3 卷积核数量6输出特征28x28x6特征点感受野Receptive field图片16/48互联网新技术教育领航者卷积神经()卷积层非线性激活函数SigmoidReLU(Rectified Linear Unit)17/48互联网新技术教育领航者卷积神经()卷积层ReLU激活函数分段线性函数无饱和问题,明显减轻梯度

9、消失问题深度能够进行优化的功臣18/48互联网新技术教育领航者卷积神经()卷积层组合简例卷积步长大于1,有降维作用ReLU激活ReLU激活卷积层提取特征卷积降维19/48互联网新技术教育领航者卷积神经()作用:特征融合,降维无参数需要学习超参数(size)步长(step)计算类别(Max pooling)(Average pooling)最大化平均20/48互联网新技术教育领航者卷积神经()全连接层作用:推理器,分类器普通神经全局感受野,去除空间信息需要学习参数等效于1x1卷积21/48互联网新技术教育领航者卷积神经()-Softmax层指数归一化函数将一个实数值向量压缩到(0, 1)所有元素

10、和为1最后一个全连接层对接1000-way的softmax层得出1000类用于构建loss的概率值22/48互联网新技术教育领航者卷积神经()工程技巧tricks图像像素中心化(R, G, B)减去各自通道的均值防过拟合数据增强x10256x256中提取中心和四角的224x224子图片x5水平翻转x2Dropout随机失活训练中,随机让一些神经元的输出设为0失活率0.523/48互联网新技术教育领航者卷积神经()AlexNetImageNet-2012竞赛第一标志着DNN深度学习的开始5个卷积层+ 3个全连接层60M个参数+ 650K个神经元2个分组à 2个GPU(3GB)训练时长一

11、周,50x新技术ReLU非线性激活Max poolingDropout regularization24/48互联网新技术教育领航者卷积神经()AlexNet全连接2卷积层1卷积层2卷积层3卷积层4卷积层5全连接1全连接325/48互联网新技术教育领航者卷积神经()AlexNet输入层:224 x 224 x 3à LRN à MP à ReLUà LRN à MP à ReLU (通道卷积层1: 96x115333x 11 x 3卷积层2: 256 x卷积层3: 384 x卷积层4: 384 x卷积层5: 256 xx x xx53

12、33x 48)x 256 à ReLU (通道合并,双GPU交互)x 192 à MP à ReLU (通道)x 192 à ReLU (通道)全连接层1: 4096 à ReLU全连接层2: 4096 à ReLU 全连接层3: 1000 à ReLU Softmax层: 1000Loss:概率的log值之和26/48互联网新技术教育领航者卷积神经()AlexNet局部响应归一化(Local Response Normalization )神经元的侧抑制机制某个位置(x,y)上夸通道n为邻域值,N为通道数的归一化超参数:

13、k=2, n=5, =0.0001, =0.7527/48互联网新技术教育领航者卷积神经()Network-in-Network(NiN)提高的局部感知区域卷积层à1x1卷积层àMax28/48互联网新技术教育领航者卷积神经()VGG一个大卷积核分解成连续多个小卷积核核分解:7x7核 à 3个3x3核(由ReLU连接)参数数量: 49C2à27C2减少参数,降低计算,增加深度继承AlexNet结构特点:简单,有效ImageNet-2014竞赛第二改造的首选基础29/48互联网新技术教育领航者卷积神经()30/48互联网新技术教育领航者卷积神经()NetI

14、mageNet-2014竞赛第一进化顺序Inception V1 à Inception V2 à Inception V3 à Inception V4为了提升性能减少参数,降低计算增加宽度、深度31/48互联网新技术教育领航者卷积神经()Inception V1组件Inception ArchitectureSplit-Mergeà1x1卷积, 3x3卷积, 5x5卷积, 3x3增加增加对多尺度的适应性宽度Bottleneck Layerà使用NiN的1x1卷积进行特征降维大幅降低计算量10x取消全连接参数量大,减负辅助分类器解决前几层的梯

15、度消失问题32/48互联网新技术教育领航者卷积神经()Inception V1组件Inception Architecture (稀疏连接结构)提供多尺度特征:输出通道多尺度(感受野)化首个Split-Merge思想串接合并所有分支输出Bottleneck Layer的1x1卷积解决多尺度带来的高额参数&计算33/48互联网新技术教育领航者卷积神经()Inception V1取消全连接层本质上是一个全的卷积层全连接层占用了大量参数AlexNet: 58.6M (6x6x256x4096 + 4096x4096 + 4096x1000)VGG: 72M (7x7x256x4096 + 4

16、096x4096 + 4096x1000)替代(Global average pooling)由全局平均输入:7x7x1024输出:1x1x1024一大趋势34/48互联网新技术教育领航者卷积神经()Inception V12个辅助分类器深有效中,梯度回传到最初几层,收敛严重消失问题测试阶段不使用35/48互联网新技术教育领航者卷积神经()36/48互联网新技术教育领航者卷积神经()37/48互联网新技术教育领航者卷积神经()Inception V2组件Batch Normalization(批归一化)解决Internal Covariate Shift问题(内部neuron的数据分布发生变化

17、)白化:使每一层的输出都规范化到N(0, 1)较高学习率取代部分Dropout5x5卷积核à2个3x3卷积核38/48互联网新技术教育领航者卷积神经()Inception V2Batch Normalization批归一化在batch范围内,对每个特征通道分别进行归一化所有图片,所有像素点图片3 卷积特征图片3k通道图片2 卷积特征图片2 k通道图片1 卷积特征图片1 k通道39/48互联网新技术教育领航者计算出均值&标准差减去均值&除以标准差卷积神经()Inception V2训练阶段à实时计算测试阶段à使用固定值(对训练求平均)40/48互联网

18、新技术教育领航者无Batch,将所有Batch 的k组均值-标准差分别求平均,使用这K组平均每个Batch中k组均值-标准差会被卷积神经()Inception V2位置:卷积àBNàReLU配对使用scale & shift添加一组逆算子:scale乘子, bias偏置这组参数需要学习41/48互联网新技术教育领航者卷积神经()Inception V3组件非对称卷积:N x N 分解成 1 x N à N x 1降低参数数量和计算量 最低分辨率8x8上使用 增加特征维度 分辨率35x35上使用 分辨率17x17上使用 n=742/48互联网新技术教育领航者

19、卷积神经()有表达瓶颈计算量小无表达瓶颈计算量很大Inception V3(Grid size)高效的降避免表达瓶颈降前增加特征通道2个并行分支支+卷分支串接分支结果43/48互联网新技术教育领航者卷积神经()Inception V3取消浅层的辅助分类器完全无用辅助分类器只在训练后期有用加上BN和Dropout,主分类器Top1性能提升0.4% 正则化作用用在最后一层17x17后44/48互联网新技术教育领航者卷积神经()Inception V3不增加计算量避免表达瓶颈增强结构(表达力)宽度深度45/48互联网新技术教育领航者卷积神经()ResNet残差组件Skip/shortcut conn

20、ectionPlain net: 可以拟合出任意目标Residual netH(x)F(x),H(x)=F(x)+x可以拟合出任意目标F(x)是残差当H(x)最优,相对于identity来说接近identity时,很容易捕捉到小的扰动46/48互联网新技术教育领航者卷积神经()ResNet残差其他设计3x3卷积核卷积步长2取代使用Batch Normalization取消Max全连接层Dropout47/48互联网新技术教育领航者卷积神经()48/48互联网新技术教育领航者卷积神经()ResNet残差:根据Bootleneck优化残差更深原始:3x3x256x256à3x3x256x

21、256优化:1x1x256x64à3x3x64x64à1x1x64x25649/48互联网新技术教育领航者卷积神经()ResNet残差50/48互联网新技术教育领航者卷积神经()Inception V4引入残差到Inception Architechture51/48互联网新技术教育领航者卷积神经()ResNeXt提出第3个DNN维度cardinality基数采用Split-Transform-Aggregate策略将卷积核按通道分组,形成32个并行分支低维度卷积进行特征变换加法合并同参数规模下,增加结构,提高模型表达力100层ResNeXt = 200层ResNetILS

22、VRC-2016竞赛第252/48互联网新技术教育领航者卷积神经()ResNeXt32x4d块结构ResNet卷积256inààà1x1,256à256outResNeXt卷积分支1:分支2:256inà256inàààà1x1,256à256outà1x1,256à256out分支32: 256inààà1x1,256à256out53/48互联网新技术教育领航者3x3,43x3,43x3,41x1,41x1,41x1,43x3,64

23、1x1,64卷积神经()ResNeXt在计算复杂度固定的情况下ResNet-50: 4.1B FLOPsResNet-50: 7.8B FLOPs增加cardinality基数会不断提高性能54/48互联网新技术教育领航者卷积神经()ResNeXt32x4d结构参数32个分支每分支4通道Bottleneck width55/48互联网新技术教育领航者卷积神经()56/48互联网新技术教育领航者模型名AlexNetVGGNet v1ResNet时间2012201420142015层数81922152Top-5错误16.4%7.3%6.7%3.57%Data Augmentation+Inception(NIN)+卷积层数51621151卷积核大小11,5,337,1,3,57,1,3,5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论