深度学习及其视觉应用_第1页
深度学习及其视觉应用_第2页
深度学习及其视觉应用_第3页
深度学习及其视觉应用_第4页
深度学习及其视觉应用_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习及其视觉应用丁贵广,GuiguangDing清华大学软件学院dinggg@深度学习及视觉应用深度学习概述视觉应用深度学习神经网络是多层函数嵌套形成的模型受到生物神经机制的启发

构建多隐层的模型深度学习本质:通过构建多隐层的模型和海量训练数据〔可为无标签数据〕,来学习更有用的特征,从而最终提升分类或预测的准确性。“深度模型〞是手段,“特征学习〞是目的。与浅层学习区别:1〕强调了模型结构的深度,通常有5-10多层的隐层节点;2〕明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规那么构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。深度学习的里程碑2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton在《科学》上发表论文提出深度学习主要观点:1〕多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2〕深度神经网络在训练上的难度,可以通过“逐层初始化〞〔layer-wisepre-training〕来有效克服,逐层初始化可通过无监督学习实现的。DeepLearning的效果CNN卷积神经网络〔ConvolutionalNeuralNetworks,CNN〕深度学习的具体模型及方法深度学习的具体模型及方法卷积波尔兹曼机〔ConvolutionalRBM〕局部感受权值共享减少参数的方法:每个神经元无需对全局图像做感受,只需感受局部区域〔FeatureMap〕,在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。深度学习的具体模型及方法卷积波尔兹曼机〔ConvolutionalRBM〕隐层神经元数量确实定神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。例如,输入图像是1000x1000像素,滤波器大小是10x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000x1000)/(10x10)=10000个深度学习的具体模型及方法卷积波尔兹曼机〔ConvolutionalRBM〕多滤波器情形不同的颜色表示不同种类的滤波器每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关例如:隐含层的每个神经元都连接10x10像素图像区域,同时有100种卷积核〔滤波器〕。那么参数总个数为:〔10x10+1〕x100=10100个深度学习的具体模型及方法卷积波尔兹曼机〔ConvolutionalRBM〕CNN的关键技术:局部感受野、权值共享、时间或空间子采样CNN的优点:1、防止了显式的特征抽取,而隐式地从训练数据中进行学习;2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。对象识别——CNN5个卷积层和2个全连接层每层卷积核个数96,256,384,384,256监督学习——卷积神经网络96个低级卷积核监督学习——卷积神经网络网络庞大,但容易收敛唯一不需要特定初始化参数就可以训练成功比较容易并行化训练,并且可以利用GPU加速在计算机视觉〔CV〕领域取得成功深度学习及视觉应用深度学习概述深度视觉应用Classification

Detection

SegmentationImageCaptioning&ImageGeneratorImageCaptioningImageGeneratorCNNModelConvolutionalNeuralNetworkBasedonCaffe

FrameworkBasicModelZFNetVGGNetGoogleNetResNetDenseNetSqueezeNetClassificationObjectDetection模型:R-CNN,FastR-CNN,FasterR-CNN,YOLO,SSD等知名框架精度:PASCALVOC上的mAP,从R-CNN的53.3%,FastRCNN的68.4%,FasterR-CNN的75.9%,FasterRCNN结合残差网〔Resnet-101〕,到达83.8%速度:从最初的RCNN模型,处理一张图片要用2秒多,到FasterRCNN的198毫秒/张,再到YOLO的155帧/秒,最后出来了精度和速度都较高的SSD,精度75.1%,速度23帧/秒ObjectDetection:R-CNN(2023)ObjectDetection:FastR-CNN(2023)ResultsFasterR-CNNFasterR-CNNFasterRCNN物体检测系统Problem:

SmallObjectDetectionObjectRecognitionPersonandCarDetectionBasedonFasterR-CNNInputconv3conv4conv5fc6poolingnormalizeconcatenateconvoluteIRNNContextInformationSkipLayerPoolingImprovementBasedonFasterR-CNNImprovementBasedonFasterR-CNN扩大输入图像分辨率修改Anchor的长宽比HardNegativeSampleMining。。。SomeResultsSomeResultsVOCObjectDetectionTaskSomeResultsPedestrianDetection&TrackingCarDetection&TrackingDetectionandClassificationDetectionandClassification行人检索与属性识别监控视频分析原型系统——系统演示监控视频中的汽车分类FaceDetection&RecognitionSegmentationFullyConvolutionalNetworksFullyConvolutionalNetworksSemanticSegmentation检测与分割语义分割ImageCaptioning

ImageCaptioningthebigbenclocktowertoweringoverthecityofLondonBasedStructure-NIC

Encoder-decodermodel

NIC(NeuralImageCaption)model

CNN:

encodetheimageforsentencesLSTM:

decodetheimagevectortoasentenceModelGAN及ReinforcementLearning生成器网络编码器-解码器结构NIC模型为图像生成描述解码器网络分类网络分辨句子是真实数据还是生成的有多种结构可以选择Gated-CNNText-CNN基准值网络〔MLP〕优化分布;减少策略梯度过程中估计的方差ExperimentsDataset

MSCOCO123,287imageslabeledwi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论