深度学习-人脸识别.ppt_第1页
深度学习-人脸识别.ppt_第2页
深度学习-人脸识别.ppt_第3页
深度学习-人脸识别.ppt_第4页
深度学习-人脸识别.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Relatedworksforfeaturelearning1 Learning baseddescriptors2 Deepmodels NetworkArchitecture DeepLearningIdentity PreservingFaceSpace XianhaoGan PCA是将分散在一组变量上的信息集中到某几个综合指标 主成分 上的数学方法 实际上起着数据降维的作用 并保证降维过程最大化保留原数据的差异 这对最大化类间差异 即不同人之间的差异 并最小化类内差异 即同一人的不同图像间的差异 很有效 用PCA将2维数据降到1维的例子 绿色点表示二维数据 PCA的目标就是找到这样一条直线 使得所有点在这条直线上的投影点之间的平均距离最大 也就是最大化地保留了原数据的差异性 本征脸 eigenface 方法 是人脸识别的基准技术 并已成为事实上的工业标准 该方法基于主成分分析 PCA 本征脸方法 如果将本征向量恢复成图像 这些图像很像人脸 因此称为 本征脸 M Turk A Pentland JCN91 本征脸法认为图像的全局结构信息对于识别最重要 将图像看做矩阵 计算本征值和对应的本征向量作为代数特征进行识别 具有无需提取眼 嘴 鼻等几何特征的优点 但在单样本时识别率不高 且在人脸模式数较大时计算量大 本征特征 eigenfeature 方法 利用PCA分析眼 鼻 嘴等局部特征 即本征特征方法 R Brunelli T Poggio TPAMI93 A Pentlandetal CVPR94 这实际上相当于 为若干重要的特征建立本征空间 然后将多个本征空间集成起来 本征脸vs本征特征 本征脸利用全局特征 本征特征利用局部特征 二者各有优势 待识别图像 本征脸识别结果 本征特征识别结果 A Pentlandetal CVPR94 本征脸vs本征特征 难题 能否自动确定 该用哪些特征 眼睛 鼻子 嘴 特征的确切位置在哪儿 从哪儿到哪儿算眼睛 将二者结合 可以得到更好的识别效果同样 这实际上相当于 为若干重要的特征建立本征空间 然后将多个本征空间集成起来 由于嘴部受表情影响很严重 因此未考虑嘴部特征 深度模型 Deepmodels 受限波尔兹曼机RBM 深度信念网络DBN 卷积受限波尔兹曼机CRBM 混合神经网络 受限波尔兹曼机CNN RBM 深度模型 是手段 特征学习 是目的 深度学习 1 什么是深度学习 2 深度学习的基本思想 3 深度学习的常用方法1 自动编码机 AutoEncoder 2 稀疏编码 SparseCoding 3 受限波尔兹曼机 RestrictBoltzmannMachine RBM 什么是深度学习 2006年 加拿大多伦多大学教授 机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在 科学 上发表了一篇文章 开启了深度学习在学术界和工业界的浪潮 深度学习是机器学习研究中的一个新的领域 其动机在于建立 模拟人脑进行分析学习的神经网络 它模仿人脑的机制来解释数据 例如图像 声音和文本 它是无监督学习的一种 深度学习的实质 是通过构建具有很多隐层的机器学习模型和海量的训练数据 来学习更有用的特征 从而最终提升分类或预测的准确性 深度学习的基本思想 假设我们有一个系统S 它有n层 S1 Sn 它的输入是I 输出是O 形象地表示为 I S1 S2 Sn O 如果输出O等于输入I 即输入I经过这个系统变化之后没有任何的信息损失 深度学习的常用方法 1 自动编码机 AutoEncoder DeepLearning最简单的一种方法是利用人工神经网络的特点 自动编码器就是一种尽可能复现输入信号的神经网络 为了实现这种复现 自动编码器就必须捕捉可以代表输入数据的最重要的因素 就像PCA那样 找到可以代表原信息的主要成分 1 给定无标签数据 用非监督学习学习特征 2 通过编码器产生特征 然后训练下一层 这样逐层训练 稀疏自动编码器 SparseAutoEncoder 如果在AutoEncoder的基础上加上L1的Regularity限制 L1主要是约束每一层中的节点中大部分都要为0 只有少数不为0 这就是Sparse名字的来源 我们就可以得到SparseAutoEncoder法 稀疏自动编码器 SparseAutoEncoder InputPatch Filters Features SparseCoding 2 稀疏编码 SparseCoding 如果我们把输出必须和输入相等的限制放松 同时利用线性代数中基的概念 即O a1 1 a2 2 an n i是基 ai是系数 我们可以得到这样一个优化问题 Min I O 其中I表示输入 O表示输出 通过求解这个最优化式子 我们可以求得系数ai和基 i 这些系数和基就是输入的另外一种近似表达 因此 它们可以用来表达输入I 这个过程也是自动学习得到的 如果我们在上述式子上加上L1的Regularity限制 得到 Min I O u a1 a2 an 3 受限波尔兹曼机RBM 假设有一个二部图 二分图 每一层的节点之间没有链接 一层是可视层 即输入数据层 v 一层是隐藏层 h 如果假设所有的节点都是随机二值变量节点 只能取0或者1值 同时假设全概率分布p v h 满足Boltzmann分布 我们称这个模型是RestrictedBoltzmannMachine RBM 深度信念网络 DeepBeliefNetworks 深度信念网络是一个包含多层隐层 隐层数大于2 的概率模型 每一层从前一层的隐含单元捕获高度相关的关联 DBNs是一个概率生成模型 与传统的判别模型的神经网络相对 生成模型是建立一个观察数据和标签之间的联合分布 对P Observation Label 和P Label Observation 都做了评估 典型的DNBs 可视数据v和隐含向量h的关系可以用概率表示成如下所示形式 CRBM是为识别二维图像信息而特殊设计的一个多层感知器 概念示范 输入图像通过与m个可训练的滤波器和可加偏置进行卷积 在C1层产生m个特征映射图 然后特征映射图中每组的n个像素再进行求和 加权值 加偏置 通过一个Sigmoid函数得到m个S2层的特征映射图 这些映射图再进过滤波得到C3层 这个层级结构再和S2一样产生S4 最终 这些像素值被光栅化 并连接成一个向量输入到传统的神经网络 得到输出 卷积波尔兹曼机 ConvolutionalRBM 权值共享 减少参数的方法 每个神经元无需对全局图像做感受 只需感受局部区域 FeatureMap 在高层会将这些感受不同局部的神经元综合起来获得全局信息 每个神经元参数设为相同 即权值共享 也即每个神经元用同一个卷积核去卷积图像 卷积波尔兹曼机 ConvolutionalRBM Fullyconnectedneuralnet Locallyconnectedneuralnet 卷积波尔兹曼机 ConvolutionalRBM 多滤波器情形 不同的颜色表示不同种类的滤波器 每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小 滤波器种类的多少有关例如 隐含层的每个神经元都连接10 x10像素图像区域 同时有100种卷积核 滤波器 则参数总个数为 10 x10 1 x100 10100个 卷积波尔兹曼机 ConvolutionalRBM 隐层神经元数量的确定 神经元数量与输入图像大小 滤波器大小和滤波器的滑动步长有关 例如 输入图像是1000 x1000像素 滤波器大小是10 x10 假设滤波器间没有重叠 即步长为10 这样隐层的神经元个数就是 1000 x1000 10 x10 10000个 卷积波尔兹曼机 ConvolutionalRBM 卷积过程 用一个可训练的滤波器fx去卷积一个输入的图像 第一阶段是输入的图像 后面的阶段就是FeatureMap了 然后加一个偏置bx 得到卷积层Cx 子采样过程 每邻域n个像素通过池化 pooling 步骤变为一个像素 然后通过标量Wx 1加权 再增加偏置bx 1 然后通过一个sigmoid激活函数 产生一个大概缩小n倍的特征映射图Sx 1 FIP特征脸法 FIP FaceIdentity Preserving 特征学习采用的是一种多层深度模型 不像DNB与DBM只利用全局特征 它结合了局部和全局的特征 网络架构类似于CRBM 卷积波尔兹曼机 但FIP是一种有监督的特征学习方式 并且FIP要求能重建恢复正面的人脸 因此这种方法对姿态和光照变量具有更好的鲁棒性 a LBP LocalBinaryPattern 局部二值模式 b LE anunsupervisedfeaturelearningmethod PCA c CRBM 卷积受限波尔兹曼机 d FIP FaceIdenti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论