人脸图像姿态校正方法研究_第1页
人脸图像姿态校正方法研究_第2页
人脸图像姿态校正方法研究_第3页
人脸图像姿态校正方法研究_第4页
人脸图像姿态校正方法研究_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人脸图像姿态校正方法研究,目录,一、课题背景二、相关内容简介三、研究方案四、实验结果五、分析与讨论六、总结,一、课题背景,人脸识别,特指利用分析比较人脸视觉特征进行身份鉴别的计算机技术不同个体之间的区别不大人脸的外形很不稳定不同的观察角度,人脸的视觉图像也相差很大,二、相关内容简介,目前的人脸识别算法:基于人脸特征点的识别算法基于模板的识别算法基于神经网络的识别算法,深度学习(DeepLearning),LBP,PCAPrincipalComponentAnalysis(主成分分析)简而言之就是利用数学计算将原本稀疏的高维数据中不重要的特征值过滤掉,降低数据的维度。换言之,原本需要使用n个特征来表示的数据,经过PCA的分析,将只需要m个特征来表示(其中n大于m)。特征中心化计算协方差计算协方差矩阵的特征向量和特征值选取大的特征值对应的特征向量,得到新的数据集,PCA,传统的人脸特征描述符,LBPLocalBinaryPattern(局部二值模式)这是一种用来描述局部纹理特征的算子,三、研究方案,参考了XiaoouTang等人在论文DeepLearningIdentity-PreservingFaceSpace中提出的深度网络的结构和一种新的人脸特征描述符脸部特征保持描述符(FIPFaceIdentity-PreservingFeatures),成功的实现了一个结构类似,图像维度更小的FIP特征的提取和标准库正脸匹配系统,本课题参考的深度网络架构,深度网络第一层,第一层的输入就是原始的96*96像素的灰度人脸图像第一个层输出32个48*48的特征映射向量每一个映射向量都有大量的脸部区域以外的高响应,这些高响应主要用来采集姿态信息少量的脸部区域以内的高响应主要用来采集脸部结构,深度网络第二层,第二层的输入是第一层的32个48*48的特征映射向量第二层的作用是将第一层中的脸部区域以外的高响应减少第二层的输出是32个24*24的特征映射向量,深度网络第三层,第三层的输入是第二层的输出即32个24*24的特征映射向量利用下面的公式:计算使得下式最小的Y的值,并输出Y得到图像的FIP特征,本课题的深度网络的计算实现方法,本课题最终实现的深度网络的结构和前面我们看到的结构基本是一致的在输入层和输出层之间都是有3个隐藏层(HiddenLayer)前面的几层之间都是局部连接的(LocallyConnected)最后一个隐藏层和输出层之间是全连接的(FullyConnected)卷积核的大小是55各层权重和偏置矩阵数据不共享,输入层-第一隐藏层的计算,程序读入的是一张6464的人脸灰度图像权重矩阵W1共由32个子矩阵Wi1(i从1到32)组成,每一个子矩阵都是(6464)(6464)的,W1直接从文件local1_weights.txt中读入程序中,偏置矩阵B1也直接从文件local1_biases.txt中读入程序中:,第一隐藏层-第二隐藏层的计算,第二隐藏层以第一隐藏层输出的32个3232的特征映射图为输入,并再次通过和上一步中类似的卷积和自编码的形式将输入的32个特征映射图映射成新的32个特征映射图,通过和已经训练好的权重矩阵以及偏置矩阵进行计算,尽可能的消除这些映射图中反应姿态差异的特征,同时尽可能的保留其他的反应脸部结构的特征。随后在进行同样的最大池化,得到32个1616的特征映射图,以便给第三隐藏层学习经过上述处理之后,第二隐藏层就能够输出32个1616的特征映射图了,这32个特征映射图相比上一层中的特征映射图来讲,有两个不同点:一是每个特征映射图的维度从3232降到了1616(最大池化做的处理);二是这32个特征映射图中隐含的图像特征成分中,已经基本没有关于姿态方面的特征了,但是关于脸部结构方面的特征则几乎完全的保留了下来,甚至有了增强(虽然这无法显式的看出,但是多隐藏层的深度网络在不断地对前面层的特征映射图进行抽象和学习的过程,实际就是根据权重和偏置不断地过滤次要特征、增强主要特征的过程),第二隐藏层-第三隐藏层的计算,这两层之间做的主要的处理仍然是卷积和自编码,唯一的区别就是没有进行池化,因此,第三隐藏层处理完之后的输出是和第二隐藏层维度同样为1616的32个特征映射图。不过,这里的卷积核和权重、偏置矩阵被设计成将上一步的32个特征映射图更加特征化(换言之,就是在上一步基本去除了反应姿态变化的特征之后,这一步要再对数据的隐含特征进行提取),以便进一步减少数据量(也就说输出的就是我们要的FIP特征),第三隐藏层-输出层(重构层)的计算,读入权重矩阵和偏置矩阵之后,直接将输入的特征映射图带入如下公式就能算出重构图像的矩阵值了:,Local_connection的实现,函数的定义:参数解释:函数主要就是将inputMap中的数据按照训练好的weights和biases,做卷积核大小为MAP_SIZE的卷积运算,FILTER_NUM的值在我们这里一直是32,表示要按照不同的权重和偏置做32次局部过滤(即在inputMap中对FILTER_SIZE大小的区域作32次卷积运算,从而得到32个特征映射图),Max_pooling的实现,池化(pooling)的概念具体到我们的代码中,我们也是采用最大池化,而且同样是采用22作为池化区域的大小,实现的时候只要按照上图那样的处理方法对图像进行遍历(只要注意池化的区域是不重叠的即可)找到每个22区域中的最大灰度值即可,四、实验结果,最终我们实现了这样的功能:输入一张人脸图像(非正脸)程序读入图像,进行计算输出一张标准人脸库MultiPIE中的正面人脸图像输出的人脸图像是标准人脸库中FIP特征和输入人脸图像最接近的一个,利用PCA对FIP效果进行测试,两种思路:直观的,视觉上的理论的,数学上的,思路二测试结果1,思路二测试结果2,五、分析与讨论,我们的突破和创新:基本实现了FIP特征提取和匹配在c+下的功能,基本能够对小规模的人脸图像进行姿态校正利用PCA对实验结果进行进一步的分析和测试,得到的结果令人满意我们的缺点和不足:数据量较小算法效率不高,六、总结,人脸识别技术已经在计算机领域有了诸多运用,而姿态变动时的人脸识别一直是一个技术瓶颈我们通过对前人研究成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论