




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
密级 保密期限 涉密论文须标注 Z S T UZ S T U Zhejiang Sci Tech UniversityZhejiang Sci Tech University 硕 士 专 业 学 位 论 文硕 士 专 业 学 位 论 文 Professional Master s Thesis 中文论文题目中文论文题目 基于深度学习的人脸表情识别基于深度学习的人脸表情识别 英文论文题目 英文论文题目 Facial Expression Recognition Based on Deep Learning 专业学位类别 全日制专业学位专业学位类别 全日制专业学位 专业学位领域 控制工程专业学位领域 控制工程 作者姓名 施徐敢作者姓名 施徐敢 指导教师 赵小明教授潘海鹏教授指导教师 赵小明教授潘海鹏教授 递交日期 递交日期 2015 年年 3 月月 8 日日 万方数据 科学门类 工学科学门类 工学单位代码 10338单位代码 10338 分 类 号 TP 391 41分 类 号 TP 391 41密级 公 开密级 公 开 硕 士 学 位 论 文硕 士 学 位 论 文 基于深度学习的人脸表情识别 作 者 姓 名 施徐敢 学 位 级 别 硕士 学 科 专 业 控制工程 研 究 方 向 智能检测与控制 指 导 教 师 赵小明教授 潘海鹏教授 浙江理工大学 机械与自动控制学院浙江理工大学 机械与自动控制学院 2015 年年 3 月月 万方数据 AThesis for Master Degree Facial Expression Recognition Based on Deep Learning By Shi Xu Gan Supervisor Prof Zhao Xiao MingProf Pan Hai Peng School of Machinery andAutomation Zhejiang Sci Tech University Hang Zhou China March 2015 万方数据 万方数据 万方数据 I 摘要摘要 人脸表情识别是当前计算机视觉 模式识别 人工智能等领域的热点研究课题 它是 智能人机交互技术中的一个重要组成部分 近年来得到广泛的关注 不同领域的研究者提 出了许多新方法 本文综述了国内外近年来人脸表情识别技术的最新发展状况 对人脸表 情识别系统所涉及到的关键技术 人脸表情特征提取和人脸表情分类 分别做了详细的分 析和归纳 最后 总结了人脸表情识别的研究现状 并指出了其未来的发展方向 本文主要研究了在人脸表情识别中特征提取和分类中的一些关键问题 并结合深度学 习的方法提出了一些改进方法 最后通过实验进行了验证 本文的主要工作如下 1 提出一种融合深度信念网络和多层感知器的人脸表情识别新方法 首先采用深度信 念网络对提取的原始人脸表情图像的初级特征或局部二元模式 LBP 征进行无监督学习 得到更高层次的抽象特征 然后将其用于初始化多层感知器模型中的隐层网络权重值 最 后利用该初始化后的多层感知器实现人脸表情的分类 在 JAFFE 数据库中 该方法能够取 得最好的人脸表情正确识别率为 90 95 在 Cohn Kanade 数据库中 取得了最好 98 57 的人脸表情正确识别率 而且与其它识别方法相比 深度信念网络 DBNs 方法有着明 显的优势 可见 该方法用于人脸表情识别 可以较好地改善识别性能 2 对深度信念网络的鲁棒性人脸表情识别性能做了研究 考虑到在人脸表情识别过程 中图像可能受到噪声的影响 在对测试图像存在像素腐蚀的情况下 着重对基于深度信念 网络的鲁棒性人脸表情识别性能进行了探讨 深度信念网络具有很强的无监督学习的能 力 在不同的腐蚀比例下 仍然能取得不错的识别效果 在 Cohn Kanade 数据库中 实验 结果表明 DBNs 具有优越的分类性能和鲁棒性 是非常适合于人脸表情识别的 3 设计了人脸表情识别的 GUI 界面 在完成人脸表情识别的程序设计后 根据 GUI 系统设计的简单性 一致性 习常性 设计了人脸表情识别的 GUI 界面 方便程序的操作 使用 关键词关键词 人脸表情识别 特征提取 深度学习 深度信念网络 鲁棒性 万方数据 II Facial expression recognition based on deep learning Abstract Facial expression recognition FER is a currently active research topic in the fields of computer vision pattern recognition artificial intelligence etc FER is an important part of the intelligent technology for human machine interaction and recently it has drawn much attention and numerous new methods have been proposed by the researchers in different fields In this thesis we present the latest development of this area and give a detailed analysis and summary for facial expression feature extraction and facial expression classification which are the key technology in a FER system At last the current situation of FER are presented the future development direction of FER This thesis mainly studies some key issues in facial expression recognition feature extraction and classification and puts forward some improvement methods by combining with the method of deep learning The main works of this thesis are as follows 1 Deep belief networks DBNs are a representative method of currently newly emerged deep learning theory DBNs is capable of performing unsupervised feature learning but could not perform classification In order to effectively promote the performance of facial expression recognition we propose a new method of facial expression recognition based on deep belief networks First deep belief networks are used to learn the extracted primitive facial expression features and get a higher level of abstract features used to initialize the hidden layer weights of the traditional model of multi layer perceptron MLP Then we use the initialized MLP to perform the classification of facial expression Experimental results on the JAFFE database and Cohn Kanade database show that the proposed method can obtain the best accuracy of 90 95 and 98 57 for facial expression recognition significantly outperforming the other used classification algorithms It can be seen that the proposed method can be used to clearly improve recognition performance of facial expression recognition 2 A study on robust facial expression recognition based on deep belief network is given This thesis focuses on investigating the performance of robust facial expression recognition based on deep belief based in the presence of corrupted expression images Deep belief network has very strong ability of unsupervised learning and can still achieve good recognition results under different corrosion Experimental results on the Cohn Kanade database show that DBNs has excellent classification performance and robustness and it is very suitable for facial expression recognition 万方数据 III 3 The design of GUI interface of facial expression recognition is presented After completing the process design of facial expression recognition according to the basic principles of the GUI system design simplicity consistency constant learning we have designed GUI interface of facial expression recognition Keywords Facial expression recognition feature extraction deep learning deep belief networks robustness 万方数据 i 目录目录 摘要 I Abstract II 目录 i 第一章绪论 1 1 1课题的背景和意义 1 1 2人脸表情识别技术国内外现状 2 1 2 1 表情特征提取方法 3 1 2 2 特征降维方法 5 1 2 3 特征分解的方法 6 1 3表情分类 7 1 3 1 隐马尔可夫模型法 7 1 3 2 人工神经网络法 7 1 3 3 支持向量机法 7 1 3 4 Adaboost 法 8 1 3 5 K 最近邻算法 8 1 3 6 稀疏表示分类法 8 1 4小结 9 1 5本文主要研究内容 9 1 6本文章节安排 9 第二章深度学习的基本原理 11 2 1引言 11 2 2深度信念网络的基本原理 12 2 2 1 受限玻尔兹曼机 12 2 2 2 深度信念网络 12 2 3卷积神经网络的基本原理 14 2 3 1 卷积神经网络的网络结构 14 2 3 2 关于参数减少与权值共享 15 2 3 3 卷积网络的训练过程 16 万方数据 ii 2 4去噪自动编码器的基本原理 18 2 4 1 去噪自动编码器的网络结构 18 2 4 2 去噪自动编码器的特点理解 20 2 5深度学习的应用 21 2 6小结 22 第三章基于深度信念网络的人脸表情识别 23 3 1引言 23 3 2多层感知器的基本原理 23 3 2 1 MLP 神经网络模型 23 3 2 2 全互联 MLP 神经网络模型 24 3 3深度信念网络与多层感知器的融合 26 3 4人脸表情特征提取 局部二元模式 27 3 5实验结果与分析 29 3 5 1 实验设置 29 3 5 2 基于 DBNs 的对原始像素人脸表情识别实验结果 30 3 5 3 基于 DBNs 的对 LBP 算子的人脸表情识别实验结果 33 3 5 4 性能比较 35 3 6结论 37 第四章基于深度信念网络的鲁棒性人脸表情识别 38 4 1引言 38 4 2鲁棒性实验结果及分析 38 4 2 1 基于深度信念网络的鲁棒性实验结果 38 4 2 2 性能比较 39 4 3小结 42 第五章系统设计与实现 43 5 1引言 43 5 2GUI 的设计原则及界面层次结构 43 5 2 1 GUI 的设计原则 43 5 2 2 GUI 的界面层次结构 44 万方数据 iii 5 3GUDIE 组件及属性 46 5 3 1 常用组件 46 5 3 2 组件属性 47 5 4系统软件实现 48 5 5系统小结 50 第六章总结与展望 51 6 1工作总结 51 6 2不足与展望 51 6 2 1 人脸表情数据库建设 52 6 2 2 微表情特征提取 52 6 2 3 基于多特征融合的人脸表情识别 52 6 2 4 表情识别的鲁棒性 53 参考文献 54 致谢 59 攻读学位期间的研究成果 60 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 1 第一章绪论第一章绪论 1 1 课题的背景和意义课题的背景和意义 在一个科技迅猛的时代 计算机技术和人工智能技术的水平越来越高 社会的自动化 程度也不断提高 人们对人机交互的需求越来越强烈 在人们面对面的交流过程中 面部 表情和其他肢体动作能够传达非语言的信息 这些信息能够作为语言的辅助帮助听者推断 出说话人的意图 而人脸表情是一种能够表达人类认知 情绪和状态的手段 它包含了众 多的个体行为信息 是个体特征的一种复杂表达集合 而这些特征往往与人的精神状态 情感状态 健康状态等其他因素有着极为密切的关联 随着技术的升级和科研人员的不断 努力 假如有一天计算机可以准确高效的识别人脸表情 这对于实现自然和谐的人机交互 系统的有着极大的推进作用 由于人脸表情识别表现出的重要的理论研究价值和实际应用 价值 它已经成为一个热门的研究课题 心理学家 Mehrabian 1 的研究表明 只有 7 的总信息通过语言来表达 有 38 按辅助 语言来传达 如节奏 语音 语调等 而占比重最大的是人脸表情 达到总量的 55 因此 通过人脸表情可以得到很多有价值的信息 这些信息可以反应出人的意识和心理活 动 人脸表情识别所要做的研究就是开发一个高效率 高性能的系统来识别人脸表情 从 而通过人脸表情的状态感知人的情绪 包括 7 种经典表情 高兴 悲伤 愤怒 恐惧 惊讶 厌恶 中性 目前 深度学习 作为一种新的机器学习理论而受到研究人员和科技公司的广泛关注 深度学习的本质是把低层特征组合起来形成高层特征进行表示 从而使分类或预测更加容 易 所以 深度学习也被称为无监督特征学习 Unsupervised feature learning 区别于传 统的浅层学习方法 如人工神经网络和支持向量机 深度学习不但层数多 而且突出了无 监督特征学习的重要性 经过多年的发展 围绕人脸表情识别的研究已经有很多 研究者们也提出了各种不同 而有效的方法 目前 由于深度学习方法具有无监督特征学习能力的突出优点 深度学习 的应用也越来越多 但是 对于深度学习在人脸表情识别方面的应用研究 国内外还很少 见 研究如何将深度学习的方法有效应用于人脸表情识别既是对表情识别研究领域的一种 方法的拓展与提高 也是对深度学习应用领域的拓展 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 2 1 2 人脸表情识别技术国内外现状人脸表情识别技术国内外现状 从 19 世纪起 人类就开始对人脸表情进行研究 在 1872 年 达尔文 2 发表了著作 论 人类和动物的表情 The Expression of the Emotions inAnimals and Man 达尔文首先宣布 了表情的一致性 在他看来 人脸表情的含义并不是按性别和种族来判断的 在 1971 年 Ekman 和 Friesen 3 做了开创性的工作 他们为人类表情识别定义了七种 基本的类别 即高兴 悲伤 愤怒 恐惧 惊讶 厌恶和中性 在 1978 年 Ekman 和 Friesen 等人 4 提出了具有里程碑意义的面部动作编码系统 Facial Action Coding System FACS 该系统被用来识别人脸表情的微小变化 在系统中 人脸被划分成 44 个运动单元 Action Unit AU 这些不同的 AU 被组合起来用来描述不同的人脸表情动作 这些 AU 展现了人 脸运动与表情的相关联系 人脸的七种基本表情和 FACS 的提出具有极为重大的意义 这 些内容为今后的研究奠定了基础 同时被广大的科研工作者所采纳 人脸表情识别的过程一般包括三大部分 第一步是人脸检测与预处理 第二步是表情 特征提取 第三部是表情分类 如图 1 1 所示 图图 1 1 人脸表情识别系统结构人脸表情识别系统结构 要进行人脸表情识别 首先要对图片中的人脸进行检测与预处理 也就是说要从图片 中定位到人脸的存在 并且校正到表情特征提取合适的尺寸等工作 这主要包括到图像的 旋转校正 人脸定位 表情图像的尺度归一等内容 然后从人脸表情图像中提取表情特征 提取特征的质量直接关系着下一步分类识别率的高低 在人脸表情特征提取中 为了有效 防止维数危机并降低运算难度 一般还涉及到特征降维和特征分解等步骤 最后一步是人 脸表情分类 根据特征之间的区别 对人脸图像进行分类 具体的类别就是上面提到的 7 种基本表情 在人脸表情识别研究中所涉及到的人脸检测与预处理一般都是采用比较成熟 的技术 因此本文在这方面不再详述 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 3 1 2 1表情特征提取方法表情特征提取方法 图像一般分为静态图像和动态图像序列 这两种图像的特征提取方法也不一样 所以 根据图像的分类 表情特征提取的方法也不同 分为静态图像的表情特征提取方法和动态 图像序列的表情特征提取方法 静态图像就是无变化的静止图片 在经过一系列的预处理 如旋转校正 人脸定位 尺度归一 缩放等 之后就作为了后续处理过程的对象 常用的有几何特征提取方法 外 貌特征提取方法具体介绍如下 1 几何特征提取方法 几何特征的提取方法是一种宏观的方法 也就是说从总体上表示出人脸的结构变化 该方法的主要工作是提取人脸面部的特征点 通过利用特征点之间的几何关系来提取人脸 表情特征 然而 提取几何特征要求特征点提取有较高的准确性 对细微变化的信息区分 性不够 代表性的几何特征提取方法主要有以下三种 1 主动形状模型 Cootes 等人 5 在 1995 年首先提出了主动形状模型 Active Shape Models ASM 该方 法是基于统计模型的特征匹配方法 该方法第一步要从人脸表情图片中提取表情轮廓的特 征点 这些特征点组合成为训练集 这也就是说用点分布模型来表述图像样本的统计模型 接着 ASM 方法就用统计模型从表情图像中定位特征点的最佳位置 然而最佳位置并不是 一次就得到的 要根据搜索结果来不断调整统计模型的参数 最终由于参数的不断优化 使得模型与表情图像的轮廓逐渐 这样目标就可以被准确定位 2 活动外观模型 活动外观模型 Active Appearance Models AAM 方法是 Cootes 等人 6 在 ASM 的基础 上提出的 AAM 的基本原理也跟 ASM 也相近的 它的模型建立在对训练数据的统计分析 之上 再利用该模型对目标来进行拟合计算 Cheon 等人 7 提出了一种差分主动外观模型 AAM 和流形学习相结合的人脸表情识别方法 首先用差分 AAM 功能计算输入的人脸 图像和一个模型之间的差异 然后在用流行学习算法将提取的特征投影到连续的特征空 间 最后进行表情的分类识别 3 尺度不变特征转换 尺度不变特征转换 Scale invariant Feature Transform SIFT 8 是一种局部描述子 它具 有尺度不变性 可在图像中检测出关键点 Berretti 等人 9 提出一种方法 利用 SIFT 描述 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 4 子来描述图像的深度及纹理 然后选择最相关的功能特征 特征提取后再利用 SVM 进行 分类 在 BU 3DFE 数据库中 已获得 77 5 的平均识别率 2 外貌特征提取方法 外貌特征的提取方法是一种微观的方法 外貌特征是基于使用全部人脸图像像素性质 的特征 反映了人脸图像底层的信息 尤其表现了局部细微变化的信息 代表性的外貌特 征提取方法主要有以下二种 1 局部二值模式 局部二值模式 Local Binary Pattern LBP 10 是一种对纹理特征进行描述的算子 非常 适合做图像的局部特征比较 在灰度图像中 LBP 算子能有效对相邻区域的纹理信息进行 衡量和特征提取 并且能有效抑制光照的影响 使用 LBP 算子的优点是它具有良好的旋转 以及灰度的不变性 而且能够克服图像的位移 旋转以及光照不均衡等方面的问题 它的 计算比较简单 能够有效提取代表图像本质的纹理特征信息 Shan 11 等人用增强的 LBP 算 法来进行特征提取 而且他们发现通过用支持向量机 SVM 的方法来分类的话 可以得 到很好的识别效果 除了这个 他们还用 LBP 算法来对低分辨率的图像就行特征提取 发 现它还是有着稳定的表现 2 Gabor 小波变换 Gabor 小波变换 12 是人脸表情特征提取的一种经典手段 首先通过滤波器对输入图像 进行滤波 根据结果描述局部相邻像素之间的关系 包括梯度 相关性和纹理等 目前 Gabor 小波变换在人脸表情的特征提取上已经取得不错的成果 不同尺度和不同方向的纹 理变化都可以由 Gabor 小波进行检测 而且不太容易受到光照变化的影响 Liu 等人 13 提 出了一种结合 Gabor 小波和核主成分分析 KPCA 进行人脸表情识别的方法 实验结果证明 该方法有着不错的性能 动态图像序列与静态图像的特征提取方法的不同之处在于 动态序列图像反映了人脸 表情运动的连续过程 因此动态图像序列的表情特征主要由人脸的形变及面部各个区域的 肌肉运动体现出来 目前 基于动态图像序列的特征提取方法主要有光流法 基于特征点 跟踪的方法 基于模型跟踪的方法和弹性图匹配法等 具体介绍如下 1 光流法 1998 年 Negahdaripour 14 将光流重新定义为动态图像的几何变化和辐射度变化的全面 表示 研究景象中物体的结构及其运动与图像灰度在时间上的变化的关系 在人脸表情识 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 5 别中 多采用光流法提取动态图像序列的表情特征 这主要在于光流法具有突出人脸形变 反映人脸图像序列运动趋势的优点 Yacoob 等人 15 首先使用连续帧之间的光流场和梯度场 来表示图像的时空变化 实现图像序列中人脸图像的表情区域跟踪 然后根据特征区域运 动矢量的变化 计算人脸肌肉的运动 进而分类对应不同的表情 2 基于特征点跟踪的方法 基于特征点的跟踪一般在灰度变化范围比较大的区域中选择特征点 比如鼻子 眼角 嘴角等部位 通过这些点就能较方便地得到人脸特征的变化 Tie 等人 16 提出了一个自动 从视频序列的面部模型上提取 26 个基准点 并通过多个粒子过滤器来进行跟踪的方法 根据基准点的位移 可以构成一个网络模型 最后可以计算得到人脸表情的变化 3 基于模型跟踪的方法 区别于特征点的跟踪的方法 基于模型跟踪的方法的目标是整个人脸 而这个的模型 既可以是 2 维 也可以是 3 维的 而大多数模型的计算过程都比较复杂 Huang 等人 17 提 出了使用不同分辨率变形的人脸模型来对人脸图像进行了建模 并且在多个层次对目标进 行了跟踪 这主要分为两个方面 第一个方面就是全局形变的跟踪 这些工作由底层的数 千个节点来完成 第二个方面就是图像局部的纹理变化 这部分工作需要用非刚性人脸跟 踪算法来进行提取 实验证明 此方法非常适合用于 3 维的人脸深度扫描数据 有利于对 微小的表情细节进行提取和跟踪 4 弹性图匹配法 弹性图匹配法的基本原理是 在输入的人脸表情图像上选取特征点来构成具有一定拓 扑结构的弹性图 然后提取每个节点上的特征矢量 构造相似度函数来比较特征矢量和拓 扑结构的相似程度 如果相似度最大 就可以完成匹配 曹宇嘉等人 18 选定 34 个特征点 再将部分节点连接起来后形成一定的拓扑结构 并在每个节点上用差值模板来提取 1 40 维的特征矢量 就构成了一张弹性图 然后还要经过全图匹配阶段 子图匹配阶段 逐点 调整阶段 1 2 2特征降维方法特征降维方法 人脸表情图像经过原始特征的提取后 往往特征维数比较高 尤其是外貌特征 因此 需要将通过一些映射或变换高维特征转换为低维特征 这有利于简化计算 方便人脸表情 特征的提取 而且这些特征的有效性得到了提高 特征降维又可以分为线性与非线性两大 类 常用的一些线性降维方法有有主元分析法 Principal ComponentAnalysis PCA 19 线 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 6 性判别分析法 Linear Discriminant Analysis LDA 20 等 非线性降维方法有两种常用的流 形学习方法 即局部线性嵌入 Locally Linear Embedding LLE 21 和等距映射 Isometric Mapping Isomap 22 1 主元分析法 主元分析法 PCA 方法可以有效地提取图像中对表情识别贡献较大的局部特征 它有 消除冗余 降低维数的作用 但它也有缺点 就是不易区分不同类别的数据 应自炉 23 等 人在 PCA 的基础上 提出了一种基于支持向量机的鉴别分析算法 该算法先找出有限样本 情况下的最优分类面 然后以其法线方向作为投影轴对数据进行投影降维 该算法既能体 现出支持向量机的内在优良推广性能 又克服了 PCA 算法的局限性 2 线性判别分析法 基于 Fisher 准则的线性判别分析算法 LDA 是一种较成功的特征提取算法 为了寻找 具有最大分辨力的方向 线性判别分析主要通过两个手段选择合适的投影方向 一方面最 大化数据的类间离散度 另一方面最小化数据的类内离散度 Wang 24 提出一种改进 LDA 算法 局部线性判别分析 Local LDA LLDA 用于人脸表情特征降维 取得了比 LDA 更 好的性能 3 局部线性嵌入 局部线性嵌入 LLE 不仅能够对数据降维 而且也在数据降维之后使得原有的几何 结构关系得以保持 赵小明等人 25 提出了一种新的基于 LLE 的有监督的流形学习算法 被 称为核判别局部线性嵌入 Discriminant Kernel Locally Linear Embedding DKLLE 在 Cohn Kanade 数据库上的实验表明 它是很有效的 而且优于传统的 LLE 方法 4 等距映射 等距映射 Isomap 是基于多维尺度变换 MDS 的 它通过保持两点间的测地线距离不 变 达到保持数据点的内在几何性质不变的目的 赵小明等人 26 在 Isomap 的基础上 提 出了一种核判别等距映射 Kernel discriminant isometric mapping KDIsomap 在用 LBP 算子提取人脸表情特征后 再用 KDIsomap 是用来进行非线性降维 并产生低维嵌入式数 据 对改善人脸表情识别的性能有极大的帮助 1 2 3特征分解的方法特征分解的方法 人脸图像中有着多种复杂的信息 对于不同的识别目标 需要提取不同的特征 比如 进行人脸检测的话 就需要找到众多不同图片中的人脸图像 这就需要寻找不同图像中的 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 7 共同信息 如果进行人脸识别的话 由于千人千面 所有人都有不同的地方 这就需要寻 找不同的信息 如果进行人脸表情识别的话 这就需要寻找不同表情特征之间的差异 所 以不同的信息对于不同的识别各有用处 如果把不同的信息有效地分解开来 那么不同的 识别就可以在不同的子空间中进行 避免其他无用信息的影响 由于特征分解不是本课题 的主要研究方向 下面简单阐述一种方法 Wang 等人 27 在人脸表情识别中使用高阶奇异 值分解 HOSVD 来进行特征分解 他们用一个 3 阶的张量来表示不同人脸表情图像 这 3 阶张量分别表示的是表情 个体及特征 于是得到了表情子空间 个体子空间及特征子空 间 这种方法可以同时识别人脸和人脸表情 并为进一步图像的分类提供条件 1 3 表情分类表情分类 表情分类方法和表情特征的提取方法是密切联系在一起的 它是指定义不同的类别 并通过不同的分类方法进行人脸表情识别 取得不同的分类结果 主要包括隐马尔可夫模 型法 Hidden Markov Model HMM 人工神经网络法 Artificial Neural Network ANN 支持向量机法 Support vector machines SVM AdaBoost 法 K 最近邻算法 k Nearest Neighbour KNN 稀疏表示分类法 Sparse Representation Classification SRC 等等 1 3 1隐马尔可夫模型法隐马尔可夫模型法 隐马尔可夫模型 HMM 是一个马尔可夫过程 它包含着隐藏的未知参数 并可以 有效地描述统计模型中的随机信号信息 Yeasin 等人 28 提出了一种两个步骤的 HMM 模型 分析方法 用离散隐马尔可夫模型来训练数据集 张发光等人 29 提出一种扩展 C 型 HMM 模型 克服了传统的 HMM 表情序列模型识别能力有限的不足 通过增加状态中心参数 C 对 HMM 模型进行扩展 再使用状态空间上隐射算法来建立模型 取得了很好的识别效果 1 3 2人工神经网络法人工神经网络法 人工神经网络 ANN 这种运算模型是由大量神经元组成的 神经元构成的处理系统通 过训练参数来学习复杂的非线性输入和输出关系 Ma 和 Khorasani 30 在对输入的人脸表情 图像进行表情特征提取时使用了二维离散余弦变换 然后再用前馈神经网络对提取的特征 进行分类 取得了比传统神经网络更好的性能 1 3 3支持向量机法支持向量机法 支持向量机法 SVM 是一种泛化能力很强的分类器 在解决非线性 小样本和高维 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 8 模式等识别问题方面表现出很多优势 它的思路可以概括为 对于非线性可分样本 首先 通过定义核函数将非线性变换从输入空间转化成高维空间 接着在高维空间中求解最优化 的线性分界面 徐红等人 31 提出一种以改进粒子群算法优化 SVM 关键参数的优化 SVM 算 法 利用由粗到精的策略构造出多层 SVM 模型用于人脸表情的分类 1 3 4Adaboost 法法 Adaboost 是一种迭代算法 它的基本原理是通过对同一个训练集进行训练得到不同的 分类器 而这些分类器都是弱分类器 接着由弱分类器组合构成强分类器 Ghimire 和 Lee 32 提出一种融合多类 Adaboost 和 SVM 的人脸表情识别方法 采用几何特征信息在 Cohn Kanade 数据库上取得了 97 35 的识别率 刘晓雯等人 33 借助直方图特征 提出一种 多类输出的 Mvboost 方法 该方法直接对特征进行多类的判决以满足多类时分类的需求 而不必训练多个二分类的 AdaBoost 分类器 从而使训练过程和分类过程都得到简化 1 3 5K 最近邻算法最近邻算法 K 最近邻算法 KNN 是一比较成熟的分类方法 也是最简单的机器学习算法之一 该 方法的原理是 在特征空间中 如果一个样本的 k 个最相似的样本 即特征空间中最相邻 的样本的大部分是同一个类别的话 那么此样本也就归属于这个类别 Ou 等人 34 提出一 种用 Gabor 小波和 PCA 的方法提取人脸表情特征 然后用 K 最近邻算法来进行分类的方 法 1 3 6稀疏表示分类法稀疏表示分类法 稀疏采样 Sparse Sampling 也被称为压缩感知 Compressed Sensing CS 它是一个 新的采样理论 它的原理是在比奈奎斯特采样率的小很多的条件下 根据信号的稀疏特性 采用随机采样的方法获取信号中的离散样本 最后采用非线性重建算法来恢复信号的原 样 张石清等人 35 36 提出了一种新的基于 CS 理论的人脸表情识别方法 CS 理论被用来构 建一个稀疏表示分类器 SRC 表情图像是干净的或者是有遮挡的 这点对 SRC 方法的 有效性和鲁棒性有很大的影响 实验提取三个典型的原始表情特征 即原始像素 Gabor 小波变换和局部二值模式 LBP 然后再用 SRC 进行分类 基于 Cohn Kanade 数据库的 实验结果表明 相比支持向量机 SVM 最近邻 Nearest Neighbour NN 和最近邻子 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 9 空间 Nearest Subspace NS 分类算法 SRC 具有更好的性能和更强的鲁棒性 1 4 小结小结 人脸表情识别是一个多学科交叉的研究课题 已经成为心理学 医学 计算机视觉 模式识别等领域十分热门的研究课题 在智能人机交互领域的发展潜力非常巨大 第一章 对人脸表情识别的研究背景及意义 现阶段国内外的技术现状 目前主要存在的人脸表情 特征提取与分类方法等问题做了比较全面的阐述 虽然当前人脸表情识别研究已经有不错 的发展 但是目前有的各个算法的有效性和鲁棒性还不能完全达到实际应用的要求 这仍 然是一个有挑战性的课题 1 5 本文主要研究内容本文主要研究内容 本文主要研究人脸表情识别的主要技术 包括人脸表情的特征提取与特征分类等技 术 然后学习研究了深度学习的理论 对多种经典的深度学习方法的具体原理进行了介绍 然后将深度信念网络算法用于人脸表情的特征提取中 取得了很不错的识别效果 在这个 基础上 研究基于深度信念网络的鲁棒性人脸表情识别 并且与其他的一些经典方法进行 对比分析 最后为了方便程序的可观性及易用性 开发了人脸表情识别的 GUI 界面 1 6 本文章节安排本文章节安排 本文共分为 6 个章节 具体安排如下 第一章绪论 主要介绍了人脸表情识别的背景和意义 介绍了当前国内外现有人脸表 情识别的主要技术 详细概括介绍了现有的人脸表情特征提取 降维与分解及表情分类技 术 概括性地阐述了人脸表情识别研究中各种算法的优缺点 对本文的研究内容和章节安 排做了简单介绍 第二章深度学习的基本原理 深度学习是本文重点研究的内容 本章介绍了深度学习 的基本原理 对几种经典的深度算法进行了详细的理论介绍 比如 DAE DBNs CNN 第三章融合深度信念网络与多层感知器的人脸表情识别 详细介绍了基于深度学习中 的经典算法深度信念网络与分类器多层感知器的人脸表情识别方法 首先采用深度信念网 络对提取的原始人脸表情图像的初级特征或 LBP 特征进行无监督学习 得到更高层次的抽 象特征 然后将其用于初始化多层感知器模型中的隐层网络权重值 最后利用该初始化后 的多层感知器实现人脸表情的分类 在 JAFFE 数据库中 该方法能够取得最好的人脸表情 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 10 正确识别率为 90 95 在 Cohn Kanade 数据库中 取得了最好 98 57 的人脸表情正确识 别率 其识别率都要比其它分类方法要高得多 可见 该方法用于人脸表情识别 可以较 好地改善识别性能 第四章基于深度信念网络的鲁棒性人脸表情识别 深度信念网络的鲁棒性人脸表情识 别的研究 考虑到在人脸表情识别过程中图像可能受到噪声的影响 在对测试图像存在像 素腐蚀的情况下 着重对基于深度信念网络的鲁棒性人脸表情识别性能进行了探讨 深度 信念网络具有很强的无监督学习的能力 在不同的腐蚀比例下 仍然能取得不错的识别效 果 在 Cohn Kanade 数据库中 实验结果表明 DBNs 具有优越的分类性能和鲁棒性 是非 常适合于人脸表情识别的 第五章系统设计与实现 为了提升使用者的用户体验 提高程序的可用性 美观性 在 matlab 程序的基础上进行了二次开发 即 matlab 的 GUI 界面设计 GUI 界面设计能有 效提升程序的简洁性和可用性 美观大方 本章详细介绍了 GUI 界面设计的原理及步骤 第六章 对全文进行总结概括 分析工作中存在的不足之处 对当前环境下人脸表情 识别存在的难点及发展趋势进行展望 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 11 第二章深度学习的基本原理第二章深度学习的基本原理 2 1 引言引言 根据浅层网络和深层网络的角度来划分 机器学习的发展经历了两个阶段 第一阶段 发生在 20 世纪 90 年代左右 那时人工神经网络的反向传播 Back Propagation BP 算法 的发明引起了一股机器学习的热潮 研究者提出了不同种类的神经网络学习模型 经典的 算法有最大熵方法 Logistic Regression LR 支持向量机 Support Vector Machines SVM Boosting 等 第二阶段是在 2006 年 著名的机器学习专家 Geoffrey Hinton 等人 37 在 Science 上发表了一篇关于深度学习 Deep learning 的文章 提出了在无监督数据上 建立多层神经网络的一个有效方法 开启了深度学习在学术界和工业界的浪潮 跟以往的浅层学习模型相似 深度学习模型的目的还是进行特征学习 但是跟以往的 浅层学习模型相比较 深度学习有它独特的不同点 1 顾名思义 深度学习模型往往有多个层级 2 强调了特征学习的重要性 它的特点就是通过逐级的特征变换 将原始特征表示转 换到一个新空间的特征表示以便于分类 相比较传统的人工方法 在这个大数据时代 如 果用大数据来学习特征 可以使得数据的内在信息得到更加丰富的体现 深度学习是受到人脑分层运算的启发而提出的 生理学家研究发现人的大脑计算是分 多层进行的 比如视觉图像在人脑中是分多个阶段来处理的 首先是进入大脑皮层 V1 区 然后进入大脑皮层 V2 区 以此类推 深度网络的主要优势在于它能以简洁的方式来表达 比浅层网络大得多的函数集合 深度学习方法的实质其实是在构建一种类似于人脑结构的深层神经网络 对输入的图 像 文字等数据进行深刻地分析 受益于多层次的学习模型和海量的训练数据 从而使得 特征提取更加有效 自然分类结果的准确性也大大增强 从直观意义上来讲 可以把深度学习当做神经网络 neural network 的进化产物 它 们之间有着或多或少的联系 自然也有各自的不同点 类似的是 深度学习模型也包括输 入层 隐层和输出层 这和神经网络的结构是类似的 在深度学习模型中 相邻层级的节 点之间有连接 而同层级和跨层级的节点是不相连接的 每一层可以被看作是一个逻辑回 归模型 不管是深度学习还是神经网络 它们的结构特征都是模仿大脑结构而被设计开发 出来的 不同的是 传统神经网络采用的是反向传播 BP 算法 也就是使用迭代算法来 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 12 训练神经网络 这种模式是要在输入数据的时候设定一个初始值 再根据网络的输出结果 与实际的预设值的差别来调整参数 直到收敛 2 2 深度信念网络的基本原理深度信念网络的基本原理 深度信念网络 Deep Belief Networks DBNs 37 是深度学习的一种代表性方法 已 成功用于手写数字识别 37 语音建模和语音识别 38 39 音频分类 40 等领域 深度信念网络 是一种深度学习结构 它是由多个受限玻尔兹曼机 Restricted Boltzmann Machine RBM 叠加而成 2 2 1受限玻尔兹曼机受限玻尔兹曼机 受限玻尔兹曼机 RBM 是一种典型神经网络 该网络可视层 v 和隐层 h 彼此互连 但 是层内无连接 隐层节点可获取输入可视层 v 节点的高阶相关性 RBM 模型如图 2 1 所 示 图图 2 1 RBM 模型模型 那么为什么 RBM 模型要层内无连接呢 根据概率原理 在己知v的条件下 所有的隐 层节点之间是条件独立的 即 1 n p h vp h vp hv 同样 如果己知隐层h 那 么全部可视层节点都是条件独立的 在公式中 全部v和h都满足玻尔兹曼分布 也就说 只要知道v或者h 都可以通过公式知道另外一个变量 即已知v 通过 p h v 求隐层h 若已知h 通过 p v h 重构可视层 为了达到输出得到的可视层vI与最初的可视层v一样 实验中需要不断地调整参数来达到这个目的 通过这样的方式 使得隐层作为可视层的另 外一种相同内容的不同表达状态 所以把隐层当做可视层输入数据的特征 2 2 2深度信念网络深度信念网络 深度信念网络 DBNs 是由多个层级构成的 相邻层级可拆分成一个独立的受限玻尔兹 曼机 也就是说 DBNs 是由多个 RBM 的叠加组成的 DBNs 的工作原理是 低层的输出作 为下一层的输入 下一层的输出再作为更高一层的输入 以此传递 通过微调参数和权重 万方数据 浙江理工大学硕士学位论文基于深度学习的人脸表情识别 13 偏置来增强 DBNs 的抽取性能 结构如图 2 2 所示 DBNs 的训练过程主要包括预训练 pre training or pre learning 微调 fine tuning 1 预训练 预训练的过程是自下向上的无监督学习过程 由于 RBM 没有能力对原始特征进行建 模 所以需要更高层级的网络对特征进行建模 Hinton 41 证明了非监督贪婪逐层训练方法 图图 2 2 DBNs 模型模型 的效果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版房地产项目融资协议书示范
- 2025年度车辆托管与车辆租赁及增值服务协议
- 2025年度企业员工食堂膳食供应合同
- 2025年度企业商业信用贷款抵押合同模板
- 2025版事业单位信息安全人员聘用合同书(含数据安全协议)
- 2025版汽车维修配件进口分销合同
- 2025版水泥沙石行业绿色认证及标准制定合同
- 2025版医疗器械行业高级管理人员劳动合同示范
- 2025版桥梁施工环境保护及恢复合同
- 2025版幼儿园托管服务合同范本下载及解读
- 四年级下册青岛版数学计算题天天练习带答案(共15天)
- 2025年业务接替交接协议书
- 2025年1月浙江省高考地理试卷(含答案)
- 2025年湖南铁道职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 患者照护用品的应用护理员培训
- DB32-T 4334-2022 薄壳山核桃郁闭园改造技术规程
- 农办主任履行职责工作(2篇)
- 2025年中国维生素C咀嚼片市场供需格局及未来发展趋势报告
- 规则之下方有自由课件-高一上学期行为常规主题班会
- 广东省汕头市金平区2021-2022学年八年级下学期期末英语卷
- 物流行业固废处理方案
评论
0/150
提交评论