基于深度学习的人脸表情识别技术研究_第1页
基于深度学习的人脸表情识别技术研究_第2页
基于深度学习的人脸表情识别技术研究_第3页
基于深度学习的人脸表情识别技术研究_第4页
基于深度学习的人脸表情识别技术研究_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree for the Master of EngineeringResearch on Facial Emotion RecognitionUsing Deep LearningCandidate: Chen WenfengMajor: Software EngineeringSupervisor: Prof. Shen GangHuazhong University of Science & TechnologyWuhan 430074,

2、P.R.ChinaDecember, 2017华技大 学摘要人脸表情包含丰富的情感信息,是人类情绪表达最重要的方式之一。人脸表情识别即通过计算机识别人脸的各种表情,进而分析表情所代表的情绪、意图等。人脸表情识别可以用于刑侦测谎、服务、辅助诊断、人机交互等方面。长期以来,人脸表情识别一直是计算机视觉和人工智能研究的重要领域。近年来,随着互联网的迅猛发展,人类各方面有效统计数据集急剧增加,计算机硬件性能飞速提升,为深度学习领域带来了新一轮的发展与。深度学习与传统手工提取特征方法(SIFT、HOG、GLOH、SURF 等)不同,通过深度学习的方法可以得到学习能力更强、泛化能力更佳的数据特征。本文通过

3、采用深度学习中卷积神经网络结构(Convolutional Neural Network,)对人脸面部表情特征进行训练学习,并人脸检测与表情识别过程中所遇到的人脸光照强度不同,人脸位置偏移,部分表情间差异细微,多表情分类等复杂问题,提出并设计了以下两种改进方案:首先,为了解决复杂多人脸检测中常见的半遮挡、侧面、歪斜、弱光等恶劣环境下的人脸问题,设计了一种并联PNet 卷积层的改进型多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks,MT);其次,为增强输入人脸表情图片所包含信息,提高表情特征提取效果,将人脸轮廓(含脸部轮廓,眉毛,眼睛,

4、鼻子,嘴巴)进行提取,并对其进行灰度增强处理后为伪彩色,并设计了一种基于轮廓增强的卷积神经网络(Contour Reinforcement Neural Network,CRNN)用以解决人脸表情特征不明显问题。经过实验结果表明,上述所提出的改进方案的确有助于提高人脸检测准确率,提高人脸表情识别效果,并在公开的人脸数据集 wider face、CK+中进行检测与表情识别实验均取得较高的正确率。:表情识别深度学习卷积神经网络级联神经网络I华技大学AbstractFacial expression contains rich emotional information, which is one

5、of the most important ways of human emotion expression. Facial expression recognition means recognizing all kinds of facial expressions by computer, and then analyzing the emotions and intentions. It can be used in criminal detection, lie detection, service monitoring, auxiliary diagnosis, human-mac

6、hine interaction and so on. Facial expression recognition has been an important field of computer vision and artificial intelligence for a long time. In recent years, with the rapid development of Internet, the effective statistics datasets in all aspects of human society have increased dramatically

7、, and the performance of computer hardware has increased rapidly, which has brought a new round of development and breakthrough for the field of deep learning.Deep learning is different from traditional manual feature extraction methods (SIFT, HOG, GLOH, SURF and others). Through deep learning, we c

8、an get data features with stronger learning and generalization ability. By using the structure of convolutional neural network in deep learning for facial expression feature training and learning, in view of the complex problems of human face recognition, such as different illumination intensity, di

9、splacement of face position, partial difference between expression and multi expression classification, two improved schemes are proposed and designed:(1) In order to locate the face more accurately, the traditional location method based on the face Haar feature classifier is abandoned, we try to us

10、e Multi-Task Cascaded Convolutional Networks to solve the occlusion, half side, skew, weak light environment face location problem. (2) In order to enhance the input information of facial expression and facial expression and improve the expression of core feature, we extract facial contour, and the

11、gray enhancement processing maps for the pseudo color, and designed a Convolutional Neural Network based on Contour Reinforcement is used to solve the problem of facial features is not obvious.The experimental results show that the proposed improvement scheme does help to improve the accuracy of fac

12、e detection, the effect of facial expression recognition, andachieve higher accuracy in public face database wider face and CK+.Key words:Facial expression recognitionDeep LearningCRNNMTII华技大 学目录摘要IAbstractII11.11.21.3绪论研究背景及应用前景(1)国内外研究现状(3)主要工作内容(9)22.12.22.32.4相关技术分析人工神经网络(11)) . (14)卷积神经网络(多任务级联

13、卷积神经网络(MT) . (17)本章小结(18)33.13.23.33.4表情识别算法设计人脸检测模块设计(19)表情识别模块设计(27)人脸表情识别系统实现(42)本章小结(43)44.14.24.3实验结果与数据分析人脸检测结果分析(44)表情识别结果分析(48)本章小节(52)III华技大学5总结与展望5.1全文总结(53)5.2展望(53)致 谢(55)参考文献(56)IV华技 大 学1绪论1.1研究背景及应用前景人脸表情是人类交流的一种重要表达方式,是人类情绪的重要特征。通过对人脸表情,可以获取其内心活动、动作意图、情感趋势等重要信息。在日常生活中,人们能通过不同的表情,准确而又细

14、微地表达当前的内心情感和对外界事物的态度,面部表情不仅是反映人类内心情感变化的重要,还是人类相互交流中不可或缺的纽带。早在 19 世纪人们就已经对面部表情特征展开研究,著名生物学家 Darwin 指出现代人类表情是人类祖先面部动作的遗迹,这些人类表情动作最初具有适应意义1。研究者们在生物学和心理学上对表情的分类与细化做了大量的工作,产生了多种不同的表情分类及表征方法。其国心理学家 P.Ekman 所进行的基本情绪模型研究影响最为深远,他所提出的采用运动单元(Action Unit,AU)描述人类情绪的面部表情运动编码系统(Face Action Coding System,FACS)也为近 4

15、0 年的情绪理论研究提供了稳定的理论模型,而且对计算机视觉尤其是人类表情识别领域起到了积大的推动作用2。FACS 不仅描述了人脸表情的不同特征,更重要的是为人类面部表情的划分提供了精准的定义。FACS 包含有 46 个基本的 AU,其中包括眉毛、眼睛、鼻子、嘴、下巴等面部基本面生理结构。每一个基本的 AU 所能表征的情绪特征有限,但是通过对不同的 AU 进行组合,可以表征出人类几乎所有的表情模型。FACS 理论的提出为计算机视觉中人脸表情划分与定义提供了一个重要的标准,更成为人类表情研究进程中的里程碑。人脸表情识别的重要目的之一,就是希望能让计算机能对人脸进行准确的表情分类,并结合其他数据对表

16、情背后的内心活动、心理情绪进行综合分析,为人类提供有效的决策数据与反馈。不仅如此,人脸表情识别技术在以下领域也有着广泛的应用情景:(1)服务行业1华技大学服务态度的优质程度直接影响着公司的口碑及营收,尤其是面对面服务行业,如柜台、教育、公共交通等领域,而服务者的面部表情直接反映了其对客户的服务态度。微笑是服务行业工作者的基本素养,2017 年 1 月福建省台州市机场高速首次推出了“微笑识别器”,其可以通过分析嘴唇曲线,眉毛角度,眼神等对服务的微笑进行打分,然后将打分数据上传云端作为服务指标。目前此类正逐步应用于服务行业的各领域,以提高服务的服务质量。(2)刑侦测谎心理学的研究表明人在撒谎时,其

17、内心世界是复杂与挣扎的,人的表情会不自觉地发生细微的变化以掩饰其内心的紧张感。在之前很受欢迎的美剧Lie to me中,Ekman 教授通过识别人的表情来一个人是否在说谎。虽然目前尚未出现较为成基于表情的测谎仪器,但是表情作为人内心心里活动的重要表征,目前已经成为学术界研究的重要领域。表情识别用于刑侦测谎,将极大提高的侦破效率,营造更佳安全的氛围。(3)人机交互目前较为常用的人机交互点击,触摸,语音等,然而目前这些传统的交互为单方面输入,根据输入信息进行相应反馈,无法根据操作者当前表情进行有性的结果反馈。采用表情识别技术可以操作者当前的异常表情,采取必要的紧急措施,降低事故风险。例如,通过对汽

18、车驾驶员的面部定时进行特征采样并分析其表情特征,对异常的面部表情信息(疲劳,困倦等)进行云端告警并通知第平台或交通部门采取相应措施,避免交通意外。(4)个性化推荐推荐系统是目前投放中最为的技术之一,通过对用户画像,综合用户历史数据信息,用户当前可能的商品并予以推荐展示。但是,人处在不同的情绪中所希望接受的推荐信息是不同的,例如,在流行的音乐 app 音乐中,其所推荐的音乐是根据用户历史数据及用户画像等其他信息进行所得,然而人在不同的心情下所希望听到的音乐具有极大的差异性。通过对用户当前表情的分析,得到用户当前的心境,结合传统推荐系统筛选出符合用户当前心境的歌曲,2华技大学将极大增强用户体验,提

19、高用户黏度。1.2国内外研究现状随着大数据及人工智能的发展,获取的信息以促进人类达到更高的智能化,已经成为学术界及商业领域追求的目标。人脸表情作为人类重要的生理信息有着广泛的应用前景与极高的商业价值,因此,人脸表情识别问题一直是计算机视觉及整个人工智能领域研究的热点问题。目前表情识别在国内迅速发展,各种新兴公司及研究机构乘着人工智能的浪潮如雨后春笋般不断涌现,其中具有代表性的有如下公司及研究机构:(1)Face+(旷视科技)Face+是一家以人工智能为的高新技术公司,其拥有行业领先的硬件技术、软件算法、解决方案3。Face+人脸识别技术在 2017 年被MIT 科技评论评定为2017 世界十大

20、前沿科技。以下为使用旷视科技提供的开放平台所得到的表情识别结果:图 1-1Face+ 开放平台表情识别结果(2)腾讯优图作为Tencent 顶级的人工智能研发团队,该团队专注于图像处理、模优图式识别、深度学习。优图在人脸检测、五官、人脸识别、表情识别、图像理解等领域都有着深厚的积累和技术底蕴,其科研能力与技术实际落地水平也一直处于行业最前列4。以下为使用腾讯优图情识别结果:提供的开放平台所得到的表3华技 大学图 1-2Face+ 开放平台表情识别结果(3)Tuputech(科技)Tuputech 是国内顶尖的专注于计算机视觉和深度学习领域的创新型人工智能公司,致力于引领人工智能的科研与技术落地

21、5。Tuputech 在智能鉴黄、证件识别、检测、人脸识别、表情识别、图像理解等方面都有着的科研与深厚的技术积累。以下为使用科技的开放平台所得到的表情识别结果:图 1-3Tuputech 表情识别效果图同时人脸识别技术也一直是国外研究机构追逐的热点,其中在国外具有代表性的公司及研究机构如下:(1)Microsoft Azure微软作为最早从事人脸识别研究,并最早推出人类识别应用的顶尖 IT 公司之一,其在人工智能领域所取得的性成就也是世界公认。以下为调用其开放接4华技 大学口所得到的表情识别结果图:图 1-4Microsoft Azure 表情识别结果图(2)IMOTIONSIMOTIONS

22、公司作为国外最早从事表情识别研究的机构之一,从 2005 开始持续在人脸识别、视线跟踪、人脸表情分析等领域对原有方案做出新的改进,其在流中对人脸表情持续监测的技术目前处于业界前列。以下为其在流中对人脸表情持续性监测的效果图:图 1-5IMOTIONS流中表情识别效果图通过对国内外顶尖研究机构及商业团体目前在表情识别领域的最新进展与测试结果的研究可以得出:目前在计算机视觉领域,人脸识别仍然是各大商业团体追逐最为焦灼的热土,表情识别作为人脸识别领域更为次的探究,仍有较大提升空间与研究价值。1.2.1人脸基本表情定义人脸表情识别(Facial Expression Recognition,FER)技

23、术通常由人脸检测、人脸5华技大学区域提取、表情特征提取、表情分类四个关键部分组成,各组成部分分别对图像中的人脸进行检测与特征提取及最终的分类。著名心理学家P.Ekman 和 Friesen归纳总结了高兴 Happy、悲伤 Sad、惊讶 Surprise、平静 Nature、愤怒 Angry、厌恶Disgust 等几种常见人类表情特征6,并在此基础上系统地建立了覆盖人类所有基本情绪的人脸表情图像库。人类常见表情的研究与人脸表情图像库的建立,为此后人类对人脸表情识别的研究与发展奠定了基本的理论基础与 准则7。人类常见基本表情的确定,成为了后续人类表情识别相关研究的基础,也为推动人类表情识别相关技术

24、的发展与技术的实际落地做出了巨大的贡献。1.2.2人脸运动编码系统(FACS)美国心理学家 P.Ekman 和 Friesen 于 1978 年提出了著名的人脸运动编码系统(Facial Action Coding System, FACS)用于描述人类面部表情和研究人类的认知行为,将整个面部结构划分为 46 个运动单元(Action Unit,AU),并对其所表征的相关表情进行了大量的归纳统计与深入研究8-10。研究还对其中每一个运动单元的表息与具体特征做了详尽的分析与统计,如运动单元 1,常见人脸面部特征为眉间上扬、眼距增加,通常表示此人当前可能处于惊讶、恐惧或者悲伤的心情状态,对每个基本

25、运动单元表情特征的研究与统计成为了人脸运动编码系统的基础。人脸运动编码系统于 2002 年推出了更新的AU 划分方式,新的基本运动单元划分方式在原有系统方式基础之上,进行了小部分增加和修改,然而 46 个基本运动单元的划分是目前计算机视觉人脸表情识别领域的权威参考准则与划分标准,目前各大研究机构及商业公司均在数据集上进行着人脸方面的各项研究及技术落地。如表1-1 人脸运动编码系统常见运动单元中所整理,该表中列出了部分基本运动单元在人脸面部中的具体形态与所对应的常见情绪种类,虽然人脸运动编码系统仅定义了46 种人脸基本的运动单元,但是通过不同人脸基本运动单元的组合,基本可以塑造出人脸面部所有的面

26、部特征与表情种类,此种运动单元的划分方式表现了人脸运动编码系统所具有的灵活的组合性能与极强完备性,46 种人脸基本的运动单元的组合了本文后续表情研究的基础,也为其他与人脸表情相关的研究提供了重要的理论依据与参考标准。6华技大学表 1-1FACS 常见运动单元(AU)正是因为 FACS 中AU 所具有的灵活性与适配性,FACS 成为了人脸表情识别领域不同表情划分与评判的理论基础与评判准则11,为推动计算机学习识别人类情绪做出了划的意义,同时也为计算机视觉领域关于表情的研究奠定了坚实的基础。1.2.3表情识别方法概述人脸表情识别通常由(1)人脸识别;(2)人脸图像获取;(3)人脸图像预处理;(4)

27、表情特征提取;(5)分类器设计;(6)表情分类识别,这几个基本流程所组成12。首先,计算机通过摄像头对人脸进行采样识别,进行准确后获取人脸图片,接着将得到的人脸图片进行预处理。最后,对预处理后的人脸图像进行表7AU/常见情绪运动特征/ 面部图像面部表现AU/常见情绪运动特征/ 面部图像面部表现1(惊讶、恐惧、悲伤)1. 眉毛上扬2. 眼距增加2/(惊讶、恐惧)1. 眉外侧上升2. 额外侧收缩4/(恐惧、愤怒)1. 降眉间肌2. 眉毛下压9/(愤怒、厌恶)1. 皱起鼻肌2. 眉外侧降低12/(愉快、假笑)1. 嘴角上扬2. 脸部堆积20/(恐惧、焦虑)1. 唇角外拉2. 鼻孔扩张23(愤怒、不满

28、、焦虑)1. 收紧双唇2. 嘴唇前突26/(惊讶、恐惧)1. 下巴降低2. 双唇华技大学情特征提取,并通过设计好的人脸表情分类器对图片进行表情分类识别。图 1-6传统人脸识别的主要流程常用的表情特征提取方法有:(1)主动形状模型(Active Shape M, ASM)根据 FACS 的基本运动单元划分准则,可以发现各表情之间具有相对应的面部生理和运动特征,因此,我们可以通过对这些表征人脸表情的面部进行几提取。主动形状模型(ASM)通过对训练集中标定的人脸特征点进行学何特征习,然后再通过搜索最佳匹配点对人脸特征点进行13-15。在人脸标定中以人脸特征点的坐标依次串联组成一个类似人脸形状的表征&

29、#119883;",这里𝑋"即为人脸的表征。,𝑋 =𝑥 ,𝑦 ,𝑥 ,𝑦 ,𝑥,𝑦(1.1)""%"%"'"'"()*')"()*')图 1-7人脸常见关键特征点标定图8华技大学(2)光流法(Optical Flow, OF)光流的概念是 Gibson 在 1950 年首次提出来的。光流法是通过观察运动物体在成像平面上像素点运动的速度分布,利用相邻

30、帧间存在的相应关系,计算出运动物体法16-19。光流中包含了相邻帧之间人脸对象的运动信息,根据这些运信息的动信息可以确定人脸运动类别。由于光流法所提取的是运动物体间相邻帧的信息,因此,在人脸表情的动态分析中被广泛使用。(3)纹理特征提取法纹理特征虽然是一种全局特征,但不能完全反映出对应物体的本质属性,所以次的图像内容20,21。但是对于人脸表情的形状,在很大程度上能表征人的表情,仅仅依靠纹理特征无法获得目标物体更识别而言,人脸面部肌肉的不同变化所这种变化通过人脸表面轮廓的舒张可以在图像中显著的表现出来,通过提取这些人脸表面的纹理特征可以对人脸表情进行识别。1.3主要工作内容(1)研究如何改进人

31、脸表情识别问题中人脸位置标定的问题在传统基于人脸特征所进行的人脸识别中遇到半遮挡、侧面、歪斜、弱光等恶劣环境下无法准确人脸的问题,设计了一种并联PNet 卷积层的改进型多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks, MT人脸位置标定精度,为后续表情识别提供了准确的人脸数据。(2)研究如何改进人脸表情识别中特征提取的问题)提高为了增强输入人脸表情图片所包含信息,提高表情特征提取效果,将人脸轮廓(含脸部轮廓,眼睛,鼻子,嘴巴)进行提取,并对其进行灰度增强处理后为伪彩色,并设计了一种基于轮廓增强的卷积神经网络(Contour Reinf

32、orcement Neural Network, CRNN)用以解决上述问题。(3)在公开的人脸数据集 wider face、CK+中对上述改进方案进行了实验测试与数据分析,证明了其在人脸表情识别方面比传统的人脸特征提取方案的确具有更高的效率与更好的准确率。主要分为五个章节,每个章节所包含的内容以及各个章节之间的关系如下:9华技大学第一章绪论部分。概括性的介绍了人脸表情识别的研究背景、研究意义、应用前景。并介绍了人脸表情的基本定义、人脸运动编码系统、传统人脸识别方法以及国内外人脸表情识别研究的最新趋势与进展。第二章相关技术分析。介绍了深度学习相关的基本原理与卷积神经网络的基本工作方式,并对人工

33、神经网络及卷积神经网络中的基本结构与要素做了简要的说明与阐述,接着简要介绍了实际应用中人脸检测网络模型 MT学习在计算机视觉领域的作用与实际应用做了简要说明。,最后对深度第三章表情识别算法设计。主要对所设计的人脸检测模块、人脸表情识别模块进行了详细阐述,说明了人脸检测模块的设计原理,人脸检测模块的网络结构,网络模型训练过程;同时,对增强轮廓型处理的过程及结果,进行了原理性阐述与处理前后样本效果图对比,然后对新提出的 CRNN 网络进行了网络结构分析、训练过程阐述及与 AlexNet 网络结构对比,最后完成并实现了该人脸表情识别系统。第四章实验结果与数据分析。对上一章节中所设计的人脸检测模块、人

34、脸表情识别模块进行检测,最后通过实验测试与数据分析,证实了所设计的人脸检测模块具有较高检测准确率的同时,还具有训练效率高,运行速度较快等优点,所设计的人脸表情识别模块的确有助于提高人脸表情识别的准确率。第五章总结与展望。总结性地介绍了整篇的工作成果与最终结论,并对人脸表情识别中仍需优化的问题给予了新的思路与优化意见。10华技 大学2相关技术分析深度学习(Deep Learning)是学习(Machine Learning)的一个分支,它能够使计算机通过层次概念来学习经验和理解世界22。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。深度学习问题中采用的模型一般

35、比较复杂,样本的原始输入到目标输出之间的数据流通常会经过多个线性或非线性的组件。本章将介绍人工神经网络的定义与基本结构、卷积神经网络的定义与结构,并将简要介绍人工神经网络中的反向算法及卷积神经网络中各层的层级结构及实现原理。2.1人工神经网络2006 年,“深度置信网络23-25”被发布在了著名期刊Science上,该概念的提出极大影响了人工神经网络的发展。深度置信网络通过计算预处理让整体的网络结构得到一个相对最优值,在此最优值的基础上通过微调技术,来对整个网络进行优化26。2012 年 Hinton 团队用 Yann LeCun 所成名的网络中所提及的 Fine-turning 技术,打败了

36、其他传统的网络结构及上面深度置信学习方法,一举赢得了ImageNet 的图片分类项目冠军,自此深度学习迎来了蓬勃的发展与追逐的热潮27。图 2-1人工神经网络的发展历程,图 2-2 展示了生物学上的神经元和人工神经网络中神经元是神经网络的基本11华技大学的神经元,可以看出人工神经网络中的神经元是生物学神经元的粗略模拟和结构。图 2-2生物学与人工神经网络中的神经元对于图 2-2 中人工神经网络神经元的输入输出关系,我们可以用如下方程组进行描述:)𝑧 =𝑤" 𝑎" + 𝑏(2.1)(2.2)(模拟生"1

37、't其中𝑎"𝑎:为输入=g(z)(如图 2-2 中输入信号𝑥',𝑥),𝑤'𝑤:为物学神经元突触),b 是偏置量(图 2-2 中偏置节点为+1),a 为经过激励函数 g(z)后的最终输出。多个神经网络基本的级联了人工神经网络,神经元通过从上层到下层串联的方式连接,信号在两级的神经元之间传递带上该神经元对应的。图2-3 展示了一个简单的神经网络, 其中包括 Layer 𝐿'输入层,Layer 𝐿隐藏层和Layer 𝐿

38、;=输出层。在图 2-3 所示的人工神经网络中,Layer 𝐿'中 4 个节点均称为“输入节点”,Layer𝐿中最下为偏置节点,只固定输出不接受任何输入。如图 2-3 所示的简单人工神经表示为: (𝑊,𝑏) =网络通过人工神经网络数学模型可以简单地用数学表(𝑊('), 𝑏('), 𝑊(;),𝑏(;) )。因此,当 l=1 时,a(') = x。在给参数 W,b 的情况下,依次对神经网络模型中的单个节点计算后面每一层的输出值,这一依次对输

39、入信号进行向前传递的过程即为前向。图 2-3 展示了一组基本的神经网络结构中前向的示意图,各节点从前依次传递传入信息,输入信息经过各节点不同处理后传递。12华技大学图 2-3神经网络前向示意图a ;= f(W(')x'W(')x;W(')x=b(') )+(2.3)'''''='a ;= f(W(')x'W(')x;W(')x=b(') )(2.4);'=;a ;= f(W(')x'W(')x;W(')x=b(') )(

40、2.5)='=;=(x) = a= f(W(;)a ; +W(;)a ;W(;)a ;b(;) )=h+(2.6)F,G''''''='a # a # a # h&,(x)分别表示图 2-3 所示人工神经网络中第 2 层第 1 个节"#$点,第 2 层第 2 个节点,第 2 层 3 个节点以及最终节点的输出信号。将公式 2.6 括和W(;)a ;+ b(;) 定义为参数W(;)a ;W(;)a ;+号里较长的输入信号''''.'='z($) l i z (W(-)

41、x,b(-) ),则节点输出=+",/-"","可以简化为a H = f(z(H) ) 。图 2-4神经网络反向示意图13华技大学梯度下降(Gradient Descent)即通过求得函数当前点所对应的梯度值,沿着梯度的反方向前进一定的步长得到新的点,然后在此点的基础上依次迭代搜索可以得到该函数的局部最小值28。由图 2-4 不难发现,输出层节点e 的前置节点为隐层节点c 和d,因此对于节点e 的误差不可能被节点 c 独有,而是要服从按劳分配的原则(按权重 W 分配)。同理输出层节点 f 的误差也需服从按劳分配的原则,而输出层的节点 e 分别指向了隐层节

42、点 c 和 d,因此对于节点 e 的误差可以表示为:% ()% ()!"#=&&!+&(!()()+#()()+-(2.7)%&& %(&%&( %(% ()% () &&&(!"#"$!+#+$% () % ()% () % ()&&(&()&() (2.8)!%(&%(% () % ()% () % ()&&(&&(2.2卷积神经网络()卷积神经网络是一种深度前馈神经网络,该网络结构中的神经元除了关注自身特征外

43、还能与周围神经元协同处理,尤其是在计算机视觉与图像处理领域有着出色的表现29,30。2.2.1网络结构一个卷积神经网络通常由若干卷积层(Convolution Layer)、(PoolingLayer)、全连接(Dense Layer)组合而成。其常用组合模型为:输入层(Input Layer)>卷积层(Convolution Layer) >(Pooling Layer) >卷积层(ConvolutionLayer)>(Pooling Layer)>.>全连接(Dense Layer),即 N 个Convolution Layer 叠加,然后接上一个 Po

44、oling Layer,重复此卷积子结构 M 次,最后接入 K 个 Dense Layer。一个通用的神经网络结构可以用以下形式所表示:(1)Input Layer(输入层)(2)Conv 卷积 >Relu 激励 N>Pooling M(隐藏层)14华技大学(3)Dense>Relu K(激活层)(4)Dense Layer(全连接层)图2-5 是展示了一个典型的卷积神经网络结构,其中N=1,M=2,K=1,即该基本卷积神经网络结构中包含了一个卷积层接一个,然后重复该结构两次最后接一个全连接层。图 2-5典型卷积神经网络()网络结构从图 2-5 中可以发现卷积神经网络的层级结

45、构和 Full Connection 的层级结构有较大差异。Full Connection 中每层的神经元以一维的形式排列,层与层之间全部连接,各节点与下一层中的所有节点均有;中每层的神经元是以三维的形式排列,整体一个长方体的形状,其中包含了宽度、高度和深度。2.2.2卷积层卷积神经网络与传统计算机视觉中图像的卷积区别在于,传统计算机视觉中用于计算的卷积核是已知的,如常用的边缘检测算子、Gaussian Blur 等,将这些已知的卷积核与输入图像进行卷积运算。Deep Learning 卷积神经网络中的卷积核是未知的,通过 Deep Learning 训练一个神经网络模型,其本质就是不断学习训

46、练得到符合实际需要的卷积核。卷积核的本质就是特征提取器,也称之为过滤器Filter,卷积核通过对图像中特征的提取归纳总结出一定的规律,自我学习与训练,最终收敛到一组符合用户预期的数值上31。图 2-6 给出了使用一组有关颜色的卷积核对左侧图片进行一层卷积运算后得到右侧图片的效果图,表明了卷积核的本质的确是对图像特征进行过滤与提取。15华技 大学图 2-6单层卷积运算前后图像对比效果图2.2.3的本质就是对输入图像做下采样处理,常用的图像下采样方式有:Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping (重叠采样)、L2 pooling(均方采样)

47、、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等。图 2-7最大值采样()过程其中最为常用的图像下采样方式就是最大值采样,如图 2-7 展示了对输入图像进行最大值采样的过程。图中左侧输入矩阵左上角 22 的子矩阵中最大值为 6,右上角 22 的子矩阵中最大值为8,左下角22 的子矩阵中最大值为3,右下角22 的子矩阵中最大值为4,所以得到图 2-7 中右侧部分的(最大采样)结果为:6 8 3 4。通过处理,减少了数据量,降低了数据的计算难度,但是同时也会带来一定精度伤的损失。16华

48、技大学2.3多任务级联卷积神经网络(MT)MT是 2016 年由先进技术乔宇教授组所提出的一种级联卷积神经网络模型,该级联神经网络分为 3 个网络层级模块,Proposal Net(PNet),Refine Net(RNet),Output Net(ONet)。在该级联神经网络结构中:(1)PNet 子神经网络模块通过对原图进行 Resize 处理,得到关于原图的图像金字塔,然后以全连接的方式对图像进行特征提取,矩形框的滑动得到候选的人脸图像区域块(矩形块),然后通过非最大抑制(NMS)合并对 IOU 较高的候选区域进行合并,对图片中所有的候选区域做粗略的筛选与修正。第一阶段的神经网络结构的作

49、用基本可以概括为图片为人脸或是脸的判定。图 2-8PNet 层网路结构图(2)RNet 子神经网络模块的作用是对经 PNet 层后剩下的所有窗口进行更进一步的筛选与甄别,也是通过矩形框图的滑动和最大抑制的方法,RNet 子神经网络结构一般和 PNet 结构相似,对 PNet 层输出的带矩形窗口的图像做 Resize 操作后作为RNet 层网络模块的输入。第二阶段的神经网络结构的作用基本可以概括为人脸候选区域的合并与修正。图 2-9RNet 层网路结构图(3)ONet 子神经网络模块的作用与 RNet 相似,ONet 不仅对通过 RNet 模块后17华技大学的图像中的窗口进行筛选,再通过人脸的

50、5 个关键特征点对图像中的窗口做了进一步的筛选,最终得到人脸输出结果。第三个阶段段的神经网络结构的作用基本可以概括为 5 个关键点的与人脸区域的修正。图 2-10ONet 层网路结构图2.4本章小结本章第一部分从人工神经网络的讲起,介绍了人工神经网络的、人工神经网络的架构模型和基本原理,并详细介绍了其中的前向算法和反向算法,并对其中解决了困扰人工神经网络线性不可分问题的 BP 算法进行了原理阐述,最后介绍了人工神经网络训练过程中误差更新的原理;本章第二部分详细介绍了在图像领域有影响的卷积神经网络,分别从其网络结构、卷积层、三个方面展开,详细介绍了卷积神经网络中各层的原理与作用;本章第三部分简要

51、介绍了中所涉及到的 MT人脸检测算法,MT的基本网络结构及MT的三个主要的网络模块,接着对三个重要络模块的具体结构及各网络模块的作用进行了简要的说明。本章从人工神经网络的提出到深度学习的,再到反向算法的原理,最后是实际应用中人脸检测网络模型 MT论基础和其在图像处理领域的实际应用。,比较清晰地阐述了深度学习的相关理18华技大学3表情识别算法设计自上世纪 50 年代人工神经网络模型被提出起,人脸检测一直是计算机视觉领域研究的热土,无数科研在此投入了大量的时间与精力。一方面是因为研究对人类自身生理特征的好奇,更重要的一方面是人脸检测是表情识别、人脸识别、检测、等一系列更次人脸研究的基础。在传统基于

52、类似人脸Haar 特征所进行的人脸识别中遇到半遮挡、侧面、歪斜、弱光等恶劣环境下无法准确人脸的问题,本文设计了一种并联PNet 卷积层的改进型多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks, MT)。在此人脸检测技术的基础上,由人类视觉系统具有亮度差异性、色彩敏感性这一特点出发,本文提出了对样本进行增强轮廓型处理可能提高人脸识别准确率的猜想,并在此猜想上设计了一种基于轮廓增强的卷积神经网络(Contour Reinforcement Neural Network ,CRNN)。3.1人脸检测模块设计传统基于 Haar 特征的人脸检测

53、,采用矩形块或其他图形块对人脸区域进行筛选,构建多层级联的逐层筛选结构,多个弱分类器级联然后接强分类器构建一层筛选结构,然后多个这样的层级筛选结构级联了整个检测系统。该种筛选结构对人脸特征进行由弱到强的逐级筛选,具有训练方法简单,层级结构明确等优点。然而由于其粗略的矩形块筛选方法,图片中的半遮挡、侧面、歪斜、弱光等恶劣环境的人脸特征时,由于人脸特征不明确,残缺的人脸很难通过所设计的多层分类网络,从而出现人脸图片无法被检测的状况。上述传统人脸检测方法中的问题,本文将改进型的多任务级联卷积神经网络算法用于系统的人脸检测部分,多组不同任务的级联,解决了传统人脸检测中,训练时间长、恶劣环境下识别准确率

54、低的问题。3.1.1并联型 MT通过对单个的卷积神经网络模型的训练,目前我们已经可以对大数据集下的单19华技大学张图片做简单的分类,同时可以对单张图片中的多种物体进行一定准确度的物体识别。由于目前的硬件计算能力与训练策略的限制,目前研究者在训练足够次的卷积神经网络方面还有一定的,无法在单个卷积神经网络模型中完成多样性特征的提取。图 3-1级联卷积神经网络结构图既然目前的技术及硬件条件下无法继续增加单个卷积模块的深度,研究者提出了将多个浅层的神经网络进行级联的方案,单个浅层卷积网络模块的级联,可以使得单个模块的参数与过滤条件尽量少,每个卷积模块的所需训练的参数量相比单个卷积神经网络模块而言有了很大的降低,而且level 越高的卷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论