【《基于深度学习的人脸表情识别算法研究的国内外文献综述》5400字】_第1页
【《基于深度学习的人脸表情识别算法研究的国内外文献综述》5400字】_第2页
【《基于深度学习的人脸表情识别算法研究的国内外文献综述》5400字】_第3页
【《基于深度学习的人脸表情识别算法研究的国内外文献综述》5400字】_第4页
【《基于深度学习的人脸表情识别算法研究的国内外文献综述》5400字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

V基于深度学习的人脸表情识别算法研究的国内外文献综述人脸表情识别的心理学模型表情识别离不开心理学的研究,随着研究的深入,心理学家一直在不断丰富表情的描述方式。现有的表情的描述方式主要有三类:离散表情是一种最直观的表情描述方式,将表情示定义为有限的几个离散类别。最经典的离散表情模型由Ekman和Friesen在1992年提出,表情被分为7种种基本类别,包括高兴、惊讶、愤怒、悲伤、恐惧、厌恶、蔑视[3]。随后,Du等人对离散表情类别进行细化,又引入了15种复合表情[4],将离散表情的类别扩展为21种,其中“蔑视”表情并没有包含在Du的离散模型中。人脸动作单元(ActionUnits,AUs)从解剖学角度,对面部肌肉运动进行编码。美国心理学家保罗·艾克曼等人深入研究了不同职业、不同种族、不同特征的各类人群,总结了面部肌肉运动的规律,以及离散表情与肌肉运动的关系,定义了一套完善的编码系统(FACS)来描述人脸表情。在FACS编码系统框架下,表情被描述为面部肌肉运动的结果,离散表情可以被分解为若干独立的动作单元,这样做的意义在于,对一些微弱的、瞬间的面部变化,也许无法将其归类为某种离散表情,但是它们在一定程度上,也能反映瞬间的情感状态。FACS为我们提供了一种研究微弱面部变化的理论基础。维度情感空间是一种定量的表情描述方式,可以刻画表情的连续变化过程。在这种描述方式下,可以将表情定义为连续空间中的一个点。目前最常用的是Russell等人[2]提出的愉悦度-激活度(Valence-Arousal)空间。愉悦度反映情绪的正负倾向,激活度反映情绪的强度。以上三种表情描述方式侧重点各不相同。离散表情是一种定性的描述方式,容易被普通人直观的理解;而愉悦度-激活度空间则是对情感的一种定量描述方式,能提供更丰富、更连续的信息;而人脸动作单元则侧重于对特定区域的微小肌肉运动的描述。图1给出了这三种情感表示方式的具体例子,图像数据来源于Aff-wild2数据集[5]。图SEQ图\*ARABIC1三种表情描述方式的示意图人脸表情识别算法研究概述表情识别流程大致可分为三个主要步骤:数据预处理、特征提取和输出预测结果。根据每个步骤所用方法的不同,又可以将人脸表情识别细分为多个方向。根据输入数据内容的不同,可以分为受控场景表情识别[12],[13],[14],[15]和自然场景表情识别[5],[16],[17]。受控场景表情识别是指在固定的、无干扰的环境下进行的表情识别,这类研究的重点在于,忽略一切无关因素,研究表情特征的表示方法、分类方法等问题,主要意义在于学术价值。而自然场景表情识别是指在任意不受控场景下进行的表情识别,研究的重点则在于如何更好地排除干扰,提取更鲁棒的特征,这在学术界和工业界都存在价值。根据特征提取方式的不同,可以分为基于静态图片的表情识别[18][19],和基于时空特征的表情识别[20],[21],[22]。基于静态图片的表情识别方法仅考虑当前帧的信息,这类方法优势在于对于数据的依赖较少,而缺点是忽略了时间上下文信息。其主要应用于无法获取连续视频的场景,例如网络带宽受限的场景,或对识别精度要求不高,但对识别速度要求更高的场景。基于时空特征的表情识别方法的输入是连续的视频序列,这类方法依赖更大量的数据输入,优势在于可以从视频上下文中学习到更丰富的特征,但是对于设备的运算能力和数据获取能力要求更高,通常用于需要精确识别结果的场景。根据输出的表情描述方式的不同,可以分为离散表情分类、动作单元检测和连续情感回归等。离散表情分类也就是传统意义上的表情识别,本质上是一种多类别的分类问题(Multi-ClassClassification)。动作单元检测的目的是判断人脸上存在哪些动作单元,本质上是一种多标签二分类问题(Multi-LabelClassification)。愉悦度-激活度回归是从愉悦度、激活度这两个维度输出预测结果,其输出形式上是一个连续数值,因此是一种回归问题。由于这三类任务存在共性,一些工作使用多任务学习来学习其共享特征表示,并且提升了在三个任务上的泛化能力[7],[20]。传统人脸表情识别算法研究现状特征提取方式在计算机视觉研究的早期阶段,受限于当时的计算机性能,人们主要使用传统的图像处理方法来进行特征提取。表情识别算法通常需要先检测到人脸区域,最早的人脸检测器包括2001年的Viola-Jones检测器[23]和2005年的HOG人脸检测器[24]。Viola-Jones检测器依赖的Haar特征,最早由PapageorgiouC.等人提出,后又由PaulViola等人改进,提出借助积分图(IntegralImage)加速特征计算[25]。HOG特征对梯度直方图进行统计,是另一种传统图像特征,最早由Dalal等人提出[26]并用于行人检测任务,在此基础上,Porikli等人对其进行改进[27],提出可以加速计算的积分直方图(IntegralHistogram)方法。获取到人脸区域后,再通过传统图像算法,提取人脸区域的几何纹理特征。传统人脸特征提取方法总体分为两类,分别是基于静态图片的特征提取和基于视频序列的特征提取。基于单帧图像的人脸特征有局部二值模式(LBP)特征[28]、Gabor特征[29]、ASM[30]/AAM[31]特征等。LBP特征由Ojala等人于1994年提出,是一种性能良好纹理特征算子,由于LBP基于局部微小区域进行计算,因此也具有旋转、光照不变性等特性。Gabor特征是另一种图像纹理特征,相比于LBP特征,Gabor特征更加鲁棒,但是计算开销也更大。与纹理特征不同的是,主动纹理模型(ActiveShapeModel,ASM)是一类基于形状的特征,通常是将一系列特征点串联成线来表示形状。而主动外貌模型(ActiveAppearanceModel,AAM)可以看做是ASM与纹理特征的结合,通常有比ASM更好的性能。局部二值模式(LBP)等方法虽然能够较好地表征二维图像的纹理特征,但是无法处理视频序列中的时序信息。因此,Zhao等人于2007年提出LBP-TOP特征[32],将LBP算法从二维扩展到三维,不仅在X-Y平面内进行计算,同时也在正交的X-T和Y-T平面内计算LBP特征,已经被广泛应用于视频表情识别。对于动作单元(AU)识别任务,考虑到AU发生时间短、变化幅度小的特点,研究者提出使用光流法[33]来捕捉肌肉运动特征。Liu等人[34]提出主方向平均光流法,将面部分为36个感兴趣区域,计算每个区域的光流方向直方图,来描述每个区域运动情况。Liong等人[35]提出一种更加精简的AU识别方法,该方法没有使用完整的视频序列特征,而是仅在AU峰值所在帧和AU起始帧提取特征,计算这两帧之间的光流方向直方图,作为简化版的光流特征。模型输出方式提取到人脸图像特征后,需要进一步使用机器学习模型,完成分类、回归等具体任务,所选用的机器学习模型通常可以根据任务需要进行更换。对于人脸检测任务,传统方法通常使用集成学习的方式。借助一系列弱分类器,实现最终的强分类效果。这种流水线式的分类方法的好处是,能快速排除一些不包含人脸的区域。对于离散表情分类、AU检测等分类任务,一般采用支持向量机(SupportVectorMachin,SVM)或随机森林(RandomForest,RF)作为分类器。对于连续维度情感回归任务,通常使用支持向量回归(SupportVecotorRegression,SVR)实现。基于深度学习的人脸表情识别算法研究现状特征提取方式为了克服手工特征提取的局限性,研究者开始使用基于深度学习的方法来提取特征。深度学习特征提取也可分为基于单帧图像和基于时空特征两种方式。基于单帧图像的特征提取通常基于卷积神经网络CNN结构。Ali等人[36]指出,传统手工特征提取方式的泛化能力较差,通常只针对特定数据集进行优化,很难泛化到全新数据上。通过增加Inception结构,在不显著增加运算开销的情况下,提升网络的泛化表达能力。Ding等人[37]指出,深度学习的泛化能力需要从巨量数据中训练得来,而很多任务很难获得类似ImageNet的大规模数据集,表情识别就是其中之一。通过迁移学习和精心设计的两阶段训练方式,Ding等人成功将深度卷积神经网络应用于小数据集上。针对单张图片中存在的头部姿态问题,Vo等人[38]引入STN网络,在空间维度上对人脸进行变换,使侧脸表情转正,从而让侧脸表情更容易被准确识别。Chen等人[18]提出了一种基于表情先验生成掩模的特征提取方式。考虑到不同基本表情对应的面部活跃区域通常不同,通过计算每种表情的平均脸,然后计算与中性脸的差异,得到7种基本表情的GroundTruth掩模。在训练阶段,训练GAN子网络来自动生成每张输入样本的掩模,并通过先验融合层(PriorFusionNet,PFN),将掩模应用到人脸特征上。基于时空特征的特征提取方法中,Meng等人提出一种效果显著的帧注意力机制模型FAN[60],该模型设计了两种注意力权重,原文称为Self-Attention与Relation-Attention。作者这里所定义的Self-Attention与Google论文[39]中定义的自注意力机制有所不同,Meng的Self-Attention是通过简单的MLP层对单帧特征计算粗略的注意力权重,而Relation-Attention则是将多帧特征与当前帧特征进行拼接后,使用MLP层计算当前帧的权重。最终,通过加权求和将所有帧的特征进行融合。Romero等人[40]将光流特征与卷积神经网络CNN相结合,并且通过基于统计的方法对光流进行平滑操作。由于循环神经网络可以高效地处理时序数据,Khorrami等人[41]提出将卷积特征与循环神经网络RNN进行组合,使用RNN模型来建模时序信息,逐帧计算CNN的特征图,得到逐帧特征向量并组合成序列,送入RNN进行学习。这种方式的缺陷在于,RNN接收的特征向量已经丢失了一部分空间信息。因此,Shi等人[42]首次提出Conv-LSTM方法,在LSTM的输入层和中间状态层,使用卷积运算替代了向量运算,从而避免了空间特征的丢失,实现了真正的时空特征提取。在动作识别领域,Tran等人提出C3D模型[43],使用3D卷积同时提取时间和空间维度的特征,在视频相关任务中都取得了较好的效果。模型输出方式基于深度学习的模型通常采用端到端的训练方式,一般做法为,使用全连接层作为输出层,并根据学习任务,设计合适的损失函数,指导全连接层学习分类或回归等任务。对于离散表情分类任务,通常使用Softmax函数输出多分类结果,并结合交叉熵损失进行优化;对于AU检测任务,通常使用Sigmoid函数输出二分类结果,并结合二元交叉熵损失进行优化;对于连续维度情感回归任务,通常为每个维度使用一个单神经元节点输出回归结果,并结合均方误差损失函数进行优化。除了此类常规实现外,在2013年,Tang等人[44]使用支持向量机SVM作为分类器,参与端到端学习,并用基于margin-based损失替换传统交叉熵损失,为深度学习方法提出了一种新思路,但此类方法并未发展成为当今主流。自然场景下的人脸表情识别算法研究现状目前,许多情感识别算法研究仅局限于受控场景。这一类数据通常不考虑环境背景、光照、头部姿态、相机镜头移动等噪声因素的干扰,适合进行理论研究,但是在现实场景下应用效果不佳。因此,自然场景下的情感识别研究受到越来越多关注。所谓自然场景,就是从不受约束的环境中采集的数据,例如,从视频网站上采集的用户自己录制并上传的视频。自然场景下人脸表情识别的挑战主要有:局部噪音问题针对自然场景噪音问题的一种有效解决方案是引入注意力机制。在基于静态图片的情感识别中,Li等人[45]将人脸图像划分成若干固定大小的图像块,再通过注意力机制,为每个图像块分配注意力权重,对于有噪音的区域给予较小的权重,最后将所有块特征进行融合,得到完整图像的特征表示。Wang等人[46]提出类似的基于区域的注意力模型,在区域选择上,尝试了三种方式:固定位置裁剪、随机裁剪和基于人脸关键点的区域裁剪。在基于视频序列的任务中,研究者采用自注意力机制,计算任意时空位置之间的依赖关系。Wang等人[47]提出Non-Local层,使用自注意力机制建立图像上两个任意距离的像素之间的联系,或建立视频里两个任意时空位置之间的联系。Transformer模型[39]最早被提出应用于自然语言处理领域,近期,有研究者将Transformer模型扩展到计算机视觉领域,对于图片分类问题,Dosovitskiy等人提出了ViT模型[48],用于图片分类任务。该模型仅使用了Transformer的编码器部分,并且添加了可学习的分类节点和多层感知机分类器。长尾数据分布长尾数据分布是指,少数类别的样本占主导,而多数类别仅有少量可获得的样本。在表情识别数据中,长尾数据分布十分常见。一方面,中性表情往往占绝大多数;另一方面,高兴表情比厌恶、恐惧等消极表情更容易被观测到。如果不针对数据分布进行调整,模型将会产生标签偏见(labelbias)问题。一种解决方案是,在预处理阶段,使用数据增强技术来平衡类别分布。另一种选择是,在训练过程中,为模型设计一个对数据分布敏感的损失函数。人工标注误差即使是受过严格训练数据标注者,在面对自然场景数据时,也难免会做出有误差的标注,导致训练集中混入脏数据,影响算法学习真正有效的特征。Wang[49]等人通过排序正则化模块,对每个样本进行有效性排序,为潜在的脏数据(标注误差、图像模糊等)分配更低的权重。再通过重标注模块,对可能存在标注误差的样本分配新的标签。参考文献EkmanR.Whatthefacereveals:BasicandappliedstudiesofspontaneousexpressionusingtheFacialActionCodingSystem(FACS)[M].OxfordUniversityPress,USA,1997.RussellJA.1980.Acircumplexmodelofaffect.JournalofPersonalityandSocialPsychology,39(6):1161-1178[DOI:10.1037/h0077714]EkmanP(1992)Anargumentforbasicemotions.CognEmotion6(3-4):169–200.Du,S.,Y.TaoandA.M.Martinez,Compoundfacialexpressionsofemotion.ProceedingsoftheNationalAcademyofSciences,2014.111(15):p.E1454-E1462.D.KolliasandS.Zafeiriou.Aff-wild2:Extendingtheaff-wilddatabaseforaffectrecognition.arXivpreprintarXiv:1811.07770,2018.D.Kollias,et.al.:"AnalysingAffectiveBehaviorintheFirstABAW2020Competition",2020D.Kollias,S.Zafeiriou:"Expression,Affect,ActionUnitRecognition:Aff-Wild2,Multi-TaskLearningandArcFace".

BMVC,2019D.Kollias,etat.:"FaceBehavioralacarte:Expressions,AffectandActionUnitsinaSingleNetwork",2019D.Kollias,et.al.:"DeepAffectPredictionin-the-wild:Aff-WildDatabaseandChallenge,DeepArchitectures,andBeyond".InternationalJournalofComputerVision(IJCV),2019S.Zafeiriou,et.al."Aff-Wild:ValenceandArousalin-the-wildChallenge",CVPRW,2017D.Kollias,et.al."Recognitionofaffectinthewildusingdeepneuralnetworks",CVPRW,2017MavadatiSM,MahoorMH,BartlettK,etal.Disfa:Aspontaneousfacialactionintensitydatabase[J].IEEETransactionsonAffectiveComputing,2013,4(2):151-160.X.Zhang,L.Yin,J.F.Cohn,C.S.,M.Reale,A.Horowitz,andJ.M.Girard.Bp4d-spontaneous:ahigh-resolutionspontaneous3ddynamicfacialexpressiondatabase.ImageandVisionComputing,32(10):692–706,2014.LuceyP,CohnJF,KanadeT,etal.Theextendedcohn-kanadedataset(ck+):Acompletedatasetforactionunitandemotion-specifiedexpression[C]//2010ieeecomputersocietyconferenceoncomputervisionandpatternrecognition-workshops.IEEE,2010:94-101.GoodfellowIJ,ErhanD,CarrierPL,etal.Challengesinrepresentationlearning:Areportonthreemachinelearningcontests[C]//Internationalconferenceonneuralinformationprocessing.Springer,Berlin,Heidelberg,2013:117-124.KossaifiJ,TzimiropoulosG,TodorovicS,etal.AFEW-VAdatabaseforvalenceandarousalestimationin-the-wild[J].ImageandVisionComputing,2017,65:23-36.MollahosseiniA,HasaniB,MahoorMH.Affectnet:Adatabaseforfacialexpression,valence,andarousalcomputinginthewild[J].IEEETransactionsonAffectiveComputing,2017,10(1):18-31.ChenY,WangJ,ChenS,etal.Facialmotionpriornetworksforfacialexpressionrecognition[C]//2019IEEEVisualCommunicationsandImageProcessing(VCIP).IEEE,2019:1-4.ShiJ,ZhuS.LearningtoAmendFacialExpressionRepresentationviaDe-albinoandAffinity[J].arXivpreprintarXiv:2103.10189,2021.DengD,ChenZ,ShiBE.Multitaskemotionrecognitionwithincompletelabels[C]//202015thIEEEInternationalConferenceonAutomaticFaceandGestureRe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论