版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然场景中的情感识别目录第一章 绪论 41.1 研究背景及意义 41.2 国内外研究现状 51.3 本文的主要工作和组织结构 6第二章 情感识别相关技术与评估 错误!未定义书签。2.1 EMOTIC数据集介绍 72.2 情感识别算法设计 82.3 情感识别评估 102.4 本章小结 11第三章 自然场景下的情感识别模型 113.1卷积神经网络介绍 113.2自然场景下情感识别模型网络结构 123.3模型的损失函数设计 133.4本章小结 14第四章 实验结果及其分析 144.1数据集预处理 144.2神经网络实现细节 154.3实验结果 154.4实验分析 174.5本章小结 17第五章 总结与展望 185.1总结 185.2展望 18致谢 18参考文献 18绪论研究背景及意义随着人工智能技术的发展以及智能机器在各领域的广泛应用,人们渴望能够更深层化的开发智能机器,使机器具备和人相似的思维和情感,让机器能够真正地了解用户的意图,进而让机器更好地为人类提供智能化的服务。在智能机器研究中,自然和谐的人机交互能力受到很大的重视。情感识别作为人机情感交互的基础,能够使机器理解人的感性思维,影响着机器智能化的继续发展,成为人机自然交互的关键要素。同时,情感识别融多学科交叉为一体,其发展将会带动多学科共同发展,其应用也会带来巨大的经济效益和社会效益。因而,情感识别技术的研究具有很大的发展前景和重要的学术价值。表情识别技术是情感识别的重要研究方法之一,因为人脸表情是人们非语言交流时的最丰富的资源和最容易表达人们情感的一种有效方式,在人们交流中起着重要作用。表情作为情感的主载体,含有丰富的人体行为信息,通过脸部表情能够人的微妙的情绪反应以及对应的心理状态,因而可以看到表情信息在人与人交流之间的重要性。随着人们对表情信息的日益重视,人脸表情识别技术受到了人们的重视,成为了目前的研究热点。人类传递情感和信息主要依靠形体语言和自然语言。自然语言在时间维度上主要指文字记录,但是单独依靠文字是不足以详细地描述记录下来的信息。例如,当人们进行交流时,文字不能记录下人们当时的语气和态度,所以会使我们难以捉摸当时的具体情况,这时形体语言就能弥补这个缺点。形体语言是指通过肢体,表情等身体部位来传递情感和思想的一种语言,其中最具代表性的就是面部表情。面部表情能够表现人们真实的情感信息,在人际交往中扮演着不可缺少的角色。有研究学者发现,在人们沟通时,声音、语言和面部表情三者都能表达个人情感信息。但是语言能表达的信息最少,只有7%,38%的信息需要声音辅助传达,剩下的55%则是通过人脸表情来传递,由此可见人脸表情在人们传达情感信息时发挥着重要的作用。但是目前主流的表情识别算法还是将人脸作为唯一的检测以及训练的目标,同时现在表情的分类还是过于局限,人类的表情并不是只有最基本的6种表情,还有很多复杂的、蕴含多种情绪的表情。例如单独拿出2张只有人脸的相近似的表情,我们大概率会判断该表情表达的情绪是几乎相同的,但是放在不同的场景(或者说情境)下,它可能表达不同的情绪;或者拿出一张单独的照片(如喜极而泣),只看面部表情的话,我们可能完全曲解了原先表达的意义。但是如果我们将面部表情与情景结合,我们就会得到更贴切的结果,本文的主要研究方向是在表情识别中将人的情绪特征与情境的特征相结合,以此来提升表情识别的准确度。人脸表情识别在人机交互领域已经成为一个热门的研究目标。表情识别涉及了心理学、生物学、统计学和计算机学等学科,目前在各个领域都有着广泛的使用。面部表情是人体(形体)语言的一部分,是一种生理及心理的反应,通常用于传递情感。如果机器可以识别表情,它将在远程教育、医疗等行业有着广泛的应用前景,推动着人机交互、情感计算、机器视觉等领域的发展,因此对人脸表情识别算法的研究具有重要意义。比如可以根据司机的面部表情的变化来判断疲劳驾驶,防止司机因疲劳驾驶而发生事故。国内外研究现状1.2.1人脸表情识别发展历程其实,人类对人脸表情识别的研究很早之前就开始了,早在20世纪50年代,认知科学家就已经开始了对人脸识别技术的研究。20世纪60年代,人脸识别工程化应用研究正式开启,主要利用了人脸的几何结构,通过分析人脸器官特征点及其之间的拓扑关系进行辨识的方法。这种方法简单直观,但是人脸姿态、表情发生变化,那么精度严重下降。1991年,著名的“特征脸”方法第一次将主成分分析和统计特征技术引入人脸识别,在实用效果上取得了长足的进步。这一思路也在后续研究中得到进一步发扬光大,例如,Belhumer成功将Fisher判别准则应用于人脸分类,提出了基于线性判别分析的Fisherface方法。21世纪的前十年,随着机器学习理论的发展,学者们相继探索出了基于遗传算法、boosting、支持向量机(SupportVectorMachine,SVM)、流形学习以及核方法等进行人脸识别。2009年至2012年,稀疏表达(SparseRepresentation)因为其优美的理论和对遮挡因素的鲁棒性成为当时的研究热点。与此同时,业界也基本达成共识:基于人工精心设计的局部描述子进行特征提取和子空间方法进行特征选择能够取得最好的识别效果。Gabor及LBP特征描述子是迄今为止在人脸识别领域最为成功的两种人工设计局部描述子。这期间,对各种人脸识别影响因子的针对性处理也是那一阶段的研究热点,比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。也是在这一阶段,研究者的关注点开始从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW人脸识别公开竞赛在此背景下开始流行,当时最好的识别系统尽管在受限的FRGC测试集上能取得99%以上的识别精度,但是在LFW上的最高精度仅仅在80%左右,距离实用看起来距离颇远。2013年,MSRA的研究者首度尝试了10万规模的大训练数据,并基于高维LBP特征和JointBayesian方法在LFW上获得了95.17%的精度。这一结果表明:大训练数据集对于有效提升非受限环境下的人脸识别很重要。然而,以上所有这些经典方法,都难以处理大规模数据集的训练场景。2014年前后,随着大数据和深度学习的发展,神经网络重受瞩目,并在图像分类、手写体识别、语音识别等应用中获得了远超经典方法的结果。香港中文大学的SunYi等人提出将卷积神经网络应用到人脸识别上,采用20万训练数据,在LFW上第一次得到超过人类水平的识别精度,这是人脸识别发展历史上的一座里程碑。自此之后,研究者们不断改进网络结构,同时扩大训练样本规模,将LFW上的识别精度推到99.5%以上。人脸识别发展过程中一些经典的方法及其在LFW上的精度,都有一个基本的趋势:训练数据规模越来越大,识别精度越来越高。1.2.2人脸表情识别主要过程及方法人脸表情识别过程一般四个部分:人脸图像获取、图像预处理、表情特征提取、情感分类。第一步:人脸图像获取。一般从影像数据中得到人脸的图像,包括图片和视频,分别对应静态表情和动态表情。视频就是图像序列,含有时间特性。第二步:图像预处理。一般包括人脸检测定位、人脸扶正、剪裁处理、尺度归一化、直方图均衡化、去光照、光线补偿、同态滤波、灰度化、高斯平滑处理等方式。第三步:表情特征提取。(1)基于静态图像的特征提取方法主要有:Gabor小波变换、局部二值模式、尺度不变特征变换、离散余弦变换和区域协方差矩阵等;(2)基于动态图像序列的特征提取方法主要有:光流法、差分图像法、特征点跟踪法、CNN法、基于模型法和弹性图匹配法等。第四步:情感分类。情感分类常用方法有:基于模型匹配法、决策树、支持向量机、朴素贝叶斯、贝叶斯网络、K近邻法、人工神经网络、随机森林、隐马尔科夫模型、线性回归、多层感知器、卷积神经网络和多分类器融合等。1.2.3存在问题 目前,人脸表情识别技术虽然已经取得了极大的进展,但是仍然存在很多急需解决的问题,例如改变光照背景、头部姿态的大范围转变对表情识别有很大的影响,表情识别存在的问题主要如下:表情的分类还是过于局限,人类的表情并不是只有最基本的6种表情,还有很多复杂的、蕴含多种情绪的表情。现实生活中的人脸表情容易受到光照、物体遮挡的影响,鲁棒性较差,算法方面仍需要进行改进。目前大多数论文的算法研究都是在原有算法的基础上进行改进,不能从新的角度提出更高效的算法。目前绝大多数表情识别算法需要大量的训练样本数据才能得到较好的识别结果,表情识别效率对驯练样本有很大的依赖。本文的主要工作和组织结构本文的主要工作: 本文主要工作是在现在主流的人脸表情识别技术的基础之上,通过添加对图片场景(情境)特征的训练,然后融合人脸表情特征,以此来提高人脸表情识别的准确率。本文的主要组织结构: 第一章绪论,首先从本文的研究背景及意义引出本文的主要研究方向,然后介绍了国内外研究现状,最后总结了本文的主要工作和组织结构。 第二章研究内容,本章首先介绍了本文中使用的图像数据集,研究工作从算法选择、主要研究方法和情感识别评估三个方面进行了详细的介绍。 第三章自然场景下的情感识别模型,本章主要讲解了本文中使用的神经网络,以及由本文主要研究方向延伸出来的模型结构和模型的损失函数设计。 第四章实验结果及其分析,本章主要介绍了数据集预处理、实验实现中的相关细节、实验结果展示以及实验分析。研究内容EMOTIC数据集介绍在日常生活中,我们每天都可以通过他人的面部表情来推断这个人今天经历了什么,他的心情是什么样的。如果机器也可以通过人类认识方式来了解他人的情感信息,那将对我们的生活有着更好的影响。然而,当前还没有一个系统可以完成这样的工作。先前关于计算机视觉的研究主要致力于分析面部表情,分为六类基本情感。然而,环境在人类情感认知方面也是有着很重要的决定因素。加泰罗尼亚大学、OSIRO和MIT共同提出了一种“情景情感数据库”EMOTIC,这是一种非受控环境中包含人景的图像数据集。在这些数据集中,将人们的感情分为26类,带有连续维度valence,arousalanddominace.使用该数据集,训练卷积神经网络来联合的分析人以及整个情境下对情感状态的认知信息,以此表明情景在人类情感认知方面的重要性。EMOTIC数据库,这是一个与真实环境中的人物共享图像的数据库,并以其明显的情感进行注释,定义了26个情感类别的扩展列表,用于注释图像,并将这些注释与三个常见的连续维度相结合:Valence,Arousal和Dominance。Valence代表从消极到积极的程度;Arousal代表一种行为的激活程度,从不行动状态到非常想或者时刻准备好行动的状态;Dominance代表行为受控制程度,范围从被控状态到领导指挥状态。数据库中的图片来自MSCOCO、Ade20k以及谷歌下载图片,包括18316个图片和23788位带注释的人物。数据库结合了两种不同的情绪表示方法:离散分类—26种情绪分类表示方法,连续维度下分类—VAD情绪状态模型。为了定义提出来的情绪分类方法,研究人员使用了大概四百个来自字典、情绪书籍的词汇来形容情绪表达。也就是说最终将这400个词汇分别归为26类,分类规则包括:第一不相交性,第二,视觉可分性。1.平静(Peace):幸福和放松;别担心;有积极的想法或感觉;满意2.喜爱(Affection):喜欢的感情;爱;柔情3.尊重(Esteem):有利的意见或判断力;尊重;钦佩;4.期待(Anticipation):期待的状态;希望或为未来可能的事件做好准备5.参与(Anticipation):关注某事;吸收到某种东西;好奇;有兴趣6.信心(Confidence):确定的感觉;坚信结果会有利;鼓励;骄傲7.幸福(Happiness):感到高兴;感受享受或娱乐8.快乐(Pleasure):感官愉悦9.兴奋(Excitement):感受热情;刺激;有活力10.惊喜(Surprise):突然发现意外的事情11.同情(Sympathy):分享他人情感,目标或麻烦的状态;支持;富于同情心的12.怀疑/困惑(Doubt/Confusion):难以理解或决定;思考不同的选择13.断开连接(Disconnection):对周围的主要事件不感兴趣;冷漠;无聊;分心14.疲劳(Fatigue):疲倦;疲劳;困15.尴尬(Embarrassment):感到羞愧或内疚16.渴望(Yearning):渴望拥有某种东西;妒;羡慕;情欲17.反对(Disapproval):感到某些事情是错误的或应受谴责的;鄙视;敌对18.厌恶(Aversion):感到厌恶,厌恶;感到讨厌19.恼怒(Annoyance):被某事或某人打扰;恼火;不耐烦;失意愤怒:强烈的不满或愤怒;狂怒;不满21.敏感(Sensitivity):身体或情感受伤的感觉;感觉微妙或脆弱22.悲伤(Sadness):感到不快乐,悲伤,失望或沮丧23.不安(Disquietment):紧张;担心;烦乱;急;紧张;有压力;惊慌24.恐惧(Fear):感到怀疑或害怕危险,威胁,邪恶或痛苦;恐怖25.疼痛(Pain):身体上的痛苦26.痛苦(Suffering):心理或情绪上的痛苦;苦恼;苦涩表2-126种情绪分类图像注释:研究人员设计了一种AMT接口依据所提出的分类法来给情绪做标注,同时对性别,年龄范围作出标注。作者从两方面保证标注质量,第一,分类工作者需要通过一个资格任务,第二,每18个图片中增加两个控制图片来监视分类工作的表现。最终将这个数据集的70%用来训练,10%用来校验,20%用来测试。其中,测试集由三名不同人员进行标注,以此核验不同人标注的一致性。对于连续维度下的分类情况,不同人员分类结果的标准差在valence下是1.41,在arousal下是0.70,在dominance下是2.12;表明人员在dominance下的分类结果差异性较大,差异在平均值±2周围。数据集统计:对于23788位被标注人像中,66%是男性,34%为女性,11%为孩子,11%为青年,78%为成年人。2.2相关研究工作2.2.1算法选择深度学习是机器学习的分支,是一种以人工神经网络为架构,对数据进行表征学习的算法。至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。本文主要采用卷积神经网络的方法进行实验,卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(poolinglayer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。卷积神经网络的结构主要有以下几个方面:1. 卷积层:卷积层(Convolutionallayer),卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最优化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。2. 线性整流层:线性整流层(RectifiedLinearUnitslayer,ReLUlayer)使用线性整流(RectifiedLinearUnits,ReLU)作为这一层神经的激励函数(Activationfunction)。它可以增强判定函数和整个神经网络的非线性特性,而本身并不会改变卷积层。事实上,其他的一些函数也可以用于增强网络的非线性特性,如双曲正切函数,或者Sigmoid函数。相比其它函数来说,ReLU函数更受青睐,这是因为它可以将神经网络的训练速度提升数倍,而并不会对模型的泛化准确度造成显著影响。3. 池化层:池化(Pooling)是卷积神经网络中另一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Maxpooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效地原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。池化层通常会分别作用于每个输入的特征并减小其大小。当前最常用形式的池化层是每隔2个元素从图像划分出的区块,然后对每个区块中的4个数取最大值。这将会减少75%的数据量。除了最大池化之外,池化层也可以使用其他池化函数,例如“平均池化”甚至“L2-范数池化”等。过去,平均池化的使用曾经较为广泛,但是最近由于最大池化在实践中的表现更好,平均池化已经不太常用。4. 损失函数层:损失函数层(losslayer)用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异,它通常是网络的最后一层。各种不同的损失函数适用于不同类型的任务。例如,Softmax交叉熵损失函数常常被用于在K个类别中选出一个,而Sigmoid交叉熵损失函数常常用于多个独立的二分类问题。欧几里德损失函数常常用于结果取值范围为任意实数的问题。5. 全连接层(fully-connectedlayer):卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层通常搭建在卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。特征图在全连接层中会失去3维结构,被展开为向量并通过激励函数传递至下一层。在一些卷积神经网络中,全连接层的功能可部分由全局均值池化(globalaveragepooling)取代,全局均值池化会将特征图每个通道的所有值取平均,即若有7×7×256的特征图,全局均值池化将返回一个256的向量,其中每个元素都是7×7,步长为7,无填充的均值池化。卷积神经网络的经典模型主要有以下几个:1)LeNet2)AlexNet3)VGG4)GoogLeNet5)ResNet本文中主要使用的模型为VGG16,下文中将会给出详细的网络结构介绍。2.2.2主要研究方法本文中主要采用了控制输入参数与损失函数的方法,通过不同的组合方式来验证本文的研究方法是否与预期的结果一致。输入参数方面分为3种方案:B(人脸表情相关部分),I(场景或情境相关部分)和B+I;损失函数方面分为2种方案:总损耗Lcomb(离散维度损耗和连续维度损耗的加权组合),Ldisc(离散维度的损耗),以上2种损失函数在下文中会有详细的解释。总的来说,组合方式一共有4种:输入参数为B,损失函数为Lcomb输入参数为I,损失函数为Lcomb输入参数为B+I,损失函数为Lcomb输入参数为B+I,损失函数为Ldisc以上4种组合,其中1、2、3组合的实验结果对比分析,可以判断情境对表情识别的影响;3、4组合的实验结果对比分析,可以判断连续维度类别对表情识别的影响。通过上面的对比实验,可以实现对预期实验结果检验。2.2.3情感识别评估对于深度学习实验的评测指标,一般会使用准确率(Accuracy)、错误率(FDR)、召回率(Recall)、F值(F-Measure)、混淆矩阵等。准确率(accuracy):正确率是我们最常见的评价指标,accuracy=(TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,准确率越高,分类器越好;错误率(FDR):错误发现率,表示在模型预测为正类的样本中,真正的负类的样本所占的比例,FDR=FP/TP+FP。一般情况下,错误发现率越小,说明模型的效果越好。召回率(recall):召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=sensitive,可以看到召回率与灵敏度是一样的。综合评价指标(F-Measure)P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。F-Measure是Precision和Recall加权调和平均:当参数α=1时,就是最常见的F1,也即:混淆矩阵:混淆矩阵(confusionmatrix)是一种评价分类模型好坏的形象化展示工具。其中,矩阵的每一列表示的是模型预测的样本情况;矩阵的每一行表示的样本的真实情况。混淆矩阵比模型的精度的评价指标更能够详细地反映出模型的”好坏”。模型的精度指标,在正负样本数量不均衡的情况下,会出现容易误导的结果。其中,列是模型预测的结果,行是样本真实的结果。 2.3本章小结本章主要介绍了本论文实验所需要的数据集(EMOTIC)相关信息,卷积神经网络(ConvolutionalNeuralNetwork,CNN)相关信息,并且简单介绍了卷积神经网络的主要结构,之后说明了深度学习实验的相关评测指标,为后续实验作了铺垫。自然场景下的情感识别模型3.1卷积神经网络介绍 VGGNET介绍: 2014年,牛津大学提出了深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11*11和5*5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。一般而言,叠加几个小的卷积核可以获得与大卷积核相同的感受野,而叠加小卷积核使用的参数明显要少于一个大卷积核。此外,叠加小卷积核因为加深了卷积网络,能引入更强的非线性。 VGG主要特点如下:小卷积核:作者将卷积核全部替换为3*3(极少用了1*1)。小池化核:相比AlexNet的3x3的池化核,VGG全部为2x2的池化核。层数更深特征图更宽。基于前两点外,由于卷积核专注于扩大通道数、池化专注于缩小宽和高,使得模型架构上更深更宽的同时,计算量的增加放缓。全连接转卷积:网络测试阶段将训练阶段的三个全连接替换为三个卷积,测试重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽或高为的输入。VGG结构图如下: 图3-1VGG结构3.2自然场景下情感识别模型网络结构参考论文中作者提出了端到端的模型,同时估计离散分类结果和连续维度分类结果,结构有三个模块组成:两个特征提取模块和一个融合模块。第一个模块来提取人物情绪特征及相关特征,第二个模块从整个图片中提取全局特征。第三个模块以前两个模块提取出的特征为输入,通过融合网络处理,估算出两类分类结果。三个模块的参数联合学习,每个特征提取模型由低阶滤波卷积神经网络构成,该网络的优势是可以在参数个数和计算复杂度较低的情况下,提供高精确度。原始网络由16个卷积层和一维内核组成,使用二维内核有效地建模8层。两个模块提取出来的特征与单独的融合网络结合,该融合模块首先在每个特征映射上使用一个全局平均池化层来减少特征的数量,然后,第一个完全连接层作为连接池化特征集的降维层,这一层的输出是一个256维的向量。随后,作者纳入一个大的完全连接层,以使培训学习每个任务能独立表示。这一层分为两个支路,一支为连续维度,另一支为离散分类。在每一个卷积层之后都添加了批处理归一化和整流线性单元,三个模块的参数由动量随机梯度下降法进行联合学习。批量处理大小设置为离散分类种类数的两倍,即26*2=52,每个类别通过均匀抽样,使每个批处理中的每个离散类别至少有一个实例。模型示例图如下:3-5实验所用模型3.3模型的损失函数设计 学习模型的总耗损定义为两个单独损失的加权组合,公式如下:参数λdisc,λcont衡量每个损失的重要性,Ldisc和Lcont表示对应于学习离散类别和学习连续维度的任务的损失。离散维度:作者使用加权欧几里德损失将这种多类多标记问题表示为回归问题,以补偿数据集中存在的类不平衡,并且凭经验找到了这个损失比使用Kullback-Leibler散度或多级多分类铰链损失更有效。更确切地说,这种损失定义如下: 其中N是类别的数量(在本文中中N=26),是第i类的估计输出,是真实的标签。参数是分配给每个类别的权重。权重值被定义为,其中是第i类别的概率,c是控制的有效值范围的参数。使用这种加权方案,被限制为类别逼近0的实例数。这在我们的情况下特别相关,因为我们根据每个批次中每个类别的出现来设置权重。根据经验,与基于完整数据集一次设置权重相比,使用此方法获得了更好的结果。连续维度:我们使用欧几里德损失将此任务表示为回归问题。在这种情况下,我们考虑一个误差余量来补偿标签过程中的波动,因为多个工人使用主观的,而非标准化的评估来标记数据。连续尺寸的损失定义如下:其中C={Valence,Arousal,Dominance},和是估计输出,第k维归一化的基真值,是表示误差幅度的权值。否则,。也就是说,没有相应的损失,估计的误差小于θ,因此这些估计在反向传播期间不参与。我们使用来自两个不同大规模分类数据集(如ImageNet和Places)的预训练模型初始化特征提取模块。ImageNet包含包括人在内的通用对象的图像,因此对于理解包含目标人的图像区域的内容是一个很好的选择。另一方面,位置是专门为高级视觉理解任务(如识别场景)创建的数据集类别。因此,使用该数据集对图像特征提取模型进行预处理,可以确保提供全局(高层)上下文支持。3.4本章小结 本章主要介绍了VGGNet的有关结构及其特点,并给出了相关结构的示意图,之后又介绍了对于本次论文实验有关的模型网络结构,为端对端的模型,同时估计2种分类的结果。最后则介绍了模型损失函数设计,总损失函数为2种维度单独损失的加权组合,还有2种类别单独的损失函数。实验结果及其分析数据集预处理为了获得良好的识别效果,除了使用更好的模型,数据预处理也是十分重要的一项内容最常用的方法有尺度缩放,随机切片,随即翻转,颜色变换,人脸检测,人脸对齐,数据增强,人脸归一化等。本次实验中首先对数据集图片进行了标签提取,主要工作内容为读取图片路径、相关注释信息等,并存在csv文件中,以便后续实验操作使用。由于EMOTIC数据集中图片来自不同数据集和谷歌浏览器中的图片,图片尺度大小不一致,需要统一图像尺度大小改为256*256,让后面的图片输入大小保持一致。4.2实现细节训练相关细节:学习率:0.001BATCH_SIZE:2训练次数(EPOCH):150硬件参数:CPU:i5-6300HQ显卡:GeForceGTX950MPython:3.6Pytorch:1.0.1操作系统:windows4.3实验结果 CategoryCNNInputandLossBIB+IB+ILcombLdisc1.Peace20.6320.4322.9420.032.Affection21.9817.7426.0120.043.Esteem18.8319.3118.5818.954.Anticipation54.3149.0658.9952.595.Engagement82.1778.4886.2780.486.Confidence74.3365.4281.0969.177.Happiness54.7849.3255.2152.818.Pleasure48.6545.3848.6549.239.Excitement74.1668.8278.5470.8310.Surprise21.9519.7121.9620.9211.Sympathy11.6811.3015.2511.1112.Doubt/Confusion33.4933.2533.5733.1613.Disconnection18.0316.9321.2516.2514.Fatigue9.537.3010.317.6715.Embarrassment2.261.873.081.8416.Yearning8.697.889.018.4217.Disapproval12.326.6016.2810.0418.Aversion8.133.599.567.8119.Annoyance11.626.0416.3911.7720.Anger7.935.1511.298.3321.Sensitivity5.864.948.944.9122.Sadness9.446.2819.297.2623.Disquietment18.7516.8520.1318.2124.Fear15.7314.6016.4415.3525.Pain6.022.9810.004.1726.Suffering10.065.3517.607.42Average25.4422.4828.3324.18表4-1不同的CNN输入配置,离散类别获得的平均精度DimensionCNNInputsandLossBIB+IB+ILcombLcontValence0.90.90.91.0Arousal1.11.91.21.5Dominance1.00.80.90.8Average1.01.21.01.1表4-2不同CNN输入配置的连续维度的平均错误率图4-1在测试集中得到的结果:(a)识别的离散类别的Jaccard系数(b)连续三个维度的欧式误差估计图4-2测试集图像的情感识别结果4.4实验分析 本篇论文中,对图3-5所示的CNN模型进行了不同构型的训练,不同的输入,不同的损失函数,并使用测试集对模型进行了评估。表4-1为不同类别测试集的平均精度(AP,精确召回曲线下的面积)。前3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 我国生物冶金浸出技术的专利与市场状况
- 拼多多平台岗前培训考试及答案解析
- 江西烟草专卖局招聘考试真题2025
- 2025年揭阳市公益性岗位招聘真题
- 2024年第八师石河子市招聘大学生乡村医生笔试真题
- 智安网络安全培训试题及答案解析
- 贵州地域文化试题及答案
- 未来五年π型钢企业制定与实施新质生产力战略分析研究报告
- 未来五年静电复印设备市场需求变化趋势与商业创新机遇分析研究报告
- 一年级数学填空题集及讲解
- 2025至2030中国生物试剂行业项目调研及市场前景预测评估报告
- 雨课堂在线学堂《智慧中国英语说期末复习题》考核测试答案
- 2024-2025学年江苏省苏州市多校五年级(上)期中语文试卷
- 2025年幼师考试试题及答案真题
- 2025中国煤炭科工集团有限公司二级企业8岗位招聘9人笔试历年参考题库附带答案详解
- 现代特色历史街区教案
- 企业标准化工作流程建立手册
- 生态环保模块化湿地建设方案
- 【2025年】大学生安全知识竞赛试题库及答案
- 2025年文职考试教材药学真题及答案
- 程式与意蕴-中国传统绘画(人物画)课件-2025-2026学年高中美术人美版(2019)美术鉴赏
评论
0/150
提交评论