




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.绪论1.1研究背景与意义人类通过语言交流、非语言交流和书面表达等多种方式来交流沟通,语言是人与人之间交流的重要方式。随着语音识别在过去几十年的研究里取得了众多成果,并在实际生活中投入应用,例如阿里巴巴的AI智能终端“天猫精灵”、苹果手机的Siri系统、搜索引擎各种语音识别等,人们需要人机交互更关注人的情感,让计算机捕捉语音深度内涵,使人机交流更具有人文关怀。情感是人类交流必不可少的,而语言中包含了大量的情感信息,是不可忽视的信息资源。在1997年,麻省理工媒体实验室的Picard教授提出了情感计算的概念[10],出版了图书《Affectivecomputing》,介绍了情感的技术性问题,指出情感计算是与情感相关的计算,它源于情感或能影响情感。中国科学院自动化所的胡包刚、谭铁牛也阐述了自己对于情感计算的定义,就是使计算机可以计算人类情感,可以识别和理解人类情感,进一步可以回应人类情感,赋予计算机更强大的综合智能[]。语音情感识别(SpeechEmotionRecognition,SER)就是根据人说话的语音来判断语音情感状态的一种技术,随着计算机技术的发展和对语音情感识别的深入研究,语音情感识别技术已经有越来越多的实际应用,例如在电子远程教学中获取师生情感状态,帮助调整课堂模式;在电子游戏中识别玩家情感状态,给予玩家情感激励或反馈;在驾驶员情绪失控时,帮助辅助驾驶系统给予驾驶者情感安抚。语音情感识别还有更多应用场景,市场广阔,对它的研究极具现实意义。1.2历史研究与现状在1972年,Williams发现人在愤怒、悲伤、害怕时语音的平均功率、基音轮廓等有很大不同,人的情绪对语音信号影响很大[11]。1980年,梅尔倒谱系数(MFCC)被Davis和Mermelstein提出,它很好地代表了短期语音频谱的感知相关方面,之后在语音识别方面产生了巨大成效[12]。时间迈入21世纪,各类情感计算和语音识别相关会议和期刊被设立,例如2003年在北京举办的第届国际情感计算和智能交互会议,2009年举办了语音情感挑战赛(InterSpeech),于2010年创刊的IEEETransactionsonAffectiveComputing等。各种神经网络与机器学习算法也被不断改进应用于语音情感识别,Basu使用梅尔倒谱系数,结合CNN和LSTM,对测试集的准确率达到了80%[13]。同在2017年的InterSpeech上,SattA使用语谱图,同样使用CNN+LSTM的模型,在语音情感分类上取得了不俗的效果[14]。Harar基于深度神经网络对Emo-DB语料库的三类子集(愤怒、悲伤、中立)进行了训练,总体准确率可达到96.79%[15]。国内,东南大学的赵力教授率先提出了语音情感研究,张昕然利用深度信念模型和提出的特征融合方法,在跨库语音情感识别上取得了很大提升[2]。蒋庆斌提出一种改进的GMM模型识别耳语情感语音,证明了它在数据量较小时的训练成果较传统GMM好[3]。在语谱图的实验方面,东南大学的朱从贤将瓶颈特征用于CNN网络,对语谱图进行语音情感分类,验证了其优越性[4]。陈平安用以SVM为分类器的CNN实验取,识别率可高达92%[5]。南京邮电大学的李姗和徐珑婷从语谱图中获取深度谱特征,将语音情感识别率较传统MFCC提升了3.97%[]。重庆邮电大学的张若凡基于先验信噪比,改进维纳滤波算法对语音库数据增强后提取语谱图,并验证了其可行性[]。1.3本文主要工作内容及结构安排本文的主要研究内容是结合语谱图和卷积神经网络的语音情感识别,对比不同语谱图处理方式后使用两种CNN网络进行实验,论文章节安排如下:第一章绪论,阐述了语音情感识别研究的背景、研究意义及应用,整理了一些学者的工作成果;最后介绍了本论文的主要研究内容和章节安排。第二章介绍了语音情感识别和卷积神经网络的相关原理和技术,包括情感分类描述模型、常见的情感数据库,然后介绍了预加重、分帧加窗、端点检测等对语音信号的预处理方法,介绍了语音信号的语谱图特征和卷积神经网络基本原理。第三章介绍用语谱图送入卷积神经网络进行语音情感识别,首先介绍了CNN基本原理,将语音信号转化为语谱图后,对语谱图进行不同处理,先实验了基础CNN结构在语音情感分类上的能力,再用不同大小卷积核提取时域和频域上的特征,列出实验结果并进行了分析。第四章对本文进行总结。
2.相关技术及理论分析2.1情感描述模型在进行语音情感识别之前先要确定情感的分类,才能让机器进行识别,心理学家们长久以来都在讨论、寻找合适的描述情感的模型,在这漫长的讨论中,产生了两种主流的情感描述模型:离散情感描述模型和维度情感描述模型。2.1.1离散型情感模型离散型情感模型将情感分为离散的几类基本情感,这些基本情感具有普遍性,例如高兴、悲伤等,而其他较为复杂的情绪则是由基本情绪衍生出来的,称之为继发情绪,离散情感模型可以将情感打上标签,对于研究使用很方便。许多学者对基本情感的选择做出了讨论。表2-1是Otrony和Turmer归纳的研究者们使用的基本情感分类方式[16]:表2-1不同研究者的情感分类研究者情感分类Plutchik喜极、悲伤、羡慕、憎恶、恐惧、生气、警惕、惊奇Arnold悲伤、愤怒、渴望、沮丧、热爱、失望、期盼、厌恶、勇敢、憎恨Ekman愤怒、高兴、害怕、悲伤、惊奇、厌恶Frijda渴望、高兴、惊讶、关系、惊奇、悲伤Gray暴怒、恐惧、忧虑、高兴Izard愤怒、轻视、厌恶、悲痛、惊奇、高兴、羞愧、内疚、害怕、关心James暴怒、悲伤、害怕、热爱McDougall愤怒、高兴、害怕、顺从、厌恶、温柔、惊讶Mowter痛苦、愉快Oatley/Johnson-Laird愤怒、高兴、焦虑、悲伤、厌恶其中,美国心理学家Ekman根据普遍的人脸表情体现给出的生气、厌恶、害怕、高兴、悲伤和惊讶六种基本情绪[17]获得了广泛应用。2.1.2维度型情感模型多维情感理论认为人的情感是连续的、不断变化的,可以被投射在一个多维度空间里,情绪相当于一个点,它映射到每个维度上的坐标对应该维度的属性强度,描述情感能力就非常强大,理论上任何一种情感都能找到它对应的点。其中较为典型的维度型情感模型有两种,第一种是情感二维模型﹐其二维分别是效价(Valence)和唤醒度(Arousal)[18]。效价是用于描述情感状态是处于正性情感还是负性情感的情感维度;唤醒度则是描述情感的激烈程度,反应情感强度。上述两情感维度可在三维空间形成一个二维情感特征平面,每个坐标点都对应为一种状态下的情感。第二种模型是PAD(Pleasure-Arousal-Dominance)三维情感模型[19]。与二维情感模型类似,该情感模型认为人类情感可以从:愉悦度、激活度及优势度三个方面对情感进行相关描述。其中,愉悦度用于描述情感处于正性情感还是负性情感,用P表示;激活度类似于二维情感模型的唤醒度但又稍有区别,用于表示情感的激烈状态,与情感相应的机体能量活跃程度有关,用A表示;优势度用于表示情感主体对客体及情景的影响状态,用D表示。上述P、A、D三维构成三维情感体系,三维坐标点体现情感状态。模型如图2-1所示。图2-1PAD情感描述模型离散型情感模型虽然简单易懂,可解释性强,但是刻画的情感有限,无法描述更复杂的情感类型。维度型情感模型连续,情感描述能力无限,但量化情感工作困难且难以保证质量。2.2语音情感数据库语音情感识别的基础是语音情感数据库,语音情感识别的数据库按照情感描述模型可分为离散型语音情感数据库和维度型语音情感数据库,按照情感被激发的方式可分为表演型、引导型和自然型。下面介绍几种常用的语音情感数据库:德国柏林(Emo-DB)情感数据库[20]离散情感数据库,由德国柏林工业大学选择5名女演员5名男演员录制,演员对10个德语语音进行表演,除包含上述Ekman给出的六种基本情绪,还增加了中性情感,共七种情感:生气,悲伤,高兴,害怕,中性,厌恶,无聊。语音都是在专业录音室中完成录制,演员通过回忆增强情感的真实感,最终筛选保留女性情感语音302条,男性情感语音233条,共535条语音,采样率为16kHz。CASIA汉语情感数据库[8]离散情感数据库,由中科院自动化所选择两男两女录制,共500句不同的文本,被四人以不同的情感念出,最后人工筛选出了大约9600条语句。分为六类情感:悲伤、愤怒、惊讶、开心、恐惧和中性。采用16kHz采样率,16bit量化。FAUAIBO儿童德语情感数据库[21]说话人是51名儿童,其中30个女童,21个男童,年龄段为10-13岁,通过与索尼公司的AIBO机器狗进行自然交互,从而进行情感数据的采集。包含约9.2小时的语音,48401个单词。采样频率被压缩至16kHz,16bit量化。该数据库是少数的自然型离散情感数据库,数据量大,是最流行的语音情感数据库之一。VAM数据库[22]维度型情感数据库,从德国电视脱口秀节目(VeraAmMittag)现场录制的音视频中选取,数据库包含表情库、语料库、视频库3个部分。包含约12个小时的录音,这些语音片段没用剧本,来自真实的讨论。情感的标注由23位标注者完成,标签为连续值,具体包含三个维度:valence,activation和dominance。数据采样率为16kHz,16bit量化。2.3语音信号预处理由于发音、录音条件限制,语音样本总是会有环境噪音、电流声等影响情感识别的因素。通过对语音信号进行预处理,一般是预加重、分帧加窗和端点检测,可以改善语音信号质量,为语音情感识别创造更好的语音信号。2.1.2预加重由于发声过程中人体器官的效应,语音信号在高频段以6dB/倍频跌落[9],预加重可提升高频,使之更接近原始语音信号,消除跌落效应。广泛使用的对语音信号进行预加重的方程为:y(n)其中a为预加重系数,a∈[0.9,1],一般取0.95,0.97或0.98。2.1.3加窗分帧语音信号是非平稳的,但在短时间内可看作是平稳的,短时间范围一般是10~30ms,帧长也取10~30ms,取1/2左右时长为帧移。帧移是相邻两帧间的重叠区域,避免相邻两帧的变化过大,加窗使全局更加连续,为帧移,帧移帧长的比值一般取为0~0.5。分帧会使语音信号产生间断,使用一定的窗函数与语音信号相乘,可使它变得连续,公式如下:s矩形窗、汉宁窗、汉明窗等都是常用的窗函数:矩形窗:w汉宁窗:w汉明窗:w2.1.3端点检测语音信号并从开始到结束都是语音段,它常常还包含无声段和噪声,端点检测算法就是在一段语音信号中确定语音段和非语音段,对语音信号进行分割,去掉非语音段,而后再针对有声段,找到语音信号真正有效的部分,减少数据运算量。语音的端点检测算法主要有双门限端点检测法、小波法和基于倒谱距离的检测算法等。2.4语音信号语谱图特征语谱图通常指窄带语谱图,是用语音短时\t"/sinat_19628145/article/details/_blank"傅里叶变换的幅度画出的二维图片。横轴代表时间,纵轴代表频率,坐标点值就是语音信号能量,可以通过时间与频率确定坐标,坐标点的像素颜色就表示能量值大小,颜色或者灰度深,表示该点的语音能量越强。语谱图包含的语音信号的信息很多,如语音基频、清音等,都可以从图上看出,语谱图对语音情感识别有很大作用。语谱图构建过程如图2-2所示:图2-2语谱图实现过程首先对语音信号分帧加窗,xn其中,0≤k≤N−1,则P(n,k)=则P(n,k)为非负实函数,以时间n为横轴,频率k为纵轴,将P(n,k)以灰度级构成的二维图像,就是语谱图,如图2-3所示。图2-3语音波形图和语谱图基于语谱图和卷积神经网络的语音情感识别本节介绍了卷积神经网络基本原理,并将其应用于语音情感识别。本节讨论了语谱图特征的切割和翻转扩增后对情感识别的影响,用两种卷积神经网络分类了翻转后的语谱图,验证分析了其效果。3.1卷积神经网络基本原理卷积神经网络(ConvolutionalNeuralNetwork,CNN)在1989年由LeCun构建应用于计算机视觉问题[23],并在1998年他提出了卷积神经网络的第1个经典架构LeNet-5网络并应用在手写字体识别[24]。目前,CNN在许多领域如人脸识别、语音识别等都取得了巨大研究成果。与传统的人工神经网络结构不同,卷积神经网络含有特殊的卷积层和池化层,卷积层局部连接和权值共享的连接方式,大大降低了参数数量。池化可以实现下采样,压缩特征,去除冗余信息,降低网络复杂度,减少参数,同时扩大感知野,有效的防止过拟合。3.1.1局部连接图像空间具有局部相关性,一张图像相近的像素之间联系比较紧密,而稍远一点可能毫不相干,因此,一个神经元不需要感知全局图像。它只与前一层中的部分区域连接,感知局部信息,然后在高层整合,如图3-1所示。网络部分连通的思想,也是受启发于动物的视觉皮层结构[],他们的视觉皮层也不全都在接收信息。图3-1CNN局部连接3.1.2权值共享一个卷积核内的参数不变,扫描整张图片,不会因为图像内的位置不同而改变自身的权值参数。假设一个卷积核在图片某处做了滤波操作,在图片其他地方也都是滤波操作,相当于一个全局滤波,如果做的是边缘检测,那相当于整张图片都做了同样的边缘检测。想要不同的特征可以利用多个卷积核,这样减少了参数数量,也实现了特征的自动提取。3.1.3卷积和池化卷积层由一组滤波器组成,对上一层做内积产生输出,它能对上层数据进行特征提取,如图3-2所示。有助于找到特定的局部图像特征(如边缘等),输入后层网络。图3-2卷积层示意直接使用卷积层获得的特征训练计算量很大,也容易导致过拟合,池化层的主要是通过降采样,在不影响图像质量的情况下进行信息筛选,去除冗余信息,减少参数。池化方法一般有均值池化和最大池化,如图3-3所示。图3-3池化层示意3.2CNN网络模型及实验实验选取1200句CASIA语料库语音,本文中所有实验均在1台CPU为Inteli5-8250U,GPU为NVIDIAGeForceMX1506GB显存,内存为8GB的计算机上完成,试验环境为Windows10操作系统,tensorflow2.0版本,python版本为3.7。3.2.1CNN基础模型本文先试验了一个基础的卷积神经网络模型进行分类,它包括了四个卷积层,四个池化层和一个全连接层,经过四轮卷积-池化过程后进行分类,使用3×3大小的卷积核,在全连接层使用dropout函数防止过拟合,经多次实验对比后采用0.5丢弃率,减少了神经元之间复杂的相互适应,选择softmax分类器,下面称此模型为基础CNN,模型如下图3-4所示:图3-4基本CNN模型示意图经过预处理得到语谱图,划分训练集和测试集后得到训练集1080张,调整成128×128大小送入上述卷积网络模型,结果如下表所示:表3-1基础CNN模型识别结果precisionrecallF1-scoreaccuracy愤怒0.730.550.630.65恐惧0.620.650.63开心0.600.750.67中性0.760.800.78悲伤0.590.650.62惊讶0.620.500.56macro0.660.650.65由上表可知,使用四层卷积-池化网络的基础CNN模型语谱图情感识别率为65%,在识别中性情感上表现最好,precision达到0.76,F1-score是0.78,而在其他情感的识别上表现较差,其中惊讶、悲伤尤甚。3.2.2LeNet网络接下来本文实验了卷积神经网络经典模型LeNet,第一层卷积层,卷积核大小为5×5,32个特征卷积核,然后用最大池化进行下采样,池化滤波器大小为2×2,第三层卷积层卷积核依旧选择5×5,64个特征卷积核,然后使用2×2最大池化,最后经过三个全连接层输出结果,如图3-5所示:图3-5LeNet模型示意图原LeNet模型的sigmoid激活函数容易发生过饱和,使网络不收敛,现在的模型换成了更加简单的relu激活函数,减少了训练计算量,不易发生过饱和。语谱图处理同上,送入LeNet网络,结果如下表:表3-SEQ表\*ARABIC1LeNet模型识别结果precisionrecallF1-scoreaccuracy愤怒0.640.700.670.59恐惧0.570.400.47开心0.560.700.62中性0.600.600.60悲伤0.550.550.55惊讶0.630.600.62macro0.590.590.59由上表可知,使用LeNet网络的模型识别率为59%,模型精确率比基础的CNN还低,和基础CNN不同的是在愤怒情感的识别率上最高,在其他情感识别上表现较差,说明模型的选择还需进一步探寻。但是在训练LeNet网络的过程中,过早的出现了过拟合的情况,训练效果也更差,将基础CNN的卷积核大小换成5×5也有此现象,所以本文判断5×5大小卷积核不适用于提取语谱图特征,下面不再使用。3.2.3VGG网络接下来搭建了一个类VGG结构的的CNN网络进行实验,整个模型一共五块,每块两个卷积层,卷积核大小都是3×3,后接一个池化层,五个模块的卷积层的卷积特征个数分别为32、64、128、256、256,五轮卷积-池化完成后送入三个全连接层,使用softmax分类器输出结果。VGG网络使用3×3小滤波器卷积层代替5×5或7×7的大滤波器卷积层,提升网络深度,同时可以减少参数。本文在每块的卷积层和池化层之间加入BatchNormalization层和relu激活函数,提高网络泛化能力,减少训练时间,同时在全连接层之前使用dropout函数防止模型过拟合,模型如图3-6所示:图3-6VGG模型示意图语谱图处理不变,送入VGG网络,结果如下:表SEQ表\*ARABIC2_3(序号问题)类似VGG网络模型识别结果precisionrecallF1-scoreaccuracy愤怒0.750.750.750.75恐惧0.710.750.73开心0.740.850.79中性0.890.850.87悲伤0.810.650.72惊讶0.620.650.63macro0.750.750.75由上表可知,使用类似VGG网络的模型识别率为75%,模型精准度较前两个模型有了很大提升,同基础CNN模型一样在中性情感上的识别率最高,precision可达0.89,F1-score为0.87,在惊讶情感上的识别效果最差。3.2.4不同大小卷积核的CNN模型语谱图的横坐标与纵坐标分别表示了语音的时域与频域信息,为了进一步利用并结合这些信息,语谱图被调整成124×124大小,用两组不同形状的卷积滤波器用来捕获时域特征和频域特征,结合后送入接下来的CNN中,其余CNN结构与上述基本CNN结构无区别。模型如图3-7所示:图3-7不同大小卷积核提取特征CNN示意图在实验此模型时,为了找到最佳的提取时域和频域信息的滤波器形状,单独测试了第一层卷积层,将第一层卷积层形状的宽度和高度从4到80不等,后续模型不变的情况下,分别独立地实验了一下,在试验卷积核高度或宽度时,它的另一边被固定为2,多次试验后,得到结果如图3-8所示,横轴为长度,纵轴为精确度:图3-8卷积核大小实验基于精确度结果,实验选择2×10和8×2大小作为卷积核的最佳形状,进行接下来的对比实验。这样能够在时域和频域上接收更多的信息提供给后续的学习,相比使用大卷积核减少了参数,减少过拟合的可能性,实验结果如下表3-4所示:表3-4CNN模型识别结果precisionrecallF1-scoreaccuracy愤怒0.730.550.630.68恐惧0.710.750.73开心0.610.850.71中性0.760.800.78悲伤0.740.700.72惊讶0.560.450.50macro0.690.680.68模型精准度为0.68,相较于原先的CNN精准度只提升了0.03,效果微薄,并不理想,低于模仿VGG模型的0.75精准度。3.3语谱图的处理实验3.3.1添加高斯噪声高斯噪声是一种正态分布的噪声,图片处理中由于设备等因素限制,处理的图片与实际图像有差距,于是常常通过添加高斯噪声以求让图片达到一种更实际的效果。本文试着向语谱图添加高斯噪声,对语谱图进行数据增强,也模拟真实条件下的语音信号。如图3-9所示:图3-9高斯噪声示意图在前文中基础CNN的模型识别率较高,且结构简单,训练较为方便,所以使用基础CNN作为验证模型,使用同样的参数设置,同未处理的语谱图数据做对比,结果如下表所示:表3-5添加高斯噪声后识别率图像处理模型精准度原始语谱图0.65添加0.001方差高斯噪声0.68添加0.003方差高斯噪声0.61添加0.005方差高斯噪声0.53除添加0.001方差高斯噪声的语谱图模型识别率有0.03的提升之外,其余添加了更大方差的高斯噪声的语谱图识别率都是下降的,可以看到增加高斯噪声对语谱图的识别并没有多大的效果,甚至对识别率产生负面影响。3.3.2语谱图翻转在训练CNN模型时,若使用的数据集的样本数较少,网络容易过度拟合。虽然选取了1200条CASIA的语音,但对于CNN来说数据量仍然可能不足,需要对数据集进行数据扩增。考虑到语谱图的横轴代表时间,纵轴代表频率,色彩表示该点能量值大小,与语音数据相对应,而语音倒放仍能听出语音蕴含的情感,所以本文通过水平翻转进行数据增强方式,不破坏语谱图的音频信息,增大数据量。如图3-10所示:图3-10翻转示意语谱图翻转的实验仍然以原始语谱图在基础CNN上0.65的精准度为对比,使用同样的模型和参数,多次实验后得到如下结果:表3-6翻转语谱图对比图像处理模型精准度原始语谱图1080张0.65水平翻转语谱图1080张0.62二者结合2160张0.68可以看出语谱图水平翻转增加数据量之后之比之前精准度增加了0.03,并不明显,单独将语谱图翻转送入CNN进行训练结果甚至下降了。3.3.3不同语谱图处理组合实验上文使用基础CNN进行语谱图的处理实验,独立对比了原始语谱图和使用不同数据增强方式后的语谱图的情感分类效果,为了进一步尝试提升卷积神经网络在语谱图情感分类上的效果,使用不同语谱图数据增强方式的组合,分别在基础CNN和上文表现最好的VGG网络上进行实验,效果如下表所示:表SEQ表\*ARABIC3-7不同数据增强组合的实验基础CNNVGG网络原始语谱图0.650.75原始语谱图+翻转语谱图0.680.71原始语谱图+高斯噪声(0.001)0.730.66原始语谱图+高斯噪声(0.003)0.660.68原始语谱图+高斯噪声(0.005)0.670.67原始语谱图+翻转语谱图+高斯噪声(0.001)0.730.70原始语谱图+翻转语谱图+高斯噪声(0.003)0.710.72原始语谱图+翻转语谱图+高斯噪声(0.005)0.710.73可以看到,对于基础CNN来说,不同的数据增强组合的准确率都有一定提升,使用原始语谱图+高斯噪声语谱图的识别率最高,为73%;然而在VGG网络上,数据增强的组合却使准确率有不同程度的下降,其中原始语谱图+高斯噪声组合的准确率最低,低于原始语谱图+翻转语谱图和原始语谱图+翻转语谱图+高斯噪声的组合。结合前文,在使用基础CNN独立对比了原始语谱图和使用不同数据增强方式后的语谱图的情感分类效果时发现,只有给语谱图添加0.001方差高斯噪声时效果有所提升,而其他情况下的实验效果均有所下降,说明语谱图翻转或者添加高斯噪声都会对语谱图情感的识别产生负面影响。猜测原因语谱图水平翻转模拟了语音倒放,人的语言顺序都是要顺着听的,这样做不符合人类表达情感的模式,也对语谱图时域上的特征提取造成了不利影响;而高斯噪声对语谱图的坐标点表达的能量值造成了干扰。对于基础CNN网络,在进行数据增强组合时也扩大了数据量,使得识别效果有略微提升,说明基础CNN模型的识别效果在更大的数据集上还能有所提升,而对于其他网络,数据量的扩大未能抵消不合适的数据增强带来的负面效果,造成了识别率的下降。3.4小结本节使用了四个CNN模型对语谱图进行情感识别,一个基础的CNN结构,一个用两个不同大小卷积核提取特征之后结合的模型,还有LeNet模型和模仿VGG网络构造的模型。其中模仿VGG网络的模型识别率最高,可达75%,其次是搭建的基础CNN模型,识别率在65%左右,这二者对于中性情感的识别率都是最高的,在其余情感的识别则表现平平,之后使用两种图片数据增强方法:添加高斯噪声和水平翻转,对比识别效果。在添加的高斯噪声方差为0.001时略微提升,其余的识别率都有所下降。单独将语谱图水平翻转识别率下降,将二者结合将数据量翻倍之后语谱图识别效果勉强提升,但是仍然微薄,可见水平翻转对语谱图识别效果并无增益,反而可能扰乱了时频域的特征提取。
总结本文结合语谱图和卷积神经网络进行语音情感识别。首先阐述了语音情感识别研究的背景、研究意义及应用,整理归纳了国内外研究现状;然后介绍了语音情感识别和卷积神经网络的相关原理和技术,包括情感分类模型、常见的语音情感数据库,然后介绍了一些常见的语音信号预处理方法,介绍了语音信号的语谱图特征和卷积神经网络基本原理;最后做了基于语谱图和卷积神经网络的语音情感识别的实验,将语音信号转化为语谱图,先后实验了四种CNN结构在分类语音情感的效果,接下来对语谱图进行不同预处理:翻转图像和添加高斯噪声,对比不同数据增强组合的实验效果,列出实验结果并进行了分析。语谱图翻转和添加高斯噪声后的识别率相较于原始的语谱图未有明显提高,四个网络模型中模仿VGG网络的模型精准度最好。(加上改进和未来展望)
参考文献[1]胡包钢,谭铁牛,王钰.情感计算一计算机科技发展的新课题[N].科学时报,2000.3.24.[2]张昕然,巨晓正,宋鹏,查诚,赵力.用于跨库语音情感识别的DBN特征融合方法.信号处理,2017,33(O5):649~660.[3]蒋庆斌,包永强,王浩,等.基于改进GMM的耳语语音情感识别方法研究[J].计算机应用与软件,2012,29(11):3.[4]朱从贤.基于深度学习的语音情感识别方法的研究[D].东南大学,2016.[5]陈平安.结合语谱图和神经网络的语音情感识别[D].湘潭大学,2018.[6]李姗,徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展,2017,27(05):82-86.[7]张若凡,黄俊,古来,许二敏,古智星.基于语谱图的老年人语音情感识别方法[J].软件导刊,2018,17(09):28-31.[8]中科院自动化研究所人机语音交互课题组.CASIA汉语情感语料库[DB/OL].htp://data/39277,2012-05-17.[9]赵力.语音信号处理[M.北京:机械工业出版社,2003.[10]Picard,R.W.Affectivecomputing[M].Cambridge:MITPRress.1997.[11]WilliamsCE,StevensKN.Emotionsandspeech:someacousticalcorrelates[J].JourmaloftheAcousticSocietyofAmerica,1972,52(4):1238-1250.[12]Davis,S.andMermelstein,P.(1980)Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonAcoustics,SpeechandSignalProcessing,28,357-366.[13]BasuS,ChakrabortyJ,andAftabuddinM.EmotionRecognitionFromSpeechUsingConvolutionalNeuralNetworkwithRecurrentNeuralNetworkArchitecture[C].InternationalConferenceonCommunicationandElectronicsSystems(ICCES),2017:333-336.[14]SattA,RozenbergS,HooryR.EfficientEmotionRecognitionfromSpeechUsingDeepLearningonSpectrograms[C]Interspeech2017.2017.[15]HararP,BurgetR,DuttaMK.Speechemotionrecognitionwithdeeplearning[C]InternationalConferenceonSignalProcessing&IntegratedNetworks.IEEE,2017.[16]OrtonyA,TurnerTJ.What'sbasicaboutbasicemotions?[J].Psychologicalreview,1990,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泰国文化室内设计
- pfl ZTP核糖体开关的分子动力学模拟
- 新消费时代背景下WDL超市服务质量提升策略研究
- 基于利益相关者的乡村旅游发展策略研究
- 石龙风淋室施工方案
- 辣椒果实长度主效QTL qLfl3.2的精细定位
- 基于问题链的英语阅读教学对初中生批判性思维影响的实验研究
- 基于广义Legendre多项式的分数阶微分方程解法
- 钛基金属有机框架改性及其非纯CO2光催化还原性能研究
- 多肽-铜离子配合物的氧化还原活性研究及其在生物传感中的应用
- 《单轴面筋脱水机设计报告(论文)》
- 内分泌系统 肾上腺 (人体解剖生理学课件)
- GPS静态数据观测记录表
- 山西省城镇教师支援农村教育工作登记表
- 软件项目周报模板
- 著名中医妇科 夏桂成教授补肾调周法
- VSM(价值流图中文)课件
- 考古发掘中文物的采集与保存课件
- 人工气道的护理刘亚课件
- 专业技术人员
- 拌和场安全检查表
评论
0/150
提交评论