基于SDA语音情感识别方法的研究_第1页
基于SDA语音情感识别方法的研究_第2页
基于SDA语音情感识别方法的研究_第3页
基于SDA语音情感识别方法的研究_第4页
基于SDA语音情感识别方法的研究_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SDA语音情感识别方法的研究C

NTENTS01研究背景02知识准备03使用方法04下一步计划

科技改变着人类的日常生活,人机交互的每一次革命都会引起巨大的变革。因此,设计更人性化的人机交互方式得到了众多研究者的重视。传统的人机交互方式主要依赖键盘、鼠标及现在流行的触摸屏等。然而,这样的人机交互方式忽略了人类情感的理解和表达能力,无法准确捕捉语音的精确内涵,为此人机交互迫切需要情感交流。目前设计具有人类智能的计算机,使之能够拟人化地与人类进行自然的交流将具有巨大的市场价值,这就要求现代计算机必须具有情感处理的能力,识别理解情感并作出具有情感力的回应。因此,情感处理技术获得了极大的关注,关于情感信息处理的研究也在此种背景下产生。研究背景01语音情感由一些语音参数表征,然而这些特征参数内在的复杂性决定了情感特征提取的困难。国内外研究者们从语音学和心理学方面对情感特征进行了大量的研究。一般提取的情感特征主要分为韵律特征、音质特征和谱特征。情感描述模型1.1韵律特征:是主要的语音情感参数,是对整个语音片段的表述。例如:音节重音,语调模式,说话速率和节奏。音质特征:主要指语谱和音色方面的特性,取决于说话的音波形式。情感不同,同一人的音质也会有差异,与情感的关联性也很大。频谱特征:反映了信号的频域特性。不同频谱区间的频谱能量分布和情感状态有很大相关性。例如:高频段离兴情感能量较高,悲伤情感能量很低。基本情感的划分1.2本文将基本情感划分为:快乐、愤怒、悲哀、惊恐四种状态。

知识准备02语音情感识别流程语音情感信号的预处理

2.1预加重:预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。一般使用阶数为1的滤波器。2.1.1

X(n)注:滤波器的阶数是指在滤波器的传递函数中有几个极点。2.1.2加窗分帧:语音信号在短时间内近似于平稳的过程,所以语音信号通常假设短时平稳。为了利用语音这一特性,在语音处理中,

把语音划分成许多短时帧。

2.1.3端点检测:语音信号端点检测技术就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号是语音处理的一项重要技术。语音信号的短时平均幅度为:2.1.3.1短时能量:语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段的能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入短时能量或短时平均幅度就能够把语音段和噪声背景区分开。短时能量定义为一帧采样点值的加权平方和,信号{x(n)}的短时能量定义为:

W(n)为窗函数短时平均过零率:指一帧语音信号通过零值的次数。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。

信号{x(n)}的短时平均过零率定义为:2.1.3.2Sgn为符号函数,即:短时平均过零率运算图:检测方法:利用过零率检测清音(声带不振动的音),用短时能量检测浊音(声带振动的音),两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限。低门限被超过未必是语音的开始,有可能是很短的噪声,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。2.1.3.2语音情感特征参数的提取与分析

2.22.2.1语音帧能量语音信号的能量特征与情感密切相关,实验中将采用短时能量、短时幅度及其部分统计特征参数作为情感特征参数。短时能量定义为一帧采样点值的加权平方和,如下所示:

2.2.2短时过零率

短时过零率从一定程度上体现了发音人语速的快慢,主要表征一帧语音中语音信号取零电平的次数。用处:区分无声和有声语音。2.2.3基音频率

基音频率指的是人发声时声带振动的基本频率,简称基频。研究表明,基频参数与情感的变化关系密切。图中的横轴是频率,纵轴是幅度。StackedDenoising

AutoEncoder(栈式去噪自编码SDA)033.1自编码网络自编码网络包含两个过程:(1)从输入层-》隐藏层的原始数据X的编码过程:(2)从隐藏层-》输出层的解码过程:

那么数据X的重构误差损失函数就是:m表示样本的个数稀疏自编码(SparseAutoencoder)3.2

m表示样本的个数

栈式自编码算法

同理,就是,按照从后向前的顺序执行每一层自编码器的解码步骤:

栈式自编码算法降燥自编码(Denoising

Autoencoders)

一,加入噪声二,随机的把输入层节点的值置为0(使输入节点的激活值置0)具体做法是首先按照上述方法确定第一层的权重参数,然后固定第一层的参数,对第二层的参数进行训练,以此类推,直到得到所有权重值。

+1+1+1+1P(y=0|x)P(y=1|x)P(y=2|x)InputFeature1Feature2Feature3SoftmaxclassifierSoftmax回归该模型是四分类(四种情感)问题,所以是一个多分类模型,而Softmax回归是处理多分类问题的函数。

下一步计划1,目前已经从网上找到一个栈式去燥自编码用来做图像的代码,正在改进里面的参数,来匹配当前我的语音分类模型。2,从査老师那儿获取了一些语音库资料,接下来用这些语音库来做训练数据。3,先用这个模型跑出情感分类结果,后期再改进模型,在输出层前加一层可视化自编码器,使网络结构输出的特征获得最大激励,使想要输出的特征更加明显。04THANK

YOUFOR

WATCHING感谢聆听信号数字‘4’的短时能量和平均过零率检测方法:利用过零率检测清音(声带不振动的音),用短时能量检测浊音(声带振动的音),两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限。低门限被超过未必是语音的开始,有可能是很短的噪声,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。2.1.3.2整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论