




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太原理工大学信息工程学院本科毕业论文(设计)开题报告毕业设计(论文)题目情感语音信号中共振峰参数的提取方法学生姓名赵智越导师姓名孙颖专 业通信工程报告日期2013年3月5号班 级0902班指导教师意见签字 年 月 日专业(教研室)主任意见年 月 日系主任意 见年 月 日一 选题意义随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语音信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义。语音信号处理技术作为一个重要的研究领域有着很长时间的研究历史,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。语音情感识别是语音识别的一个重要的分支,而语音识别则是数字信号处理技术与语音学的交叉学科,它和心理学、计算机科学、认知科学、语言学、人工智能和模式识别等学科紧密联系。近年来,人们研究发现情感所引起的语音信号变化对语音识别、语音合成、说话人确认等方面有较大影响,所以语音情感处理的研究逐步提高了人们的重视。目前有很多研究者在致力于研究并处理语音情感信息有效方法以及情感对语音的影响。汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基因频率和共振峰频率等。共振峰频率简称共振峰,它与声道的形状和大小有关,一种形状对应着一套共振峰。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,人在语音感知中也利用了共振峰信息,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会发生不同的变化。共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理是极其有意义的。二 情感语音识别技术的国内外发展现状九十年代中期之后,语音情感信息处理受到了越来越多的关注,这方面的研究也在不断深入,并取得了一定的进展。近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、心理学角度的情感建模到语音情感的声学关联特征,以及各种针对语音情感识别和合成的算法、理论展开了深入的研究,还从工程学的角度将情感作为信息信号工学的研究对象。但是,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个低级水平,存在一些需要进一步深入研究的课题。如:合理的有效的语音情感特征建模方法;开发更全面更有效的语音情感特征;对情感语句中主要反映情感变化的关键词和短语的研究。下面将分别简单介绍国内外情感语音识别发展现状。1 国际情感语音识别发展现状目前,关于情感的研究正处在不断的深入之中,语音的情感识别因为涉及到不同语种之间的差异,发展也不尽相同。美国MIT媒体实验室Rosalind Wpicard教授领导的情感研究组织首次尝试了用基频、时长、音质和清晰度等声学参数的变化来合成情感语音。她后来又验证了情感状态与语音声学参数的相关性,并提出悲伤情感最容易区分,而高兴、惊讶和愤怒等具有相似的语音特性参数,不容易区分。此后,MIT媒体实验室Raul Fernandez在2003到2004年还完成了关于从语音的韵律学参数入手的语音情感识别的计算模型研究,试验用有韵律特征进行分类实验,比较了与人类情感识别的性能差异。英国贝尔法斯特女王大学的RoddyCowie和EllenDouglas-Cowie教授领导的情感语音小组研究的重点在于心理学和语音分析。他们收集并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一个FEELTRACE工具用来记录人类从语音中感知到的情感信息。他们还开发了一个情感语音分析的ASSESS工具,用统计的方法分析语音的声学特征与情感的相关性,并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤怒、害怕、高兴和悲伤4类主要情感进行了分类,用判别分析的方法达到了55%的识别率。美国南加州大学语音情感组由Narnyanan教授领导。在语音情感识别方面,他们以客服系统的呼叫中心为应用背景,研究识别正面情感和负面情感。首次将语音的声学信息、词汇和语义信息结合,并将模糊推论系统用于识别系统,初步试验结果表明,结合这三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了38.5%。C N Anagnostopoulos和T Iliou.建立了德语语音库,提取了133个语音特征来识别其中语音情感,根据统计分析来估计每种语音特征、人工神经网络用于训练情感分类,最后达到了平均51%的识别率。 2 国内情感语音识别发展现状目前,国内也已经有多所高校从事语音情感识别的研究,东南大学、清华大学、浙江大学、中国台湾大学、中国科学院、微软亚洲研究院、哈尔滨工业大学等机构在这方面做了大量工作。东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究。他们分析了不同情感的语音在时间构造,能量构造,基音构造,共振峰构造等方面的差别,以情感语音和自然语音特征向量的差值作为情感识别特征,用主成分分析法识别高兴、惊奇、愤怒、悲伤四类情感,在较小的实验数据集中能达到约80%的识别率。由清华大学计算机科学与技术系的蔡莲红教授领导的人机语言交互实验室也开展了普通话语音情感识别研究。蒋丹宁通过特征的区别特性分析和分类实验,研究了韵律特征在普通话语音情感识别中的作用。将韵律特征分解为纯语音的特征和纯情感的特征,并将后者运用于语音情感识别,用多层感知器对六种情感进行识别,得到平均82.4%的识别率。台湾大同大学资讯工程学系的包苍龙教授领导的数据通讯与信号处理实验室也较早地致力于普通话语音情感识别的研究。他们构建一个包含愤怒、高兴、悲伤、厌烦和中立五个情感类别,约800句情感语音的普通话情感语音数据库。在语音情感识别中,提取16个LPC参数,12个LPCC参数,16个LFPC参数,16个PLP参数,20个MFCC参数组成向量,作为识别特征,用LDA,KNN和HMM分类器对说话人无关和说话人相关两组语音素材做识别,得到最高88.7%的识别率。中国电子科技研究院的付丽琴等人以HMM作为语音情感分类器模型,对不同情感状态选择不同的特征向量进行识别。系统分两个阶段完成:首先基于漏识率和误识率最小的决策原则,采用优先选择(PFS)算法分别为每种情感状态选择最优的特征向量,然后用这些特征向量分别建立对应情感状态的HMM模型。利用北航情感语音库(BHUDES)对算法进行验证,将所有实验样本分为训练样本集、特征选择样本集和测试样本集3组,采用交叉实验的方法对本算法进行验证,结果表明,与单特征向量HMM相比,多特征向量HMM可达到更高识别精度。三 主要研究内容 1.研究情感语音信号共振峰提取的背景及研究意义,分析情感语音识别技术的国内外研究现状、应用领域。 2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。 (1)虚假峰值 (2)共振峰合并 (3)高音调语音 3.分析共振峰的多种提取方法。 (1)谱包络提取法共振峰信息包含在语音频谱包络中, 因此共振峰参数提取的关键是估计自然语音频谱包络, 并认为谱包络中的最大值就是共振峰。 (2)倒谱法提取共振峰 因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。 去除了激励引起的谐波波动, 所以可以更精确地得到共振峰参数。 (3)LPC法提取共振峰 从线性预测导出的声道滤波器是频谱包络估计器的最新形式, 线性预测提供了一个优良的声道模型 (条件是语音不含噪声) 。 (4)求根法提取共振峰找出多项式复根的过程通常采用牛顿拉夫逊 (Newton-Raphson)算法。 (5)LPC倒谱法提取共振峰语音信号的倒谱可以通过对信号做傅里叶变换, 取模的对数, 在求反傅里叶变换得到。 4.重点研究分析倒谱法提取语音信号共振峰,并利用这种方法提取情感语音中的共振峰。 四 拟实现的主要功能利用倒谱法实现情感语音共振峰提取!具体过程如下:倒谱将情感语音谐波和声道的频谱包络分离开来。倒谱的低时部分可以分析声道、声门和辐射信息,而高频部分可用来分析激励源信息。对倒谱进行低时选窗,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位,即可提取共振峰。 五 设计方案及进度安排第1周 收集资料,通过多种方式(图书馆查阅、网上查阅、和指导老师交流) 确定课题。第2-5周 根据课题以及要实现的功能,大量阅读相关文献,了解与课题相关的知识、原理以及实现过程第5-6周 了解共振峰提取的基本方法及过程,并选定一种方法作为重点研究对象。第7周 写开题报告第8-12周 编写程序,运行结果第13-15周 写论文第十六周 做ppt六 参考文献1 胡航. 语音信号处理M. 哈尔滨: 哈尔滨工业大学出版社, 2000: 113-116.2 张刚, 张雪英, 马建芬. 语音处理与编码M. 北京, 兵器工业出版社, 2000.3 Rosalind W Picard. Affective computingJ, Minds and Machines, 1999, 9:443-447.4 Cowie R and Cornelius R. Describing the emotional stares that are expressed in SpeechJ, Human-Computer Studies, 2003, 40:5-3.5 D Ververidis and C Kotropoulos, Emotional speech recognition:Resources, features and methodsJ, Speech Communication, 2006, 48(9):1162-1181.6 Cowie, R.Douglas-Cowie, E.Savvidou, MeMahon, E.Sawey, M.Sehroder, M.FEELTRACE:An Instrument for Recording Perceived Emotion in Real Time. In ISCA Workshop on Speech and Emotion, Belfast 2000.7 Cowie, R.Douglas-Cowie, E.Speakers and hearers are people:Reflections on Speech deterioration as a consequence of acquired deafness in Profound Deafness and Speech Communication. London, 1995.8 R.Cowie,E.Douglas-Cowie, E.Automatic statistical analysis of the signal and prosodic signs of emotion in speech.In Proc. 4th Int. Conf. Spoken Language Processing.PhiladelPhia, PA, 1996:1989-1992.9 Fernandez,R.A Computational Model for the Automatic Recognition of Affect in Speech.MIT Media Arts and Science, February 2004.10 Ang J,Dhillon R, KruPSki A, Shriberg E, Stoleke A.Prosody-based automatic detection of annoyance and frustration in human-computer dialogC, IPIC on spoken Language Processing,Denver, 2002, 3:2037-2040.11 赵力, 蒋春辉, 邹采荣. 语音信号中的情感特征分析和识别的研究N. 电子学报, 2004, 4:606-609.12 Dan-NingJiang,Lian- Hong Cai. Classifying Emotion
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江嘉兴南湖嘉禾商务咨询有限公司招聘3人笔试参考题库附带答案详解
- 2025河北保定钞票纸业有限公司人员招聘29人笔试参考题库附带答案详解
- 2025广东中山市三角镇资产经营有限公司招聘管理人员1人笔试参考题库附带答案详解
- 2025年开封市文化旅游投资集团有限公司招聘5人笔试参考题库附带答案详解
- 2025年南京地铁运营有限责任公司秋季招聘笔试参考题库附带答案详解
- 2025天津市今晚网络信息技术股份有限公司招聘40人笔试参考题库附带答案详解
- 2025中国机械工业集团有限公司(国机集团)社会招聘19人笔试参考题库附带答案详解
- 地铁扶梯安全培训课件
- 地铁安全知识培训课件
- 地质队安全培训暨宣誓课件
- 恒瑞医药简介课件
- 甲午中日战争情景剧
- 石油行业安全培训课件
- 国开电大组织行为学任务四调查报告
- 事业单位医学基础知识名词解释
- 施工现场安全监理危险源清单一览表
- GB/T 233-2000金属材料顶锻试验方法
- FZ/T 74003-2014击剑服
- 颈椎DR摄影技术-
- 功能材料概论-课件
- 一点儿有点儿课件
评论
0/150
提交评论