已阅读5页,还剩49页未读, 继续免费阅读
(信号与信息处理专业论文)基于bp神经网络的语音情感识别算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 语音是人类交流的重要手段,是相互传递信息中最方便、最基本和最直接 的途径。语音信号在传达语义信息的同时,还传递着情感信息,而情感在人们 的交流中起着重要的角色。因此,随着人机交互技术的快速发展,语音信号中 的情感信息正越来越受到研究人员的重视,特别是在语音合成和语音识别等领 域。长期以来情感智能研究只存在于心理学和认知科学等领域,但是近年来随 着信息技术的高速发展和人类与计算机关系的日益密切,如何实现计算机的拟 人化,能感知周围的环境、情感等内容,已成为了人机交互能力的重要标志和 目标。情感智能和计算机技术的结合使之产生了情感识别这一崭新的研究课题。 语音信号的情感识别也可以看作是模式识别的问题,研究者通常会提取很多语 音特征作为情感特征,将提取的语音特征输入到分类器进行情感识别。 论文重点研究了基于b p 神经网络的语音情感识别。主要研究内容如下: ( 1 ) 语音信号的前端处理。对情感语句进行了有效的预加重、加窗和端点检 测处理,研究了短时过零率和短时能量的提取方法,比较和分析了基音周期的 估计算法,通过研究前人提出的方法改进了基音周期估计算法。 ( 2 ) 语音情感特征参数的分析和提取。对大量的情感语句的特征变化规律进 行了统计分析,研究了与情感相关的特征信息,确定了用于语音情感识别的1 6 个特征值,并组成了1 6 维特征向量,包括:第一共振峰、第二共振峰、第三共 振峰的最大值、最小值和平均值;平均短时过零率的最大值;基音频率的均值, 最大值和最小值以及短时能量的最大值、最小值和平均值。 ( 3 ) 由于提取的特征矢量是高维的,而且具有一定的相关性,即存在一定的 冗余。因此本文对神经网络训练集中的样本作了归一化处理,然后作了主成分 分析,既降低了输入的特征矢量的维数,同时也去除了冗余信息。本文还分析 了b p 神经网络的结构、原理和存在的缺点,在m a t l a b 6 5 实验环境中,将两 种改进的b p 算法用于识别语音情感,与传统的b p 算法相比,改进的b p 算法 无论从识别率还是收敛速度上都有了定的提高。 关键词:人机交互,语音情感,情感声学特征,b p 神经网络。 a b s t r a c t s p e e c hi si m p o r t a n tm e a n s i nc o m m u n i c a t i o nb e t w e e np e o p l ea n di ti so n eo ft h e f i m d 锄e n t a lm e t h o d so fc o n v e y i n ge m o t i o n ,o nap a rw i t hf a c i a le x p r e s s i o n s p e e c h s i g n a l sc o v e y s e m a n t i ci n f o r m a t i o n , m e a n w h i l e ,t h e y a l s ot r a n s m i te m o t i o n a l i n f o r m a t i o n , m o r e o v e r , e m o t i o np l a y sa ni m p o r t a n tr o l ei nc o m m u n i c a t i o n s oa l o n g w i t hr a p i dd e v e l o p m e n to fh u m a nc o m p u t e ri n t e r a c t i o ns y s t e m ,e m o t i o n i ns p e e c hi s at o p i ct h a th a sr e c e i v e dm u c ha t t e n t i o nd u r i n gt h el a s tf e wy e a r s ,i nt h ec o n t e x to f s p e e c hs y n t h e s i sa sw e l la si na u t o m a t i cs p e e c hr e c o g n i t i o n e m o t i o nh a sp h y e da s i g n i f i c a n tr o l ei nt h ep r o c e s so fh u m a nd e c i s i o n - m a k i n ga n dp e r c e p t i o n f o ral o n g t i m er e s e a r c ho ne m o t i o ni n t e l l i g e n c eh a so n l yb e e nd o n ei nt h ef i e l d so fp s y c h o l o g y a n dc o g n i t i v es c i e n c e ,b u ta l o n gw i t ht h er a p i dd e v e l o p m e n to f i n f o r m a t i o n t e c h n o l o g ya n dt h eg r o w i n gc o n c e r no fr e l a t i o n s h i pb e t w e e nh u m a na n dc o m p u t e r t h e s ey e a r s , h o wt oa c h i e v ep e r s o n i f i c a t i o no fc o m p u t e r , w h i c hc a na p p e r e e i v eo u r e n v i r o n m e n t ,o u re m t i o ne t c ,w h i c hh a sb e c o m et h ei m p o r t a n ts i g n a n dg o a lo f m a n m a c h i n ei n t e r a c t i v ea b i l i t y t h ec o m b i n a t i o no fe m o t i o ni n t e l l i g e n c e a n d c o m p u t e rt e c h n o l o g yb r i n g st h e n o v e lr e s e a r c ha r e an a m e de m o t i o nr e e o g n i t i o n s p e e c he m o t i o nr e c o g n i t i o ni s ak e yp a r to fa f f e c t i v ec o m p u t i n g t h ee m o t i o n f e a t u r e sa r ee x t r a c t e dp r e c i s e l yf r o mt h ew a v es i g n a l sb yc o m p u t e ra n du s e dt o r e c o g n i z et h ee m o t i o n s t a t e t h ep a p e rh a sc o n d u c t e dt h er e s e a r c hf o c u s i n go ns p e e c he m o t i o nr e c o g n i t i o n b a s e do nb pn e u r a ln e t w o r k t h ed i s s e r t a t i o ni so r g a n i z e da sf o l l o w s : ( 1 ) i nf r o n to ft h es p e e c hs i g n a lp r o c e s s i n g e m o t i o ns e n t e n c e i se f f e c t i v e l y p r e - e m p h a s i s e d ,w i n d o w e d a n d e n d p o i n t d e t e c t e d s t u d i e d t h es h o r t - t e r m z e r o c r o s s i n gr a t ea n ds h o r t t e r me n e r g ye x t r a c t i o nm e t h o d ,c o m p a r e da n da n a l y z e d t h ee s t i m a t i o na l g o r i t h mo fp i t c h ,i m p r o v e dt h ee s t i m a t i o na l g o r i t h mo fp i t c hb y s m d 妒n g t h em e t h o d sp m p o s e db yp r e v i o u s ( 2 ) a n a l y s i s a n de x t r a c t i o no fc h a r a c t e r i s t i cp a r a m e t e r s o fe m o t i o n a l v o i c e a n a l y z e ds t a t i s t i c a l l yc h a n g ed i s c i p l i n eo fc h a r a c t e r i s t i c s f o r 12 0e m o t i o n u 武汉理工大学硕士学位论文 s t a t e m e n t ,s t u d i e dc h a r a c t e r i s t i ci n f o r m a t i o na b o u te m o t i o n , c e r t a i n e d16e i g e n v a l u e s f o rs p e e c he m o t i o nr e c o g n i t i o n , f o r m e da16 - d i m e n s i o n a lf e a t u r ev e c t o r , i n c l u d i n g : t h em a x i m u m 、m i n i m u mv a l u e 、m e d i u r nv a l u eo ft h ef i r s tf o r m a n t 、t h es e c o n d f o r m a n t 、t h et m r df o r m a n t ;t h em a x m u mv a l u eo fs h o r t - t i m ea v e r a g ez e r o c r o s s i n g r a t e ;t h em e d i u mv a l u e 、m a x i m u m 、m i n i n l b mv a l u eo fp i t c hf i c q u e n c ya n dt h e m a x i m u m 、m i n i m u mv a l u e 、m e d i u mv a l u eo fs h o r t - t i m ee n e r g y ( 3 ) s i n c et h ee x t r a c t e d f e a t u r ev e c t o ri s h i g hd i m e n s i o n a l ,a n dh a ss o m e r e l e v a n c e ,t h a ti s ,t h e r ei sac e r t a i nd e g r e eo fr e d u n d a n c y t h e r e f o r e ,t h i sa r t i c l e f o c u s i n go nt h en e u r a ln e t w o r k 仃a i n i n gs a m p l e sw e r en o r m a l i z e d ,a n dt h e nm a d ea p r i n c i p a lc o m p o n e n ta n a l y s i s ,n o to n l yr e d u c e d t h ei n p u to ft h ef e a t u r ev e c t o r d i m e n s i o n , b u ta l s or e m o v e di n f o r m a t i o ni na d d i t i o nt o t h ep a p e ra n a l y z e dt h e s t r u c t u r e 、p r i n c i p l ea n ds h o r t c o m i n go fb pn 伽r a l n e t w o r k i ne x p e r i m e n t a l e n v i r o n m e n tw i t hm a t l a b 6 5 ,t w oi m p r o v e db pa l g o r i t h mi su s e dt oi d e n t i f y e m o t i o n a lv o i c e , w i t ht h et r a d i t i o n a lb pa l g o r i t h m , t w oi m p r o v e db fa l g o r i t h m i m p r o v e dt h er e c o g n i t i o nr a t ea n dc o n v e r g e n c es p e e d k e yw o r d s :h u m a n - c o m p u t e ri n t e r a c t i o n , s p e e c he m o t i o n , e m o t i o n a la c o u s t i c s c h a r a c t e r i s t i c ,b pn e u r a ln e t w o r k i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:雾妞日期:型骂盟 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :帮浈俪导师( 签名) :刁爿日期伊t m 奶 武汉理工大学硕士学位论文 第1 章绪论 1 i 语音情感识别的研究背景 计算机科学技术的快速发展对人类社会产生了巨大的影响,一场信息革命 正在酝酿,为了使人类与计算机之间能够更加智能更加自然的交互,新型的人 机交互技术正逐步成为研究热点,而实时多媒体信息在新型人机交互环境中扮 演着举足轻重的角色,计算机通过采集语音信息和图像信息,形成计算机听觉 和视觉,然后处理采集到的媒体信息进行识别,从而感知使用者的意图,完成 人机自然交互。研究表明,在人机交互中需要解决的重要问题是“情感智能” 的能力,对于情感信息的处理技术有语音情感识别,情感语音合成,脸部表情 处理,情感机器人等。目前,对于情感信息处理的研究正处在不断深入中,其 中语音信号中的情感信息处理的研究也越来越受到研究者的重视。 包含在语音中的情感信息是一种很重要的信息资源,它是人们感知事物的 必不可少的信息。例如,同一句话,由于说话人所表现的情感不同,在听者的 感知上就会有较大的差别,所谓“听话听音就是这个道理。而语音情感识别 就是建立在对语音信号的产生机制深入分析的基础上,对语音中反映个人情感 信息的一些特征参数进行提取,并利用这些参数采用相应的模式识别方法来确 定语音情感状态的技术。传统的语音识别是语音学与数字信号处理技术相结合 的交叉学科,它与认知科学、心理学、语言学、计算机科学、模式识别和人工 智能等学科联系紧密,对它的研究已经有相当多的方法可以实现,例如动态规 划( d p ) ,线性预测分析技术( l p c ) ,动态时问归正技术( d t w ) ,矢量量化( v q ) 隐 马尔可夫模型( h m m ) 理论【l 】和人工神经元网络( a 1 州) 【2 1 ,然而传统的语音识别系 统仅仅着眼于传达语音词汇的准确性,而完全忽略了包含在语音信号中的情感 因素,所以它只反映了信息的一个方面。语音情感识别作为传统语音识别的一 个重要研究方向,着眼点不是传统语音识别中语音词汇表达的准确性,而是传 统语音识别中完全忽略的包含在语音信号中的情感和情绪信息。直到近年来, 人们发现情感和态度所引起的变化对语音合成、语音识别、说话人识别等方面 的影响较大,因而语音信号中情感处理的研究逐步引起了人们的重视。因此, 武汉理工大学硕士学位论文 语音情感信息的研究,分析语音信号中的情感特征、判断说话人的喜怒哀乐是 一个具有重大意义的研究课题。 1 2 语音情感识别的意义和应用价值 随着新型的人机交互技术的快速发展,语音处理领域产生了许多热门的研 究方向,如个人机器人、语音识别、语音合成、语音的转换、语言翻译、个人 隐私保护等。而其中,语音情感识别技术的研究是伴随着这些主要的研究方向 的兴起而发展起来的,它在这些方向中,具有广泛的应用。在个人机器人的研 制中,提出最基本的要求就是能够领会人的情感,并能够在理解人情感的同时 以适当方式表达出自己的情感;同时考虑到目前个人机器人在接受信息和自身 运算上的限制,对于语音情感的研究将是它理解情感的最有效途径。在语音识 别中,对特定人的语音进行训练时,即使说相同的内容,但在不同年龄段,不 同的地点,不同的情绪等环境下都会直接对训练效果产生重要的影响,而利用 语音情感识别技术,可以尽量将各种不同情感状态下的语音统一起来,保持主 要的个人信息,在统一刻度下,这样就可以大大提高语音识别率和鲁棒性。在 语音合成中,特别是基于音素连接文本到语音合成系统中,可以通过结合语音 情感识别技术,使重建的语音具有符合要求的情感成分,这样就可以避免为录 制不同情感状态的语音库而付出昂贵费用,同时,重建的语音需要进行相关的 韵律修改工作,借以产生合适的基频、能量等信息。在语音的转换和语言翻译 中,目前的系统往往在对语音进行变换后,扭曲了原有语音中的情感信息,通 过采用语音情感识别技术就可以对处理后的语音进行情感的有效恢复,从而保 证了语音中信息表达的完整与准确。语音情感识别还可以应用在教学辅导、娱 乐等方面。总体说来,情感识别在以下几个方面有重要的应用:( 1 ) 信息查询系 统;( 2 ) 计算机辅助教学;( 3 ) 电子商务领域;( 4 ) 娱乐游戏;( 5 ) 虚拟人物对话。 此外它还可以用于说话人识别,提高说话人识别率:用于临床医学;用于辅 助临床精神分裂症的诊断和治疗;还可以用于刑事侦察中自动检测犯罪嫌疑人 的心理状态,辅助测谎等。语音情感识别的研究,不但可以推动计算机技术的 进一步发展,也将大大提高人们的工作和学习效率,更高效率地帮助人们解决 问题,同时也将进一步丰富人类的生活,提高人们的生活质量。 今天,我们会看到人们与计算机交流的时间越来越多,甚至已经超过了人 2 武汉理工大学硕士学位论文 与人之间的交流,越来越多的人每天通过互联网彼此交流,这带来了数以十亿 计的经济冲激,更不要说难以量化的心理冲激。这个日益增长的冲激,加之语 音情感己经存在的和潜在的广阔的应用前景都强烈地推动着语音情感识别技术 研究的深入进行。可以预见,随着i n t e m e t 的普及以及计算机性能的大幅提高, 语音情感识别技术将被广泛应用于包括新型人机交互在内的诸多领域,并将产 生很好的经济效益和社会效益。 1 3 语音情感识别研究发展现状 语音情感识别是目前语音信号处理及模式识别领域的一个新的研究热点, 在许多领域有着重要的意义,涉及领域有:信号处理、心理学研究、虚拟现实 技术、新型人机交互技术、模式识别、信息论、发声机理、听觉机理、人工智 能等。 虽然从心理学和生理学的角度对情感进行研究已经有较长的历史,但是从 工程学的角度上把情感作为信息信号工学的研究对象来进行研究还只是初步阶 段。从语音情感的研究方面来看,在8 0 年代末9 0 年代初期,为了建立语音理 解和语音会话系统的会话模型,有人进行了根据说话人语音的韵律变化来判断 说话人的态度、意图,从而控制人机会话过程的研究,这也许是最早从工学处 理的角度来处理情感信息的实践。从上个世纪9 0 年代中后期开始,随着计算机 多媒体技术等信息处理研究领域的出现,各国才陆续开始重视情感信息处理技 术的研究。在1 9 8 1 年,w i l l i a m s 和s t e v e n s 通过对语音产生机理的分析,总结 出在不同情感状态下,生理上起主导作用的神经系统及相应的生理反应【习;在 1 9 9 6 年d e l l a e r t 提出以基音频率相关信息为主要特征分类的方、法【4 1 ,并考虑了恐 惧、愤怒、悲伤和高兴四种情感状态,通过研究,他指出语音情感识别中最显 著的特征包括t 基音频率的最大值、最小值和中值,基音频率包络线在上升部 分的导数,并采用k 氏最近判别法来识别;同年日本文部省作为重点研究领域 曾下达了“情感信息处理的信息学、心理学研究的重点课题,参加该项目的 有十几个学校和研究单位,主要目的是把情感信息的研究从心理学角度向心理 学、信息学这一交叉学科领域过度;欧美国家例如美国伊利诺斯州立大学、美 国航空航天局在加州的艾姆斯研究中心( n a s a a m e s r e s c t r ) 、英国谢菲尔德大 学、澳大利亚的悉尼和m a c q u a r i e 大学、西班牙的马德里大学以及微软、i b m 等 3 武汉理工大学硕士学位论文 著名公司均有人在开展这方面的研究,但是,欧美国家在情感信息处理的研究 水平上大致和日本相差不多。近年来,随着h m m 、小波变换等新方法的应用, 以及高性能的计算资源的使用,都极大地推动了语音情感识别技术的研究与发 展,并使其成为科研热点。各种模式识别方法,例如线性判别分类、k 最近邻法、 高斯混合模型、隐马尔可夫模型等,都被应用于语音的情感识别,也取得了不 错的效果。 而国内,语音情感识别研究较早的是东南大学,目前已有许多学者参与到 语音情感识别的研究工作当中。赵力等提出了3 种基于主元素分析的语音信号 中的情感识别方法【5 l ,使用这些方法获得了基本上接近于人的正常表现的识别效 果;王治平等利用模糊嫡理论来分析语音信号情感特征参数相对于识别情感模 式的不确定度,并提出了一种利用模糊嫡对情感参数有效性进行度量的方法【6 】; 南京航空航天大学电子工程系的钱向民等分析了含有欢快、愤怒、惊奇、悲伤 等4 种情感语音信号的时间构造、振幅构造、基频构造和共振峰构造的特征, 通过和不带情感的平静语音信号的比较,总结了不同情感语音信号的情感特征 的分布规律【7 1 ;赵力等还在利用全局特征进行语音情感特征分析的基础上,提出 了采用情感语句中各元音时序结构作为新的特征,并针对不同语句中包含不同 元音个数的情况,提出了零补齐、全局均值补齐、前均值补齐三种不同的规整 方法对语音情感特征进行了分析【s 】。另外,赵力和王治平针对语音情感识别特征 识别问题,利用支持向量机对其进行了研究 9 1 ;江苏大学的詹永照【1 0 】等也针对语 音情感识别的实时性与可用性问题,提出了利用加权欧氏距离模板匹配识别语 音情感;国家自然科学基金委也立项资助哈尔滨工业大学进行心理紧张等情况 下的r o b u s t 语音识别研刭j 。 1 4 论文的主要工作和内容安排 本文在阅读研究国内外有关语音信号处理和语音情感识别理论与方法的文 献后,比较和借鉴现有的语音情感识别方法,提取有效的情感特征参数,对特 征参数选择方法以及情感识别方法进行改进和完善,提出了基于b p 神经网络的 语音情感识别方法,论文的主要工作包括以下内容: ( 1 ) 情感语音数据的前端处理。对情感语句进行了有效的端点检测处理,研 究了短时过零率和短时能量的提取方法,比较和分析了基音周期的估计算法, 4 武汉理工大学硕士学位论文 提出了改进型的算法。 ( 2 ) 语音情感声学特征提取的研究。用m a t l a b 及其工具箱,对大量情感语 句的特征变化规律进行了统计分析,研究了与情感相关的特征信息,确定了用 于情感识别的1 6 个特征值,并组成了1 6 维特征向量,包括:第一共振峰、第 二共振峰、第三共振峰的最大值、最小值和平均值,平均短时过零率的最大值、 最小值和平均值,短时能量的最大值、最小值和平均值,平均幅值的最大值。 ( 3 ) 在语音情感识别方法方面。由于提取的特征矢量是高维的,而且具有一 定的相关性,即存在一定的冗余。因此本文对神经网络训练集中的样本作了归 一化处理,然后作了主成分分析,既降低了输入的特征矢量的维数,同时也去 除了冗余信息。本文采用了改进的b p 神经网络来识别四种情感。 ( 4 ) 总结。最后对课题所做的工作进行了总结,讨论了该领域存在的一些问 题,展望了下一步的工作。 本文的内容安排结构如下:第1 章是绪论,为后面各章的内容进行简要介 绍。第2 章主要对情感语音信号的特点进行了分析,研究和介绍了情感语音信 号的短时过零率、短时能量以及基音周期的估计方法。在第3 章中,讨论了语 音情感的声学特征,并在德语情感语音数据库的基础上,对德语语音作了情感 声学特征的统计分析。在第4 章中,研究了b p 神经网络的结构及算法,并分析 了b p 神经网络存在的缺点及改进方法,同时把有动量的梯度下降法和共轭梯度 法这两种改进的b p 算法用于语音情感识别,具体阐述了本文b p 网络设计过程 中输入、输出层的设计、隐层结点数的选择、激励函数的选择和初始值的选取 中需要注意的问题。并给出了实验过程和实验结果。在第5 章是结论部分,对 本文的研究做了一个全面的总结,总结了本文研究的主要内容以及目前的成果, 并提出了一些有待改善的地方,对以后的语音情感识别技术的发展作了展望。 本文的创新之处主要体现在两个方面,一就是特征参数的提取,二就是识 别方法。 ( 1 ) 研究并改进了语音信号的端点检测,采用了一种改进的幅度差平方和函 数的基音周期检测算法。 ( 2 ) 对情感语音数据库中的语句进行了基音频率和共振峰的统计和分析。 ( 3 ) 研究了b p 神经网络模型,建立了改进的b p 神经网络模型并用其进行 语音情感的训练和识别。 5 武汉理工大学硕士学位论文 2 1 引言 第2 章语音信号的前端处理 语音信号的前端处理【1 2 1 是语音识别的前提和基础,它是语音信号的一种分 析方法,只有分析出可以表示语音信号本质特征的参数,才有可能利用这些参 数进行高效语音通信、语音合成和语音识别处理。而且语音通信的准确与否, 语音合成质量的好坏,语音识别率的高低,也都取决于语音信号分析的正确性 和精确性。语音信号的前端处理包括语音信号的端点检测、基音周期估计等。 2 2 语音信号的预处理 在对语音信号进行分析和处理之前,必须对其进行预处理,首先对输入的 语音信号作前端处理,流程图如图2 1 所示。 医习4 磊习磊两厢 习周丽 i一i一i一1,一1一1一【。一 图2 1 语音信号i j f 端处理流程图 声音是声波通过空气的传播而产生的,是模拟信号,要计算机对它进行处 理,必须转化为数字信号。所以要通过采样使输入的声音变为数字信号,而采 样之前应接入反混叠滤波器( 低通滤波器) ,使其在宽带限制的某个范围内,否 则,如果采样率不满足采样定理,就会产生频谱混叠,此时信号中的高频部分 将产生失真。通常,这种低通滤波器是与a d 转换器( 采样和量化) 一起做在 一个集成块内,目前来说,计算机内的声卡在这方面做是比较好,因此,语音 信号的数字化质量还是有保证的,声音通过话筒输入到声卡后直接获得的是经 过低通滤波、d 转换、量化处理后的离散数字信号。 2 2 1 语音信号的预加重 预处理除了上面所讲通过计算机上的声卡对语音波形的滤波和a d 转换, 获得w a v 文件外,还应包括放大、增益控制和预加型1 3 1 等。 6 武汉理工大学硕士学位论文 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上,按6 d b 倍频程跌落,为此,要在预处理中进行预加重。预加重的 目的就是为了消除声带和嘴唇的效应以提升高频共振峰的振幅部分,使信号的 频谱变得平坦,以便进行频谱分析或声道参数分析,预加重可以在a d 变换之 前,在反混叠滤波之后进行,也可以在a d 转换后。由于预加重可以有效地提 高信噪比。所以,为了尽量提高信噪比,本文在a d 变换之后进行预加重,通 过具有6 d b 倍频程的比例提升信号高频特性的预加重数字滤波器来实现,预加 重数字滤波器一般是一阶的,预加重数字滤波器如式( 2 1 ) 所示, h ( z l = 1 一l t z - 1( 2 1 ) 其中,是预加重系数,在0 9 到l 之间。本文中的所有实验都采用0 9 3 7 5 。 语音信号特征提取前通过一个预加重滤波器,可以起到消除滞留漂移、抑 制随即噪声和提升清音部分能量的效果。 下图2 2 和2 3 就是语音信号在预加重之前和预加重后的波形。 图2 - 2 预加重前的语音信号波形图2 - 3 预加重后的语音信号波形 2 2 2 语音信号的加窗 在语音信号经过预加重后,为了减少语音帧的截断效应,就需要对语音信 号进行分帧加窗。由于语音信号是短时平稳的,所以在5 - 5 0 m s 范围内,语音频 谱特性和一些物理特征参数基本保持不变,这样我们就可以将平稳的处理方法 和理论引入到语音信号的短时处理中,每个短时的语音段称为一帧,我们一般 7 武汉理工大学硕士学位论文 取帧长为1 0 , - - , 3 0 m s 。由于选择不同的窗函数会使确定的某些物理特征参数( 如: 短时能量) 具有不同的特性,因此我们要选择合适的窗函数,使其短时参数更 好地反映语音信号的特性变化。常用的典型窗函数有以下几种:( 1 ) 矩形窗;( 2 ) 汉宁窗;( 3 ) 汉明窗。这三种窗函数的时域和幅度特性如下图2 4 、2 5 、2 - 6 所 示:( 其中n = 2 0 ,频域采样点为2 5 6 ) 。 2 倒 囊 1 矩形窗的时域特征四 矩形亩的颏域特征图 1 0 加 倒 鞠 n n 6 0 l 羹锄 俐 邺 - 4 0 卯 采样点n = 加果样点问 图2 _ 4 矩形窗的时域和幅度特性图 汉宁亩亩的时域特征田汉宁亩的期域特征田 ” 2 0 l厂 i、 枷k 蕹涨 倒 :渐 囊卸 - 1 8 0 1 采样点n = 2 0 采样点n = 2 图2 5 汉宁窗的时域和幅度特性图 汉明亩亩的时域特征图 f l i -r | | f 图2 - 6 汉明窗的时域和幅度特性图 8 武汉理工大学硕士学位论文 从上图可以看出,这些窗函数都具有低通特性,矩形窗的第一副瓣比主瓣 低1 3 d b ,能量主要集中在旁瓣上,而主瓣的能量较低,而且过渡带比较窄;汉 明窗第一副瓣比主瓣低4 0 d b ,这种改进的升余弦窗,能量更加集中在主瓣中, 主瓣的能量约占9 9 9 6 ,第一旁瓣的峰值比主瓣小4 0 d b ,但主瓣宽度和汉宁窗 相同;汉宁窗第- n 瓣比主瓣低3 1 d b ,汉宁窗的幅度函数由三部分相加,使能 量更集中在主瓣中。三种窗函数中,矩形窗的主瓣宽度最小,而第一副瓣最高; 汉明窗的主瓣宽度最大而第- n 瓣最低,并且衰减较大:而汉宁窗的优势在于 高次副瓣低,但它的第一副瓣要比汉明窗高。 通常采用一个长度有限的窗函数来截取语音信号形成分析帧,窗函数将需 要处理区域之外的样点置零来获得当前语音帧。理想窗函数的频率响应要求主 瓣无限狭窄并且没有频谱泄漏,但是在实际工程中是无法实现的。由于汉明窗 的旁瓣衰减较大,在频率范围中的分辨率较高,具有更平滑的低通性,能够在 较高程度上反映短时信号的频谱特性。所以汉明窗是语音信号数字处理中最常 见到一只窗函数,在本文的研究中全部采用了汉明窗来对语音信号进行分帧处 理。设采样周期t s = 1 f s ,窗口长度n 和频率分辨率厂之间存在关系如式( 2 2 ) 。 厂= 志 仁2 , 可见,采样周期一定,厂随窗e l 宽度n 的增加而减少,频率分辨率得到提 高,但时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高, 所以两者是矛盾的,要根据不同的需要选择合适的窗口长度。如对于时域分析, 如果n 很大,则等效于很窄的低通滤波器,信号通过时反映波形细节的高频部 分被阻碍,短时能量随时间有急剧的变化,不能得到平滑的能量函数。综合相 关研究及实验结果,本文中的汉明窗函数采用的窗长为2 3 2 2 m s ( 2 5 6 点) ,窗移 为1 0 m s 。这样,语音信号就被分割成一帧一帧加过窗函数的短时信号,然后再 把每一个短时语音帧看成平稳的随机信号。在进行处理时,按帧从数据区中取 出数据,处理完后再取下一帧,最后得到由每一帧参数组成的语音特征参数的 时间序列。 2 2 3 语音信号的端点检测 经过对语音的预加重和加窗后,就要对语音信号进行端点检测【1 4 l 。语音信 9 武汉理工大学硕士学位论文 号的端点检测就是从包含语音的一段信号中准确地确定语音的起始点和终止 点,区分语音和非语音信号,保证采集的数据是真正的语音信号数据,它是语 音信号分析技术中的一个必要环节。经过端点检测后,不仅能减少语音情感特 征的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音情感 识别系统的性能。本文采用了一种根据短时能型1 5 , 1 6 1 和短时过零率0 7 , 1 8 1 检测语音 端点的方法,由于短时能量和短时过零率分别能检测出语音的浊音和清音,所 以,此方法能实现可靠的检测。下面介绍一下短时能量和短时过零率的概念。 由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著, 因此对短时能量进行分析,可以描述语音的清浊音变化情况,在端点检测中, 检测出浊音。短时能量代表音量高低,它是一帧采样点值的加权平方和。短时 能量e n 的表示如式( 2 3 ) 表示。 e = 【x ( 川) w ( ,l m ) 】2 - - 【x ( m ) w ( n 一朋) 】2 ( 2 3 ) 她汉明窗醐州= 牌m 5 c o 双2 翮心。1 巍州,其 平方的物理含义是一个冲激响应为w ( ,z ) 2 的滤波器。首先求出语音信号各样本点 值的平方,然后样点通过滤波器,输出由短时能量构成的时间序列。x ( 刀) 为离 散语音信号时间序列,n 为窗长。“聆) 的选择影响着短时能量的计算。如果窗 长n 过长,这样的窗等效于低通滤波器,对信号的平滑作用太强,使短时能量 几乎没有什么变化,无法反映语音信号的时变特性:反之。如果窗长n 过小, 不能满足提供足够的平滑作用,语音振幅瞬间变化的细节被保留下来,就看不 出振幅包络的变化规律。本文采用的窗长,在满足对语音振幅瞬间变化的细节 进行有效平滑的前提下,保证了短时能量的明显变化。 离散信号的相邻两个取样值具有不同符号时,便会出现“过零 的现象, 单位时间内过零的次数叫做“过零率 。如果离散信号的包络是窄带信号,那么 过零率可以比较准确的度量该窄带信号的频率;在宽带信号情况下,过零率只 能粗略的反映信号的频谱特性。而语音信号不仅是宽带信号,而且还是时变信 号,它的频谱特性是随时间变化的。由于短时分析技术来描述时变信号是一种 很有效且简单的方法,因此采用短时分析技术对于语音信号过零率的计算是非 l o 武汉理工大学硕士学位论文 常重要的技术。过零率的计算比较简单,对一帧语音信号来说,只要前一个采 样点的值与后一个采样点的值符号相反,便可视为一次过零。遍历整个帧,总 的过零次数就是这帧语音信号的过零率。整个语音信号的平均过零率便可由每 帧的过零率相加除以帧总数得到。为了可以准确判断各取样值得符号,应要求: ( 1 ) 信号中不含有直流偏移;( 2 ) 噪声和电源干扰尽可能小;( 3 ) 选择合适的门 限值。所以我们可以把语音信号的短时过零率定义为: n - ! 拙= is g n 墨( 刀) 卜s g n s i ( n 一1 ) 】i ( 2 - 4 ) n = l 其中,岛伽) 为第i 帧语音信号,n 为帧长,s g n ( 力的定义为: f l x 0 s g n ( x ) 2 1 1 x a r n p l 或者a m p a m p 2 z t m z e r l ,则确信进入有音段,令 s t a t u s = 2 ,并由x 1 向前找到第一次满足a m p a r n p l 或者a m p a m p 2 & z c r z c r l 的帧,作为有音段起始帧,进入( 1 0 ) ,否则进入( 6 ) ; ( 6 ) 如果a m p a m p 2 或者z c r z c r l ,则可能处于有音段,令s t a t u s = l ,否 则令s t a t u s = 0 ,进入( 1 0 ) : ( 7 ) s t a t u s = 2 己经进入有音段,如果a m p a m p 2 或者z c r z e r l ,则有音段继 续,进入( 10 ) ,否则进入( 8 ) ; ( 8 ) 进入无音段,如果无音段长度不超过事先设定的门限,则有可能是有音 段中出现的短暂无音,不用处理,进入( 1 0 ) ,否则进入( 9 ) ; ( 9 ) 无音段长度超过门限,则判断有音段是否足够长,如过足够长,则有音 段结束,由x 1 向前找到最后一个满足a m p a m p 2 或者z c r z c r l 的帧,作为有 武汉理工大学硕士学位论文 音段的终止帧,如果有音段不够长,则认为这段有音段为噪声干扰,不予记录, 此前确定的起始帧也无效,令s t a t u s = 0 ,进入( 1 0 ) ; ( 1 0 ) 如果待处理信号的所有帧已经处理完,则算法结束,否则x l = x l + l , 进入到( 4 ) : 下面图2 7 到图2 1 0 就是分别利用本文端点检测算法对同一语句在不同情 感状态下进行端点检测的结果,其中竖线表示语音帧开始和结束的位置。 言: d 8 0 e 2 帕 0 薹0 1 喜: 0 8 0 正 8 加 加 0 51 0 52 02 53 0葛 图2 7 生气语句的端点检测 呻2 0 0 0 娜舢锄a n m7 0 0 0 哪锄 o卫 扣7 0田卯1 1 0 1 02 03 0柚 a n 加 g o 1 0 0 图2 - 9 高兴语句的端点检测 1 萎。 1 1 5 謇1 0 山5 o 2 0 委,。 a 们加枷棚5 啪8 0 0 07 0 0 0 硼 1 0加柏m8 01 0 0 重o 。 4 0 暑 o 即 e 6 0 岛: 0 1 0扣4 07 08 0 9 0 l n n 图2 8 厌恶语句的端点检测 l 。山。l 山山- _ 雌山。附二啪_ 0 4 _ - t 8 ”聊7 叩叩呷 咖挪3 0 0 0 砌锄锄7 咖8 0 0 0 锄1 0 0 0 0 幻加lnn1 - m 加ltm 1 图2 1 0 难过语句的端点检测 由上面4 图我们可以发现,同一语句在不同的情感状态下,难过时,短时 能量的最大值最大,厌恶时,短时能量的最大值最小,短时过零率的最大值也 最小,在四种情感状态下,短时能量和短时过零率的变化曲线有很大的差别。 所以识别时,可以将短时能量的最大值、最小值、变化率和短时过零率的最大 值、变化率作为特征参数加以考虑。 2 3 基音周期的估计 1 2 武汉理工大学硕士学位论文 2 3 1 基音周期估计概述 基音是指发浊音时声带振动所引起的周期性,而浊音信号是一种准周期性 信号,因此它只是准周期的,所以我们只能采用短时平均方法估计其周期。基 音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征, 基音周期信息在多个领域有着广泛的应用,如:语音识别、说话人识别与验证、 语音分析、语音合成、语音编码、发音系统疾病诊断、听觉残障者的语言指导 等。在语音情感识别中,准确的基音周期估计是非常关键的,它直接影响到整 个系统的性能。可以说迄今为止,要准确地估计出语音信号的基音周期还是很 困难的,所以说基音周期估计【1 9 】是语音信号研究领域最具挑战性的任务之一。 虽然由于语音变化的不确定性和随机性使基音周期估计存在着一些客观困 难,如:( 1 ) 因为语音信号本身是准周期的,同时受到波形的峰或过零受共振峰 结构、噪声等的影响。这样,在浊音语音段定义每个基音周期的准确开始和结 束这一固有困难限制了基音的可靠测量;( 2 ) 在许多情况,清音语音和低电平浊 音语音段之间的过渡段是非常细微的,确认它是极其困难的;( 3 ) 基音周期变化 范围较大,再加上个人发音习惯、性别、年龄
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年国家级人才选拔考试综合笔试模拟卷
- 2026年城市轨道交通安全规范测试题
- 2026年高分子材料应用与技术特性考试题
- 2026年网络安全攻防实战技能测试题库网络攻击与防御策略
- 2026年跨文化交际能力国际认证考试题库
- 2026年中医药行业职业资格考试中药知识试题库
- 2026年苯乙烯基吡啶采购保密合同
- 2026年法学概论法庭调查与诉讼程序实操练习
- 2026年科技发展科技国际交流与合考试题
- 2026年船舶操作和保养专业技术认证考试题特定人群海员
- 2026年销售人员心理调适与应对策略试题
- 2026黑龙江哈尔滨家五常市广源农林综合开发有限公司招聘工作人员5人备考题库及一套完整答案详解
- 2026年及未来5年市场数据中国金属铍行业市场竞争格局及发展趋势预测报告
- 2025年建筑工程安全生产标准化手册
- 2025-2030中国动物狂犬病疫苗行业发展现状及趋势前景分析研究报告
- 2026年郑州电力高等专科学校高职单招职业适应性测试参考题库含答案解析
- 制造业员工薪资等级评定及岗位体系方案
- 药品抽检应急预案(3篇)
- 克服ALK靶向耐药的免疫联合治疗新策略
- 基于凝血指标的脓毒症分层管理策略
- 手术室手术前准备规定
评论
0/150
提交评论