




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)语音情感识别技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士研究生毕业论文 摘要 随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互( h u m a n m a c h i n ei n t e r a c t i o n ,h c i ) 技术己成为当前计算机科学领域一个十分活跃的研 究课题。语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机 环境,以及推动心理学等学科的发展,有着重要的现实意义,并最终产生很大经 济效益和社会效益。 本文首先介绍了基于音频信息中语音识别的研究背景、情感及其相关的关键 技术,着重介绍了有关语音处理、语音情感特征分析与提取、识别方法的知识和 目前国内外该领域的研究现状及发展方向。 然后介绍了自行分析、设计与实现语音情感识别的方法,对其分析过程和设 计思想进行了深入详细的探讨,主要内容包括:情感语音库的建立、语音信号预 处理、汉明窗与小波变换相结合提取情感特征参数、基于模板匹配和加权欧式距 离的情感识别。在提取基音频率参数时,提出了用m a l l a t 塔式算法进行信号降 噪与重构并与小波变换信号奇异点检测算法相结合提取基音频率参数方法。在基 于音频的情感识别时,通过试验分析总结了所提取的多种情感特征参数对不同情 感状态有着不同的贡献程度,使用加权欧式距离的模板匹配法实现语音情感识 别,提出了采用贡献分析法对提取的语音情感特征进行加权处理并建立模板,在 保证识别效果的前提下,实现了系统对实时性的要求。 本文最后采用面向对象的设计方法设计了语音情感识别的原型系统,并从实 验角度验证了上述方法的有效性。 关键词:语音处理;情感特征提取;小波变换;m a l l a t 塔式算法;贡献分析法: 加权欧氏距离:模板匹配:语音情感识别 垩苎查堂堡主婴塞竺兰些丝兰一 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fc o m p u t e rn e t w o r kc o m m u n i c a t i o na n d m u l t i m e d i at e c h n o l o g y ,t h et e c h n o l o g yo fn e wh u m a nm a c h i n ei n t e r a c t i o n ( h c i ) h a s b e c o m eav e r ya c t i v es t u d ys u b j e c ti nt h ec o m p u t e rs c i e n c ef i e l da tp r e s e n t t h es t u d y o nt h es p e e c he m o t i o nr e c o g n i t i o nh a sf o u n di m p o r t a n tr e a l l s t i cv a l u e si ns u c ha s p e c t s a s e n h a n c i n g t h e i n t e l l i g e n c e a n d h u m a n i t y o fc o m p u t e r ,d e v e l o p i n gn e w h u m a n - m a c h i n ee n v i r o n m e n t s ,p r o m o t i n gt h es t u d yo f p s y c h o l o g y i nt h i sp a p e r ,w ef i r s t l yi n t r o d u c et h es t u d yb a c k g r o u n da n do t h e rr e l a t e dk e y t e c h n o l o g i e so fs p e e c he m o t i o nr e c o g n i t i o nb a s e do na u d i oi n f o r m a t i o n ,e m p h a s i z i n g o nt h ek n o w l e d g eo fd e a l i n gw i t hs p e e c h ,a n a l y z i n ga n de x t r a c t i n gs p e e c he m o t i o n f e a t u r e s r e c o g n i t i o nm e t h o d s t h es t u d ya c t u a l i t ya n di t st r e n di n t h i s f i e l d i nt h e w o r l da tp r e s e n ta r ea l s oe m p h a s i z e d , s e c o n d l yw ei n t r o d u c et h ep r o p o s e dm e t h o d s o fa n a l y z i n g ,d e s i g n i n ga n d r e c o g n i z i n gt h es p e e c he m o t i o n t h e nw ed i s c u s si nd e t a i l st h ep r o c e s so fa n a l y s e s a n dm a i nd e s i g ni d e a s ,w h i c hi n c l u d em a i n l y :t h ec o n s t r u c t i o no fe m o t i o n s p e e c h t e m p l a t e s d a t a b a s e ,t h ep r e p r o c e s so fs p e e c hs i g n a l s ,s p e e c he m o t i o n f e a t u r e s e x t r a c t i o nb a s e do nh a m m i n gf i l t e ra n dw a v e l e tt r a n s f o r m a t i o n ,s p e e c he m o t i o n r e c o g n i t i o nb a s e do nt e m p l a t e sm a t c h i n g ,c o m b i n i n gw e i g h l t e de u c l i d e a nd i s t a n c e d u r i n ge x t r a c t i n gt h ep a r a m e t e r so fb a s e 抒e q u e n c yo fs p e e c h ,t h ea l g o r i t h mo f f i l t e r i n gn o i s e sa n dr e c o n s t r u c t i n gs p e e c hs i g n a l sb a s e do nm a l l a ta l g o r i t h mi s p r e s e n t e da n du s e d ,c o m b i n i n gt h ea l g o r i t h mo fd e t e c t i n gs i g n a ls i n g u l a rp o i n tb a s e d o nw a v e l e tt r a n s f o r i l l a t i o n d u r i n gr e c o g n i t i o no fs p e e c he m o t i o nb a s eo na u d i o f r e q u e n c y ,w ea n a l y z ea n ds u m m a r i z ea c c o r d i n gt oe x a m i n a t i o n st h a tt h ed i f f e r e n t e x t r a c t e ds p e e c he m o t i o nf e a t u r e sh a v ed i f f e r e n tc o n t r i b u t ei nd e g r e et oe v e r ys p e e c h e m o t i o ns t a t u s t h e r e f o r e ,w ep r e s e n tt h ec o n t r i b u t e sa n a l y z i n ga l g o r i t h mt og i v e d i f f e r e n tw e i g h t st od i f f e r e n te x 仃a c t e ds p e e c he m o t i o nf e a t u r e sa n dt h e nc o n s t r u c tt h e t e m p l a t e s t h e nw ec a nu s et h et e m p l a t e sm a t c h i n gm e t h o d sb a s e do nw e i g h t e d e u c l i d e a nd i s t a n c et oa c h i e v es p e e c he m o t i o nr e c o g n i t i o n t h er e a l t i m ec o m m a n do f t h es y s t e mc a nb em e tw i t h ,e n s u r i n gt h eh i g hr e c o g n i t i o nr a t em e a n w h i l e i nt h ee n do ft h i sp a p e r ,w ea d o p tt h eo b j e c to r i e n t e dd e s i g nm e t h o d st od e s i g n t h ep r o t o t y p es y s t e mo fs p e e c he m o t i o nr e c o g n i t i o n t h e na c c o r d i n gt ot h e e x p e r i m e n t s ,t h ev a l i d i t yo fa b o v em e t h o d si sp r o v e d k e yw o r d s :s p e e c hp r o c e s s i n g ,e m o t i o nf e a t u r e se x 虹a c f i o n ,w a v e l e tt r a n s f o r m a t i o n , m a l l a ta l g o r i t h m ,c o n t r i b u t e sa n a l y z i n ga l g o r i t h m ,w e i g h t e de u c l i d e a nd i s t a n c e , t e m p l a t e sm a t c h i n g ,s p e e c he m o t i o nr e c o g n i t i o n 江苏大学硕士研究生毕业论文 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阗。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在 年解密后适用本授权书。 本学位论文属于 不保密囱。 学位论文作者签名 胪年j 月j 臼 曹艄 铷p1 1 8 3 3 1 j 特挪虢名兆 嚆每歹月7f 日 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容以 外,本论文不包含任何其他个人或集体已经发表或撰写过的作品 成果。对本文的研究做出重要贡献的个人和集体,均已在文中以 明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:曾糊 日期:) n j 年 5 玛3 |b 江苏大学硕士研究生毕业论文 1 1 研究背景 第一章绪论 计算机科学技术的迅猛发展对人类社会产生了巨大影响,一场信息革命正在 酝酿。在众多领域,计算机正逐渐代替人类完成一些极具挑战性的任务,为了使 人类与计算机问能够更加智能更加自然的交互,新型的人机交可- ( h u m a nm a c h i n e i n t e r a c t i o n ,h c i ) 技术正逐渐成为研究热点。人类自然形成的认知习惯和形式必定 是人机交互的发展方向:一方面要求计算机能看、能说、能听、能感觉,即能够 智能地感知使用者的意图;另一方面,使用者可以不必坐在计算机前通过鼠标和 键盘操作计算机,而是可以在三维空间中以更加自然和人性化的方式同计算机交 流。总之,新型的人机交互环境具有自然化、智能化、人性化等特点。 实时多媒体信息在新型人机交互环境中扮演着举足轻重的角色,计算机通过 采集图像信息和语音信息,形成计算机视觉和听觉,然后处理采集到的多媒体信 息进行识别,从而感知使用者的意图,完成人机自然交互。如何实现计算机的拟 人化,使其能感知周围环境和气氛以及对象的态度、情感等内容,自适应地为对 话对象提供最舒适的对话环境,尽量消除使用者和机器问的障碍,已经成为下一 代计算机发展的重要目标。研究表明,在人机交互中需要解决的重要问题与人和 人交流中的重要因素一致,关键都是“情感智能”的能力。计算机要能够更加主 动适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断 来调整交互对话的方式。对于情感信息的处理技术的研究包括多个方面,主要有 情感特征分析、情感识别( 例如肢体情感识别、面部情感识别和语音情感识别等) 、 情感模拟( 例如情感语音的合成等) 。目前,关于情感信息处理的研究正处在不 断深入之中,其中语音信号中的情感信息处理的研究也越来越受到人们的重 视。 语音信号中的情感信息是重要的信息资源,它是人们感知事物必不可少的部 分。例如同样一句话,由于说话人的表现的情感不同,在听者的感知上就会有较 大的差别,所谓“听话听音”就是这个道理。然而,传统的语音信号处理技术把 这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上,人们 同时接受各种形式的信息,怎样有效的利用各种形式的信息以达到最佳的信息传 递和交流效果,是今后信息处理研究的发展方向。因此语音情感信息的研究,分 析语音中钓情感特征、判断说话人的喜怒哀乐是一个具有重大意义的研究课题。 江苏大学硕士研究生毕业论文 1 2 语音情感识别涉及的研究领域及应用 语音情感识别,就是通过分析人们语音对应于情感的变化规律,利用计算机 从语音中准确提取情感特征,并根据这些特征确定被测对象的情感状态。相对于 有几十年研究历史的语音信号处理,语音情感识别着眼点不是语音信号处理中语 音词汇表达的准确性,而是从前研究中完全忽略的包含在语音信号中的情感和情 绪信息。语音中主要包含二部分的信息:语义部分携带着语言信息,这是按照语 言的发音规则产生的;非语义部分含有说话人情感状态的信息。对于传统的语音 信号处理把语音中的非语义部分通过规则化给去掉了,然而这部分恰恰是人们感 知说话人所要表达情感的必不可少的信息。因此对语音情感信息的处理在一定程 度上可以说是对这部分被去掉信息的复权研究。特别需要指出的是,语音情感识 别和人的情绪识别是两个不同概念。人的情绪是多种因素影响的结果,这些因素 的状态可能表现出来,也可能不表现出来,其表现的方式是多样的,比如脸部表 情、姿态、手势、眼睛凝视的方向,当然也包括情绪化的语音。情绪一般能够完 全体现人的意图,但由于情感语音与所处的情绪状态并不是一一对应的,某些情 绪并不通过可视的情感语音变化表现出来,即使人类自身也很难十分准确地仅通 过语音表情理解一个人的情绪状态,往往要借助于当时特定的环境以及上下文信 息,这便对使用计算机进行人脸表情识别的研究提出了挑战。另一方面,情感语 音又和内在情绪有着密切的联系,情绪是情感语音的重要来源,大多数情感语音 都由特定的情绪所支配。由此可见情感语音在人们交流过程中起着重要的作用, 使用计算机进行语音情感识别进而确定人的内心情绪的研究是完全可行的。 语音的情感识别是目前信号处理及模式识别领域的一个新的研究热点,在许 多领域有着重要的意义,涉及领域有:信号处理、心理学研究、虚拟现实技术、 新型人机交互技术、模式识别、信息论、发声机理、听觉机理、人工智能等。 从心理学和生理学上对情感的研究已有较长的历史,但从工程学的角度将情 感作为信息信号工学的研究对象时间很短。从语音情感的研究方面来看,在1 9 8 1 年,w i l l i a m s 和s t e v e n s 。1 通过对语音产生机理的分析,总结出不同情感状态下, 生理上起主导作用的神经系统及相应的生理反应。在1 9 9 6 年d e l l a e r t “1 提出以基 音频率相关信息为主要特征分类的方法,并考虑了恐惧、愤怒、悲伤和高兴四种 情感状态。通过研究,他指出语音情感识别中最显著的特征包括:基音频率的最 大值、最小值和中值;基音频率包络线在上升部分的导数,并采用k 氏最近判 别法来识别。在2 0 0 0 年提出的a s s e s s 系统“1 是可识别恐惧、愤怒、悲伤和高 兴四种情感特征。该系统采用了基音频率包络线的峰谷、语音强度、停顿分界和 爆破音这几个特征参数,并利用分析判别式的方法将语音样本归入相应的分类。 江苏大学碗士研究生毕业论文 近年来,随着h m m 、小波变换等新方法的应用“,以及高性能的计算资源的 使用,都极大地推动了语音情感识别技术的研究与发展,并使其成为科研热点。 语音情感识别在众多领域有着极大的应用价值。如果说话人的情感状态可准 确识别,那么在人机交互中机器将能更有效地对使用者的要求做出回应。为进一 步提高对语音识别的准确率,通过提取说话人的情感状态,将提高对语言的理解, 也能加强语音识别系统的识别准确率。目前自动语音翻译算法重点集中在语音中 语义的理解,如果可以识别说话人的情感状态,特别是在非面对面的情况下,将 给会议交流额外提供一种有效信息。可以预见,语音情感识别技术将被广泛应用 于包括新型人机交互在内的诸多领域,并将产生很好的经济效益和社会效益。 1 3 论文的研究内容及主要工作 本文在广泛阅读国内外现有的关于语音信号处理和语音情感识别技术的文 献后,比较和借鉴现有成功的语音情感识别方法,对相应的情感特征参数提取及 识别的关键技术进行改进和完善,同时提出自己的算法,并开发相应的语音情感 识别原型系统。论文的主要研究内容和工作包括以下几方面: 1 ) 情感语音库的建立 对于语音情感识别研究时间较短,还没有标准语音库可以使用。因此情感语 音库的建立是研究的前提和基础。通过构建包含四种基本情感状态及平静状态语 音库,就可以分析其中各个状态间的差别并找出有效的情感特征用于识别。 2 ) 语音信号预处理的研究 由于条件的限制,所录制的语音样本中含有环境噪音、电流声等影响情感识 别的因素。通过对语音信号预处理的研究,可以改善语音信号质量,统一语音信 号格式,并为后继的语音特征提取和情感识别打好基础。 3 ) 语音情感特征提取的研究 为了提取能够反应情感信息的特征参数,根据人的发音机制和听觉系统对情 感信息感受的机理,选择三个方面的参数:发音时间、基音频率和振幅能量,并 在此基础上进行细化,选出八个特种参数。为了使求得的参数尽可能地准确,应 兼顾频率分辨率和时间分辨率的统一,选择适当的算法。在有效提取特征的同时, 还要保证对环境变化具有一定的鲁棒性。 4 ) 语音情感识别研究 语音情感识别属于模式识别的一种,是建立在特征参数提取的基础上。结合 提取出的八个特征参数,综合分析目前情感分类方法的优缺点,研究探索更方便 试验和更适合于实时环境下语音情感分类与识别方法。 江苏大学硕士研究生毕业论文 5 ) 语音情感识别原型系统的开发 通过对语音情感识别的研究,最终开发出集语音信号采集、语音情感模板训l 练与建立、情感分类识别于一体的语音情感识别原型系统。为进一步研究实时语 音情感识别系统打下基础。 本文的研究内容属于国家自然科学基金项目( n o 6 0 2 7 3 0 4 0 ) 和江苏省高校自 然科学基金项目( n o 0 2 k j b 5 2 0 0 0 3 ) 中研究内容的一部分。 在攻读硕士学位期间,作者在国内学术期刊和国内国际学术会议上共发表学 术论文3 篇,如下: ( 1 ) 语音情感特征提取与识别的研究与实现江苏大学学报已录用 ( 2 ) 语音情感特征提取与识别的研究第四届全国虚拟现实与可视化学术 会议( c c v r v 0 4 ) ( 3 ) f a c i a le x p r e s s i o nr e c o g n i t i o nb a s e do i lg a b o rw a v e l e tt r a n s f o r m a t i o n a n de l a s t i ct e m p l a t e sm a t c h i n g i n :i e e ep r o e o f i c i g2 0 0 4 1 4 论文结构概要 论文共分八章,主要内容概要如下: 第一章介绍课题的研究背景和研究意义,概述了语音情感识别所涉及的研究 领域以及其潜在的应用范围。同时分析和提出本文的主要研究工作。 第二章综述语音情感识别的研究现状,重点介绍线性预测分析、m e 倒谱系 数、感知线性预测分析、多变量解析主元素分析和隐马可尔夫模型等情感特征提 取和识别算法,并对这些算法的优缺点从理论上给出比较。 第三章介绍语音库语句的选择和采集,对采集到的语音样本进行m c n e m a r 检定确保其中包含情感的有效性。 第四章介绍针对语音信号所采用的预处理算法,主要包括语音信号的偏差校 正、去噪处理以及平滑处理,达到了改善语音质量、统一语音信号格式的目标。 第五章通过对语音信号中情感特征构造的分析,提出汉明窗和小波变换相结 合提取情感特征参数的方法。着重介绍了本文提出的m 棚a t 塔式算法进行信号 降噪与重构与小波变换信号奇异点检测算法相结合提取基音频率参数方法。 第六章重点介绍基于模板匹配和加权欧式距离的情感识别算法,实现语音情 感的快速准确的分类识别。 第七章介绍采用面向对象及设计模式的思想,设计并开发语音情感识别原型 系统的方法与过程。 第八章对全文进行总结,并提出进一步需要开展的工作。 江苏犬学硕士研究生毕业论直 第二章语音情感识别技术概述 2 1 语音情感识别的研究背景与意义 语音情感识别是建立在对语音信号的产生机制深入分析的基础上,对语音中 反映个人情感信息的一些特征参数进行提取,并利用这些参数采用相应模式识别 方法确定语音情感状态的技术。 随着新型的人机交互技术的快速发展,语音处理领域产生了许多热门的研究 方向,如个人机器人、语音识别、语音合成、语音的转换、语言翻译、个人隐私 保护等。而其中,语音情感识别技术的研究是伴随着这些主要的研究力_ 的兴起 币发展。它在这些方向中具有广泛的运用。在个人机器人”1 的研制中,提出最 基本的要求就是它能够领会人的情感,并能够在理解人隋感的同时以适当力式表 达出自己的情感;同时考虑到目前个人机器人在接受信息和自身运算r 的限制, 对十语音情感的研究将是它理解情感的最有效途径。在语音识别中,对特定人的 语音进行训i 练时,即使说相l 刊的内容,但在不同年龄段,不同的地点,不同的情 绪等环境下都会直接对训练效果产生重要的影响,而利用语音- 隋感识别技术,可 以尽量将各种不同情感状态f 的语音统一起来,保持主要的个人信息在统一刻度 下,这样就可以大大提高识别率。在语音合成中,特别足基于音素连接的文本到 语音合成系统中,可以通过结合语音情感识别技术,使重建的语音具有符合要求 的情感成分”1 ;这样就可以避免为录制不同情感状态的语音库而付出昂贵费用: 同时,重建的语音需要进行相关的韵律修改工作,借以产生合适的基频、能量等 信息。在语音的转换和语言翻译中,目前的系统往往在对语音进行变换后扭曲 了原有语音中的情感信息;通过采用语音情感识别技术可咀对处理后的语音进行 情感的恢复,从而保证了语音中信息表达的完整与准确。语音情感识别还可以应 用在教学辅导、自动告警及娱乐等方面。随着i n t e r n e t 的普及以及计算机件能 的大幅提高,语音情感识别技术将被广泛应用在更多的领域,含有非常好的经济 效益和社会价值。 2 2 语音产生的机理 在介绍国内外的语音情感识别技术研究进展之前,囱必要首先了解语音产生 的机理( 包括其产生的生理基础和相应的物理模型) ,同时我们在有了一定了解的 基础上,对语音中包含的情感特征进行了初步的分析。这样对语音情感识别技术 基础上,对语音中包含的情感特征进行了初步的分析。这样对语音情感识别技术 江棼大学硕士研究生毕业论文 第二章语音情感识别技术概述 2 1 语音情感识别的研究背景与意义 语音情感识别是建立在对语音信号的产生机制深入分析的基础上,对语音中 反映个人情感信息的一些特征参数进行提取,并利用这些参数采用相应模式识别 方法确定语音情感状态的技术。 随着新型的人机交互技术的快速发展,语音处理领域产生了许多热门的研究 方向,如个人机器人、语音识别、语音合成、语音的转换、语言翻译、个人隐私 保护等。而其中,语音情感识别技术的研究是伴随着这些主要的研究方向的兴起 而发展。它在这些方向中,具有广泛的运用。在个人机器人。1 的研制中,提出最 基本的要求就是它能够领会人的情感,并能够在理解人情感的同时以适当方式表 达出自己的情感;同时考虑到目前个人机器人在接受信息和自身运算上的限制, 对于语音情感的研究将是它理解情感的最有效途径。在语音识别中,对特定人的 语音进行训练时,即使说相同的内容,但在不同年龄段,不同的地点,不同的情 绪等环境下都会直接对训| 练效果产生重要的影响,而利用语音情感识别技术,可 以尽量将各种不同情感状态下的语音统一起来,保持主要的个人信息在统一刻度 下,这样就可以大大提高识别率。在语音合成中,特别是基于音素连接的文本到 语音合成系统中,可以通过结合语音情感识别技术,使重建的语音具有符合要求 的情感成分”1 ;这样就可以避免为录制不同情感状态的语音库而付出昂贵费用: 同时,重建的语音需要进行相关的韵律修改工作,借以产生合适的基频、能量等 信息。在语音的转换和语言翻译中,目前的系统往往在对语音进行变换后,扭曲 了原有语音中的情感信息;通过采用语音情感识别技术可以对处理后的语音进行 情感的恢复,从而保证了语音中信息表达的完熬与准确。语音情感识别还可以应 用在教学辅导、自动告警及娱乐等方面。随着i n t e r n e 的普及以及计算机性能 的大幅提高,语音情感识别技术将被广泛应用在更多的领域,会有非常好的经济 效益和社会价值。 2 2 语音产生的机理 在介绍国内外的语音情感识别技术研究进展之前,有必要首先了解语音产生 的机理( 包括其产生的生理基础和相应的物理模型) ,同时我们在有了一定了解的 基础上,对语音中包含的情感特征进行了初步的分析。这样对语音情感识别技术 江苏大学硕士研究生毕业论文 的研究方向、研究重点、研究方法等有一个总体的把握并从理论上具有指导作用。 2 2 1 语音产生的生理基础 人的发音器官包括肺、气管、咽喉、声道、声门、鼻道和口腔。这些器官共 同构建起一个复杂的管道。其中咽喉以上的部分称为声道,随着发出语音的不同 其形状变化的部分称为声门。正常呼吸时肺部呼出的稳定气流是语音能量的来 源,喉部的声道既是一个阀门又是一个振动部件。 人类发声。1 是由肺部收缩,压迫气流由支气管经过声门和声道引起音频振荡 而产生的,声道起始于声门处而终止于嘴唇,包括咽喉( 连接食道和口) 、口腔, 鼻道则是从小舌开始的到鼻孔为止。当小舌下垂时,鼻道与声道耦合而产生语音 中的鼻音。发声过程中声道各处的截面积取决于舌、唇、颔及小舌的位置。声道 截面积随纵向位置而变的函数,称为声道截面积函数。声道的共振峰特性主要决 定于声道截面积函数,共振峰特性决定了所发声音的频谱。这里我们可以看到, 声道是对发音起绝对性作用的器官;但从声学的观点来看,可以将声道拉直而完 全不影响其声学特征,这样就便于我们从物理声学的角度来分析它的贡献。 人类的发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊 音,清音和爆破音: ( 1 ) 浊音的情况:当气流通过声门时,声带的张力刚好使声带发生较低频率的 张驰振荡,形成准周期的空气脉冲串,这些空气脉冲激励声道便产生浊音。此时, 声带的绷紧程度不同,振动的频率也不同。一般来说男子低,女子高:老人低, 小孩高。同时要注意的是,浊音不光包括所有的元音:也包括一些浊辅音( 如: 发r ,1 ,m ,n 等) 。 ( 2 ) 清音的情况:声道中某处面积很小,气流高速冲过此处时而产生湍流, 当气流速度和横截面积之比大于某个门限时( 临界速度) 便产生摩擦音,即清音。 包括了清辅音,还有r ,1 ,m ,n 以外的声母。 ( 3 ) 发爆破音的情况:如果声道的某处完全闭合建立起气压,然后突然释放 而产生的声音就是爆破音( 如:发p ,t ,k ,d ,b ,g 等) 。 2 2 2 语音产生的物理模型 在研究发声器官和语音的产生过程后,便可以建立一个离散时域的语音信号 产生模型。如图2 1 所示,该离散模型也称之为声源一调制模型 9 1 。 由图2 1 可知,模型包括三部分:激励源,声道模型和辐射模型。激励源分 为浊音和清音两个分支,按照浊音清音开关所处的位置来决定产生的语音是浊 音还是清音。在浊音情况下,激励信号是由一个周期脉冲发生器产生的序列是一 个周期为o 的冲激序列,即每隔0 点便有一个样值为1 ,而其它皆为0 。周期 缸苏大学硕士研究生毕业论文 蹴n ) 图21 语音信号产生的离散时域模型一 取决于基音频率f o 和语音信号的采样率,0 ,即n o = f o 局,其中冗和兀皆以胁 计算。与脉冲激励周期相关的语音感知特性,称为音高。为了使浊音的激励信号 具有声门气流的实际波形,还需要使上述的冲激序列通过一个声门脉冲滤波模 型,其z 域传输函数为6 ( z ) = i ( 1 一g l z 1 ) - ( 1 一g :z 2 ) ,其中9 1 和9 2 都很接近1 , 由之形成的浊音信号频谱很接近于声门气流脉冲的频谱。乘系数4 的作用是调 节浊音信号的幅度或能量。在清音情况下,激励信号由一个随机噪声发生器产生。 可设其平均值为0 ,其自相关函数是一个单位冲激函数,则表明它的任何两个不 同样点都不相关且其均方差值为l 。此外还假定它的幅度具有正态概率分布( 高 斯分布) 。乘系数a 的作用是调节清音信号的幅度或能量。 声道模型g ( z ) 给出了离散时域的声道传输函数,把实际声道作为个变截 面的无损声管加以研究,采用流体力学的方法导出,在大多数情况下它是一个全 极点函数。这样,y ( z ) 可以表示为: y ( z ) = 士 艺q z “ a o = 1 ,a 。为实数。 这里,把截面积连续变化的声管近似为p 段声管的串连,每段短声管的截面 积是不变的。如果给出声管的截面积随其轴向长度的变化曲线,就能得到它的面 积函数4 ( z ) ,图2 2 即为这样的例子。为了分析方便把连续变化的面积函数表示 成阶梯形状,值为o c m 时表示喉部,值为1 8 c m 时,表示嘴唇处。采用流体 力学的方法,计算出不同面积函数处声管的频率响应及其共振峰。p 为这个全极 点滤波器的阶。显然,p 值取得越大,模型的传输函数与声道实际传输函数的吻 江苏大学硕士研究生毕业论文 合程度越高。但是,对大多数实际应用而言,p 值取8 1 6 就足够了。若p 取偶 数,矿( z ) 一般由p 2 对共轭极点,r k e 蚶“,七= 1 p 2 各个魄值分别与语音的 各个共振峰相对应。辐射模型r ( z ) 与嘴唇有关,嘴唇的辐射影响引起的输出信 号高频提升作用大约有每倍频程6 0 d b ,这时r ( z ) 表示为r ( z ) = ( 1 一r z “) ,“1 g 啦 0 图2 2 声道面积函数示意图 1 8 模型中,除了o ( z ) 和只( z ) 保持不变以外。f o 、a 。、a 。、浊音清音开关的位 置以及声道模型中的参数口,都是随时间而变化的,由于发声器官的惯性使这 些参数的变化速度受到限制。对于声道参数,在1 0 至3 0 m s 的时间内可以认为它 们保持不变,因此语音的短时帧一般取为2 0 m s 左右。对于激励源参数,大部分 情况下这一结论也是正确的。根据这个模型,离散时域语音信号s ( n ) 的z 变换 s ( z ) 可以用一个统一的公式来计算: s ( z ) 宰a e ( z ) 丑( z ) 在浊音的情况下,e ( z ) 是一周期冲激序列的z 变换且 a = a 。,h ( z ) = g ( z ) - 矿( z ) r ( z ) 在清音的情况下,e ( z ) 是一个随机噪声的z 变换且 a = 以,日( z ) = v ( z ) t r ( z ) 2 2 3 语音信号中情感特征的分析 对语音中的情感特征进行分析,首先要对研究对象语音情感加以界定。 如o t m e y 和j e n k i s 在1 9 9 6 年提出的那样“,情感状态对应于一种特定的短时 存在情况:例如,像狂燥、忧郁或是病理性的焦虑这样的情感状态可能持续数月 甚至数年的时间,人可能数周甚至数月陷入恶劣的心情中;相反,像喜悦和愤怒 这样的情感状态往往持续时间不会超过几分钟。因此,情感状态有长期和短期之 分。长期情感状态反应了潜在的长期情感。而短期情感状态则是指受到短时刺激 后的情绪以及由此激发起人的及时行为。对于情感自动识别而言,系统将不能够 江苏大学硕士珀究生毕业论文 分辨出从语音或是表情中反映出的情感是长期还是短期情感的作用的结果。在本 文中,我们研究的对象仅仅是短期情感对于语音信号的影响。 从语音产生的物理模型中,我们可以更准确的了解语音的产生过程,这将是 分析语音信号的基础。在现实生活中,每个人的语音都具有自身的特点。通过一 些研究人员在说话人识别的研究中发现,包含在语音信号中的个人信息是一系列 各种因素的综合体,一个说话人区别于另一个说话人语音个人特征包括很多方面 1 。在这些因素中,主要的可阻分成三类特征“2 “”1 : ( 1 ) 基于音段的特征:主要指语音的音色和听觉方面的特征,在声源一调制 的语音产生模型中,主要指声道响应的频谱包络特性,比如共振峰的中心频率和 带宽等因素,研究表明人类语音的主要区别在于共振峰的差别”; ( 2 ) 基于超音段的特征:又称语音的韵律特征,主要指说话人的种类特征、 说话人风格、说话的语调、音高、情绪等方面的特征,在语音的声源一调制产生 模型中常常和激励源的性质有关,比如浊音激励的周期性质,决定了说话人的音 高的轨迹: ( 3 ) 基于语言的特征:主要指由于地理区域的不同而使用的语种和方言的不 同而表现出的特征。 而基于音段的特征的表示参数,即与声道响应相关的语谱包络特征参数广泛 运用于各种语音处理相关的研究中“1 。与声道响应密切相关的特征参数主要 有:共振峰中心频率、带宽,l p c 系数及其推演参数一线谱频率,声道面积比, 倒谱系数等。而不同类别( 性别,年龄等) 的人在超音段特征( 韵律特征) 上着 明显的差别,例如基音频率轨迹的差别,童声和女声的音高明显高于成人和男声, 就是因为其基音频率处于不同的范围而致。而我们知道声调对语言表达具有特殊 的意义和功能,而声调主要和音高有关,即基音频率轨迹。对于基于语言的特征, 不在本文的研究范围,就不再展开叙述了。 通过以上对语音信号中个人特征的分析,再专注于语音情感识别的角度,对 语音产生机理的分析,正如w i i i i a m s 和s t e v e n s 在1 9 8 1 年指出”1 :在愤怒、恐 惧和高兴的情感状态下,交感神经系统占有主导作用,相应的在生理上反应为心 率和血压的上升,口腔的干燥以及肌肉不规则的颤抖,语音则洪亮,语速较快, 发音能量大;与之相反,在悲伤的情感状态下,副交感神经系统占有主导作用, 相应的在生理上反应为心率和血压的下降,口腔的湿润;语音则较低,语速缓慢, 发音能量小。这些生理变化反应到语音的总体能量、能量的频谱包络、频率以及 语音的停顿等特征上。 综合对于语音中个人特征的分析,我们可以明确,对于情感语音的识别将着 重于音段和超音段的特征这二大类上。在后面相关章节中,将具体介绍语音情感 江苏大学硕士研究生毕业论文 特征参数的提取。 2 3 国内外语音情感识别技术进展 九十年代中期之后,对于语音情感信息处理受到了越来越多的关注,这方面 的研究也在不断深入,:并取得了一定的进展。对于语音情感识别的研究涉及多方 面内容,主要包括三部分:语音信号的预处理、语音情感特征参数的提取和情感 语音的识别。下面将就这三方面内容,对国内外相关研究进展加以介绍。 2 3 1 语音信号的预处理 在对语音信号进行分析和处理前,必须对其进行预处理。在语音情感识别研 究中,对于语音信号预处理的目的是改善语音信号质量,统一语音信号格式,并 为后继的语音特征提取和情感识别打好基础。同时,语音情感识别作为语音识别 中的一个研究分支,预处理方法上也借鉴了语音识别中的成功经验,并结合试验 采用了一些切合研究方向的处理方法。语音信号预处理包括反混叠失真滤波、模 擞变换、偏差校正、预加重、去噪处理以及语音信号的平滑处理等许多方法“。 2 3 1 1 分帧 语音信号虽然是一种典型的非平稳信号,但由于语音的形成过程是与发音器 官的运动密切相关的,这种物理运动比起声音振动速度缓慢得多,因此可以假定 语音信号为短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频谱特征和某些物 理特征参量可近似的看作是不变的。这样,就可以采用平稳过程的分析处理方法 来处理了。由于这个假定导出了各种“短时”处理方法,本文中提及的短时能量、 振幅之类和时域相关的参数也是基于这个假定分析并提取出的。 这种时间倚赖处理的基本方法,是将语音信号分帧加以处理。这些帧就好像 是来自一个具有固定特征的持续语音片断一样,各帧一般都按要求重复( 常是周 期的) ,对每帧语音进行处理等效于对固定特性的持续语音进行处理。各帧之闯 常有一些叠接,对每帧的处理结果是一个数或组数。因此经过处理后将从原始 语音序列产生一个新的倚赖于时间的序列,并被用于描述语音信号的特征。 2 3 1 2 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇 辐射后又6 d b o c t ( 倍频程) 的衰减。通常是频率越高幅值越小,在语音信号的 功率增加两倍时,其功率谱的幅度就会有半个量级的下降。因此,在对语音信号 进行分析之前,一般要对语音信号加以一定的提升。常用的提升的方法又两种: 江苏大学碗+ 研究生毕业论文 其一是用模拟电路实现;其二是采用数字电路来实现。采用数字电路实现6 d b o c t 预加重的数字滤波器的形式如下式所示“: ) ,( n ) = x ( n ) 一a x ( n 一1 ) ( 2 1 ) 式中,x ( n ) 为原始信号序列;y ( n ) 为预加重处理后的信号序列;口为预加 重系数,在处理中口通常取0 9 或1 0 。 2 3 1 3 加窗 通过分帧处理,我们可以将其理解为,将原始语音信号序列x ( m 1 分成一。些 短段等效于乘以幅度为1 的移动窗珊( h m ) 。当移动幅度不是1 而是按一定的函 数取值是,所分成的短段语音的各个取样值将受到一定程度的加权。对于语音信 号的各段进行处理,就是对各段进行某种变换或施以某种运算,其式为。1 : q j = 丁 x ( m ) 挪( 一一m ) ( 2 2 ) 其中t 【 表示某种运算,它可以是线性的也可以是非线性的, z ( m ) 为输 入语音信号的序列。q 是所有各段经过处理后得到的一个时间序列。该式中是 卷积的形式,这里q 可以理解为离散的语音信号t 经过一个单位冲激为 x ( m ) ) 的f i r 低通滤波器产生的输出。同时由于窗函数一般取为中间大两头小 的光滑函数,这样的冲激响应所对应的滤波器具有低通特性。这里的带宽和频率 响应取决于窗函数的选择。在语音信号中采用最多的窗函数是矩形窗、汉明窗和 汉宁窗,其定义分别如下: ,) 矩形窗) = 骺畦l 其- 他1 ( 2 - s ) 2 ) 汉明窗 ( 。) : o _ 5 4 一:4 6 c 。s ( 2 石衫( 三一1 ) ) 。n 一1 ( 2 4 ) 【 u 其他 3 )汉宁窗 国( 。) : o - 5 1 :。s ( 2 万衫( 三一1 ) ) 。n l - 。( 2 5 ) 1 0 其他 其中l 为窗长,这些窗函数都具有低通特性。窗函数选取的窗长越宽,对于 语音信号的平滑作用就越显著;但如果窗长选取过窄,对语音信号就不具有任何 平滑效果。相比较而言,汉明窗具有更平滑的低通特性。 江苏大学硕士研究生毕业论文 预处理关系到情感特征提取的质量和识别的正确率。本文采用了从计算机声 卡_ 中直接采集到语音信号,首先对波形信号进行波形校正:然后使用小波变换提 取语音信号的低频信息以滤除高频的噪声信号,达到去噪的目的:最后采用了窗 长为5 的中值滤波器对去噪后的语音信号进行平滑处理。具体的预处理方法和步 骤将在第四章语音预处理部分具体介绍。 2 3 2 语音情感特征参数的提取技术 语音情感识别研究中,语音特征参数的提取对于识别效果起了决定性的作 用。对于特征参数的提取方法,除了沿用语音识别中证明有效的一些常用方法外, 还结合在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年母婴用品跨境电商市场品牌竞争力评估与品牌合作模式研究报告
- 2025年环境影响评价公众参与效果评估与反馈研究报告
- 2025年新能源汽车在城市公共交通中的政策法规与标准体系研究报告
- 采购骑行手套合同范本
- 模特公司签约合同协议
- 酒业技术保密协议合同
- 迈克尔杰克逊协议合同
- 模特外包服务合同范本
- 违反预约协议不签合同
- 签了培训协议未签合同
- 房子互换简单协议书
- 江苏连云港历年中考作文题与审题指导(2003-2024)
- 劳务分包加采购合同标准文本
- 气体充装安全培训课件
- 玻璃隔断制作安装合同
- 小学生防控近视课件
- 智能计算系统:从深度学习到大模型 第2版课件 第五章-编程框架原理
- 肛管直肠超声检查中国专家共识(2024版)解读
- 【MOOC】理解马克思-南京大学 中国大学慕课MOOC答案
- 帝豪EV450维修手册
- 高三家长会 携手共进-圆梦高考家长会 课件
评论
0/150
提交评论